计算机视觉

开源项目

SLAM教父破例点赞！中国队开源LingBot-Map：普通摄像头实现万帧流式3D重建，引爆120万人围观

一款名为LingBot-Map的流式3D重建基础模型，仅依靠普通RGB摄像头，无需激光雷达或深度传感器，即可实现20FPS的实时完整3D地图构建。其最显著的特点是，在连续处理长达一万帧的图像序列时，重建精度几乎不衰减。这一成果在机器人学界与工业界引发了广泛关注。帝国理工学院教授、SLAM领域奠基人之一Andrew Davison罕见地公开评价道：“看起来这…

2026年4月21日

452000

开源项目

蚂蚁灵波开源LingBot-Map：突破流式3D重建瓶颈，实现万帧视频实时三维建模

今年1月，蚂蚁灵波开源了包括高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA与LingBot-VA，以及世界模型LingBot-World在内的四款大模型。这些模型分别负责从图像中估算深度、对环境进行模拟理解，以及控制机器人的决策与动作，覆盖了感知、理解与行动环节。然而，一个关键环节仍然缺失：如何将连续的感知数据实时构建成稳定…

2026年4月16日

1.0K000

AI产业动态

全球第一GUI智能体Mano-P 1.0亮相：断崖领先13.2%，纯视觉操作桌面软件，数据零上云

自从AI智能体展现出在电脑上执行操作的能力以来，人们对其应用场景的想象不断拓展。例如，能否让AI智能体代替用户完成一些复杂的桌面软件操作任务？然而，现有的一些智能体方案在操作图形用户界面时仍显笨拙。它们往往需要依赖特定的插件或技能库，执行复杂任务时不够流畅，这限制了其在严肃工作流程中的应用。近期，明略科技发布了其全新进化的面向端侧设备的GUI-VLA智能…

2026年4月13日

1.2K000

大模型推理

1比特注意力革命：BinaryAttention实现2倍FlashAttention2加速，突破Transformer部署瓶颈

关键词： Transformer、二值注意力、硬件加速、极低比特量化当注意力机制被“瘦身”到极致。 Transformer 架构的成功，很大程度上归功于其强大的注意力机制，它能捕捉序列中任意两个位置之间的依赖关系。然而，这种能力是有代价的：注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中，当处理高分辨率图像（如 1024×1…

2026年3月24日

336000

大模型工程

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

在城市街景场景中，Proxy-GS 在保持细粒度视觉细节的同时，实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量，从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化，其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。 Proxy-GS：面向结构化3D高斯溅射的统一遮挡先验论文链接：https://arxiv.o…

2026年3月18日

488000

开源项目

WiFi信号也能“看见”人体姿态？开源项目wifi-densepose一天斩获2000+星，但实际效果与宣传有差距

WiFi信号也能“看见”人体姿态？开源项目wifi-densepose一天斩获2000+星打开GitHub Trending榜单，一个名为 wifi-densepose 的开源项目登上热榜，一天之内便斩获了超过2000个Star。该项目宣称无需摄像头，仅通过分析WiFi信号即可“看见”并还原房间内人体的动作与姿态。项目简介 WiFi DensePose …

2026年3月3日

1.3K000

AI产品库

4款惊艳AI开源项目盘点：从图表重建到桌面助手，解锁智能新体验

01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图，转换为可完全编辑的格式，例如 DrawIO 的 XML 或 PPTX。该项目并非简单的OCR工具，而是基于计算机视觉模型，对图表中的逻辑关系、形状组件和文本进行深度重建，实现高保真还原。生成的图形元素可以独立选中和…

2026年2月21日

639000

AI产业动态

YOLO26深度解析：十年演进，如何实现CPU推理43%加速与边缘设备实时检测

关键词：YOLO26、YOLO架构演进、单次检测算法（YOLO）、目标检测、计算机视觉、深度学习十年来，单次检测算法（YOLO，You Only Look Once）一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点，并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下：核心改进项解…

2026年2月18日

1.4K000

AI产业动态

TrafficVLM：高德鹰眼系统如何用AI视觉模型实现超视距预警，守护春运出行安全

一凡发自凹非寺量子位 | 公众号 QbitAI 准备回家过年了吗？今年春运流量再创新高，官方预计40天内人员流动量将达95亿人次，其中多数人仍然选择自驾出行，占比达到了8成，人次超过70亿。如果你也是自驾回家的一员，可能会发现今年春运有点不一样，因为AI含量更高了。现在，AI不仅在加持你的出行，甚至在关键时刻真的能救命。有的AI在算命，有的AI在…

2026年2月7日

432000

AI产业动态

腾讯混元开源HY3D-Bench：构建3D生成领域的“ImageNet”，破解数据与评估瓶颈

3D生成技术如今在可用性上已达到令人惊艳的程度。然而，数据质量参差不齐、评估标准缺失以及长尾类别覆盖不足这三大痛点，依然困扰着该领域的研究者。针对这些问题，腾讯混元3D团队在最新技术报告《HY3D-Bench: Generation of 3D Assets》中，正式开源了一套革命性的3D内容生成生态系统。该工作通过自动化数据清洗流水线，从Objave…

2026年2月6日

355000