计算机视觉
-
SLAM教父破例点赞!中国队开源LingBot-Map:普通摄像头实现万帧流式3D重建,引爆120万人围观
一款名为LingBot-Map的流式3D重建基础模型,仅依靠普通RGB摄像头,无需激光雷达或深度传感器,即可实现20FPS的实时完整3D地图构建。其最显著的特点是,在连续处理长达一万帧的图像序列时,重建精度几乎不衰减。 这一成果在机器人学界与工业界引发了广泛关注。帝国理工学院教授、SLAM领域奠基人之一Andrew Davison罕见地公开评价道:“看起来这…
-
蚂蚁灵波开源LingBot-Map:突破流式3D重建瓶颈,实现万帧视频实时三维建模
今年1月,蚂蚁灵波开源了包括高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA与LingBot-VA,以及世界模型LingBot-World在内的四款大模型。这些模型分别负责从图像中估算深度、对环境进行模拟理解,以及控制机器人的决策与动作,覆盖了感知、理解与行动环节。 然而,一个关键环节仍然缺失:如何将连续的感知数据实时构建成稳定…
-
全球第一GUI智能体Mano-P 1.0亮相:断崖领先13.2%,纯视觉操作桌面软件,数据零上云
自从AI智能体展现出在电脑上执行操作的能力以来,人们对其应用场景的想象不断拓展。例如,能否让AI智能体代替用户完成一些复杂的桌面软件操作任务? 然而,现有的一些智能体方案在操作图形用户界面时仍显笨拙。它们往往需要依赖特定的插件或技能库,执行复杂任务时不够流畅,这限制了其在严肃工作流程中的应用。 近期,明略科技发布了其全新进化的面向端侧设备的GUI-VLA智能…
-
1比特注意力革命:BinaryAttention实现2倍FlashAttention2加速,突破Transformer部署瓶颈
关键词: Transformer、二值注意力、硬件加速、极低比特量化 当注意力机制被“瘦身”到极致。 Transformer 架构的成功,很大程度上归功于其强大的注意力机制,它能捕捉序列中任意两个位置之间的依赖关系。然而,这种能力是有代价的:注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中,当处理高分辨率图像(如 1024×1…
-
CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
在城市街景场景中,Proxy-GS 在保持细粒度视觉细节的同时,实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。 Proxy-GS:面向结构化3D高斯溅射的统一遮挡先验 论文链接:https://arxiv.o…
-
WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星,但实际效果与宣传有差距
WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星 打开GitHub Trending榜单,一个名为 wifi-densepose 的开源项目登上热榜,一天之内便斩获了超过2000个Star。该项目宣称无需摄像头,仅通过分析WiFi信号即可“看见”并还原房间内人体的动作与姿态。 项目简介 WiFi DensePose …
-
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。 该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和…
-
YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测
关键词:YOLO26、YOLO架构演进、单次检测算法(YOLO)、目标检测、计算机视觉、深度学习 十年来,单次检测算法(YOLO,You Only Look Once)一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点,并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下: 核心改进项 解…
-
TrafficVLM:高德鹰眼系统如何用AI视觉模型实现超视距预警,守护春运出行安全
一凡 发自 凹非寺 量子位 | 公众号 QbitAI 准备回家过年了吗? 今年春运流量再创新高,官方预计40天内人员流动量将达95亿人次,其中多数人仍然选择自驾出行,占比达到了8成,人次超过70亿。 如果你也是自驾回家的一员,可能会发现今年春运有点不一样,因为AI含量更高了。现在,AI不仅在加持你的出行,甚至在关键时刻真的能救命。 有的AI在算命,有的AI在…
-
腾讯混元开源HY3D-Bench:构建3D生成领域的“ImageNet”,破解数据与评估瓶颈
3D生成技术如今在可用性上已达到令人惊艳的程度。 然而,数据质量参差不齐、评估标准缺失以及长尾类别覆盖不足这三大痛点,依然困扰着该领域的研究者。 针对这些问题,腾讯混元3D团队在最新技术报告《HY3D-Bench: Generation of 3D Assets》中,正式开源了一套革命性的3D内容生成生态系统。 该工作通过自动化数据清洗流水线,从Objave…
