计算机视觉
-
CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
在城市街景场景中,Proxy-GS 在保持细粒度视觉细节的同时,实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。 Proxy-GS:面向结构化3D高斯溅射的统一遮挡先验 论文链接:https://arxiv.o…
-
WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星,但实际效果与宣传有差距
WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星 打开GitHub Trending榜单,一个名为 wifi-densepose 的开源项目登上热榜,一天之内便斩获了超过2000个Star。该项目宣称无需摄像头,仅通过分析WiFi信号即可“看见”并还原房间内人体的动作与姿态。 项目简介 WiFi DensePose …
-
4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验
01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。 该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和…
-
YOLO26深度解析:十年演进,如何实现CPU推理43%加速与边缘设备实时检测
关键词:YOLO26、YOLO架构演进、单次检测算法(YOLO)、目标检测、计算机视觉、深度学习 十年来,单次检测算法(YOLO,You Only Look Once)一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点,并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下: 核心改进项 解…
-
TrafficVLM:高德鹰眼系统如何用AI视觉模型实现超视距预警,守护春运出行安全
一凡 发自 凹非寺 量子位 | 公众号 QbitAI 准备回家过年了吗? 今年春运流量再创新高,官方预计40天内人员流动量将达95亿人次,其中多数人仍然选择自驾出行,占比达到了8成,人次超过70亿。 如果你也是自驾回家的一员,可能会发现今年春运有点不一样,因为AI含量更高了。现在,AI不仅在加持你的出行,甚至在关键时刻真的能救命。 有的AI在算命,有的AI在…
-
腾讯混元开源HY3D-Bench:构建3D生成领域的“ImageNet”,破解数据与评估瓶颈
3D生成技术如今在可用性上已达到令人惊艳的程度。 然而,数据质量参差不齐、评估标准缺失以及长尾类别覆盖不足这三大痛点,依然困扰着该领域的研究者。 针对这些问题,腾讯混元3D团队在最新技术报告《HY3D-Bench: Generation of 3D Assets》中,正式开源了一套革命性的3D内容生成生态系统。 该工作通过自动化数据清洗流水线,从Objave…
-
三大开源神器:PageLM重塑学习体验,DeepSeek-OCR革新视觉识别,Awesome Web Agents整合AI浏览器生态
PageLM:NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于,用户只需上传学习资料,它便能生成播客对话、测验题或复习卡片。PageLM 同样如此,它不仅能够提炼资料重点,更能将静态文本转化为互动式的学习资源。 例如,上传一份历史课件后,PageLM 可以自…
-
OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注
3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本,训练效果有待提升。 近年来,利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向,但实现思路不尽相同。 近日,IDEA计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新…
-
Vision Agents:开源框架革新实时视频AI,构建多模态智能体的终极解决方案
如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统,就会知道其技术栈有多么复杂。 视频需要一个 SDK。 语音需要另一个。 目标检测需要另一个。 大语言模型(LLM)还需要一个。 之后,你仍需将所有组件集成起来,处理延迟问题,并设法让整个系统实时运行。 Vision Agents 改变了这一切。 这是一个开源框架,旨在帮助开发者构建能…
-
从手工特征到端到端学习:Faster R-CNN如何重塑计算机视觉的十年征程
在NeurIPS 2025会议上,《Faster R-CNN》论文荣获“时间检验奖”,这不仅是学术界的认可,更是对计算机视觉领域过去十年发展轨迹的深刻总结。何恺明在题为《视觉目标检测简史》的演讲中,系统梳理了从传统方法到深度学习范式的完整演进历程,揭示了现代AI视觉能力背后的技术革命。 回顾计算机视觉的发展,可以清晰地划分为三个技术时代:手工特征工程时代、深…
