计算机视觉

CVPR2026满分论文：Proxy-GS实现3D高斯溅射2.5倍渲染加速，用轻量代理网格统一遮挡先验

在城市街景场景中，Proxy-GS 在保持细粒度视觉细节的同时，实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量，从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化，其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。 Proxy-GS：面向结构化3D高斯溅射的统一遮挡先验论文链接：https://arxiv.o…

2天前

80000

开源项目

WiFi信号也能“看见”人体姿态？开源项目wifi-densepose一天斩获2000+星，但实际效果与宣传有差距

WiFi信号也能“看见”人体姿态？开源项目wifi-densepose一天斩获2000+星打开GitHub Trending榜单，一个名为 wifi-densepose 的开源项目登上热榜，一天之内便斩获了超过2000个Star。该项目宣称无需摄像头，仅通过分析WiFi信号即可“看见”并还原房间内人体的动作与姿态。项目简介 WiFi DensePose …

2026年3月3日

477000

AI产品库

4款惊艳AI开源项目盘点：从图表重建到桌面助手，解锁智能新体验

01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图，转换为可完全编辑的格式，例如 DrawIO 的 XML 或 PPTX。该项目并非简单的OCR工具，而是基于计算机视觉模型，对图表中的逻辑关系、形状组件和文本进行深度重建，实现高保真还原。生成的图形元素可以独立选中和…

2026年2月21日

278000

AI产业动态

YOLO26深度解析：十年演进，如何实现CPU推理43%加速与边缘设备实时检测

关键词：YOLO26、YOLO架构演进、单次检测算法（YOLO）、目标检测、计算机视觉、深度学习十年来，单次检测算法（YOLO，You Only Look Once）一直是计算机视觉与深度学习领域的主流目标检测模型。本文第一部分将探究YOLO系列最新版本YOLO26的核心创新点，并系统梳理YOLO模型的发展历程。YOLO26的主要改进如下：核心改进项解…

2026年2月18日

362000

AI产业动态

TrafficVLM：高德鹰眼系统如何用AI视觉模型实现超视距预警，守护春运出行安全

一凡发自凹非寺量子位 | 公众号 QbitAI 准备回家过年了吗？今年春运流量再创新高，官方预计40天内人员流动量将达95亿人次，其中多数人仍然选择自驾出行，占比达到了8成，人次超过70亿。如果你也是自驾回家的一员，可能会发现今年春运有点不一样，因为AI含量更高了。现在，AI不仅在加持你的出行，甚至在关键时刻真的能救命。有的AI在算命，有的AI在…

2026年2月7日

112000

AI产业动态

腾讯混元开源HY3D-Bench：构建3D生成领域的“ImageNet”，破解数据与评估瓶颈

3D生成技术如今在可用性上已达到令人惊艳的程度。然而，数据质量参差不齐、评估标准缺失以及长尾类别覆盖不足这三大痛点，依然困扰着该领域的研究者。针对这些问题，腾讯混元3D团队在最新技术报告《HY3D-Bench: Generation of 3D Assets》中，正式开源了一套革命性的3D内容生成生态系统。该工作通过自动化数据清洗流水线，从Objave…

2026年2月6日

99000

AI产业动态

三大开源神器：PageLM重塑学习体验，DeepSeek-OCR革新视觉识别，Awesome Web Agents整合AI浏览器生态

PageLM：NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于，用户只需上传学习资料，它便能生成播客对话、测验题或复习卡片。PageLM 同样如此，它不仅能够提炼资料重点，更能将静态文本转化为互动式的学习资源。例如，上传一份历史课件后，PageLM 可以自…

2026年2月6日

131000

AI产业动态

OVSeg3R：革新3D实例分割，基于2D先验实现开集识别与低成本标注

3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本，训练效果有待提升。近年来，利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向，但实现思路不尽相同。近日，IDEA计算机视觉与机器人研究中心（CVR，Computer Vision and Robotics）的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新…

2026年1月17日

189000

大模型工程

Vision Agents：开源框架革新实时视频AI，构建多模态智能体的终极解决方案

如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统，就会知道其技术栈有多么复杂。视频需要一个 SDK。语音需要另一个。目标检测需要另一个。大语言模型（LLM）还需要一个。之后，你仍需将所有组件集成起来，处理延迟问题，并设法让整个系统实时运行。 Vision Agents 改变了这一切。这是一个开源框架，旨在帮助开发者构建能…

2025年12月17日

207000

AI产业动态

从手工特征到端到端学习：Faster R-CNN如何重塑计算机视觉的十年征程

在NeurIPS 2025会议上，《Faster R-CNN》论文荣获“时间检验奖”，这不仅是学术界的认可，更是对计算机视觉领域过去十年发展轨迹的深刻总结。何恺明在题为《视觉目标检测简史》的演讲中，系统梳理了从传统方法到深度学习范式的完整演进历程，揭示了现代AI视觉能力背后的技术革命。回顾计算机视觉的发展，可以清晰地划分为三个技术时代：手工特征工程时代、深…

2025年12月11日

209000