计算机视觉

三大开源神器：PageLM重塑学习体验，DeepSeek-OCR革新视觉识别，Awesome Web Agents整合AI浏览器生态

PageLM：NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于，用户只需上传学习资料，它便能生成播客对话、测验题或复习卡片。PageLM 同样如此，它不仅能够提炼资料重点，更能将静态文本转化为互动式的学习资源。例如，上传一份历史课件后，PageLM 可以自…

2026年2月6日

448000

AI产业动态

OVSeg3R：革新3D实例分割，基于2D先验实现开集识别与低成本标注

3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本，训练效果有待提升。近年来，利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向，但实现思路不尽相同。近日，IDEA计算机视觉与机器人研究中心（CVR，Computer Vision and Robotics）的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新…

2026年1月17日

367000

大模型工程

Vision Agents：开源框架革新实时视频AI，构建多模态智能体的终极解决方案

如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统，就会知道其技术栈有多么复杂。视频需要一个 SDK。语音需要另一个。目标检测需要另一个。大语言模型（LLM）还需要一个。之后，你仍需将所有组件集成起来，处理延迟问题，并设法让整个系统实时运行。 Vision Agents 改变了这一切。这是一个开源框架，旨在帮助开发者构建能…

2025年12月17日

489000

AI产业动态

从手工特征到端到端学习：Faster R-CNN如何重塑计算机视觉的十年征程

在NeurIPS 2025会议上，《Faster R-CNN》论文荣获“时间检验奖”，这不仅是学术界的认可，更是对计算机视觉领域过去十年发展轨迹的深刻总结。何恺明在题为《视觉目标检测简史》的演讲中，系统梳理了从传统方法到深度学习范式的完整演进历程，揭示了现代AI视觉能力背后的技术革命。回顾计算机视觉的发展，可以清晰地划分为三个技术时代：手工特征工程时代、深…

2025年12月11日

376000

开源项目

Skyvern：用大模型革新浏览器自动化，告别传统RPA的脆弱性

逛 GitHub 的时候，发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目，目前在 GitHub 上已斩获近 2 万的 Star。 01 开源项目简介在传统的网页自动化 RPA 开发中，最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本，一定经历过因为网站开发者修改…

2025年12月5日

416000

AI产业动态

突破视觉AI能效瓶颈：清华团队提出类人主动感知新范式AdaptiveNN

视觉是人类认知物理世界的核心通道，赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间，计算机视觉技术取得显著进展，在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而，当前主流的高精度视觉模型在实际部署中面临严峻挑战：这些模型通常需要激活数亿参数来处理…

2025年11月28日

355000

AI产业动态

深度解析Depth Anything 3：单Transformer统一3D视觉任务，字节跳动如何重塑几何感知新范式

在计算机视觉领域，3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型，如单目深度估计、多视角重建、相机姿态估计等，这不仅增加了开发复杂度，也限制了模型的泛化能力与数据利用效率。近日，字节跳动Seed团队的Depth Anything 3（DA3）研究成果，以单一Transformer架构统一了多种3D视觉任务，在视觉几何基准上取得…

2025年11月18日

379000

AI产业动态

AI大模型技术周报：阿里Qwen3-VL、DeepSeek-OCR、讯飞Spark-Scilit-X1、腾讯混元世界模型重磅更新

10月21日【闭源】阿里发布Qwen3-VL-32B系列模型阿里发布了Qwen3-VL-32B-Thinking和Qwen3-VL-32B-Instruct两款32B参数的Dense模型。该系列在文档识别与理解、空间感知与万物识别、视觉2D检测与空间推理等能力上表现优异，适用于通用场景下的复杂感知任务。详情链接：https://help.aliyun.c…

2025年10月27日

402000