计算机视觉
-
三大开源神器:PageLM重塑学习体验,DeepSeek-OCR革新视觉识别,Awesome Web Agents整合AI浏览器生态
PageLM:NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于,用户只需上传学习资料,它便能生成播客对话、测验题或复习卡片。PageLM 同样如此,它不仅能够提炼资料重点,更能将静态文本转化为互动式的学习资源。 例如,上传一份历史课件后,PageLM 可以自…
-
OVSeg3R:革新3D实例分割,基于2D先验实现开集识别与低成本标注
3D模型的实例分割一直受限于稀缺的训练数据与高昂的标注成本,训练效果有待提升。 近年来,利用成熟海量的2D实例分割数据来辅助实现3D实例分割成为一个极具潜力的研究方向,但实现思路不尽相同。 近日,IDEA计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)的张磊团队提出了一种名为OVSeg3R的开集3D实例分割学习新…
-
Vision Agents:开源框架革新实时视频AI,构建多模态智能体的终极解决方案
如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统,就会知道其技术栈有多么复杂。 视频需要一个 SDK。 语音需要另一个。 目标检测需要另一个。 大语言模型(LLM)还需要一个。 之后,你仍需将所有组件集成起来,处理延迟问题,并设法让整个系统实时运行。 Vision Agents 改变了这一切。 这是一个开源框架,旨在帮助开发者构建能…
-
从手工特征到端到端学习:Faster R-CNN如何重塑计算机视觉的十年征程
在NeurIPS 2025会议上,《Faster R-CNN》论文荣获“时间检验奖”,这不仅是学术界的认可,更是对计算机视觉领域过去十年发展轨迹的深刻总结。何恺明在题为《视觉目标检测简史》的演讲中,系统梳理了从传统方法到深度学习范式的完整演进历程,揭示了现代AI视觉能力背后的技术革命。 回顾计算机视觉的发展,可以清晰地划分为三个技术时代:手工特征工程时代、深…
-
Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性
逛 GitHub 的时候,发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目,目前在 GitHub 上已斩获近 2 万的 Star。 01 开源项目简介 在传统的网页自动化 RPA 开发中,最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本,一定经历过因为网站开发者修改…
-
突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN
视觉是人类认知物理世界的核心通道,赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间,计算机视觉技术取得显著进展,在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而,当前主流的高精度视觉模型在实际部署中面临严峻挑战:这些模型通常需要激活数亿参数来处理…
-
深度解析Depth Anything 3:单Transformer统一3D视觉任务,字节跳动如何重塑几何感知新范式
在计算机视觉领域,3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型,如单目深度估计、多视角重建、相机姿态估计等,这不仅增加了开发复杂度,也限制了模型的泛化能力与数据利用效率。近日,字节跳动Seed团队的Depth Anything 3(DA3)研究成果,以单一Transformer架构统一了多种3D视觉任务,在视觉几何基准上取得…
-
AI大模型技术周报:阿里Qwen3-VL、DeepSeek-OCR、讯飞Spark-Scilit-X1、腾讯混元世界模型重磅更新
10月21日 【闭源】阿里发布Qwen3-VL-32B系列模型阿里发布了Qwen3-VL-32B-Thinking和Qwen3-VL-32B-Instruct两款32B参数的Dense模型。该系列在文档识别与理解、空间感知与万物识别、视觉2D检测与空间推理等能力上表现优异,适用于通用场景下的复杂感知任务。 详情链接:https://help.aliyun.c…
