计算机视觉

开源项目

Skyvern：用大模型革新浏览器自动化，告别传统RPA的脆弱性

逛 GitHub 的时候，发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目，目前在 GitHub 上已斩获近 2 万的 Star。 01 开源项目简介在传统的网页自动化 RPA 开发中，最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本，一定经历过因为网站开发者修改…

2025年12月5日

186000

AI产业动态

突破视觉AI能效瓶颈：清华团队提出类人主动感知新范式AdaptiveNN

视觉是人类认知物理世界的核心通道，赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间，计算机视觉技术取得显著进展，在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而，当前主流的高精度视觉模型在实际部署中面临严峻挑战：这些模型通常需要激活数亿参数来处理…

2025年11月28日

183000

AI产业动态

深度解析Depth Anything 3：单Transformer统一3D视觉任务，字节跳动如何重塑几何感知新范式

在计算机视觉领域，3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型，如单目深度估计、多视角重建、相机姿态估计等，这不仅增加了开发复杂度，也限制了模型的泛化能力与数据利用效率。近日，字节跳动Seed团队的Depth Anything 3（DA3）研究成果，以单一Transformer架构统一了多种3D视觉任务，在视觉几何基准上取得…

2025年11月18日

210000

AI产业动态

AI大模型技术周报：阿里Qwen3-VL、DeepSeek-OCR、讯飞Spark-Scilit-X1、腾讯混元世界模型重磅更新

10月21日【闭源】阿里发布Qwen3-VL-32B系列模型阿里发布了Qwen3-VL-32B-Thinking和Qwen3-VL-32B-Instruct两款32B参数的Dense模型。该系列在文档识别与理解、空间感知与万物识别、视觉2D检测与空间推理等能力上表现优异，适用于通用场景下的复杂感知任务。详情链接：https://help.aliyun.c…

2025年10月27日

214000