计算机视觉

  • Skyvern:用大模型革新浏览器自动化,告别传统RPA的脆弱性

    逛 GitHub 的时候,发现一个叫 Skyvern 的开源项目登上了热榜。这是一个利用 AI 控制浏览器自动化工作流的项目,目前在 GitHub 上已斩获近 2 万的 Star。 01 开源项目简介 在传统的网页自动化 RPA 开发中,最让人头疼的莫过于页面结构的变化。如果你写过 Selenium 或 Puppeteer 脚本,一定经历过因为网站开发者修改…

    2025年12月5日
    18600
  • 突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

    视觉是人类认知物理世界的核心通道,赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间,计算机视觉技术取得显著进展,在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而,当前主流的高精度视觉模型在实际部署中面临严峻挑战:这些模型通常需要激活数亿参数来处理…

    2025年11月28日
    18300
  • 深度解析Depth Anything 3:单Transformer统一3D视觉任务,字节跳动如何重塑几何感知新范式

    在计算机视觉领域,3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型,如单目深度估计、多视角重建、相机姿态估计等,这不仅增加了开发复杂度,也限制了模型的泛化能力与数据利用效率。近日,字节跳动Seed团队的Depth Anything 3(DA3)研究成果,以单一Transformer架构统一了多种3D视觉任务,在视觉几何基准上取得…

    2025年11月18日
    21000
  • AI大模型技术周报:阿里Qwen3-VL、DeepSeek-OCR、讯飞Spark-Scilit-X1、腾讯混元世界模型重磅更新

    10月21日 【闭源】阿里发布Qwen3-VL-32B系列模型阿里发布了Qwen3-VL-32B-Thinking和Qwen3-VL-32B-Instruct两款32B参数的Dense模型。该系列在文档识别与理解、空间感知与万物识别、视觉2D检测与空间推理等能力上表现优异,适用于通用场景下的复杂感知任务。 详情链接:https://help.aliyun.c…

    2025年10月27日
    21400