视觉大模型

哈工深团队突破线性注意力瓶颈！Norm×Direction分解实现视觉任务精度全面超越，70K+token超分任务显存降低92.3%

作者信息本文第一作者孟维康是哈尔滨工业大学（深圳）与鹏城实验室联合培养的博士生，本科毕业于哈尔滨工业大学，主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学（深圳）长聘教授、博士生导师，教育部青年长江学者，长期致力于高效能多模态机器学习研究，专注于高效与可信多模态大模型。研究背景随着 Transformer 在计算机视觉领域的广泛应用，处理高分…

2026年3月15日

506000

开源项目

AI视觉革命：5大开源项目让大模型像人类一样操控手机

在过去，自动化操作手机通常需要依赖 Appium 或 Airtest 等工具，这要求开发者必须深入了解应用的底层元素标识，如 resource-id 或 xpath。一旦应用更新导致这些标识符发生变化，自动化脚本便会失效。如今，随着 AI 大模型，尤其是视觉模型的发展，让 AI 像人类一样“看懂”并操控手机屏幕成为可能。本文将介绍几个热门的、利用 AI 实…

2025年11月25日

1.3K000