视觉大模型
-
哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%
作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…
-
AI视觉革命:5大开源项目让大模型像人类一样操控手机
在过去,自动化操作手机通常需要依赖 Appium 或 Airtest 等工具,这要求开发者必须深入了解应用的底层元素标识,如 resource-id 或 xpath。一旦应用更新导致这些标识符发生变化,自动化脚本便会失效。 如今,随着 AI 大模型,尤其是视觉模型的发展,让 AI 像人类一样“看懂”并操控手机屏幕成为可能。本文将介绍几个热门的、利用 AI 实…
