多模态AI
-
TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破
TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破 在浏览GitHub时,一个名为 TuriX-CUA 的开源项目引起了我的注意。这是一个 Computer-Use Agent(电脑使用智能体)框架。 其核心目标是让大型AI模型能够像人类用户一样,直接观察电脑屏幕并执行鼠标、键盘等操作,从而完成跨多个桌面应用程序的复杂任务,而不仅限于在聊天对话…
-
Luma发布Uni-1图像生成模型:统一理解与生成,中文文字渲染能力突出
上周,谷歌推出了 Nano Banana 2 模型,以其快速且经济的特性在社交平台上引发了广泛关注。 与此同时,海外 AI 初创公司 Luma 发布了一款全新的图像生成模型 Uni-1。 Uni-1 是 Luma 首个将“理解”与“生成”功能统一在同一架构下的模型,旨在使 AI 不仅能够生成图像,还能更好地理解指令。 例如,它可以生成极具视觉冲击力的时尚杂志…
-
万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生
源Yuan3.0 Ultra多模态基础大模型正式开源 YuanLab.ai团队正式开源发布了 源Yuan3.0 Ultra 多模态基础大模型。 作为源3.0系列面向 万亿参数 规模打造的旗舰模型,它是当前业界仅有的三个万亿级开源多模态大模型之一。该模型将MoE大模型的训练效率优化系统性引入模型结构设计,并围绕企业应用及智能体工具调用等方面进行了深度优化,在多…
-
阿里Qwen3.5-27B深度评测:理科思维突出,文档处理与逻辑推理是亮点,艺术创作待提升
阿里近期推出了Qwen3.5-27B模型,作为Qwen3.5系列中的中型主力版本,它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何?以下是本次评测的核心结论。 核心结论: 三大亮点: OCR与文档理解能力出色: 在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准,效果优于部分更大参数的模型。 空间逻辑与数学推理能力强: 在立体…
-
阿里Qwen 3.5震撼开源:架构革新登顶全球最强,原生多模态重塑AI格局
2026年2月16日,除夕佳节之际,阿里巴巴正式发布全新一代开源大模型千问Qwen 3.5。其Plus版本一经亮相便登顶全球最强开源模型,性能直接媲美闭源第一梯队的Gemini 3 Pro,并在多项权威基准测试中实现超越。 这场新春时节的“技术突袭”,不仅标志着阿里在大模型领域完成了从纯文本到原生多模态的代际跃迁,更以极致的效率与性价比,重构了全球开源大模型…
-
谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破
谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍 谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。 根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。 新模型还能将日常数据转化为互…
-
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍
今天凌晨,谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA(State-of-the-Art)记录,实现了推理能力的大幅跃升。 在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和C…
-
Gemini 3.1 Pro震撼发布:推理能力翻倍,成本效率双突破,AI竞赛进入新阶段
今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。 具体基准测试表现 根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破: 智能工具使用:能力提升82%,在APEX-Agents测试…
-
Qwen3.5震撼发布:3970亿参数性能超万亿模型,推理吞吐量提升19倍,开源AI新标杆诞生
智东西2月16日报道,刚刚,Qwen3.5正式发布并开源,在多模态理解、复杂推理、编程、Agent智能体等几大能力上领先同级开源模型,多项基准测试成绩媲美甚至超越GPT-5.2、Gemini 3 Pro等闭源第一梯队模型。 Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,其性能超越了万亿参数的Qwen3-Max模型。在部署上,其显存占用降低了…
-
AI大模型周报:蚂蚁Ring-2.5-1T开源、OpenAI发布GPT-5.3-Codex-Spark、字节跳动多模态模型全面升级
2月11日 【开源】 蚂蚁集团旗下团队 inclusionAI 发布 Ring-2.5-1T,这是 Ring-1T 的升级版本,核心特性可概括为“快、深、长”。其生成效率提升超过 3 倍,访存开销降低 10 倍;具备国际数学奥林匹克竞赛金牌级别的深度思考能力,并能连续工作 2 小时编写出迷你操作系统。该模型采用 MIT 协议完全开源。 模型详情:https:…
