多模态模型

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

从iPhone 4S时代起，人机交互就一直停留在单轮“你问我答”的模式。即便在智能体技术如此成熟的今天，这种局面仍未改变。为何与机器的对话始终是一问一答，无法像人与人交流那样自然流畅？当前业界的主流做法，仍然是在传统的基于轮次（turn-based）的大模型外层，套上一个VAD（语音活动检测）外壳，强行将其塞入实时交互的场景中。就在刚刚，备受瞩目的Th…

12小时前

92000

AI产业动态

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

五一假期将至，DeepSeek 选择在这个时间点公开一项新技术，引发了广泛关注。昨天，DeepSeek 的陈小康在 X 平台上发布了一条消息，让人们开始聚焦 DeepSeek 在多模态领域的最新进展。随后，部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。就在刚刚，DeepSeek 在 Github 上正式发布了多模态模型，并…

2026年4月30日

503000

开源项目

无需训练！开源Web Agent Avenir-Web刷新纪录，成功率53.7%逼近OpenAI Operator

告别“网页操作翻车”：开源Web Agent Avenir-Web 刷新纪录，成功率飙至53.7% 伦敦大学学院（UCL）、普林斯顿大学与爱丁堡大学的联合研究团队，近日推出了名为 Avenir-Web 的开源框架。它让现有的多模态模型具备了像人类一样操作网页的能力，无需任何额外训练即可投入使用。现有的Web Agent在处理复杂网页结构（例如 iframe…

2026年4月29日

316000

大模型推理

OmniInfer：统一多后端引擎，破解端侧大模型推理碎片化难题

随着大语言模型（LLM）和视觉语言模型（VLM）在参数量和架构上快速演进，AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。端侧推理能够显著降低对云端服务器的算力依赖与带宽压力，并在保护用户数据隐私的前提下，提供离线可用、低延迟的交互体验。然而，要将LLM/VLM真正部署到“每一台设备上”，开发者面临着前所未有的工程挑战。核心问题与痛点硬件生…

2026年4月15日

431000

AI产业动态

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

Meta发布Muse Spark：九个月重构AI技术栈，多模态推理模型引领股价上涨经过长达九个月的全面技术栈重构，由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark。该模型的发布立即在资本市场引发积极反响，Meta股价应声拉升约7%，盘中一度涨超近10%，最终当日收涨约6%。市场热烈…

2026年4月9日

356000

AI产业动态

GPT-Image-2泄露：OpenAI新一代图像模型震撼亮相，文字渲染与知识理解全面超越前代

距离上代 GPT-Image-1.5 推出近 4 个月后，关于其继任者 GPT-Image-2 的消息开始在海外社区流传。据悉，OpenAI 近期在大模型竞技场 Chatbot Arena 以多个代号对新一代多模态模型进行了测试，但相关测试目前已经下线。根据流出的生成示例，该模型在文字渲染能力上表现突出。信息显示，GPT-Image-2 曾使用「mas…

2026年4月5日

594000

AI产业动态

GPT-6即将发布：性能暴涨40%、原生多模态、2M上下文窗口，OpenAI倾注所有资源冲刺AGI

据多方消息透露，OpenAI 下一代旗舰模型 GPT-6 的发布可能已进入倒计时。内部信息显示，该公司正将几乎所有资源倾注于这一项目，旨在实现通往通用人工智能（AGI）的关键突破。核心特性与定位据悉，GPT-6 被内部视为实现AGI目标的“最后一公里”。其主要特性传闻包括：* 性能飞跃：在代码、推理及智能体任务等基准测试上，性能较 GPT-5.4 提升约…

2026年4月5日

1.1K000

大模型推理

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型（VLM）和大语言模型（LLM）的默认形态。然而，真正的性能瓶颈往往潜藏在推理端的键值（KV）缓存中。随着上下文长度增加，KV缓存线性膨胀，导致显存占用与带宽开销飙升，进而严重压制模型吞吐量。因此，KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存，却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

2026年3月31日

246000

大模型工程

多模态模型视觉短板被攻克！UniPat AI用500行代码打造SWE-Vision，让AI学会“掏出Python尺子”自我验证，五大视觉基准全SOTA

模型“看见”却无法“精确处理”的短板过去一年，多模态大模型在代码任务上的表现突飞猛进，已能媲美资深开发者。然而，在基础视觉理解任务上，其可靠性远未达到同等水平。 UniPat AI 此前发布的多模态基准测试 BabyVision 揭示了这一现象：模型常能给出长篇推理，却在最基础的计量、计数和空间关系判断上出错。该基准已被多个重要模型的技术报告引用，凸显了社…

2026年3月16日

441000

AI产业动态

字节Seed-2.0-pro深度评测：挑战GPT与Gemini，多模态推理新标杆

短的结论：通往下一个时代的钥匙基本情况：字节跳动推出的多模态大模型 Seed-2.0-pro，是其技术序列中的关键升级。此前，Doubao 1.8 版本已展现出接近国际领先水平的潜力，而如今经过全面打磨的 Seed-2.0-pro 旨在确立其顶尖地位。综合来看，Seed-2.0-pro 无愧于“Pro”的定位，在核心能力上与 Gemini 3 Pro …

2026年2月14日

1.1K000