多模态模型

  • Thinking Machines Lab发布首个交互模型TML-Interaction-Small,彻底打破人机一问一答模式

    从iPhone 4S时代起,人机交互就一直停留在单轮“你问我答”的模式。即便在智能体技术如此成熟的今天,这种局面仍未改变。 为何与机器的对话始终是一问一答,无法像人与人交流那样自然流畅? 当前业界的主流做法,仍然是在传统的基于轮次(turn-based)的大模型外层,套上一个VAD(语音活动检测)外壳,强行将其塞入实时交互的场景中。 就在刚刚,备受瞩目的Th…

    12小时前
    9200
  • DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”

    五一假期将至,DeepSeek 选择在这个时间点公开一项新技术,引发了广泛关注。 昨天,DeepSeek 的陈小康在 X 平台上发布了一条消息,让人们开始聚焦 DeepSeek 在多模态领域的最新进展。 随后,部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。 就在刚刚,DeepSeek 在 Github 上正式发布了多模态模型,并…

    2026年4月30日
    50300
  • 无需训练!开源Web Agent Avenir-Web刷新纪录,成功率53.7%逼近OpenAI Operator

    告别“网页操作翻车”:开源Web Agent Avenir-Web 刷新纪录,成功率飙至53.7% 伦敦大学学院(UCL)、普林斯顿大学与爱丁堡大学的联合研究团队,近日推出了名为 Avenir-Web 的开源框架。它让现有的多模态模型具备了像人类一样操作网页的能力,无需任何额外训练即可投入使用。 现有的Web Agent在处理复杂网页结构(例如 iframe…

    2026年4月29日
    31600
  • OmniInfer:统一多后端引擎,破解端侧大模型推理碎片化难题

    随着大语言模型(LLM)和视觉语言模型(VLM)在参数量和架构上快速演进,AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。 端侧推理能够显著降低对云端服务器的算力依赖与带宽压力,并在保护用户数据隐私的前提下,提供离线可用、低延迟的交互体验。然而,要将LLM/VLM真正部署到“每一台设备上”,开发者面临着前所未有的工程挑战。 核心问题与痛点 硬件生…

    2026年4月15日
    43100
  • Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

    Meta发布Muse Spark:九个月重构AI技术栈,多模态推理模型引领股价上涨 经过长达九个月的全面技术栈重构,由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark。 该模型的发布立即在资本市场引发积极反响,Meta股价应声拉升约7%,盘中一度涨超近10%,最终当日收涨约6%。 市场热烈…

    2026年4月9日
    35600
  • GPT-Image-2泄露:OpenAI新一代图像模型震撼亮相,文字渲染与知识理解全面超越前代

    距离上代 GPT-Image-1.5 推出近 4 个月后,关于其继任者 GPT-Image-2 的消息开始在海外社区流传。 据悉,OpenAI 近期在大模型竞技场 Chatbot Arena 以多个代号对新一代多模态模型进行了测试,但相关测试目前已经下线。 根据流出的生成示例,该模型在文字渲染能力上表现突出。 信息显示,GPT-Image-2 曾使用「mas…

    2026年4月5日
    59400
  • GPT-6即将发布:性能暴涨40%、原生多模态、2M上下文窗口,OpenAI倾注所有资源冲刺AGI

    据多方消息透露,OpenAI 下一代旗舰模型 GPT-6 的发布可能已进入倒计时。内部信息显示,该公司正将几乎所有资源倾注于这一项目,旨在实现通往通用人工智能(AGI)的关键突破。 核心特性与定位 据悉,GPT-6 被内部视为实现AGI目标的“最后一公里”。其主要特性传闻包括:* 性能飞跃:在代码、推理及智能体任务等基准测试上,性能较 GPT-5.4 提升约…

    2026年4月5日
    1.1K00
  • MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

    长上下文推理已成为视觉-语言模型(VLM)和大语言模型(LLM)的默认形态。然而,真正的性能瓶颈往往潜藏在推理端的键值(KV)缓存中。随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而严重压制模型吞吐量。 因此,KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存,却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

    2026年3月31日
    24600
  • 多模态模型视觉短板被攻克!UniPat AI用500行代码打造SWE-Vision,让AI学会“掏出Python尺子”自我验证,五大视觉基准全SOTA

    模型“看见”却无法“精确处理”的短板 过去一年,多模态大模型在代码任务上的表现突飞猛进,已能媲美资深开发者。然而,在基础视觉理解任务上,其可靠性远未达到同等水平。 UniPat AI 此前发布的多模态基准测试 BabyVision 揭示了这一现象:模型常能给出长篇推理,却在最基础的计量、计数和空间关系判断上出错。该基准已被多个重要模型的技术报告引用,凸显了社…

    2026年3月16日
    44100
  • 字节Seed-2.0-pro深度评测:挑战GPT与Gemini,多模态推理新标杆

    短的结论:通往下一个时代的钥匙 基本情况: 字节跳动推出的多模态大模型 Seed-2.0-pro,是其技术序列中的关键升级。此前,Doubao 1.8 版本已展现出接近国际领先水平的潜力,而如今经过全面打磨的 Seed-2.0-pro 旨在确立其顶尖地位。 综合来看,Seed-2.0-pro 无愧于“Pro”的定位,在核心能力上与 Gemini 3 Pro …

    2026年2月14日
    1.1K00