多模态AI

Gemini 3 Pro深度评测：多模态推理模型如何重塑AI生产力边界

昨晚，谷歌发布了Gemini 3 Pro，并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环，但对于一线用户而言，核心问题在于：它是否真正能提升生产力？我们设计了一系列体验场景，这些测试的共同点是：不追求理论分数，而是要求模型生成可直接运行的代码或可交付的成果。以下是具体的体验情况。场景1…

2025年11月19日

397000

开源项目

清华联合开源！首个基于MCP的RAG框架UltraRAG：零代码构建多模态检索增强生成系统

首个基于 MCP 的 RAG 框架 UltraRAG：零代码构建多模态检索增强生成系统 UltraRAG 是一个基于 MCP 的开源检索增强生成框架，旨在让用户无需编写代码即可构建复杂的 RAG 系统。 RAG 系统通过让 AI 模型先检索相关信息再生成答案，从而显著提高回答的准确性。 UltraRAG 是由清华大学 THUNLP、东北大学 NEUIR、Op…

2025年11月19日

389000

AI产业动态

MonkeyOCR v1.5：多模态文档解析新范式，复杂表格与跨页结构难题的终结者

2025年6月以来，多模态文档解析领域迎来新一轮研究热潮，该方向逐渐成为多模态理解及大模型数据来源的重要前沿课题。在数字化办公与AI技术深度融合的今天，文档智能解析技术已成为信息抽取、检索增强生成和自动化文档分析的核心基石。然而，现实世界中的文档往往布局复杂、表格嵌套、内含图片公式，甚至跨页分布，这让许多现有的OCR（光学字符识别系统，Optical Cha…

2025年11月18日

363000

AI产业动态

生成涌现：从Gemini 3.0到蚂蚁灵光，AI如何重塑应用生态与创作范式

2025年末，AI领域迎来一场深刻的范式变革。谷歌Gemini 3.0的预热不仅引爆了技术圈的期待，更揭示了一个关键趋势：AI正从单一模态的「线性输出」迈向系统级的「生成涌现」。这一转变的核心在于，AI不再仅仅是内容生成工具，而是能够自主构建复杂应用、界面乃至交互系统的创造性引擎。当前，大模型的发展已进入新阶段。OpenAI GPT-5.1的迭代虽带来改进…

2025年11月18日

402000

AI产业动态

AI大模型周报：字节跳动、百度、OpenAI密集更新，闭源与开源模型齐头并进

11月11日【闭源】字节跳动发布 doubao-seed-code，这是一款专为实际开发场景打造的AI编程模型。该模型强化了Bug修复能力和前端开发能力，并支持输入透明Cache能力，以有效降低使用成本。【开源】百度发布 ERNIE-4.5-VL-28B-A3B-Thinking。该模型在ERNIE-4.5-VL-28B-A3B基础上训练而成，是一个…

2025年11月17日

352000

AI产业动态

AI重构叙事边界：跨角色嵌入技术让憨豆与汤姆同台共演，破解风格错乱世纪难题

在传统影视与动画创作中，角色往往被禁锢于各自的世界观与视觉风格中——卡通角色的夸张变形与真人演员的写实表演如同平行宇宙，鲜有交集。然而，近期阿联酋MBZUAI研究团队发布的一项突破性研究，通过创新的跨角色嵌入技术，首次实现了不同风格角色的自然同框互动，标志着AI生成视频技术正迈向一个虚构与现实深度融合的新纪元。这项研究的核心突破在于解决了长期困扰生成式视频…

2025年11月16日

347000

AI产业动态

Lumina-DiMOO：离散扩散架构重塑多模态统一模型，开启原生智能新纪元

上海人工智能实验室近期推出的Lumina-DiMOO，标志着多模态人工智能领域迎来了一次架构层面的根本性变革。这款基于离散扩散建模（Discrete Diffusion Modeling）的扩散语言模型，首次在同一框架内实现了文本→图像、图像→图像、图像→文本的全栈能力闭环，打破了传统多模态任务间的技术壁垒。 **论文信息** 论文标题：Lumina-DiM…

2025年11月16日

385000

AI产业动态

视觉压缩革命：DeepSeek-OCR如何颠覆AI信息处理范式

在人工智能领域，信息表示与处理效率一直是核心挑战。DeepSeek-OCR的开源发布，不仅是一个技术工具的更新，更可能标志着AI架构范式的根本性转变。这项技术提出的“上下文光学压缩”概念，正在重新定义我们对多模态AI的理解边界。从技术原理层面分析，DeepSeek-OCR的核心突破在于证明了视觉表示在信息压缩上的显著优势。在长上下文解码任务中，该模型在保持…

2025年11月14日

364000

AI产业动态

迈向AGI新范式：视频空间超感知如何突破LLM感知瓶颈

在人工智能迈向通用智能（AGI）的漫长征程中，一个根本性的哲学问题日益凸显：在构建超级智能之前，我们首先需要什么？近期，由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S：迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向，更可能重新定义AI感知能力的演进路径。三位作者的组合…

2025年11月10日

263000

AI产业动态

谷歌Nano Banana 2预览版深度解析：AI图像生成的新纪元与多模态能力突破

近日，谷歌下一代AI图像生成模型Nano Banana 2（简称NB2）的预览版在第三方平台Media IO意外亮相，引发了科技界的广泛关注。尽管尚未正式发布，但基于泄露的测试结果，NB2展现出的性能飞跃已足以重新定义当前AI图像生成的边界。本文将从技术能力、应用场景及行业影响三个维度，对NB2进行全面剖析。在技术层面，NB2的核心提升体现在生成速度、分辨…

2025年11月9日

343000