多模态模型_鲸林向海

思维链太长拖慢推理？把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式

在 LLM 时代，思维链（CoT）已成为解锁模型复杂推理能力的关键技术。然而，CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤，带来了巨大的计算开销和显存占用，严重制约了推理效率。为了解决这个问题，研究界近期尝试了「隐式 CoT」（Implicit CoT），即让模型在内部隐状态中完成推理，而不输出具体文本。这种方法虽然速度快，却是一个「黑…

2026年1月23日

30000

大模型评测

文心一言5.0正式版深度评测：国产大模型如何突破算力桎梏，在多模态赛道站稳脚跟？

核心结论：文心一言5.0正式版在预览版基础上进行了针对性打磨，整体可用性有所提升，在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性，但算力消耗与上下文幻觉问题仍是主要挑战。逻辑能力表现：注1：表格为突出对比关系，仅展示部分可对照模型，非完整排序。注2：题目及测试方式，参见《大语言模型逻辑能力横评（25年12月榜）》，新增#55…

2026年1月23日

66000

大模型评测

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

01｜“看懂世界”这关，大模型还没上幼儿园过去一年，大模型在语言与文本推理上突飞猛进，但在面对无法用语言清晰表述的问题时，其视觉理解能力却暴露了短板。为了量化评估这一能力，UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员，发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

2026年1月12日

79000

开源项目

LTX-2开源：首个联合生成视频与音频的多模态基础模型，突破视听同步技术壁垒

大多数视频模型是哑巴，大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。作为由Lightricks团队开发的首个开源多模态基础模型，LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接，而是通过学习声音与视觉的联合分布，一次性生成包含语音、环境音、动作和时序的同步内容。从技术架构看，LTX-2采用了非对称双流扩散变换器：一个…

2026年1月8日

75000

AI产业动态

Kimi神秘模型Kiwi-do现身竞技场：融资35亿后，多模态K2-VL即将登场？

克雷西发自凹非寺量子位 | 公众号 QbitAI 融资35亿后，Kimi的新模型紧跟着就要来了？！大模型竞技场上，一个名叫Kiwi-do 的神秘模型悄然出现。发现这个新模型的推特网友询问了模型的身份，结果模型自报家门，表示自己来自月之暗面Kimi，训练数据截止到2025年1月。另有网友表示，Kiwi-do表现出了一些有趣的结果，尤其是在竞技场当中…

2026年1月5日

89000

开源项目

华为开源昇腾原生7B多模态模型：端侧部署新标杆，视觉定位与OCR能力全面领先

华为开源昇腾原生7B多模态模型：端侧部署新标杆，视觉定位与OCR能力全面领先 7B量级模型，向来是端侧部署与个人开发者的心头好。其轻量化特性让它能灵活适配各类终端场景，而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。近日，华为重磅推出开源新玩家openPangu-VL-7B，直接瞄准这一核心场景精准发力。作为昇腾原生的模型，ope…

2026年1月5日

94000

大模型工程

英伟达开源NitroGen：通用游戏AI模型，跨千款游戏零样本操作

这流畅的游戏动作，堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成，令人惊叹。最令人震撼的是，上述操作完全由AI完成。与传统的单一游戏自动化脚本不同，这是一个完整的通用大模型，能够玩遍市面上几乎全部的游戏类型。这就是来自英伟达的最新开源基础模型——NitroGen。该模型的训练目标是玩1000款以上的游戏，无论是RPG、平台跳…

2025年12月21日

98000

大模型工程

NitroGen：英伟达开源通用游戏AI模型，可零样本玩转千款游戏

这流畅的游戏操作，堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、攻击一气呵成，令人惊叹。最令人震撼的是，这些操作完全由AI完成。与传统的单一游戏自动化脚本不同，这是一个完整的通用大模型，能够玩遍市面上几乎全部的游戏类型。这就是英伟达最新开源的基础模型——NitroGen。该模型的训练目标是玩转1000款以上的游戏，无论是RPG、平台跳跃、…

2025年12月21日

79000

AI产业动态

AI大模型周报：阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

11月17日【闭源｜语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计，支持最长12小时的录音文件。 11月18日【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

2025年11月24日

78000

AI产业动态

谷歌Nano Banana Pro引爆AI图像生成革命：从硅谷CEO合影到时空坐标推理的全面解析

在人工智能技术飞速发展的今天，图像生成领域迎来了一次里程碑式的突破。谷歌最新发布的Nano Banana Pro（基于Gemini 3 Pro图像模型）不仅刷新了行业认知，更以惊人的真实感和理解能力重新定义了AI图像生成的边界。本文将从技术架构、应用场景、行业影响三个维度，深入剖析这一划时代产品的核心价值。技术架构层面，Nano Banana Pro的成功…

2025年11月23日

81000