大模型推理
-
Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍
Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…
-
MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象
最近,有用户发现了一个有趣的现象:MiniMax的模型在处理“马嘉祺”这个名字时,出现了识别异常。 起初这被认为是个偶然事件。但经过多方测试,该问题在不同接口和平台上均能稳定复现。 甚至有人调侃道:未来如果在OpenRouter上出现一个匿名模型,且它认不出“马嘉祺”,那么它很可能就来自MiniMax。 测试表明,无论是在MiniMax官方的Agent平台,…
-
Parallel-Probe:大模型并行推理效率革命,计算浪费减少35.8%
当大模型推理进入并行思考时代,一个关键问题随之浮现:在并行推理过程中,大量计算资源是否被浪费在了那些已无必要继续的思考路径上? 为探究此问题,来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手,而是首先引入 2D Probing 技术,系统性刻画了在线并行推理的全局动态特性…
-
北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
关键词: Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡 近年来,大型语言模型(LLM)的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色,交互回合有限,上下文相对较短。然而,随着技术的发展,LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体(Agent)系统。这类系统通过多轮交互与环境(如代码解释器、浏览器、终端…
-
COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩
为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…
-
颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达
造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …
-
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍
今天凌晨,谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA(State-of-the-Art)记录,实现了推理能力的大幅跃升。 在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和C…
-
通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破
短的结论:开源战神部队的排头兵 基本情况: Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。 其单位Token的推理性能也达到了前所未有的优秀水平。要…
-
华为发布扩散语言模型Agent:部分场景效率飙升8倍,开启AI智能体新范式
大模型通往现实世界的“最后三公里”:Agent范式迎来效率革命 当前,衡量AI智能体(Agent)能力的标准已发生深刻变化。核心不再仅仅是“答对问题”,而是看其能否在面对多轮推理、工具调用及复杂协作时,以最短的路径和最少的交互成本,稳定地完成任务。 在此背景下,一个根本性问题凸显出来:当Agent的框架、工具、数据和训练方式均保持一致时,仅改变其底层语言模型…
-
扩散语言模型:从架构挑战到推理优化的深度探索
★ 原文链接:https://zhuanlan.zhihu.com/p/1998418717743289472 作者:王云鹤 在思考这一主题时,我首先回想起多年前一位前辈提出的问题:Transformer的下一代范式是什么? 我当时认为,Transformer是长期技术积累从量变到质变的成果,其思想(如Non-local模块)在早期视觉研究中已有体现,而卷积…
