大模型推理

  • Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

    Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…

    2天前
    7400
  • MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

    最近,有用户发现了一个有趣的现象:MiniMax的模型在处理“马嘉祺”这个名字时,出现了识别异常。 起初这被认为是个偶然事件。但经过多方测试,该问题在不同接口和平台上均能稳定复现。 甚至有人调侃道:未来如果在OpenRouter上出现一个匿名模型,且它认不出“马嘉祺”,那么它很可能就来自MiniMax。 测试表明,无论是在MiniMax官方的Agent平台,…

    2天前
    10000
  • MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

    由陈天桥带队的大模型团队MiroMind,正式发布了新一代重型推理智能体:MiroThinker-1.7 和 MiroThinker-H1。 “重型”意味着什么?它延续了V1.5版本的深度推理基因,旨在处理更复杂的任务并生成更精确的结果。 在多项深度研究任务的基准测试中,MiroThinker系列表现突出。其中,MiroThinker-H1刷新了多项任务的S…

    3天前
    27300
  • 150美元FPGA平台实现30B MoE大模型边缘推理,18 token/s解码速度突破成本性能极限

    关键词: FPGA 加速器、混合专家模型(MoE)、边缘部署、低成本推理、GEMV 优化 以150美元物料成本和18 token/s的解码速度,FPGA在大语言模型边缘部署领域取得了关键性突破。 在深度学习硬件加速领域,FPGA的定位一直较为特殊。它既不具备GPU那样统治训练市场的极致算力密度,也难以像ASIC那样在特定场景下实现终极能效。长期以来,FPGA…

    3天前
    19000
  • 端侧LLM硬件协同设计新突破:Roofline建模揭示帕累托最优架构,推理效率提升19.42%

    关键词:端侧大语言模型、Roofline 建模、软硬件协同设计、缩放定律、帕累托最优、架构搜索 第一部分:基于 Roofline 建模的端侧大语言模型硬件协同设计缩放律 端侧大语言模型的部署长期面临模型精度与推理效率的核心权衡。现有模型多沿用通用架构范式,缺乏与底层硬件特性深度协同的系统性缩放规律与设计准则。 本文针对这一痛点,基于 Roofline 性能建…

    4天前
    11100
  • DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

    当长上下文成为负担:我们是否真的需要「把一切都塞进推理模型」? 随着对大模型推理能力要求的提升,输入上下文的长度也在不断增长,1M tokens 及以上的上下文窗口正逐渐成为现实。然而,“读得更长”是否必然带来推理能力的提升? 在实际应用中,情况往往并不理想。当推理模型直接处理超长原始文本时,瓶颈往往不再是“不会推理”,而是源于“读不完、读不动、读不准”:*…

    5天前
    12000
  • AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

    大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。 为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…

    6天前
    11200
  • LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破

    无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…

    2026年3月10日
    9600
  • Parallel-Probe:大模型并行推理效率革命,计算浪费减少35.8%

    当大模型推理进入并行思考时代,一个关键问题随之浮现:在并行推理过程中,大量计算资源是否被浪费在了那些已无必要继续的思考路径上? 为探究此问题,来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手,而是首先引入 2D Probing 技术,系统性刻画了在线并行推理的全局动态特性…

    2026年3月7日
    11700
  • Claude独立攻克图论猜想,算法祖师爷高德纳震惊:AI首次被正式记录在数学研究论文中

    近日,Claude独立攻克了一项图论猜想,其成果被正式记录于一篇数学研究论文中。这一事件引发了算法领域泰斗、《计算机程序设计艺术》作者高德纳(Donald Knuth)的深度关注与思考,标志着生成式AI在自动推理与创造性问题求解方面达到了新的里程碑。 高德纳在斯坦福大学官网亲自发布了一篇题为《Claude’s Cycles》的原始论文,开篇即以“…

    2026年3月4日
    24600