大模型推理

NCCL EP统一MoE通信生态：打破碎片化，加速大模型推理新纪元

关键词： MoE（Mixture-of-Experts）、NCCL、GPU 通信、Device-Initiated Communication、大模型推理在通往通用人工智能的道路上，模型规模正以前所未有的速度扩张。当稠密的 Transformer 模型在计算和参数效率上触及瓶颈时，混合专家（Mixture-of-Experts, MoE）架构凭借其“加人加…

2026年3月26日

589000

大模型推理

1比特注意力革命：BinaryAttention实现2倍FlashAttention2加速，突破Transformer部署瓶颈

关键词： Transformer、二值注意力、硬件加速、极低比特量化当注意力机制被“瘦身”到极致。 Transformer 架构的成功，很大程度上归功于其强大的注意力机制，它能捕捉序列中任意两个位置之间的依赖关系。然而，这种能力是有代价的：注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中，当处理高分辨率图像（如 1024×1…

2026年3月24日

337000

大模型推理

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

随着多模态大语言模型（MLLM）支持的上下文长度不断增长，高分辨率图像和长视频输入会产生远多于文本的视觉标记（Token）。在自注意力机制二次计算复杂度的制约下，这些海量视觉Token迅速成为模型推理效率的瓶颈。现有研究通常采用渐进式剪枝来减少视觉Token，但大多采用固定的剪枝策略，未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。通过对MLL…

2026年3月23日

346000

大模型推理

Meta MobileLLM-Flash：以真实延迟为第一性原理，重塑端侧大模型设计范式

关键词：端侧大模型、延迟感知、硬件在环、架构搜索、混合注意力当你对着手机上的 AI 助手提问，然后等待……1 秒、2 秒、3 秒……直到第 10 秒，才看到第一个字出现。根据尼尔森定律，这种超过 4 秒的延迟，已足以让用户感到焦躁甚至放弃使用。这正是当前端侧大模型在追求“智能”时，常常忽略的“人性化”痛点。业界普遍认为，模型的“快”等同于参数少、计算量低…

2026年3月23日

388000

大模型推理

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍当前大语言模型在推理任务上表现出色，但在需要多步骤、长上下文的精确计算任务中，其表现仍不理想。为此，一项获得卡帕西点赞的新研究提出了一种根本性解决方案：在大模型内部直接构建一台原生计算机。该方法摒弃了依赖外部工具的“外包”模式，创新性地在Transformer的权重中内嵌了…

2026年3月17日

408000

大模型推理

MiniMax模型惊现“马嘉祺”识别Bug：Tokenizer机制缺陷引发“幽灵编辑”现象

最近，有用户发现了一个有趣的现象：MiniMax的模型在处理“马嘉祺”这个名字时，出现了识别异常。起初这被认为是个偶然事件。但经过多方测试，该问题在不同接口和平台上均能稳定复现。甚至有人调侃道：未来如果在OpenRouter上出现一个匿名模型，且它认不出“马嘉祺”，那么它很可能就来自MiniMax。测试表明，无论是在MiniMax官方的Agent平台，…

2026年3月17日

730000

大模型推理

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

由陈天桥带队的大模型团队MiroMind，正式发布了新一代重型推理智能体：MiroThinker-1.7 和 MiroThinker-H1。 “重型”意味着什么？它延续了V1.5版本的深度推理基因，旨在处理更复杂的任务并生成更精确的结果。在多项深度研究任务的基准测试中，MiroThinker系列表现突出。其中，MiroThinker-H1刷新了多项任务的S…

2026年3月16日

831000

大模型推理

150美元FPGA平台实现30B MoE大模型边缘推理，18 token/s解码速度突破成本性能极限

关键词： FPGA 加速器、混合专家模型（MoE）、边缘部署、低成本推理、GEMV 优化以150美元物料成本和18 token/s的解码速度，FPGA在大语言模型边缘部署领域取得了关键性突破。在深度学习硬件加速领域，FPGA的定位一直较为特殊。它既不具备GPU那样统治训练市场的极致算力密度，也难以像ASIC那样在特定场景下实现终极能效。长期以来，FPGA…

2026年3月16日

740000

大模型推理

端侧LLM硬件协同设计新突破：Roofline建模揭示帕累托最优架构，推理效率提升19.42%

关键词：端侧大语言模型、Roofline 建模、软硬件协同设计、缩放定律、帕累托最优、架构搜索第一部分：基于 Roofline 建模的端侧大语言模型硬件协同设计缩放律端侧大语言模型的部署长期面临模型精度与推理效率的核心权衡。现有模型多沿用通用架构范式，缺乏与底层硬件特性深度协同的系统性缩放规律与设计准则。本文针对这一痛点，基于 Roofline 性能建…

2026年3月15日

391000

大模型推理

DRIFT框架：将知识获取与逻辑推理解耦，破解长上下文推理效率瓶颈

当长上下文成为负担：我们是否真的需要「把一切都塞进推理模型」？随着对大模型推理能力要求的提升，输入上下文的长度也在不断增长，1M tokens 及以上的上下文窗口正逐渐成为现实。然而，“读得更长”是否必然带来推理能力的提升？在实际应用中，情况往往并不理想。当推理模型直接处理超长原始文本时，瓶颈往往不再是“不会推理”，而是源于“读不完、读不动、读不准”：*…

2026年3月14日

369000

分类

排序

大模型推理

NCCL EP统一MoE通信生态：打破碎片化，加速大模型推理新纪元

1比特注意力革命：BinaryAttention实现2倍FlashAttention2加速，突破Transformer部署瓶颈

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

Meta MobileLLM-Flash：以真实延迟为第一性原理，重塑端侧大模型设计范式

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍

MiniMax模型惊现“马嘉祺”识别Bug：Tokenizer机制缺陷引发“幽灵编辑”现象

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

150美元FPGA平台实现30B MoE大模型边缘推理，18 token/s解码速度突破成本性能极限

端侧LLM硬件协同设计新突破：Roofline建模揭示帕累托最优架构，推理效率提升19.42%

DRIFT框架：将知识获取与逻辑推理解耦，破解长上下文推理效率瓶颈