大模型推理

  • FlowPrefill:突破LLM推理瓶颈,算子级抢占实现5.6倍吞吐提升与严格SLO保障

    关键词: LLM 服务系统 、预填充、 队头阻塞 、 _ SLO 感知调度_ 、 算子级抢占 、事件驱动调度 当我们正在使用一个智能聊天机器人,输入了一个简短的问题,满怀期待地等待回复。然而, 由于服务器正在处理一个长篇文档总结任务,请求被堵在后面,迟迟得不到响应,眼睁睁看着“正在输入”的提示转个不停 。这种体验像极了早高峰堵车——一辆大货车慢悠悠地走在前面…

    2026年2月25日
    14800
  • COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

    为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…

    2026年2月25日
    13000
  • EmotionThinker:首个面向可解释情感推理的强化学习框架,让SpeechLLM学会“解释情绪”

    语音情感识别(Speech Emotion Recognition, SER)在过去基本遵循同一种范式:输入语音,输出情绪标签。这种设定在工程上有效,但在认知层面却过于简化。 在人类交流中,情绪判断从来不是一个“标签选择”的过程,而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容,以及说话人的身份特征,去解释“为什么”…

    2026年2月25日
    14100
  • SynPerf:混合分析与机器学习融合,GPU性能预测实现6.1%内核误差与1.7倍加速

    关键词:GPU 性能建模、混合建模、大语言模型、硬件泛化性、性能优化 让 AI 学会“自我审视”:在真实硬件运行前,精准预测每一行代码的执行时间。 2025 年的今天,从 Gemini 到 Llama-3,从 Qwen 到 DeepSeek,大型语言模型(LLMs)正在以前所未有的速度重塑我们的生活。这些动辄百亿、千亿参数的“数字大脑”,背后依赖的是成千上万…

    2026年2月25日
    11200
  • 成本与性能的完美平衡:字节豆包Seed 2.0 Lite深度评测,73.9%准确率仅需5.4元/千次调用

    春节前夕,字节跳动正式发布了 Seed 2.0 系列大模型。在先前的评测中,我们已经对该系列的旗舰版本 Doubao-Seed-2.0-pro 进行了详细分析。 在实际的商业落地与开发场景中,模型的成本控制往往与性能表现同等重要。与 Doubao-Seed-2.0-pro 版本同期发布的,还有定位更加轻量、普惠的 Doubao-Seed-2.0-lite 模…

    2026年2月24日
    75900
  • hls4ml:开源FPGA AI编译器革命,微秒级延迟与极致资源效率,一键部署PyTorch/Keras/ONNX模型

    关键词: FPGA 加速 、 _ 高层次综合 (HLS)、_ 模型量化、 硬件-软件协同设计 、低延迟推理、 开源编译器 只需几行 Python 代码——配合简单的配置字典,即可将训练好的神经网络模型一键部署到 FPGA,实现极致低延迟推理。hls4ml 会自动处理量化、并行策略和硬件映射,让你无需手动编写硬件代码。 近年来,深度学习模型在计算机视觉、自然语…

    2026年2月24日
    16200
  • LightRetriever:颠覆传统!千倍提速的LLM检索架构,将计算负担从查询侧彻底移除

    近年来,大模型文本检索(LLM-based Text Retrieval)技术发展迅猛,主流的LLM Embedding模型参数量普遍在7B以上,在相关性搜索性能提升的同时,也带来了部署成本的大幅增长。 传统的LLM Embedding模型通常采用对称式双塔结构,查询(Query)端和文档(Doc)端共享同一个完整的大语言模型。然而,一个长期被忽视的问题是:…

    2026年2月22日
    8400
  • 颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

    造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …

    2026年2月21日
    23300
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    8900
  • 微软Re-TRAC框架:让AI智能体记住失败经验,4B模型性能超越大模型

    想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。 现有的深度…

    2026年2月19日
    9200