大模型推理
-
SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版
SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…
-
ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升
多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…
-
RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃
传统RAG为何低效:冗余与延迟的根源 传统检索增强生成(RAG)流水线通常将检索到的多个文本片段直接拼接,作为上下文输入给大语言模型。然而,这些片段之间往往缺乏紧密的语义关联,导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源,更关键的是,模型将大量时间耗费在了跨片段(cross-chunk)的、近乎无效的注意力计算上,效率低下。 …
-
Meta REFRAG革新RAG架构:30倍提速、16倍上下文、成本减半,彻底解决上下文垃圾问题
你是否遇到过这样的困扰:只想让大模型读取10段关键资料,它却被迫处理100段,导致token消耗激增,响应速度却异常缓慢? 这一行业普遍痛点,如今被Meta提出的全新方案彻底解决。 他们刚刚开源了一个名为 REFRAG 的革新性RAG架构。其核心思想极为直接:在信息输入大模型前,将无关的上下文极度压缩,仅保留并提供真正有用的部分。 实测数据令人印象深刻:* …
-
解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构
解耦推理:从实验室概念到行业标准 2024年,由北京大学金鑫-刘譞哲团队、加州大学圣地亚哥分校Hao AI Lab等机构提出的DistServe系统,首次系统性地阐述了“解耦推理”理念。在短短一年多时间里,这一理念迅速从学术概念演变为行业标准,被NVIDIA、vLLM等主流大模型推理框架采纳,标志着AI推理架构正迈向“模块化智能”的新阶段。 如果说“摩尔定律…
-
OpenAI o1突破语言理解极限:首次展现匹敌人类语言学家的元分析能力
导读:LLM再下一城!伯克利研究证明,OpenAI的o1展现出匹敌人类语言学家的元分析能力。 在人类诸多才能中,语言常被视为最独特的标志。自亚里士多德将人定义为“具有语言的动物”以来,这一观点便深入人心。 尽管当前的大语言模型(如ChatGPT)已能流畅地进行日常对话,但一个根本性问题依然存在:人类语言的深层结构与特质,是否超越了AI的运算体系? 为了探究这…
-
PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析
传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…