LingoEDU：结构化预处理新突破，让大模型生成可溯源，DeepSeek准确率飙升51%

一种名为LingoEDU（简称EDU，即基本话语单元技术）的新方法，能够零成本降低大模型幻觉，让DeepSeek的准确率相对提升51%。

LingoEDU是一个在大模型正式生成前执行的专用「预处理」模型。其核心在于对输入文本进行精准切分，为每一个最小信息单元（EDU）分配唯一的索引标记。这相当于在信息进入主模型思考前，先完成一次结构化的预处理。

LingoEDU示意：将原文拆分成基本语义单元树后，能方便地在多文档问答、文档总结、DeepSearch等应用场景进行高效地上下文处理

这种为信息建立「坐标系」的方式，使得后续所有生成操作都可以溯源。模型输出的任何内容都能精确对应到原文的具体位置，将“生成”关进了“可追溯”的笼子里。如果生成的每句话都能精准追溯并核验原文，幻觉问题便能在最大程度上被解决。

总结而言，LingoEDU的核心是对上下文进行结构化精准切分，形成富含结构和语义信息的篇章结构树。每个节点都是一个完整的基本话语单元，节点间通过清晰的层级关系连接。

LingoEDU具备以下优点：
1. 所形成的最小信息单元完整保留了原文的「语义信息」，同时确保了节点信息的完整性和节点间信息的连贯性。
2. 使得上下文包含精准的「结构信息」，便于高效压缩，从而提升生成准确性。

实验结果显示，LingoEDU在切分准确性指标上显著超过所有基线模型，在成本和效率上也显著优于通用大模型方法。该技术能够零成本适配所有大模型。在被誉为“AGI终极试炼”的HLE榜单上，DeepSeek-R1的准确率为9.0%，使用EDU后准确率提升至13.6%，准确率相对提升51%。

这项研究由深言科技联合清华大学NLP实验室提出。

现有方案的两难困境

大模型产生幻觉的核心原因，从输出侧看可归结为其基于概率生成“合理下一个词”的技术范式；从输入侧看，则是由于上下文过长，模型容易在海量信息中「迷路」，无法准确理解全部内容，从而产生不忠实于原文的输出。

前者是技术固有特征，后者则可在一定程度上被规范。一个自然的解决思路是：在将文档输入模型前，先进行预处理，压缩冗余、保留必要信息，以降低幻觉风险，同时提升处理效率和降低成本。

然而，现有方案主要分为两类，均存在明显缺陷：

显式压缩：看得见，但读不懂

这类方法直接对文本「动刀」，例如删除不重要的词句。问题在于，其操作往往基于单个词（Token）或粗糙的句子级别，容易将句子切得支离破碎。例如，原文「因为天气恶劣，航班被迫延误」可能被压缩为「天气恶劣，航班延误」——虽然保留了关键词，但因果关系变得模糊。对模型而言，这如同阅读一篇被打上马赛克的文章，难以准确理解原意。

隐式压缩：效率高，但成了黑盒

另一类方法是将文本压缩成向量表示（即“Gist Tokens”），相当于将整段话「浓缩」成一个黑盒表示。这种方法效率高，但问题在于模型完全看不到原文，只能依赖这个抽象向量。这就像让人仅凭一张照片的缩略图来描述细节，极易产生误解和臆测。

我们需要的是什么？

归根结底，我们需要一种「两全其美」的方法：既保留文本的可读形式、避免黑盒带来的幻觉，又能维持语义的完整性、避免碎片化导致的连贯性丧失。这就需要找到一种合适的切分方式，能将文档拆解成满足以上需求的信息块，作为文档处理与大模型生成的基础。

核心方法

研究团队提出了全新框架LingoEDU，其核心目标是提升文档处理的可溯源性与生成质量。该方法包含两个核心部分：以忠实度为导向的输入/输出设计，以及一套严格的自我修正数据合成流程。

LingoEDU方法示意图

训练方法侧：基于EDU的忠实度

忠实度意味着可溯源性。团队通过将生成过程完全锚定在预定义的每一个EDU上，来实现这一目标。

1. EDU表示策略：前置唯一索引标记，为模型创建参考坐标系
* 选择句子作为EDU：不同于大多方案选用Token或段落，该项目选择句子作为操作单元。与Token相比，句子包含完整的语义命题，减少了碎片化；与段落相比，句子在不同文体中长度分布更稳定，便于模型建模。
* 关键创新：团队在输入嵌入（Embedding）中为每个EDU前置了唯一的索引标记，为模型创建了一个明确的参考坐标系。通过明确的位置表示，方便大模型进行可溯源生成，从而提升生成内容的忠实度。

2. 增强型结构生成：让模型「引用」而非「创作」
* 指针机制：为了保证结构忠实于原文，项目采用了增强型Markdown模式。模型被训练为输出指向EDU的“指针”，而不是重新生成文本内容。生成的节点格式如下：

* 消除幻觉：通过解码这个范围标记，可以将生成的结构无损地映射回原文的物理位置，从而有效消除了“位置幻觉”，从根本上杜绝了“凭空捏造”的可能。

3. 受限解码：从物理上阻止幻觉
为了进一步确保忠实度，项目在推理阶段施加了严格的词法约束。当模型生成范围标记中的数字时，可选的词表被严格限制为当前输入中实际存在的索引。这如同给模型戴上了一副“有色眼镜”——它只能“看到”真实存在的选项，从物理上阻止了编造不存在引用的可能性。

训练数据侧：基于分解的可扩展数据合成

这部分工作的核心是生产高质量的拆分数据用于模型训练。为了解决高质量、对齐的结构化数据稀缺的问题，项目引入了一个自动化流水线，其核心思想是在“角色”和“任务颗粒度”两个维度上进行分解。

1. 利用生成对抗的思想提升数据质量
* 项目实施了一种迭代优化机制，引入两个不同的代理：
* 求解器（The Solver）：提出初步的EDU层级分解方案。
* 批评家（The Critic）：审计提案的语义连贯性和边界精确度，只提供口头反馈，不直接修改结构。
* 这种对抗式协作迫使求解器重新思考模糊的边界，显著减少了在长文本场景下的性能退化。

2. 双层任务分解（Bi-Level Task Decomposition）

核心作用：区分「结构信息」和「语义信息」，提升模型切分的准确性
* 团队认识到，文档结构化涉及两类本质不同的子任务：
* 显性布局提取（Explicit Layout Extraction）：这类任务确定性高，例如识别标题、列表、代码块等格式元素。模型主要依赖视觉和格式线索来构建骨架。
* 深度语义分割（Deep Semantic Segmentation）：这类任务歧义性高，模型专注于大段文本内的语义转换，划分更细粒度的EDU。
* 这种分离避免了端到端方法中常见的“指令冲突”（Instruction Conflict），即防止模型混淆视觉布局与语义逻辑，从而提升了训练数据的整体质量。

LingoEDU让DeepSeek准确率相对提升51%

语义切分效果实验

为了验证LingoEDU的切分效果，研究团队构建了一个由248篇文章（包含网页和PDF文件）组成的语义切分评测数据集。在该数据集上，将本项目采用的切分方法与多种基线方法进行了对比，主要评估指标为树编辑距离（TED，Tree Edit Distance）和文章级别准确率（DLA，Document Level Accuracy），同时也对处理成本和效率进行了分析。

实验结果表明，本项目的方法在切分准确性指标（TED和DLA）上显著优于所有基线模型，并且在成本与效率方面也显著超越了所有基于通用大模型的方法。

下游应用效果实验

相较于线性的原始文本，经过精细化切分后得到的语义单元树能提供更丰富的结构化信息和更细粒度的信息管理与压缩能力，从而提升模型生成的准确性。同时，由于信息表达方式与原始文本保持一致，该技术可以便捷地应用于各类下游任务。

在被誉为中文网页检索天花板难度测试集的 BrowseComp-ZH 上，为各大模型的LLM API结合检索增强生成（RAG）技术叠加EDU技术后，准确率均获得提升。其中，DeepSeek V3.1的准确率提升幅度接近一倍，达到18.7%。

在被称为“AGI终极试炼”的HLE（Humanity’s Last Exam，人类最后的考试）测评集上，官方对行业头部大模型的准确率测评结果如下：

在适配EDU技术后，各模型的准确率均有明显提升。其中，DeepSeek R1的提升幅度较大，从9.0%提升至13.6%，相对提升率达到51%。

此外，团队也在LongBench（包含多文档问答、摘要总结和少样本学习等任务）上进行了对比实验，以Gemini-2.5-Pro和GPT-4.1为代表模型，验证LingoEDU的效果。实验结果显示，LingoEDU能够提升模型在LongBench所有摘要总结、多文档问答等子任务上的表现。

核心价值

价值点一：解决行业核心痛点——根治“幻觉”，让AI生成更可信

核心：直接应对当前大模型应用中最受诟病、也最影响商用的“幻觉”问题。LingoEDU并非“缓解”，而是通过结构性变革“根治”幻觉。
技术原理：LingoEDU（基本语义单元）技术将文本拆解为一棵「语义树」。AI的每一次生成，都如同在树上「按图索骥」，能够精准锚定到原文的具体句子，从源头上杜绝信息的编造与偏离。
可溯源生成：生成的每个结论都能追溯到原文的精确位置，使AI做到「引用」而非「重写」，从而保证100%的文本忠实度。

价值点二：实现革命性效率——高效降本，实现智能“管理”

核心：将超长文本的处理从粗放的压缩升级为“智能信息管理”，提供更优的投入产出比。
模式升级：传统的上下文处理是「粗放式压缩」，而LingoEDU进行的是「精细化信息管理」。它提供的不是更短的文本，而是结构更清晰、语义更完整的「文本地图」。
成本效益：实验证明，本项目所采用的方法在取得最高切分精度的同时，其成本与效率显著优于调用通用大模型。这意味着用户能以更低的计算开销，获得更准确、更可靠的AI处理结果。
普适性增强：这棵「语义树」是一个通用的能力增强器。无论是长文档问答、摘要总结还是复杂推理，它都能让现有模型的性能获得普适性提升。

价值点三：彰显技术领导力——定义新标准，从“黑盒”走向“白盒”

核心：将LingoEDU定位为一次重要的技术范式演进，引领行业走向可解释、可控制的AI。
可信AI实践：AI应用正从追求「效果惊艳」走向要求「流程可信」。忠实度意味着可溯源性，LingoEDU正是这一理念的工程化实践，推动AI从「黑盒魔术」走向「白盒工程」。
技术创新：开创了「基于分解的可扩展数据合成」流程，通过「求解器-批评家」循环与双层任务分解，自动化生产高质量训练数据，解决了该领域数据稀缺的核心瓶颈，构建了坚实的技术壁垒。
定义新标准：LingoEDU不仅是一项技术，更是为下一代可信AI基础设施提供的一个关键模块。它定义了如何让大模型更可靠地理解与处理人类复杂知识的新标准。

论文链接：
https://arxiv.org/pdf/2512.14244

GitHub开源链接：
https://github.com/DeepLangAI/LingoEDU

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17020

LingoEDU：结构化预处理新突破，让大模型生成可溯源，DeepSeek准确率飙升51%

LingoEDU：结构化预处理新突破，让大模型生成可溯源，DeepSeek准确率飙升51%

现有方案的两难困境

显式压缩：看得见，但读不懂

隐式压缩：效率高，但成了黑盒

我们需要的是什么？

核心方法

训练方法侧：基于EDU的忠实度

训练数据侧：基于分解的可扩展数据合成

LingoEDU让DeepSeek准确率相对提升51%

语义切分效果实验

下游应用效果实验

核心价值

价值点一：解决行业核心痛点——根治“幻觉”，让AI生成更可信

价值点二：实现革命性效率——高效降本，实现智能“管理”

价值点三：彰显技术领导力——定义新标准，从“黑盒”走向“白盒”

相关推荐

OpenMemory：开源AI长期记忆系统，为聊天机器人装上“人工大脑”

CGO’25 新突破：基于MLIR的持久化e-graph技术，彻底解决编译器阶段顺序难题

生产级 Agentic AI 系统的 7 层架构详解

AI Agent部署的95%失败率真相：Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

DualCamCtrl：几何感知扩散模型革新视频生成，相机运动误差降低40%