token效率

京东发布JoyAI-LLM Flash：480亿参数仅激活2.7B，稀疏率超94%的MoE大模型，重新定义token效率与性能平衡

一个拥有480亿参数的大模型，每次推理仅激活其中2.7B参数——稀疏率超过94%。在18个基准测试的平均表现中，它以更低的token消耗达到了与同级甚至更大模型相当或更优的准确率。这就是京东发布的JoyAI-LLM Flash。论文指出，当前大语言模型面临两大交织挑战：token效率低下与计算成本高昂。JoyAI-LLM Flash正是为此而生——一个在5…

2026年4月7日

479001

AI产业动态

Claude Opus 4.6实测：准确率跃升5.6%，成本骤降34%，自适应思考机制显威

Anthropic发布了Claude Opus 4.6新版本，官方定位为“最智能的模型”，主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本，新版本在架构上进行了多项升级，包括首次在Opus级别支持100万token上下文窗口、引入自适应思考（adaptive thinking）机制等。我们对这两个版本进行了全面的对比评测，测试其…

2026年2月10日

1.2K000

AI产业动态

TOON vs JSON：为LLM优化的结构化数据格式革命

在提示词日益冗长、AI模型愈发强大的当下，一个核心问题反复浮现：如何同时降低使用成本和处理时间？在以编程方式使用大语言模型时，结构化输出已成为标准实践。开发者可以要求模型按特定格式输出，例如JSON。通过定义一个模型架构并阐明各字段含义，AI会尽力理解上下文，并在其能力范围内填充输出。这使得处理AI的响应变得前所未有的便捷。然而，输入环节呢？即便我们能…

2026年1月31日

380000

AI产业动态

开源压缩工具caveman-compression：如何通过语言优化将大模型API成本降低40%以上

随着大模型API的广泛应用，开发者面临日益增长的token成本压力。每月数千甚至上万元的API账单已成为许多AI项目的沉重负担。在这种背景下，开源项目caveman-compression提供了一种创新的解决方案：通过语言压缩技术，在保持语义完整性的前提下，显著减少token消耗，从而实现成本的大幅降低。 ### 语言压缩的核心原理：利用大模型的补全能力 c…

2025年11月20日

411000