今天,月之暗面正式开源了其最新的代码模型 Kimi K2.6。
该模型在多项编程与智能体基准测试中表现突出,超越了包括 GPT-4o 和 Claude 3.5 Sonnet 在内的主流闭源模型。同时,K2.6 在长时程编码与大规模智能体协作方面展现了显著的能力提升。
基准测试表现
在编程与智能体相关的基准测试中,K2.6 均取得了领先的成绩。


除了编码与智能体任务,K2.6 在推理与视觉任务上也表现不俗:
* Toolathlon: 50.0
* MathVision w/ Python: 93.2
* Charxiv w/ Python: 86.7
社区用户将其与多个先进模型进行了对比,认为 K2.6 是一个综合性能优异的模型。


长时程编程:连续编码12小时
K2.6 在长时程代码任务上实现了突破。面对 Rust、Go、Python 等不同语言以及前端、运维等多样化场景,K2.6 展现了可靠的泛化能力。
在一项官方挑战中,K2.6 在本地环境下,历时 12 小时,通过 14 轮 迭代和超过 4000 次 工具调用,完成了下载并部署 Qwen3.5-0.8B 模型的任务。过程中,它选择使用 Zig 语言 重新实现并优化推理过程,最终将吞吐量从 15 tokens/s 提升至 193 tokens/s,性能优于知名工具 LM Studio。

在另一项针对开源金融引擎 exchange-core 的深度优化任务中,K2.6 通过分析性能火焰图,在 13 小时 的连续作业中修改了 4000 多行 核心代码,调整了线程拓扑结构,最终将系统中位吞吐量提升了 185%,峰值吞吐量提升了 133%。
前端设计能力
K2.6 具备进阶的多模态编程能力,能够根据图像或视频素材生成对应的网页代码,实现设计想法的快速落地。

月之暗面创建了前端开发设计评测标准 Kimi Design Bench,涵盖视觉输入、落地页构建、全栈应用开发等维度。在该评测中,K2.6 相较于 Google AI Studio 中的 Gemini 3 模型展现出了明显优势。

大规模智能体集群
K2.6 的智能体协作规模得到了大幅扩展,最多可协调 300 个 子智能体并行执行多达 4000 个 协作步骤。智能体集群能够动态分解复杂任务,并调度具备不同技能的智能体互补工作。
在一次实测展示中,面对分析全球 100 个半导体标的的任务,智能体集群自主设计并执行了 5 套量化策略,最终生成了专业的分析模型表格和全套汇报演示文稿。

与智能体框架的协同
K2.6 的开发加强了对 OpenClaw/Hermes 等智能体框架的适配,在需要长期自主运行的任务中表现更为稳定。官方测试显示,基于 K2.6 的智能体能够 连续自主运行 5 天,其 API 调用在精准度、稳定性和安全性上均有提升。


在月之暗面内部的智能体基准测试 Claw Bench 中,K2.6 的综合性能比 K2.5 提升了 10%。
探索:智能体群组协调
月之暗面正在小范围测试一个名为“Claw群组”的新功能。该功能允许运行在不同环境、基于不同模型的智能体加入同一个协作群组,每个智能体可携带专属工具和记忆。在此架构中,K2.6 扮演核心协调者的角色,负责任务分配、进度监控与异常处理。

结语
Kimi K2.6 的发布,标志着在多个核心的编码与智能体基准测试上,开源模型首次实现了对顶尖闭源模型的全面超越。它将先进的自主智能体能力推向开源社区,有望降低技术应用门槛并加速行业创新。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31337

