月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

今天,月之暗面正式开源了其最新的代码模型 Kimi K2.6

该模型在多项编程与智能体基准测试中表现突出,超越了包括 GPT-4o 和 Claude 3.5 Sonnet 在内的主流闭源模型。同时,K2.6 在长时程编码与大规模智能体协作方面展现了显著的能力提升。

基准测试表现

在编程与智能体相关的基准测试中,K2.6 均取得了领先的成绩。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群
月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

除了编码与智能体任务,K2.6 在推理与视觉任务上也表现不俗:
* Toolathlon: 50.0
* MathVision w/ Python: 93.2
* Charxiv w/ Python: 86.7

社区用户将其与多个先进模型进行了对比,认为 K2.6 是一个综合性能优异的模型。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群
月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

长时程编程:连续编码12小时

K2.6 在长时程代码任务上实现了突破。面对 Rust、Go、Python 等不同语言以及前端、运维等多样化场景,K2.6 展现了可靠的泛化能力。

在一项官方挑战中,K2.6 在本地环境下,历时 12 小时,通过 14 轮 迭代和超过 4000 次 工具调用,完成了下载并部署 Qwen3.5-0.8B 模型的任务。过程中,它选择使用 Zig 语言 重新实现并优化推理过程,最终将吞吐量从 15 tokens/s 提升至 193 tokens/s,性能优于知名工具 LM Studio。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

在另一项针对开源金融引擎 exchange-core 的深度优化任务中,K2.6 通过分析性能火焰图,在 13 小时 的连续作业中修改了 4000 多行 核心代码,调整了线程拓扑结构,最终将系统中位吞吐量提升了 185%,峰值吞吐量提升了 133%

前端设计能力

K2.6 具备进阶的多模态编程能力,能够根据图像或视频素材生成对应的网页代码,实现设计想法的快速落地。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

月之暗面创建了前端开发设计评测标准 Kimi Design Bench,涵盖视觉输入、落地页构建、全栈应用开发等维度。在该评测中,K2.6 相较于 Google AI Studio 中的 Gemini 3 模型展现出了明显优势。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

大规模智能体集群

K2.6 的智能体协作规模得到了大幅扩展,最多可协调 300 个 子智能体并行执行多达 4000 个 协作步骤。智能体集群能够动态分解复杂任务,并调度具备不同技能的智能体互补工作。

在一次实测展示中,面对分析全球 100 个半导体标的的任务,智能体集群自主设计并执行了 5 套量化策略,最终生成了专业的分析模型表格和全套汇报演示文稿。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

与智能体框架的协同

K2.6 的开发加强了对 OpenClaw/Hermes 等智能体框架的适配,在需要长期自主运行的任务中表现更为稳定。官方测试显示,基于 K2.6 的智能体能够 连续自主运行 5 天,其 API 调用在精准度、稳定性和安全性上均有提升。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群
月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

在月之暗面内部的智能体基准测试 Claw Bench 中,K2.6 的综合性能比 K2.5 提升了 10%

探索:智能体群组协调

月之暗面正在小范围测试一个名为“Claw群组”的新功能。该功能允许运行在不同环境、基于不同模型的智能体加入同一个协作群组,每个智能体可携带专属工具和记忆。在此架构中,K2.6 扮演核心协调者的角色,负责任务分配、进度监控与异常处理。

月之暗面Kimi K2.6重磅发布:开源代码模型新王者,连续编码12小时、指挥300Agent集群

结语

Kimi K2.6 的发布,标志着在多个核心的编码与智能体基准测试上,开源模型首次实现了对顶尖闭源模型的全面超越。它将先进的自主智能体能力推向开源社区,有望降低技术应用门槛并加速行业创新。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31337

(0)
上一篇 4天前
下一篇 3天前

相关推荐

  • 嵌套学习与记忆熊:AI记忆革命如何重塑大模型进化路径

    近期,Google Research发表的《Nested Learning: The Illusion of Deep Learning Architectures》论文在业界引发广泛关注,被普遍视为2017年《Attention is All You Need》的“精神续作”。这篇论文之所以获得如此高的评价,关键在于它提出了一种全新的机器学习范式——嵌套学…

    2025年12月3日
    33500
  • MCP Apps提案:从文本交互到可视化界面的范式跃迁,如何重塑AI智能体生态

    作为连接AI模型与数字生态的“神经中枢”,MCP(Model Context Protocol)协议已成为智能体(AI Agent)基础设施的核心组件。然而,长期以来,MCP的交互仅局限于文本和结构化数据交换,这种“盲人摸象”般的体验严重制约了复杂应用场景的落地。近日,MCP社区正式提出MCP Apps提案(SEP-1865),旨在填补这一关键空白:通过规范…

    2025年11月24日
    28900
  • ICML 2026征稿新规深度解析:透明度、责任与学术伦理的范式演进

    作为机器学习领域的顶级会议,国际机器学习大会(ICML)每年都引领着学术研究的前沿方向。近日,ICML 2026(将于2026年7月7日至12日在韩国首尔举办)公布了详细的征稿指南与政策更新,这些变化不仅关乎投稿流程,更折射出整个学术社区在透明度、责任伦理与评审机制上的深刻转型。本文将从多个维度深入剖析这些新规,探讨其对研究者、评审体系乃至整个AI生态的长期…

    2025年11月6日
    1.0K00
  • 从通用到专业:Libcom工作台如何重塑图像合成领域的精准编辑范式

    在2025年AIGC技术持续爆发的浪潮中,图像生成与编辑已成为数字内容创作的核心驱动力。从社交媒体的个性化头像到电商平台的动态海报,再到影视行业的预可视化分镜,AI生成内容正以前所未有的速度渗透至日常创作的各个环节。以Nano Banana、Qwen Edit为代表的通用图像编辑大模型凭借其强大的泛化能力,覆盖了从基础修图到复杂场景构建的广泛需求。特别是Na…

    2025年11月25日
    28600
  • 2025人工智能年度盘点:开源竞速、Agent崛起与产业融合的共生纪元

    2025年,人工智能领域迎来了前所未有的技术爆发与产业融合。这一年,开源与闭源模型的双线竞速、AI Agent的规模化应用、世界模型的商业化落地以及具身智能的全面渗透,共同勾勒出一幅“共生无界”的智能未来图景。 **开源与闭源的边界消融** 2025年初,DeepSeek-R1的横空出世为全年技术叙事定下基调。这款模型不仅在参数规模上实现突破,更在推理效率、…

    2025年12月10日
    30100