Agent模型

  • Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

    凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。 长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更…

    2026年2月6日
    15400
  • MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

    30B的小模型,竟然在重量级Agent基准测试上,超越了万亿参数的Kimi K2T? MiroThinker v1.5的开源,似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代,其背后以“交互深度”为核心的训练思想,可能正在定义Agent发展的新范式。 L3的影子 过去几年,AI性能的提升主要围绕两个轴心:数据规模与上下文长度。然而到了20…

    2026年1月8日
    19800