大模型训练_第2页

8元跑通RL全流程！潞晨云微调SDK：算法与Infra解耦，1人顶替整支团队

大模型下半场的战火，已经从“暴力预训练”烧向了“后训练”战场。无论是OpenAI o1的推理突破，还是DeepSeek-R1靠强化学习（RL）实现的性能飞跃，都释放了一个明确信号：决定模型天花板的，不再只是算力堆砌，而是更精准的微调和RL迭代。但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优，像一道道高墙，把无数算法工程师挡在了“炼…

2026年1月7日

72000

大模型训练

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

Transformer 架构已经深刻改变了世界，但它并非完美无缺，线性递归（Linear Recurrences）或状态空间模型（SSM）等竞争者正试图在保持模型质量的同时，显著提升计算性能和效率。然而，现有的线性递归或状态空间模型虽然在理论上具有线性复杂度，但在高性能 GPU 上的实际表现往往不尽如人意，受限于内存带宽和全局同步带来的高昂通信成本。近日…

2026年1月7日

69000

大模型训练

MobileRL：突破端侧GUI智能体训练瓶颈，AndroidWorld成功率超80%的强化学习新框架

关键词：MobileRL框架、端侧GUI智能体、强化学习、ADAGRPO算法、Android基准测试 MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents https://arxiv.org/pdf/2509.18119 代码：https://github.com/THUD…

2026年1月6日

55000

大模型训练

2026年LLM微调全指南：从基础概念到实战应用的完整路径

这不是一篇“速读”文章，但如果你能读到最后，作为一名 AI 从业者，你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然，本文无法涵盖所有细节；对各个概念、方法与工具的详略安排，均基于其重要性与相关性。 LLM finetuning 是什么？LLM（Large Language Model）是在海量通用文本上预训练的语言模型。➡ LLM …

2026年1月4日

79000

大模型训练

Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

“超级智能”是 Meta 长期坚持的宏大愿景，其目标是构建能够超越人类专家水平的自主 AI 智能体。然而，这一雄心勃勃的目标也引发了内部的不同声音。前 Meta FAIR 负责人 Yann LeCun 曾评论道：“通往超级智能…在我看来完全是胡扯，这条路根本行不通。” 尽管如此，Meta 的研究仍在持续推进。在 AI 智能体应用的典型领域——编程中，基于大语…

2026年1月2日

80000

大模型训练

Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

“超级智能”是 Meta 长期坚持的宏大愿景。为了加速实现这一目标，Meta 的研究部门正经历着深刻的变革。尽管前 FAIR 负责人 Yann LeCun 曾对某些实现路径表示质疑，但构建一个能够超越人类专家水平的自主 AI 智能体，无疑是人工智能领域最具雄心的前沿目标之一。在众多落地领域中，编程是 AI 智能体执行任务的代表性场景。当前，基于大语言模型（…

2026年1月2日

86000

大模型训练

DeepSeek突破残差连接瓶颈：流形约束超连接架构让千亿参数模型训练更稳定

2026年开年，DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位，提出了一种全新的网络连接方式。残差连接的隐形天花板残差连接（Residual Connection）自ResNet提出以来，已成为深度学习的核心组件。它通过一个简单的加法操作 x…

2026年1月2日

71000

大模型训练

尤洋教授深度剖析：算力转化瓶颈与AGI突破路径

2026年即将到来，AI的发展已经进入一个新阶段：我们取得了惊人成就，却也同时面临进一步增长的瓶颈。新加坡国立大学（NUS）的尤洋教授近期发表了一篇深度分析：《智能增长的瓶颈》。在这篇分析文章中，尤洋教授从技术本质出发，直指智能增长的核心矛盾，并揭示了AGI（通用人工智能）的可能路径。核心观点智能增长的本质不是架构变革，而是算力如何转化为智能：AI的…

2025年12月31日

110000

大模型训练

SonicMoE：开源软硬件协同加速方案，64块H100媲美96块性能，实现45%内存节省与1.86倍吞吐量提升

关键词：混合专家模型（MoE）、SonicMoE、GPU 内核优化、内存高效算法、令牌舍入路由、细粒度稀疏 MoE SonicMoE 已开源，方案基于 CuTe-DSL 实现并提供 PyTorch 接口，采用宽松许可证：github.com/Dao-AILab/sonic-moe。未来研究将围绕两方面展开：一是扩展到 FP8、MXFP8、MXFP4 等低精度…

2025年12月23日

152000

大模型训练

350M小模型精度性能双超ChatGPT！靶向微调方案大幅提升智能体工具调用能力

Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning* https://arxiv.org/pdf/2512.15943 随着各机构大规模采用生成式人工智能（AI），模型成本优化与运营效率已成…

2025年12月22日

116011