稀疏模型_鲸林向海

DeepSeek开源条件记忆模块：让Transformer告别“苦力活”，27B模型性能碾压MoE

DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制，旨在弥补其原生缺乏高效知识检索能力的短板。研究团队在论文结论中明确指出：条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。该研究由梁文锋署名，并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。论文不仅…

2026年1月13日

101000

开源项目

微软开源Sigma-MoE-Tiny：40:1极致稀疏比MoE模型，0.5B激活参数实现10B级性能突破

关键词： Mixture-of-Experts (MoE)、超高频稀疏度、渐进稀疏化调度、Sigma-MoE-Tiny、专家负载均衡一次对 MoE 架构负载均衡机制的深度剖析与重构 SIGMA-MOE-TINY TECHNICAL REPORT https://qghuxmu.github.io/Sigma-MoE-Tiny https://github.…

2026年1月10日

55000

AI产业动态

OpenAI稀疏模型研究：以结构简化推动神经网络可解释性新突破

在人工智能领域，模型的可解释性一直是制约技术深度应用与安全发展的关键瓶颈。近日，OpenAI发布了一项关于稀疏模型训练方法的研究论文，旨在通过改变神经网络的结构特性，为理解大语言模型的内部工作机制提供新的路径。这一研究不仅体现了OpenAI在模型透明度方面的持续探索，也为整个AI社区的可解释性研究带来了重要启示。传统的大语言模型（如GPT系列）通常采用密集…

2025年11月15日

85000

AI产业动态

OpenAI突破性研究：稀疏模型为AI可解释性开辟新路径

在人工智能技术快速发展的今天，大语言模型已成为推动科技进步的核心引擎。然而，这些模型普遍存在的“黑箱”特性，使得研究人员难以深入理解其内部决策机制。这种透明度的缺失不仅限制了模型的可靠性评估，更在医疗诊断、金融风控等关键应用场景中埋下了潜在风险。OpenAI最新发布的研究成果，通过训练稀疏模型探索机械可解释性，为解决这一根本性挑战提供了创新性的技术路径。可…

2025年11月14日

83000