MoE架构_鲸林向海

DeepSeek开源Engram模块：查算分离破解Transformer/MoE架构记忆推理冲突，开启大模型降本增效新范式

本文将从技术原理、性能验证、算力变革、产业链影响、国际对比及挑战展望六大维度，深度解析这一技术突破的核心价值与行业影响。 2026年1月13日，AI领域迎来一项颠覆性技术突破——DeepSeek在其GitHub官方仓库正式开源了题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity …

2026年1月24日

37000

大模型评测

美团LongCat-Flash-Thinking-2601实测：5600亿参数MoE推理模型，免费但响应慢6倍？

美团近期发布了LongCat-Flash-Thinking-2601模型，作为一款基于MoE架构的5600亿参数大型推理模型，官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测，测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现：* 测试题数：约1.5万* 总分（准确…

2026年1月23日

41000

AI产业动态

AI模型周报：阶跃星辰GUI Agent破纪录，Mistral 3系列开源引领多模态浪潮

12月1日【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero，首次将GUI Agent模型与完整的配套基础设施同步开放，支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录，取得了SOTA成绩。此外，阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily，旨…

2025年12月8日

122000

大模型评测

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家（MoE）架构，总参数 406B，激活参数 32B，支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和…

2025年12月6日

77000

AI产业动态

AI前沿速递：美团LongCat与Moonshot Kimi-K2引领多模态与思考模型新突破

11月3日【开源】美团发布 LongCat-Flash-Omni-FP8，这是一个拥有 5600 亿参数（激活 270 亿）的开源全模态模型，专精于实时音视频交互。该模型采用高性能捷径连接混合专家（MoE）架构，并整合了零计算专家、高效的多模态感知模块与语音重建模块。通过课程启发式渐进训练策略，它在保持强大单模态能力的同时，实现了全面的多模态理解与生成能…

2025年11月10日

79000

AI产业动态

AI前沿速递：长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

10月26日【开源】美团LongCat-Video视频生成模型美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分，原生支持文生视频、图生视频、视频续写三大核心任务，能够实现分钟级长视频的连贯生成，从根源上保障了跨帧时序一致性与物理运动的合理性。模型链接…

2025年11月3日

74000

AI产业动态

Ling-1T技术解析：蚂蚁集团如何通过“Every Activation Boosted”哲学重塑万亿参数推理模型范式

近日，AI领域权威吴恩达在其《The Batch Newsletter》中重点分析了蚂蚁集团最新开源模型Ling-1T，指出这款非推理（non-reasoning）模型在性能上直逼业界顶尖闭源模型，这一现象背后隐藏着重要的技术转向。吴恩达特别强调，Ling-1T在预训练阶段就强化了思维链（CoT）能力，这种做法“正在模糊推理与非推理模型之间的界限”。这一观察…

2025年10月29日

76000