大模型工程

智算新纪元：2026超万卡集群技术演进与产业协同全景解析

自ChatGPT发布以来，全球科技产业迎来大模型创新浪潮，数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型，各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间，大模型参数量从万亿级向十万亿级跨越，多模态、超长序列、实时交互等场景的爆发式增长，推动智算基础设施迎来代际升级，超万卡集群已从“军备竞赛标配”转变…

大模型工程 2026年2月23日

323000

大模型工程

卡帕西力荐NanoClaw：仅4000行代码的AI执行中枢，开启本地化智能新纪元

自从OpenClaw爆火后，各种Claw开始轮番登场。 Nano Claw 、Zero Claw 、Pico Claw 刷屏，连卡帕西都坐不住了，为了“抓虾”，他一个百米冲刺奔向苹果店抢Mac Mini，要好好拆解一番爆火的各种Claw们。店员还奇了怪了，一脸懵地跟卡帕西嘟囔：不知道为啥，这玩意儿最近卖爆了…… 大神顺利购入Mac Mini过后，心满意足一…

2026年2月22日

371000

大模型工程

GitHub开源30+真实OpenClaw应用案例：从信息聚合到自动化运维的实战指南

最近在 GitHub 发现了一个有趣的仓库，专门收集 OpenClaw 的真实应用案例。许多用户在安装 OpenClaw 后，往往会陷入一个循环：不断添加各种 Skill，在 ClawHub 中寻找新功能，今天安装天气查询，明天添加股票分析，后天又集成翻译助手。然而，安装了大量 Skill 后，日常使用却仍停留在信息搜索和简单记录上。技能装了一百个，生活…

2026年2月22日

274000

大模型工程

CGO’25 新突破：基于MLIR的持久化e-graph技术，彻底解决编译器阶段顺序难题

关键词：等式饱和、e-graph、编译器、MLIR、持久化、优化通过将 e-graph 直接嵌入 MLIR，研究人员让等式饱和贯穿整个编译流程，无需反复翻译、不丢失等价信息，并成功复现了 Herbie 浮点精度优化工具。现代编译器通常由一系列独立的优化遍（pass）组成，每个遍在中间表示（IR）上执行特定的转换，例如常量折叠、死代码消除、循环不变式外提等…

2026年2月22日

90000

大模型工程

设计模式决策树：告别死记硬背，精准匹配代码痛点

围绕痛点选择设计模式：在任何面向对象语言中，以最小的过度设计匹配到合适的模式。设计模式很少因为“错”而失败。更常见的是，我们在不合适的时机、出于不对的原因去套用它们，或者把它们当作替代品，回避给真实问题命名。通常，难点并不在于记住某个模式的存在，而在于判断你的代码此刻是否需要它，还是一个更简单的动作更合适。这正是决策树有用的原因。它在你选择模式之前强制你…

2026年2月22日

112000

大模型工程

阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%

阿里正式发布Qwen3.5系列，并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型，Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，总参数量达39…

2026年2月21日

555000

大模型工程

北航开源Code2Bench：双扩展动态评测，终结代码大模型高分幻觉

在衡量大语言模型（LLM）代码生成能力的竞赛中，一个日益严峻的问题正浮出水面：当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时，我们究竟是在评估其真实的泛化推理能力，还是在检验其对训练语料库的「记忆力」？现有的代码基准正面临两大核心挑战：数据污染的风险，以及测试严谨性不足。前者使评测可能退化为「开卷考试」，后者则常常导致一种「正…

2026年2月21日

96000

大模型工程

揭秘Prompt工程：一个简单技巧让AI准确率提升200%

一个简单技巧，让你的 AI 准确率飙升 200% 为什么你的 AI 总是出错（以及如何修复）想象一下：深夜加班赶项目，你问 AI 助手：“Who is the current Prime Minister of the UK?” 它自信地回答：“Boris Johnson.” 但你知道这已经过时了。你甚至在对话中提供了最新的信息，可它却置若罔闻，固执地依赖…

2026年1月14日

187000

大模型工程

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

这一记忆架构有望成为新的Scaling路径。智东西1月13日报道，昨晚，DeepSeek再次开源，并发布一篇新论文。此次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…

2026年1月13日

237000

大模型工程

DeepSeek开源条件记忆模块：让Transformer告别“苦力活”，27B模型性能碾压MoE

DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制，旨在弥补其原生缺乏高效知识检索能力的短板。研究团队在论文结论中明确指出：条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。该研究由梁文锋署名，并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。论文不仅…

2026年1月13日

247000

分类

排序

大模型工程

智算新纪元：2026超万卡集群技术演进与产业协同全景解析

卡帕西力荐NanoClaw：仅4000行代码的AI执行中枢，开启本地化智能新纪元

GitHub开源30+真实OpenClaw应用案例：从信息聚合到自动化运维的实战指南

CGO’25 新突破：基于MLIR的持久化e-graph技术，彻底解决编译器阶段顺序难题

设计模式决策树：告别死记硬背，精准匹配代码痛点

阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%

北航开源Code2Bench：双扩展动态评测，终结代码大模型高分幻觉

揭秘Prompt工程：一个简单技巧让AI准确率提升200%

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

DeepSeek开源条件记忆模块：让Transformer告别“苦力活”，27B模型性能碾压MoE