大模型工程
-
智算新纪元:2026超万卡集群技术演进与产业协同全景解析
自ChatGPT发布以来,全球科技产业迎来大模型创新浪潮,数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型,各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间,大模型参数量从万亿级向十万亿级跨越,多模态、超长序列、实时交互等场景的爆发式增长,推动智算基础设施迎来代际升级,超万卡集群已从“军备竞赛标配”转变…
-
卡帕西力荐NanoClaw:仅4000行代码的AI执行中枢,开启本地化智能新纪元
自从OpenClaw爆火后,各种Claw开始轮番登场。 Nano Claw 、Zero Claw 、Pico Claw 刷屏,连卡帕西都坐不住了,为了“抓虾”,他一个百米冲刺奔向苹果店抢Mac Mini,要好好拆解一番爆火的各种Claw们。 店员还奇了怪了,一脸懵地跟卡帕西嘟囔:不知道为啥,这玩意儿最近卖爆了…… 大神顺利购入Mac Mini过后,心满意足一…
-
GitHub开源30+真实OpenClaw应用案例:从信息聚合到自动化运维的实战指南
最近在 GitHub 发现了一个有趣的仓库,专门收集 OpenClaw 的真实应用案例。 许多用户在安装 OpenClaw 后,往往会陷入一个循环:不断添加各种 Skill,在 ClawHub 中寻找新功能,今天安装天气查询,明天添加股票分析,后天又集成翻译助手。 然而,安装了大量 Skill 后,日常使用却仍停留在信息搜索和简单记录上。技能装了一百个,生活…
-
CGO’25 新突破:基于MLIR的持久化e-graph技术,彻底解决编译器阶段顺序难题
关键词:等式饱和、e-graph、编译器、MLIR、持久化、优化 通过将 e-graph 直接嵌入 MLIR,研究人员让等式饱和贯穿整个编译流程,无需反复翻译、不丢失等价信息,并成功复现了 Herbie 浮点精度优化工具。 现代编译器通常由一系列独立的优化遍(pass)组成,每个遍在中间表示(IR)上执行特定的转换,例如常量折叠、死代码消除、循环不变式外提等…
-
设计模式决策树:告别死记硬背,精准匹配代码痛点
围绕痛点选择设计模式:在任何面向对象语言中,以最小的过度设计匹配到合适的模式。 设计模式很少因为“错”而失败。更常见的是,我们在不合适的时机、出于不对的原因去套用它们,或者把它们当作替代品,回避给真实问题命名。通常,难点并不在于记住某个模式的存在,而在于判断你的代码此刻是否需要它,还是一个更简单的动作更合适。 这正是决策树有用的原因。它在你选择模式之前强制你…
-
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…
-
北航开源Code2Bench:双扩展动态评测,终结代码大模型高分幻觉
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正…
-
揭秘Prompt工程:一个简单技巧让AI准确率提升200%
一个简单技巧,让你的 AI 准确率飙升 200% 为什么你的 AI 总是出错(以及如何修复) 想象一下:深夜加班赶项目,你问 AI 助手:“Who is the current Prime Minister of the UK?” 它自信地回答:“Boris Johnson.” 但你知道这已经过时了。你甚至在对话中提供了最新的信息,可它却置若罔闻,固执地依赖…
-
DeepSeek发布Engram条件记忆架构:MoE模型性能提升新路径,实习生主导突破性研究
这一记忆架构有望成为新的Scaling路径。 智东西1月13日报道,昨晚,DeepSeek再次开源,并发布一篇新论文。此次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…
-
DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE
DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…
