大模型工程

  • 揭秘Prompt工程:一个简单技巧让AI准确率提升200%

    一个简单技巧,让你的 AI 准确率飙升 200% 为什么你的 AI 总是出错(以及如何修复) 想象一下:深夜加班赶项目,你问 AI 助手:“Who is the current Prime Minister of the UK?” 它自信地回答:“Boris Johnson.” 但你知道这已经过时了。你甚至在对话中提供了最新的信息,可它却置若罔闻,固执地依赖…

    2026年1月14日
    6600
  • DeepSeek发布Engram条件记忆架构:MoE模型性能提升新路径,实习生主导突破性研究

    这一记忆架构有望成为新的Scaling路径。 智东西1月13日报道,昨晚,DeepSeek再次开源,并发布一篇新论文。此次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…

    2026年1月13日
    10000
  • DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

    DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…

    2026年1月13日
    9900
  • OpenAI研究员揭秘:Codex内部评估机制与AI产品落地的50+实战经验

    昨日,两位来自 OpenAI 及前微软的 AI 产品一线从业者——Aishwarya Naresh Reganti 与 Kiriti Badam,在 Lenny 的播客节目中深入分享了他们在超过 50 个 AI 产品落地项目中的实践经验与教训。 这些经验源于反复的试错与总结。播客主持人 Lenny 提炼出一个核心观点:痛苦是新的护城河。 两位嘉宾均具备深厚的…

    2026年1月12日
    7400
  • 解锁实时数据流:10个FastAPI流式API模式让看板动起来

    十个可直接复制粘贴的模式,用 FastAPI 向浏览器推送数据——顺滑、安全、低延迟。 用 FastAPI 构建实时看板。十种流式模式——SSE、WebSocket、NDJSON、chunked responses、backpressure、fan-out、caching 和 security——配套可运行代码。 看板不是被“一次刷新”杀死的,而是死于无数个…

    2026年1月12日
    8600
  • 揭秘70M小模型层数玄学:隐藏维度≥512是关键,32层成最佳配置

    知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中,揭示了关于70M参数小模型的几个关键发现: 首先,模型的具体架构选择其重要性被高估,相比之下,模型的“形状”——即深度与宽度的配比——更为关键。 其次,小模型的层数选择存在明显的“玄学”现象:12层、32层和64层的模型表现优异,而16层、24层和48层的模型则效果不佳,其中…

    2026年1月11日
    6000
  • Python进阶之路:避开6个常见陷阱,从中级迈向高级开发者

    这已经不再是语法的问题。 如果到了 2026 年你还在学新的 Python 语法,你不是卡住了——你是在拖延。 刻薄吗?也许。 是真的吗?绝对。 大多数中级 Python 开发者不是因为不够懂 Python 而失败。 他们失败,是因为还在用新手的思维……只是写得更快。 过去 4 年多里,我审阅过上百个 Python 代码库——创业项目、内部工具、“在我机器上…

    2026年1月11日
    4800
  • Agent原生架构:Claude Code 后时代该如何构建智能体应用

    最近,Claude Code 的流行不仅源于其作为“Vibe编程神器”的体验,更在于它正在重塑智能体的开发范式。过去那种依赖胶水代码或拖拽式构建的、面向过程的传统智能体,正面临被一种全新模式的挑战:这种模式只需开发者描述目标结果,然后交由智能体通过持续循环运行来达成目标。 Claude Code 配合其恰到好处的插件与技能机制证明,一个优秀的编程智能体,本身…

    2026年1月11日
    5600
  • 跨学科突破:神经科学与AI融合,打造类人记忆Agent系统

    跨学科突破:神经科学如何让 Agent 拥有「人类式」记忆? 你是否设想过,AI Agent 能像人类一样,通过积累经验实现自我成长?如今,这一愿景正加速走向现实。然而,当前的研究要么局限于AI技术本身,要么对人脑记忆机制的借鉴流于表面,两个学科之间始终缺乏深刻的交叉与碰撞。 近期,来自哈尔滨工业大学、鹏城实验室、新加坡国立大学、复旦大学和北京大学的研究团队…

    2026年1月10日
    5100
  • 告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

    大型语言模型在处理长对话或多步复杂任务时,最头疼的就是记忆管理问题。现有的方法往往采用人工设定的规则来决定哪些信息该存、哪些该删,效果有限且不够灵活。 阿里巴巴团队最近在论文《Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Langua…

    2026年1月10日
    9300