长上下文 - 鲸林向海

DeepSeek-V4预览版发布：百万上下文、Agent能力领先，同步开源

刚刚，DeepSeek 在官方公众号发文宣布，全新系列模型 DeepSeek-V4 的预览版本正式上线，并同步开源！ DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。秉承 DeepSeek 一贯的开放精神，本次发布的模型按大小分为两个版本，欢迎开发者、研究者和企业用户前往体验和下…

2026年4月24日

617000

大模型工程

In-Place Test-Time Training：让大语言模型在推理时原地进化，长上下文任务准确率显著提升

关键词：测试时训练、原位更新、大语言模型、长上下文 “静态的‘训练后部署’范式，从根本上限制了大语言模型在推理时根据新信息动态调整权重的能力。”这是来自字节跳动 Seed 团队与北京大学联合发表的论文《In-Place Test-Time Training》中的核心论断。当 GPT-4、Llama 3 等大模型在部署后就“凝固”为静态的知识库，它们便无法像…

2026年4月10日

476000

大模型工程

HISA：新稀疏注意力机制突破64K上下文瓶颈，提速2-4倍，即插即用无需重训

一项新的研究提出了一种名为HISA（分层索引稀疏注意力）的稀疏注意力机制。该方法旨在突破长上下文模型中的索引瓶颈，在64K上下文长度下，相比DeepSeek-V3等模型使用的DSA（DeepSeek Sparse Attention）索引器，可实现2至4倍的速度提升。该方法在显著提升速度的同时，几乎不损失模型精度，并且具备即插即用的特性，无需对现有模型进…

2026年4月7日

338000

大模型工程

智谱GLM-5技术全公开：国产芯片全适配，长任务时代开启

GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。论文标题直接点明了其核心主张：告别Vibe Coding，迈入智能体工程（Agentic Engineering）。正如之前的实测所示，GLM-5能够自主连续运行代码超过24小时，进行超过700次工具调用和800次上下文切换，甚至可以从零开始构建一个Game Boy Advance（…

2026年2月25日

433000

AI产业动态

GLM-5震撼发布：744B参数开源巨兽，长程智能体与复杂系统工程新标杆

GLM-5正式发布，其定位直指Claude，专注于解决复杂的系统工程与长程智能体任务。模型参数规模从GLM-4.5的355B（32B活跃）大幅跃升至744B（40B活跃），预训练数据量也从23T token扩充至28.5T token。在技术层面，GLM-5采用了GlmMoeDsa架构，直接集成了来自DeepSeek的DSA稀疏注意力与MTP多标记预测技术…

2026年2月12日

381000

AI产业动态

Claude Opus 4.6震撼发布：专为长时程Agent任务而生，百万token上下文实现76%检索准确率

凌晨2点，硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早，业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评，Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面，表现令人印象深刻。长期使用Claude的Boris用四个词概括Opus 4.6：更具自主性、更智能、运行时间更…

2026年2月6日

535000

大模型工程

北京版幻方开源SOTA代码大模型IQuest-Coder-V1：40B参数性能超Opus-4.5/GPT-5.2，单张3090可运行

IQuest-Coder-V1：性能超群的代码大模型近期，一个名为 IQuest-Coder-V1 的代码大模型系列在科技领域引发广泛关注。在最新的SWE-Bench Verified榜单中，其40B参数版本取得了81.4%的成绩，表现超越了Claude Opus-4.5与GPT-5.2等模型。除了基准测试成绩，其实际代码生成能力同样引人注目。例如，当…

2026年1月2日

478001