【重磅爆料】AI 圈又要热闹了！多款大模型即将扎堆上线

2025年10月1日下午1:01 • AI产业动态 • 阅读 463

Claude 4.5与Gemini 3即将发布，但焦点在DeepSeek。其V3.2版本疑似官方预热，而十月将至的V4版本则被曝将实现1M上下文长度、GRPO Turbo多步思考及更高推理效率等重大升级。

最近科技圈可一点都没闲着，各家都在密谋放大招。先是传了很久的 Claude 4.5 预计未来一两周内亮相，Google 的 Gemini 3 也瞄准了咱们国庆档期。不过今天我们要重点聊的，是 DeepSeek 家的两条新动态——V4 和 V3.2。

关于 DeepSeek-V3.2 的最新线索
有开发者发现，DeepSeek 团队在 HuggingFace 上悄悄创建了名为 “DeepSeek-V3.2-Base” 的模型卡。有意思的是，这个页面在一个下午内反复出现又消失了好几次，这种“欲盖弥彰”的操作反而坐实了新版本的存在。

【重磅爆料】AI 圈又要热闹了！多款大模型即将扎堆上线

比起网上流传的各种猜测，这条来自官方渠道的线索显然更值得关注。不少人猜测，这可能是为接下来的 V4 版本做预热——是不是颇有 OpenAI 的营销风格？

【重磅爆料】AI 圈又要热闹了！多款大模型即将扎堆上线

DeepSeek-V4：性能大幅跃升
根据社区爆料，DeepSeek V4 计划在10月发布，而且这次不只是版本号升级那么简单。据传它将带来三大突破：

上下文窗口扩展至 1M Tokens
支持 GRPO Turbo 多步思考模式
推理速度更快，成本更低

后两点尤其可信。回顾2023年以来，Qwen 和 DeepSeek 的技术路线就有着诸多相似之处。比如 GRPO 算法年初随 DeepSeekMath 发布后，年中的 Qwen2-Math 就展示了相似的技术特征。虽然当时 GRPO 尚未开源，但技术思路的同步确实引人遐想。

【重磅爆料】AI 圈又要热闹了！多款大模型即将扎堆上线

技术前瞻：长文本处理将迎新突破
值得一提的是，Qwen 最近发布的 Qwen3-Next 采用了原生稀疏注意力（NSA）技术。该技术通过选择性计算关键词关系，有效解决了长序列处理中的计算瓶颈。这也让 DeepSeek V4 实现 1M 上下文窗口的传闻显得更加合理——毕竟两家在长文本技术上的进展一直相辅相成。

最后确认个好消息：这些新模型都会开源！

以上就是本期全部爆料。哪个模型最让你期待？欢迎在评论区分享你的看法～

参考资料：
[1] https://x.com/deepsseek/status/1972426156222611688

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/4118

Deepseek 大模型爆料

赞 (1)

1 0

大模型安全全景图：198篇研究揭示API密钥窃取、越狱攻击与四大场景漏洞防御策略

上一篇 2025年9月29日下午5:37

大模型流式输出打字机效果的前后端实现

下一篇 2025年10月1日下午5:15

AI产业动态

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2，统一文本、图像、视频、音频、文档嵌入空间

谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2，这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前，该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。统一的多模态嵌入空间与此前仅支持文本向量化的嵌入模型不同，Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多…

2026年3月11日
130000
AI产业动态

ChatGPT广告功能代码泄露：OpenAI商业化转型的深度剖析与行业影响

近日，ChatGPT安卓测试版代码泄露事件揭示了OpenAI正在内部测试广告功能的重大动向。软件工程师Tibor Blaho在分析应用代码时，发现了“搜索广告”“搜索广告轮播”“集市内容”等关键字符串，这标志着OpenAI可能正在探索将广告整合到其对话式AI产品中。尽管这些代码不代表功能即将上线，但通常预示着公司正在进行广告形式和投放位置的内部测试，为未来的…

2025年11月30日
194000
AI产业动态

多模态大模型后训练范式革新：中兴通讯团队验证GRPO-only路径，突破样本难度量化与训练协同瓶颈

在人工智能技术快速迭代的浪潮中，多模态大模型已成为连接视觉与语言智能的核心枢纽。然而，其后训练阶段长期面临两大关键挑战：缺乏可量化的样本难度评估体系，以及传统训练范式难以协同优化感知与推理能力。近期，由中南大学与中兴通讯AIM团队联合完成的研究，通过系统性实验设计，不仅为多模态后训练提供了创新的难度采样标准，更首次验证了仅依赖强化学习（GRPO）独立优化多模…

2025年11月28日
174000
AI产业动态

视觉压缩革命：VIST框架如何让大语言模型像人类一样高效阅读长文本

在人工智能领域，大语言模型（LLM）的上下文长度扩展与计算效率之间的矛盾日益凸显。NeurIPS 2025会议上，南京理工大学、中南大学、南京林业大学联合研究团队提出的VIST（Vision-centric Token Compression in LLM）框架，通过创新的视觉压缩机制，为大语言模型的长文本处理提供了突破性解决方案。这一技术路径与近期备受关注…

2025年11月10日
229000
AI产业动态

人机协作新突破：仅凭本体感知实现无缝搬运，COLA方法引领具身智能新范式

在机器人技术快速发展的今天，人机协作搬运一直是学术界和工业界关注的重点领域。传统方法通常依赖外部传感器（如摄像头、激光雷达）或遥控设备来实现机器人与人类的交互，但这些方案存在成本高、易受环境干扰、交互不自然等局限。近期，一项由中国研究团队提出的创新方法COLA（Collaborative Lifting with Adaptive roles）引起了广泛关注…

2025年11月8日
186000

发表回复