【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

Claude 4.5与Gemini 3即将发布,但焦点在DeepSeek。其V3.2版本疑似官方预热,而十月将至的V4版本则被曝将实现1M上下文长度、GRPO Turbo多步思考及更高推理效率等重大升级。

最近科技圈可一点都没闲着,各家都在密谋放大招。先是传了很久的 Claude 4.5 预计未来一两周内亮相,Google 的 Gemini 3 也瞄准了咱们国庆档期。不过今天我们要重点聊的,是 DeepSeek 家的两条新动态——V4 和 V3.2。

关于 DeepSeek-V3.2 的最新线索
有开发者发现,DeepSeek 团队在 HuggingFace 上悄悄创建了名为 “DeepSeek-V3.2-Base” 的模型卡。有意思的是,这个页面在一个下午内反复出现又消失了好几次,这种“欲盖弥彰”的操作反而坐实了新版本的存在。

【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

比起网上流传的各种猜测,这条来自官方渠道的线索显然更值得关注。不少人猜测,这可能是为接下来的 V4 版本做预热——是不是颇有 OpenAI 的营销风格?

【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

DeepSeek-V4:性能大幅跃升
根据社区爆料,DeepSeek V4 计划在10月发布,而且这次不只是版本号升级那么简单。据传它将带来三大突破:

  • 上下文窗口扩展至 1M Tokens
  • 支持 GRPO Turbo 多步思考模式
  • 推理速度更快,成本更低

后两点尤其可信。回顾2023年以来,Qwen 和 DeepSeek 的技术路线就有着诸多相似之处。比如 GRPO 算法年初随 DeepSeekMath 发布后,年中的 Qwen2-Math 就展示了相似的技术特征。虽然当时 GRPO 尚未开源,但技术思路的同步确实引人遐想。

【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

技术前瞻:长文本处理将迎新突破
值得一提的是,Qwen 最近发布的 Qwen3-Next 采用了原生稀疏注意力(NSA)技术。该技术通过选择性计算关键词关系,有效解决了长序列处理中的计算瓶颈。这也让 DeepSeek V4 实现 1M 上下文窗口的传闻显得更加合理——毕竟两家在长文本技术上的进展一直相辅相成。

最后确认个好消息:这些新模型都会开源!

以上就是本期全部爆料。哪个模型最让你期待?欢迎在评论区分享你的看法~

参考资料:
[1] https://x.com/deepsseek/status/1972426156222611688

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4118

(1)
上一篇 2025年10月16日 下午2:53
下一篇 2025年10月1日 下午5:15

相关推荐

  • 具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

    近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…

    2025年10月16日
    6800
  • Sora 2 来袭:生成20秒逼真视频,正面碾压谷歌Veo 3?

    OpenAI 正式推出新一代 AI 视频模型 Sora 2,能直接生成长达 20 秒的 1080p 高清视频,在物理真实感、可控性和音画同步方面显著提升。实测显示,其生成效果逼真,但在复杂动作和中文理解上仍有瑕疵。与竞争对手谷歌 Veo 3 相比,双方在各场景下互有胜负。同时,OpenAI 推出了类似 TikTok 的 Sora 应用,旨在建立产品生态,但其“全 AI 视频流”模式能否成功,仍有待观察。

    2025年10月1日
    10500
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线

    谷歌Gemini 3.0 Pro即将上线,实测表现惊艳。新一代模型在编程、视觉生成和多模态能力上大幅提升,不仅轻松通过“小球六边形重力摩擦”等经典测试,更被开发者盛赞为“有史以来最强前端开发模型”。与此同时,谷歌正全面整合Gemini生态系统,从即将推出的轻量级Gemma 3到全新的视觉化界面设计,预示着AI竞赛将进入全新阶段。

    2025年10月4日
    10802
  • AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

    斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

    2025年10月24日
    7200
  • 开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

    上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。

    2025年10月25日
    6300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注