【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

Claude 4.5与Gemini 3即将发布,但焦点在DeepSeek。其V3.2版本疑似官方预热,而十月将至的V4版本则被曝将实现1M上下文长度、GRPO Turbo多步思考及更高推理效率等重大升级。

最近科技圈可一点都没闲着,各家都在密谋放大招。先是传了很久的 Claude 4.5 预计未来一两周内亮相,Google 的 Gemini 3 也瞄准了咱们国庆档期。不过今天我们要重点聊的,是 DeepSeek 家的两条新动态——V4 和 V3.2。

关于 DeepSeek-V3.2 的最新线索
有开发者发现,DeepSeek 团队在 HuggingFace 上悄悄创建了名为 “DeepSeek-V3.2-Base” 的模型卡。有意思的是,这个页面在一个下午内反复出现又消失了好几次,这种“欲盖弥彰”的操作反而坐实了新版本的存在。

【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

比起网上流传的各种猜测,这条来自官方渠道的线索显然更值得关注。不少人猜测,这可能是为接下来的 V4 版本做预热——是不是颇有 OpenAI 的营销风格?

【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

DeepSeek-V4:性能大幅跃升
根据社区爆料,DeepSeek V4 计划在10月发布,而且这次不只是版本号升级那么简单。据传它将带来三大突破:

  • 上下文窗口扩展至 1M Tokens
  • 支持 GRPO Turbo 多步思考模式
  • 推理速度更快,成本更低

后两点尤其可信。回顾2023年以来,Qwen 和 DeepSeek 的技术路线就有着诸多相似之处。比如 GRPO 算法年初随 DeepSeekMath 发布后,年中的 Qwen2-Math 就展示了相似的技术特征。虽然当时 GRPO 尚未开源,但技术思路的同步确实引人遐想。

【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

技术前瞻:长文本处理将迎新突破
值得一提的是,Qwen 最近发布的 Qwen3-Next 采用了原生稀疏注意力(NSA)技术。该技术通过选择性计算关键词关系,有效解决了长序列处理中的计算瓶颈。这也让 DeepSeek V4 实现 1M 上下文窗口的传闻显得更加合理——毕竟两家在长文本技术上的进展一直相辅相成。

最后确认个好消息:这些新模型都会开源!

以上就是本期全部爆料。哪个模型最让你期待?欢迎在评论区分享你的看法~

参考资料:
[1] https://x.com/deepsseek/status/1972426156222611688

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4118

(1)
上一篇 2025年10月30日 下午2:34
下一篇 2025年10月1日 下午5:15

相关推荐

  • 李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

    “AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

    2025年10月17日
    9500
  • 具身智能新星Sunday:斯坦福双雄的全栈机器人革命与11月19日产品悬念

    近日,具身智能领域迎来重磅消息:斯坦福大学两位顶尖研究者赵子豪(Tony Zhao)与迟宬(Cheng Chi)联合创办的机器人公司Sunday正式浮出水面,并宣布将于11月19日发布首款产品。这一消息迅速引发科技界关注,不仅因为两位创始人在学术与工业界的显赫背景,更因他们宣称要打造“像Macintosh、iPhone、ChatGPT一样的划时代产品”,甚至…

    2025年11月17日
    000
  • AI智能体上下文工程的减法哲学:Manus五次重构揭示的高效设计原则

    在AI智能体开发领域,一个普遍存在的认知误区是:系统越复杂、功能越丰富、提供给模型的信息越多,其性能就越强大。然而,Hugging Face机器学习工程师Philipp Schmid近期分享的Manus AI案例,却彻底颠覆了这一传统观念。Manus团队在构建AI代理系统时,经历了五次彻底的重构,最终发现了一个反直觉的真理:删除代码往往比添加功能更能提升系统…

    2025年12月5日
    000
  • Qoder深度评测:国产AI编程工具如何颠覆真实软件研发?

    在当今快速迭代的软件开发领域,程序员们普遍面临着一个棘手的挑战:理解和维护大型、复杂的代码库。无论是接手遗留系统、参与开源项目,还是协作企业级应用,开发者往往需要耗费数周甚至数月的时间来梳理代码结构、理解业务逻辑。传统方法依赖人工阅读、文档搜索和团队沟通,效率低下且容易出错。 近期,一款名为Qoder的国产AI编程工具横空出世,旨在彻底改变这一现状。Qode…

    2025年11月27日
    100
  • 腾讯混元HunyuanOCR:轻量化端到端OCR专家模型的技术突破与产业影响

    近日,腾讯混元大模型团队正式发布并开源了HunyuanOCR模型,这是一款参数仅为1B的商业级开源OCR专用视觉语言模型。该模型采用原生ViT与轻量级LLM结合的创新架构,在文本检测识别、复杂文档解析等感知能力方面优于所有公开方案,并在信息抽取、文字图像翻译等语义任务中表现卓越。在ICDAR 2025 DIMT挑战赛(小模型赛道)中荣获冠军,同时在OCRBe…

    2025年11月29日
    000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注