AI大模型周报:阿里、腾讯、Anthropic等巨头密集发布,多模态与推理能力成焦点

AI大模型周报:阿里、腾讯、Anthropic等巨头密集发布,多模态与推理能力成焦点

10月13日

【开源】 阿里开源 Qwen3-VL-8B-Thinking 与 Qwen3-VL-8B-Instruct 模型。作为 Qwen3-VL 系列的 8B Dense 模型,它们显存占用更低,具备多模态理解与推理能力,支持长视频、长文档等超长上下文输入,并集成了视觉 2D/3D 定位、全面空间感知与万物识别功能。

10月14日

【闭源】 腾讯混元发布 Hunyuan-Translation 翻译模型。该模型支持 33 种语言互译及 5 种民族语言互译,在同尺寸模型中效果领先,在 WMT25 比赛的 30 种语言评测中获得第一,并在开源测试集 Flores200 上表现优异。

10月15日

【闭源】 Anthropic 发布 Claude Haiku 4.5。这是目前最快且最智能的 Haiku 模型,具备接近前沿模型的性能,适用于实时应用、高容量处理和成本敏感型部署。

【闭源】 谷歌发布 Veo 3.1 及 3.1 Fast 公开预览版。新版本支持延长视频生成,可参考最多三张图片,并提供首尾帧控制功能,新增了 4 秒、6 秒、8 秒的时长选项。

【闭源】 字节豆包发布 Doubao-Seed-1-6-Lite-251015 模型。该模型支持可手动关闭及调节长度的深度思考功能,具备文本生成、图片理解、视频理解及工具调用能力。

【闭源】 阿里发布 Qwen3-VL-Flash-2025-10-15 模型。作为 Qwen3 系列的小尺寸视觉理解模型,它有效融合了思考与非思考模式,在效果和响应速度上均有提升。

10月16日

【开源】 百度发布 PaddleOCR-VL-0.9B 多模态文档解析模型。该模型仅 0.9B 参数,在多个权威评测中刷新记录,支持 109 种语言,能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素,推理速度达每秒 1881 个 Token,较 MinerU 提升 14.2%。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14702

(0)
上一篇 2025年10月20日 下午12:38
下一篇 2025年10月20日 下午12:58

相关推荐

  • 英伟达GTC 2026:黄仁勋揭示万亿美元蓝图,Vera Rubin系统重塑AI算力格局

    英伟达GTC 2026大会以一种不同寻常的方式开场——首席执行官黄仁勋迟到了15分钟。这场盛会汇聚了450家赞助企业、1000场技术分会、2000位演讲者以及110台机器人,其规模已远超一场普通的技术会议,更像是全球AI行业的年度朝圣。 舞台中央,身着标志性皮衣的黄仁勋,被赋予了新的称号——“Token之王”。 在本次主题演讲中,他并未急于发布新品,而是用整…

    1天前
    10600
  • 奥特曼自曝:不想当上市公司CEO,豪赌1.4万亿算力押注AGI未来

    近日,OpenAI CEO山姆·奥特曼做客《Big Technology Podcast》节目,分享了诸多犀利观点。 访谈中,奥特曼曝出不少引人注目的言论。例如,他明确表示:“对于担任一家上市公司的CEO,我一点都不感到兴奋。”此言一出,迅速被外媒捕捉并广泛报道。 本次访谈直面了许多尖锐问题:OpenAI的收入将如何匹配其1.4万亿美元的算力投入承诺?公司的…

    2025年12月20日
    32500
  • AI霸主之争:OpenAI面临谷歌与Anthropic双重夹击,万亿豪赌能否守住王座?

    在人工智能领域,一场前所未有的权力更迭正在悄然上演。曾经凭借ChatGPT一骑绝尘的OpenAI,如今正面临来自谷歌和Anthropic的双重夹击,其技术领先优势和市场主导地位正遭受严峻挑战。这场竞争不仅关乎技术突破,更涉及商业模式、资本实力和生态系统的全面较量。 谷歌的逆袭来得迅猛而精准。Gemini 3 Pro和Nano Banana Pro的发布,标志…

    2025年11月22日
    17200
  • AMD Iris:Triton原生多GPU通信库,以Tile级抽象实现1.79倍性能飞跃,重塑计算-通信融合范式

    关键词:Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程 现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。 然而,多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡:高性能实现通常依赖于低层 HIP/CUDA 通信库,即便实现基本的 重叠模式也需要大量工程努力;而更简单的抽象则往往牺…

    2026年1月9日
    17600
  • 思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

    在 LLM 时代,思维链(CoT)已成为解锁模型复杂推理能力的关键技术。然而,CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤,带来了巨大的计算开销和显存占用,严重制约了推理效率。 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体文本。这种方法虽然速度快,却是一个「黑…

    2026年1月23日
    20100