谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

今天凌晨,谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA(State-of-the-Art)记录,实现了推理能力的大幅跃升。
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和Claude Opus 4.6。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

参与过Gemini 3 Deep Think研究的清华校友姚顺宇也参与了3.1 Pro的研究,并发文表示:「后续还会有更好的模型源源不断地涌现」。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在官方展示的“鹈鹕骑自行车”SVG动画中,同一提示词下,Gemini 3.1 Pro的生成效果相比前代有明显提升。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

百万Token上下文,刷爆全领域SOTA

Gemini 3.1 Pro具备原生的全模态输入能力,支持高达100万Token的超长上下文,知识截止日期为2025年1月。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

谷歌表示,3.1 Pro在核心推理能力上实现了进一步跃升。在内部基准测试中,该模型刷新了多个领域的SOTA成绩:

  • 推理能力:在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下取得了44.4%的成绩,超越GPT-5.2(34.5%)和Opus 4.6(40%);
  • 科学知识:在GPQA钻石级测试中得分为94.3%;
  • 编码:在LiveCodeBench Pro上Elo得分为2887,在SWE-Bench Verified上得分为80.6%;
  • 多模态理解:在MMMLU测试中达到了92.6%。
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在Artificial Analysis的排行榜上,Gemini 3.1 Pro已跃居榜首。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

相比于上一代,Gemini 3.1 Pro的幻觉率降低了38%,这意味着模型在不确定答案时“瞎编”的倾向显著降低。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

应用效果大幅飞跃,SVG生成能力突出

Gemini 3.1 Pro在应用层面的表现相比前代有了显著进步。

例如,在生成3D建模的宝可梦世界时,3.1 Pro的效果更加生动,细节也更丰富。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在多个演示案例中,3.1 Pro在SVG生成方面表现尤为突出。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

它还能开发逼真的城市规划应用程序,处理复杂地形、绘制基础设施图以及模拟交通,可视化效果质量很高。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在创意编程方面,3.1 Pro能够将文学主题转化为可运行的代码。例如,为《呼啸山庄》设计一个现代风格的个人主页时,它能深入理解小说基调,构思出时髦现代的界面。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

价格不变,性价比突出

Gemini 3.1 Pro保持了与3 Pro相同的定价:输入每百万tokens 2美元起,输出每百万tokens 12美元起。

相比之下,Claude Opus 4.6的定价为5美元/25美元,GPT-5.2的定价为1.75美元/14美元。据Artificial Analysis计算,跑完整个智能指数测试集,Gemini 3.1 Pro的花费不到Claude Opus 4.6的一半。

谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍

在ARC-AGI基准上,每完成一次ARC-AGI-2任务的花费约为0.96美元。相比之下,性能仅相差几个百分点的Gemini 3 Deep Think,价格是3.1 Pro的10倍。

谷歌表示,今天推出的Gemini 3.1 Pro是一个预览版,未来将在自主工作流等领域寻求进一步突破,并会正式全面开放。目前,该模型已在Gemini和NotebookLM中上线,开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。

参考链接:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
https://x.com/ShunyuYao14/status/2024570477390582189
https://deepmind.google/models/gemini/pro/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22058

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 工信部2025新政:新型互联网交换中心如何重塑算力网络与数据流通格局?

    工业和信息化部办公厅正式印发《关于加快推进国家新型互联网交换中心创新发展的指导意见》(工信厅信管〔2025〕67号,以下简称《指导意见》),明确提出要加快构建国家新型互联网交换中心(以下简称“交换中心”)网络体系、深化应用创新、健全监管制度,推动交换中心成为支撑新质生产力发展、建设网络强国和数字中国的核心基础设施。 这一政策的落地,标志着我国新型互联网交换中…

    AI产业动态 3天前
    1700
  • OpenAI内部揭秘:95%工程师用Codex,AI将吃掉所有脚手架,B2B SaaS黄金时代来临

    “我们可能真的会进入一个B2B SaaS的黄金时代!”“接近100%的代码最初都是由AI生成的。”“我们活在‘硅谷泡泡’里。” 春节前夕,OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。API作为OpenAI的第一个产品,也是几乎所有AI创业公司都在集成的产品,这给了Sherwin一个极其独特且宏观…

    3天前
    5100
  • 微软突破亿年数据存储:玻璃硬盘Silica技术登Nature,实现零错误恢复

    微软突破亿年数据存储:玻璃硬盘Silica技术登Nature,实现零错误恢复 《三体》中,人类为文明选择的“亿年级”存档方案,是最原始的“把字刻在石头上”。如今,微软的研究团队真正将数据刻在了玻璃里。 《自然》杂志最新发表的研究,展示了一种名为Silica的三维光学玻璃存储技术。在一块巴掌大小(120mm×120mm)、仅2mm厚的玻璃片中,研究团队实现了3…

    1天前
    3100
  • 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,多项基准测试刷新纪录,重新登顶AI模型王座

    上周,谷歌发布了 Gemini 3 Deep Think 的一次重大更新,以应对当今科学、研究和工程领域的复杂挑战。而就在刚刚,谷歌正式推出支撑这些突破的升级版核心智能:Gemini 3.1 Pro。 参与了 Gemini 3 Deep Think 研究的姚顺宇也发推介绍了这项新突破,并表示:「后续还会有更好的模型源源不断地涌现」。 谷歌表示,基于 Gemi…

    3天前
    5700
  • 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

    谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍 谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。 根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。 新模型还能将日常数据转化为互…

    2天前
    5400