谷歌Gemini 3.5曝光:速度飙升7倍,代码能力直追GPT-5.5,成本仅二十分之一

早上趁着工作间隙浏览帖子时,发现一位网友晒出了一组疑似 Gemini 3.5 Flash 的实测数据,结果着实令人震惊。

先来看看速度表现:

  • 第一组:首字延迟 6850 毫秒,每秒处理 934 个 tokens。
  • 第二组:首字延迟 7486 毫秒,每秒处理 923 个 tokens。
  • 第三组:首字延迟 4421 毫秒,每秒处理 577 个 tokens。
  • 第四组:首字延迟 3630 毫秒,每秒处理 673 个 tokens。

它并非偶然爆发一次,而是在不同任务中,都能稳定维持在一个相当夸张的速度区间。

更离谱的是代码编写能力:

网友在真实的编码场景下实测,Gemini 3.5 最快能达到每秒 1141 个 tokens(tps),普通速度也能稳定在 900 tps 左右。

这个数字有多夸张呢?我们可以拿官网目前的 Gemini 3 Flash 做个对比。

谷歌官方对 Gemini 3 Flash 的定位,本就是“为速度而生”(built for speed)。在 Artificial Analysis 的 Google AI Studio 测试中,它的输出速度大约为 164.8 tokens/s,首字延迟约 6.95 秒。

以此为参照,网友实测的速度大约是官网 3F 版本的 3 到 7 倍。虽然网友的测试口径与标准化的 API 跑分存在一些差异,但这个差距已经足够惊人。

紧接着,网友又测试了 Gemini 3.5 的前端代码编写能力。

首先让它构建一个 MC 沙盒游戏。从截图来看,页面已经包含了方块地形、角色视角、游戏界面以及操作区域。

接着,再让它生成一组天气卡片并查看效果。这个测试更侧重于 UI 审美,听起来简单,但实际上特别容易暴露模型的真实水平。较弱的模型,最终往往会做出一张表格,所有元素杂乱地堆砌在一起,能用,但毫无美感。而能否有层次地呈现信息,是判断模型是否具备审美能力的关键。

网友接连放出了几张效果图,整体观感不错。最后是真实的网页效果,配色高级,延续了 Gemini 一贯的前端审美水准。

如果一个模型只是速度变快,那有可能是纯粹牺牲质量换来的。但如果它速度暴涨,同时代码生成质量没有明显下降,那性质就完全不同了。

此外,网友还测试了 Simple Bench,结果稳定在 9/10,概率题全部正确,没有出现退步。

可以肯定的是,Gemini 3.5 并非一个为了追求速度而牺牲质量的阉割版本。

一、版本重塑

按照惯例,新一代 Gemini 应该被命名为 Gemini 3.2。但从网友 Lentils 的爆料来看,谷歌大概率会选择直接跳级,命名为 Gemini 3.5。这个举动很值得玩味。

它更像是在向外界宣告:这不是一次小修小补,而是 Gemini 3 系列的版本重塑。

目前,模型尚未正式发布,但外界已经有不少爆料,开始提前为它定调。

早在这次跳级命名曝光之前,Abacus.AI 的 CEO Bindu Reddy 就在 X 平台上披露过一组数据。据她所述,早期的基准测试(benchmark)显示,新一代 Gemini Flash 在编码和推理任务上,能达到 GPT-5.5 大约 92% 的性能,但推理成本仅为 GPT-5.5 的十五分之一到二十分之一。

网友 Fandu 也曾扒到过模型选择器的最新界面,认为新一代 Gemini 很可能有较大调整。它不仅将原生支持 MCP 第三方工具接入,思维模式也从原来的独立 Thinking 模式,变成了全局开关,分为 Standard 和 Extended 两档。

最后,还有一件比较有趣的事。X 平台上的 AI 圈知名爆料人 can,曾披露过一批新一代 Gemini 的 SVG 输出样例。一个是 DualShock 4 手柄的交互式蓝图拆解,另一个是鹈鹕骑自行车的矢量插画。

可以看到,新一代 Gemini 不只是生成一张图,而是附带了一个 7 维定制面板,可以调整车架颜色、光照、头饰、篮筐内容以及蹬车速度。这已经不是传统意义上的 SVG 生成了,更像是通过一个 prompt 就能直接生成一个可交互的小型 Web 应用。

当然,这些都还不是谷歌官方盖章确认的信息。但无论这其中有多少营销预热,多少群众猜测,我们至少能得出一个非常明确的结论:新一代 Gemini 的升级重点,大概率不是单纯把模型分数往上推一点,而是瞄准了一套更完整的能力组合。

我目前的猜测是,新一代 Gemini 很可能不会只围绕“模型智力”来展开叙事。它更可能会把重点放在三个词上:快、便宜、能干活。尤其是“快”这一点,我认为可能是谷歌这次最想打穿的地方。

因为在 AI 编程这件事上,Gemini 并非完全不会写代码。它的问题是,在开发者心中,Claude Code 和 Codex 已经先入为主地占据了位置。很多人一想到 AI 编程,第一反应不是 Gemini,这对谷歌来说就很尴尬。所以,它如果想重新杀回这个战场,更现实的打法就是,先把用户最容易感知的体验做到极致。

二、I/O 大会马上来了

我亲测下来,目前还没有稳定可用的 Gemini 3.5 途径。现在各种说法也比较混乱,有人说云端能用,有人说反重力(指非官方渠道)里能用。前面那位网友,正是通过非官方的 CPA 反代渠道,将其包装出来进行测试的。

所以,如果你现在打开 Gemini、AI Studio 或者反重力渠道,没有看到 Gemini 3.5,也很正常。这波更像是发布前露出的一些边角料。

真正关键的,还是即将到来的 Google I/O 大会。Google I/O 2026 将于 5 月 19 日至 20 日举行,主 keynote 定于太平洋时间 5 月 19 日上午 10 点,也就是北京时间 5 月 20 日凌晨 1 点。

除了 Gemini 3.5,另一个最值得关注的产品是 Gemini Spark。Spark 的前身是谷歌内部代号为 Remy 的 Agent 升级版,谷歌计划打造一个 24 小时在线的日常 AI Agent,用于接管更长链路的任务。看起来,谷歌仍然更关注多模态系统。

不过,我现在也不太想把期待拉得太满。OpenAI 依靠高频迭代不断刷存在感,GPT-5.5 的效果大家已经看到了,模型能力依然排在第一。Anthropic 则依靠长久稳定的体验和开发者口碑,将 Claude Code 牢牢钉进了 AI 编程的主战场。

也就是说,留给谷歌的空间其实不多了。如果它拿不出什么真东西,真的很难收场……


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35364

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • Claude全面接管人类电脑!手机遥控AI 7x24h打工,OpenClaw被绝杀

    太疯了,Claude真的「杀死」了OpenClaw! | —|— 就在刚刚,Claude彻底「虾化」了,正式获批全自主接管全球打工人的电脑。换句话说,从今天开始,凡是能在电脑上完成的操作,Claude都能代劳。 不论是任何APP、浏览器、本地文件,还是复杂的Excel,各类专业工具,它皆能自主访问并操作。而且,仅需一部手机,给Clau…

    2026年3月24日
    44300
  • 理想前智驾一号位郎咸朋联手阿里前副总裁任庚,昆仑行3月注册即成独角兽,具身智能赛道再掀资本狂潮

    一家具身智能公司,3月初刚刚注册,3月尚未结束,估值已远超10亿美元。 这家公司名为“昆仑行”,由理想汽车前智驾一号位郎咸朋与阿里巴巴前副总裁任庚携手创立。 据悉,昆仑行已迅速完成三轮融资,跻身独角兽行列,成为今年以来最受资本关注的具身智能新势力之一。 企查查数据显示,北京昆仑行机器人科技有限公司注册于2026年3月16日,经营范围涵盖智能机器人研发与销售、…

    2026年4月1日
    63100
  • 超越能跑就行:Agent评测的三层四维框架与实战指南

    传统 Agent 评测的三大盲区 当前主流的 Agent 评测方式,主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区: 盲区一:只评结果,不评过程Agent 完成了任务,但中间调用了多次不必要的工具、走了弯路,这种「低效完成」和「高效完成」在传统评测中得分相同。 盲区二:只评能力,不评工程化Agent 在实验环境表现优秀,但无法部署到生产环境、无…

    2026年2月1日
    88300
  • OpenClaw狂潮下的AI自主执行时代:机遇、挑战与安全困境

    我确实对运行 OpenClaw 持相当怀疑的态度。…… 整个生态给人的感觉就像是一个彻底的狂野西部,在安全性上简直是一场噩梦。 —— Andrej Karpathy OpenClaw 已彻底从开发者和科技爱好者的小圈子中破圈而出。 自其首个代表性项目 Clawdbot 诞生以来,OpenClaw 在 GitHub 上已狂揽 352k stars,其飞涨速度超…

    2026年4月8日
    30500
  • 阿里千问App全球首发AI办事功能:一句话点奶茶背后的全模态理解与AI Coding革命

    总裁现场喊话AI点40杯奶茶,然后骑手送到了!阿里千问这次玩真的。 1月15日,千问App上线超400项AI办事功能,成为全球首个能完成真实生活复杂任务的AI助手。千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试。 同时,千问App“任务助理”开启邀测,包括移动端和网…

    2026年1月15日
    54300