Gemini模型
-
谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色
做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。 为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。 那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。 如今,Google 将这个想法变成了现实。他们在 GitHub…
-
Google Gemini模型矩阵再添新军:Nano Banana 2 Flash与Gemini 3.0 Flash的战略布局与技术解析
近期,Google在AI模型领域的动态再次引发行业关注。继Nano Banana 2 Pro(内部代号Ketchup)之后,代码库中出现的“Mayo”指向了即将发布的Nano Banana 2 Flash版本。这一系列动作不仅揭示了Google在模型优化上的持续投入,更展现了其通过分层策略扩大Gemini生态系统覆盖范围的战略意图。 从技术架构来看,Nano…
-
SIMA 2:从指令执行到主动认知,Gemini驱动的具身智能新范式
在人工智能向通用智能(AGI)演进的道路上,具身智能(Embodied AI)正成为关键突破口。近日,Google DeepMind发布的SIMA 2(Scalable Instructable Multiworld Agent)标志着这一领域实现了从被动指令执行到主动认知推理的范式转变。DeepMind创始人Demis Hassabis将其定义为“通往通用…
-
谷歌神秘模型突破历史手写识别极限:从字符识别到知识推理的AI跃迁
近日,谷歌AI Studio上出现的神秘模型在历史手写文本识别(HTR)领域取得突破性进展,不仅成功转写了200多年前的商人账本,还展现出令人震惊的推理与纠错能力。这一进展不仅标志着AI在文档处理技术上的重大进步,更揭示了大型语言模型从单纯模式匹配向深度知识理解演化的关键路径。 历史手写文本识别长期以来被视为AI领域的“硬骨头”,其挑战不仅在于视觉层面的字符…