📌 简短结论:强得离谱,但并非全能
综合各类基准测试与我的实际体验,可以得出结论:Gemini 3 是目前我测试过最接近“真实智能”的模型。特别是在硬核编程任务上,其表现超越了包括 GPT-5 Pro 和 Gemini 2.5 Deep Think 在内的所有竞品。

✅ 当前处于 SOTA(最优)水平的领域:
- 调试复杂的编译器 Bug
- 无逻辑错误地重构大型代码文件
- 解决高难度的 λ 演算问题
- 生成 ASCII 艺术
- 制定《宝可梦》Gen 3 OU 对战策略
❌ 作为大型语言模型的固有短板:
-
Web 开发表现不佳
在一次性生成完整 Web 应用的任务中,其表现远逊于 GPT-5.1(high),存在功能缺失、Bug 较多、生成代码量不足等问题。 -
健康咨询存在风险
当输入涉及“脑膜炎前症状”的提示时,模型完全忽略了“脑膜炎”这一关键诊断信息。切勿将其用于医疗问诊。 -
创意写作能力有限
生成的故事内容较为枯燥,缺乏文采和情感张力。 -
倾向于过度重写
在修复代码漏洞时,经常选择重写整个文件,而非进行精准的局部修补。 -
存在刻板的逻辑约束
例如,当已有泛型Show实例时,要求其编写自定义实例会被拒绝,理由是“技术冲突”。它难以理解“覆盖原有实现”的用户意图。 -
响应速度不一致
在 Gemini CLI 工具中的响应速度慢于 GPT-5,但直接调用其 API 时速度反而更快。
🎯 总结
Gemini 3 在形式化推理、系统级编程和符号操作等领域确实达到了新的高度。它虽非“通用人工智能”,但在这些特定的硬核技术场景中,已能有效提升生产效率。
然而,如果你需要进行创意写作、快速构建产品原型或咨询健康问题,它并非合适的选择。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/13398
