Gemini 3深度评测：硬核编程的SOTA王者，为何在Web开发上“翻车”？

2025年11月22日上午10:59 • 大模型工程 • 阅读 209

📌 简短结论：强得离谱，但并非全能

综合各类基准测试与我的实际体验，可以得出结论：Gemini 3 是目前我测试过最接近“真实智能”的模型。特别是在硬核编程任务上，其表现超越了包括 GPT-5 Pro 和 Gemini 2.5 Deep Think 在内的所有竞品。

Gemini 3深度评测：硬核编程的SOTA王者，为何在Web开发上“翻车”？

✅ 当前处于 SOTA（最优）水平的领域：

调试复杂的编译器 Bug
无逻辑错误地重构大型代码文件
解决高难度的 λ 演算问题
生成 ASCII 艺术
制定《宝可梦》Gen 3 OU 对战策略

❌ 作为大型语言模型的固有短板：

Web 开发表现不佳
在一次性生成完整 Web 应用的任务中，其表现远逊于 GPT-5.1（high），存在功能缺失、Bug 较多、生成代码量不足等问题。
健康咨询存在风险
当输入涉及“脑膜炎前症状”的提示时，模型完全忽略了“脑膜炎”这一关键诊断信息。切勿将其用于医疗问诊。
创意写作能力有限
生成的故事内容较为枯燥，缺乏文采和情感张力。
倾向于过度重写
在修复代码漏洞时，经常选择重写整个文件，而非进行精准的局部修补。
存在刻板的逻辑约束
例如，当已有泛型 Show 实例时，要求其编写自定义实例会被拒绝，理由是“技术冲突”。它难以理解“覆盖原有实现”的用户意图。
响应速度不一致
在 Gemini CLI 工具中的响应速度慢于 GPT-5，但直接调用其 API 时速度反而更快。

🎯 总结

Gemini 3 在形式化推理、系统级编程和符号操作等领域确实达到了新的高度。它虽非“通用人工智能”，但在这些特定的硬核技术场景中，已能有效提升生产效率。

然而，如果你需要进行创意写作、快速构建产品原型或咨询健康问题，它并非合适的选择。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/13398

AI局限性 Gemini 3 SOTA模型大模型评测编程能力

赞 (0)

0 0

从IMO金牌到首位80后院士：刘若川的数学之路与北大黄金一代的科研场域

上一篇 2025年11月22日上午10:52

Meta WorldGen：文本驱动3D世界生成的革命性突破与产业影响分析

下一篇 2025年11月22日上午11:41

大模型工程

如何使用 Knowledge Graph 和 LLM 构建构建问答系统

基于模拟 FAQ 文档构建的知识图谱本文将介绍一个基于知识图谱（使用上一篇文章介绍的方法构建）和大型语言模型（LLM，此处使用 Gemma3-4b-it-qat）的简易问答系统。选择 Gemma3-4b 是因为其模型尺寸适中，可在普通笔记本电脑上运行，且具备出色的指令遵循能力。我们将以一个虚构智能手机产品的 FAQ 文本为例，复用上一篇文章的代码为其构建…

2025年11月13日
176000
大模型工程

终结 Prompt？斯坦福论文揭示大模型下一阶段的新范式

Verbalized Sampling 示意图 / By Author 提示词工程即将迎来变革？一篇曾被忽略的斯坦福论文（https://arxiv.org/pdf/2510.01171）揭示了这一可能。其核心思想与一篇Medium文章（https://medium.com/generative-ai/stanford-just-killed-prompt-…

2025年11月8日
187000
大模型工程

跨越模态边界：构建真正理解图像、表格与文本的多模态RAG系统

构建多模态 RAG 系统的终极指南三个月前，我们新开发的 AI 应用在诸多看似简单的问题上频频“翻车”。问题根源并非 AI 不够智能或数据不足，而是因为答案蕴含在一张图片里，而当时的系统仅能处理文本。这一时刻迫使我直面一个在构建 RAG 系统时长期回避的核心问题：我们花费数年时间教 AI “阅读”文字，却忽略了人类同样通过图像、表格、公式和流程图来“表达…

2025年12月16日
294000
大模型工程

MLIR编译器优化揭秘：双缓冲与多线程如何实现AI核函数延迟隐藏与并行加速

关键词： MLIR、AI Kernel 编译器、延迟隐藏、并行性、双缓冲 Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler https://arxiv.org/pdf/2602.20204 6000 字，阅读 24 分钟面向边缘设备的 AI 核函数编译，…

1天前
50000
大模型工程

清华UniCardio：多模态扩散模型革新心血管监测，实现实时全面信号生成

可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰，高质量的心血管信号仍难以长期便捷获取，这是智能健康监测系统始终面临的现实困境。近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardi…

2025年12月30日
308000

发表回复