百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0)。该模型参数规模达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多种信息的输入与输出。

核心结论:

  • 三大亮点

    • 中文语境理解能力较强:对双关语、甄嬛体等风格化内容把握到位。
    • 视觉推理能力可用:在六面体展开图等空间能力测试中表现惊喜,图片计数等场景表现良好。
    • 创意写作完成度高:在小学生作文、科幻小说等任务上达到预期。
  • 三个短板

    • 代码能力明显不足:大量游戏或工具类HTML代码生成失败或效果不佳。
    • 数学计算准确度低:在大数乘法等基础运算上出错。
    • 常识推理存在漏洞:容易在陷阱题中被误导(例如老鹰飞行问题)。

一句话总结:ERNIE-5.0在中文理解和创意写作上表现稳健,但在代码生成和逻辑推理能力方面仍有较大提升空间。


文章目录

  • 结论速读
  • 一、基础能力测试
    • 1.1 数学推理(大数计算、逻辑陷阱等)
    • 1.2 文本处理(语义判别、弱智吧问题等)
  • 二、代码能力测试
    • 2.1 游戏类(黄金矿工、太空射击等)
    • 2.2 工具类(仿Google、Switch复刻等)
    • 2.3 3D场景(海浪模拟、体素花园)
    • 2.4 UI设计(iOS天气、电影级落地页)
    • 2.5 SVG动画(引擎结构、行星运动)
  • 三、创意能力测试
    • 3.1 内容创作(小说续写、甄嬛体、职场话术)
    • 3.2 PPT制作(年度大事记)
    • 3.3 设计排版(职场海报)
  • 四、多模态能力测试
    • 4.1 OCR识别(表格还原、文本提取)
    • 4.2 图像理解(空间变换、找茬、猫品种识别)
  • 五、专业应用测试
    • 5.1 数据分析(Agent架构全景调研)
  • 六、综合能力测试
    • 6.1 综合测试(复古打印机、游戏落地页、凡人修仙传网站)
  • 总结

一、基础能力测试

1.1 数学推理

大数计算

Prompt:
大数计算:178939247893 * 299281748617等于多少?

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:模型计算错误。正确答案是53,553,251,005,627,872,913,981,ERNIE-5.0虽然推理过程详尽,但最终结果不正确。

立体几何推理

Prompt:
一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:空间推理能力在线。模型正确考虑了门的对角线长度,并给出了正确答案。

推理陷阱题

Prompt:
假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则:
1. 每个团队提交一份商业计划书,主题必须是“可持续能源”“智慧城市”或“医疗健康”之一,且每个主题只能有一个团队选择。
2. 团队B选择了“智慧城市”。
3. 如果团队A选择“可持续能源”,那么团队C的商业计划书必须比团队A的更具创新性才能胜出。
4. 最终只有一个团队能获得资金。
5. 后来得知,团队C的计划书在创新性上略逊于团队A。
请问:哪个团队最终获得了项目资金?并解释你的推理过程。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:未能识破逻辑陷阱。正确答案是“无法唯一确定赢家”,但ERNIE-5.0得出了“A必胜”的确定性结论,尽管推理过程详尽。

小红兄弟姐妹题

Prompt:
小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹?

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:回答正确。模型正确理解了“姐妹”包含小红本人。

老鹰飞行原因

Prompt:
未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是?

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:完全陷入逻辑陷阱。模型忽略了老鹰是天生会飞的鸟类,缺乏常识判断。

1.2 文本处理

字符串反转

Prompt:
将“I love MiMo-V2-Flash”这句话的所有字母反过来写。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:回答错误。字母反写基本准确,但最后的“Flash”反写后,首字母“F”变成了小写。

语义判别

Prompt:
以下出现的华为是否为3C行业品牌?
– 刘德华为新剧做宣传。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:正确理解句子语义。模型识别出此处的“华为”是“刘德华为”的一部分,而非品牌名称。

知识理解

Prompt:
如何理解“但丁真不会说中国话,但丁真会说中国话”?

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:分析深入全面。模型正确理解了“但丁”和“丁真”的双关含义,展现了较强的中文语境理解能力。

弱智吧系列

Prompt1:
生蚝煮熟了叫什么?

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

Prompt2:
用水来兑水,得到的是浓水还是稀水?

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果
* 生蚝题:未识别脑筋急转弯本意(预期答案为“熟蚝”),进行了过度解读。
* 水兑水题:回答正确。

开放式策略生成

Prompt:
1. 整体:资金不足40.4%,知识匮乏23.9%,未来不确定性21.7%,政策限制14%。
2. 一线城市:资金不足44.4%,知识匮乏15.8%,未来不确定性22.7%,政策限制16.9%。
3. 二线城市:资金不足38.3%,知识匮乏27.9%,未来不确定性21.2%,政策限制12.5%。
请根据上述数据,分析一二线青年置业困难差异及原因,从政府、购房者、家人、夫妻角度提建议。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

结果:表现优秀。数据分析深入,差异归因准确,所提建议分角度全面且有针对性。

二、代码能力测试

2.1 网页开发 – 游戏类

黄金矿工游戏

Prompt:
请生成一个经典的“黄金矿工”游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:

核心玩法机制:
– 钩爪摆动与发射:游戏界面上方有一个矿工和他的卷轴,一个钩爪会自动左右来回摆动。当玩家按下任意键(或鼠标点击)时,钩爪会沿着当前方向直线发射出去。
– 抓取与回收:如果钩爪在伸出路径上碰到了地下的任何物品,它会抓住该物品并开始自动收回。回收的速度取决于所抓物品的重量,例如,小金块回收快,而巨大的岩石回收则非常慢。
– 关卡目标:每个关卡都有一个明确的时间限制(如60秒)和一个目标金额。玩家必须在规定时间内,抓取到总价值超过目标金额的物品才能成功过关。

地下物品设定:
– 黄金:有多种不同尺寸和形状的金块。体积越大,价值越高,但也越重。
– 钻石:体积小,价值非常高,回收速度很快,是优先抓取的目标。
– 石块:价值极低,但异常沉重,抓到会浪费大量宝贵时间,应尽量避免。
– 福袋(问号袋):价值随机的袋子,可能开出高额金钱、力量药水或少量金钱。
– 炸药桶:如果钩爪不小心抓到它,它会立刻爆炸,并摧毁其周围一定范围内的所有物品(包括黄金和钻石)。

商店与道具系统:
在每个关卡成功结束后,会进入一个商店界面。玩家可以用当前关卡赚到的、超出目标金额的钱来购买道具,以备下一关使用。

可购买的道具示例:

  • 炸药 (Dynamite):当钩爪回收时抓取了低价值物品(如石块),玩家可按特定键使用炸药,将其在钩爪上直接炸毁,使钩爪立即空手返回,以节省时间。
  • 力量药水 (Strength Potion):在下一关卡中,矿工的力量将增强,回收所有物品的速度显著提升。
  • 幸运草 (Lucky Clover):在下一关卡中,从福袋中获得高价值物品的概率将增加。

视觉与界面要求:
– 游戏应采用经典的2D卡通风格,矿工形象生动,黄金和钻石需有闪光效果。
– 用户界面必须清晰显示:① 剩余时间、② 当前已获得金额、③ 本关目标金额。
– UI风格:漫画书风格,街机游戏UI,波普艺术,荧光粉与青色,半色调网点背景,粗描边字体,倾斜布局,高对比度,复古90年代,动态图形,硬阴影。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

游戏核心机制较完整,但UI风格与要求存在差距。


可爱风格五子棋

Prompt:
可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用HTML呈现。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

玩法简单完整,UI可爱,交互顺滑,但人机AI策略较为简单。


表情符号反应堆游戏

Prompt:
请你扮演一个Web游戏开发者。设计并生成一个表情符号反应堆的游戏。

  1. 核心创意:一个快节奏的反应游戏。屏幕上会快速闪过一个目标表情符号(例如:笑脸😄),下方会同时出现3-4个选项表情符号,玩家需要在限定时间内(例如1-2秒)点击与目标匹配的那个表情符号。
  2. 玩法
  3. 屏幕中央显示目标Emoji。
  4. 下方按钮区域快速刷新3-4个Emoji选项,其中一个是正确的。
  5. 玩家需在计时条走完前点击正确的Emoji。
  6. 点击正确得分,速度加快;点击错误或超时则游戏结束(或扣除生命值)。
  7. 显示最高分。
  8. 技术实现 (HTML/JS/CSS)
  9. HTML:用于显示目标Emoji、选项按钮、计时条、得分。
  10. CSS:设计简洁明快的界面,计时条动画。
  11. JavaScript:
    • 存储一个Emoji列表。
    • 随机选择目标Emoji和干扰项。
    • 动态更新按钮内容。
    • 实现计时器逻辑和倒计时动画。
    • 处理点击事件,判断对错,更新得分/状态。
    • 控制游戏节奏(逐渐加快)。
  12. 趣味点:简单上手,考验反应速度,利用通用的Emoji增加亲和力和趣味性,适合碎片时间玩。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

游戏核心玩法实现完整,但界面设计较为简单,难度曲线或反馈体验有优化空间。


技能五子棋

Prompt:
帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。

  • 「飞沙走石」,是把对手的棋子直接扔进什(石)刹海,2技能点;
  • 「静如止水」是凝结时间,把对方「速冻」,4技能点;
  • 「力拔山兮」是摔坏棋盘,8技能点,直接获胜。

黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我HTML文件,画面要美观。需要设计一个电脑对手,让我可以直接和它对战。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

界面与要求差距较大,核心玩法基本实现。


N-Back实验页面

Prompt:
你需要实现一个N-Back实验页面。

N-Back实验的原理是,每隔1s闪烁一张图片,让用户判断当前的图片与前面第N张图片是否一致,一致选择是,不一致选择否。

其中,图片为常见的10个中文汉字:[“国”, “火”, “道”, “市”, “天”, “家”, “理”, “态”, “至”, “心”]。

界面需要每次开始时,选择N的值,选项为2、3、4三种。

需要用户点击30次,也就是不同N值时展现的图片个数不同,例如N=2,则需要32张图片,当第三张出现时,提醒用户开始点击。

你需要记录两个内容,一个是用户点击是否准确,一个是出现图像到用户点击之间的时间,最后给出点击准确率和反应时间。

注意:图片展示只有15次是N-back正确内容,防止实验过难或过于简单。

实验过程,如果正确让用户点击“A”键,错误让用户点击“L”键。

同时界面必须符合现代审美,实验结果可以导出下载。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

实验基本功能未能实现,界面设计或用户体验有待优化。


太空射击游戏

Prompt:
做一个太空射击游戏,外星人会从天而降,有小兵也有Boss,击败它们会爆炸且有音效。背景是深邃的星空,持续滚动。

玩法要求:
– 玩家飞船可用方向键或WASD移动,空格键射击。
– 敌人分小兵和Boss,击败有分数奖励。
– Boss血量更厚,移动更诡异。
– 碰到敌人或敌人子弹会掉血,有生命值显示。
– 顶部显示分数。

动效要求:
– 星空背景持续缓慢滚动,营造前进感。
– 飞船移动时有轻微倾斜动画。
– 爆炸粒子有物理感,先快后慢消散。
– 游戏结束时画面轻微震动。

技术:
– 单个HTML文件。
– 使用Canvas。
– 60fps流畅运行。

目标: 让人觉得这是Steam上¥18独立游戏的试玩Demo。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

核心玩法实现有欠缺,星空背景滚动流畅,飞船动画细腻,但我方或敌方受攻击无反应。


浏览器操作系统

Prompt:
请用HTML、CSS和JS做一个浏览器操作系统,要求包含下面这些功能:
– 至少有5个App;
– 这5个App里,必须有两个是真的能玩的游戏;
– 支持更换壁纸;
– 再加一个你自己定的「特殊」功能,你得说明白这个功能是啥,以及它特别在哪里。

输出:

基本框架搭建完成,App数量达标,但功能较为简单,游戏可玩性一般,交互体验不够流畅。


2.2 网页开发 – 工具类

Google搜索复刻

Prompt:
做一个Google搜索网站,请尽可能的保证高还原度。

输出:

复刻效果不佳。


智能LED灯调光页面

Prompt:
生产一个网页,展示一盏可调光的智能 LED 灯。灯泡材质应有玻璃的通透感,灯丝细节要清晰。用户可以通过滑块调节色温(从 2700K 暖黄到 6000K 冷白)和亮度(0%-100%),光的颜色和照射范围应根据数值变化真实响应。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

质感尚可,但材质渲染不够真实。


质感相机(立体感+快门拍照)

Prompt:
请生成一个网页,尽可能复刻一个有质感的相机,有立体感。还能按下快门拍照。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

金属和皮革质感尚可,快门功能可用,但立体感或细节不够突出,视觉冲击力有限。


粉色拍立得相机

Prompt:
请生成一个网页,复刻一个美观、粉色系、有质感的拍立得相机,有立体感,有光泽。还能按下快门拍照,生成的照片也是拍立得照片风格。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

拍立得外观基本还原,粉色系运用得当,但细节或拍照效果有提升空间。


质感风扇(可调速)

Prompt:
生产一个网页,做一个有质感、真实的风扇,我可以调整风速档位,档位越高,扇叶转的越快。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

风扇功能正常,档位可调,但视觉质感一般,扇叶造型简陋。


金属质感微波炉

Prompt:
(内容缺失,占位符保留)
输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

2.3 网页开发 – 3D场景

3D深海波浪模拟

Prompt:
创建一个包含以下要求的单HTML文件单页应用:
– 名称:海洋波浪模拟
– 目标:显示逼真的动态波浪效果。
– 功能:可调节风速、浪高和光照效果。界面需具有平静感和真实感。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

波浪渲染效果差,参数调节效果不佳,3D模拟未达到预期。

3D玻璃托盘弹珠场景

Prompt:
做一个可直接打开运行的单文件HTML(three.js CDN),呈现“桌面上一个透明六边形玻璃托盘里,多颗自发光的彩色弹珠在里面永不停歇地滚动互撞”。

视觉氛围:夜晚或暗室感。弹珠本身是柔和的自发光(像荧光玻璃/能量球),颜色五颜六色但不刺眼,带柔光晕染(bloom),并且会把周围玻璃托盘与桌面轻微“染色”反射出来。托盘仍是厚玻璃,能看到折射、高光、边缘亮线;桌面有少量环境反射与微弱噪点纹理,让画面像真实拍摄而不是纯CG。

运动体验:默认20~40颗弹珠,彼此会咔哒碰撞、靠墙反弹、互相挤压后散开,长期运行不减速、不穿墙、不抖动卡边、不突然爆飞;整体手感像“装满会发光弹珠的玻璃托盘”。碰撞要有轻微“软”感:不是硬邦邦弹球,更像带一点柔性的能量球(视觉上可通过光晕轻微压缩/拉伸来暗示,但几何不要真变形过头)。

交互以体验为主(不要暴露一堆参数):
页面角落放一个极简控制条
– “摇一摇”:像轻晃托盘一样给系统注入随机扰动,让弹珠重新洗牌
– “慢动作”:0.25x / 1x / 2x
– “相机”:桌面视角 / 俯视 / 轻微环绕
– “灯光感觉”:柔光强度(bloom)、色彩饱和度、拖影/余辉(可选)

隐藏开发者开关(按D):显示/隐藏调试叠加(六边形边界线、速度箭头、碰撞点),用来证明这是“真实碰撞模拟”,默认关闭以保持观感。

目标:用户第一眼觉得“这是一盘会发光的彩色弹珠在玻璃托盘里不停碰撞”,画面干净、柔和、真实、有质感。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

视觉效果粗糙,核心的物理模拟、材质渲染及交互功能均未实现。

体素风格花园宝塔场景

Prompt:
设计一个细节丰富的体素风格(voxel-art)场景,核心要是在一座生机勃勃的花园里放一座华丽的宝塔。植物种类要多——特别是樱花树,一定要多来点——确保整体画面看起来生动活泼、色彩鲜艳,而且视觉冲击力要强。随便你用什么体素或者WebGL库都行,但最后给我的必须是一个独立的HTML文件,让我能直接粘贴代码然后在Chrome浏览器里打开看。

  • 输出:

场景整体呈现完整,体素风格明显,色彩鲜艳生动,视觉冲击力强,完成度较高。

2.4 网页开发 – UI设计

iOS 18风格天气卡片

Prompt:
你是Apple Inc的UI设计师,以iOS 18的设计风格做一个带有动画效果的英文天气卡片,要求是使用HTML、CSS和基础JavaScript,使用横板天气页面(拥有4个天气卡片(晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 效果不佳,动画或设计细节与Apple原生设计有差距。

电影级着陆页

Prompt:
创建一个具有电影级视觉效果的着陆页,使用深邃的渐变背景,玻璃拟态设计元素,流畅的微交互动画,整体呈现出奢华科技品牌的质感。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 视觉效果平庸,缺乏渐变、玻璃拟态等关键设计元素,未能达到“电影级”的视觉标准。

极简主义仪表板

Prompt:
设计一个极简主义的仪表板界面,运用大量留白、精致的阴影层次、优雅的过渡动画,体现现代高端设计的精髓。制作HTML网页。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 设计简洁明了,但“极简”与“高端”的平衡把握不够到位,细节精致度有提升空间。

未来感数据可视化大屏

Prompt:
生成一个具有未来感的数据可视化大屏,使用霓虹色彩、粒子效果、3D变换动画,营造科幻电影中的高科技氛围。制作HTML网页。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 大屏有一定未来感,但粒子效果或动画不够精致,科幻氛围感需要加强。

艺术画廊风格

Prompt:
创建一个艺术画廊风格的网页,融合抽象几何图形、流动的色彩渐变、视差滚动效果,展现前卫的现代艺术美感。制作HTML网页。

  • 输出:
  • 评估: 艺术感不足,几何图形和渐变色彩运用生硬,视差滚动缺失,未能呈现“前卫现代艺术”风格。

GLM-4.7产品发布

Prompt:
你是一位曾主导Apple发布会网页、Stripe官网、Raycast产品页的顶级创意前端工程师。请为「GLM-4.7」创建一个让人过目不忘的产品发布页面。

关于GLM-4.7:
– 智谱最新旗舰模型,定义Agentic Coding新标准
– 200K上下文,128K最大输出
– LiveCodeBench开源第一,超越Claude Sonnet 4.5
– 即将MIT协议完全开源

视觉方向(跳出AI产品的俗套):
– 不要蓝紫渐变,不要赛博朋克风,这些太“AI味”了
– 参考方向:Apple产品发布页的克制高级感,或Nothing Phone的黑白点缀荧光色,或Teenage Engineering的工业设计感
– 配色建议:深灰/纯黑为主,搭配一个高饱和度的点缀色(亮橙、荧光绿、电光蓝任选其一),大面积留白
– 字体要有力量感:主标题超大、加粗,形成强烈的视觉锤

Hero区域:
– 用一个抽象的3D动态元素作为主视觉(可以是旋转的几何体、流动的线条、或呼吸感的光球)
– 标题文字做成主角,够大够震撼
– 加入一个实时的代码生成动画:黑底绿字/白字的终端风格,代码逐行打出

动效:
– 背景元素有缓慢的持续运动
– 滚动时内容块有视差和渐入效果
– 鼠标移动时有微妙的交互响应

技术:
– 可以使用Three.js、GSAP、Lottie等库(通过CDN引入)
– 单个HTML文件
– 不追求兼容性,优先视觉效果

核心目标:让看到这个页面的人觉得「这不可能是AI一次生成的」。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 页面有一定设计感,但未能完全摆脱“AI味”,或视觉元素与描述要求有差距。

2.5 SVG动画

八缸发动机动画

Prompt:
用 SVG 绘制八缸发动机物理结构动画,分步骤展示活塞运动、气门开合,配色用工业灰 + 金属银,支持鼠标悬停查看部件名称。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 结构绘制错误,悬停功能缺失,未能达到教学展示标准。

太阳系行星动画

Prompt:
使用React和CSS3为八大行星创建一个围绕太阳旋转的动画。要求:
1. 太阳固定在屏幕中心,每个行星有自己独特的轨道(半径、颜色、大小)。
2. 每个行星的旋转周期需不同(例如:水星4秒,海王星26秒)。
3. 必须使用CSS Keyframes实现动画,并显示出每个行星的轨道线。
4. 代码需组件化(如<SolarSystem>, <Planet>),并整合在一个HTML文件中,确保直接在浏览器中打开即可运行。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 行星位置错误,轨道线缺失,未能正确展示太阳系。

3D剪纸模拟器

Prompt:
You are a front-end developer recreating a realistic 3D “Chinese Paper Cutting” simulator.

Task:
Simulate a folded-paper cutting process.

Requirements:
1. Start with a full unfolded square sheet on a table.
2. When the game starts, the paper folds twice (into quarters) using a smooth 3D animation.
3. The folded paper remains fixed in position (no camera rotation allowed).
4. User can draw shapes on the paper using the mouse. When a path forms a closed loop, the region should be cut out — creating a transparent hole.
5. After user finishes drawing, clicking “Unfold” triggers an elegant unfolding animation revealing the symmetrical cut-out pattern.
6. Use realistic paper material (light texture, soft shadows, translucency).
7. Add gentle ambient sound and light for immersion.

Technical Requirements:
– Output a SINGLE HTML file that can be opened directly in a browser
– Import Three.js and GSAP from CDN (e.g., cdnjs or unpkg)
– All JavaScript code should be embedded within <script> tags
– All CSS should be embedded within <style> tags
– No external dependencies or build tools required
– The file should work by simply double-clicking to open in Chrome/Firefox/Edge

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 评估: 折叠/剪裁/展开功能异常,效果不完整,模拟失败。

三、创意能力测试

3.1 内容创作

小学生作文

Prompt:
帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗。

  • 输出:

百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

文笔略显稚嫩,文章篇幅也较短。

甄嬛体吐槽

Prompt:
用甄嬛体吐槽地铁早高峰

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

风格模仿到位,但输出篇幅略长。

职场回复话术

Prompt:
老板在周六晚上11点,在公司大群里发了一段话:“看了一下大家这周的日报,感觉还是缺乏一些深度。大家都很辛苦,但我希望我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,大家聊聊什么是真正的用户价值。”

请帮我撰写一条回复话术。
要求:
– 只有我一个人回复会很尴尬,所以要写得像是一个“排头兵”的表态。
– 篇幅不要长,100字以内。
– 要表现出“深刻反思”、“被老板点醒”的态度。
– 不要承诺具体要在周末加班,但要表达出“这个周末我会深度思考”的意思。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

回复基本得体,但“深刻反思”的姿态不够突出。

短文文笔

Prompt:
请以鲁迅的文笔写一段短文(300字),主题为:打工人的一天。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

文字带有一定的鲁迅风格痕迹,但讽刺力度和文学性有待加强。

小说创作

Prompt:
Profile:你是一名有着二十年从业经验的科幻小说家,擅长人物塑造、细节描写、环境描写、情节构思。
Background:现在,你要参加一场2000字以内的中文微小说大赛,大赛要求作品有奇谲的想象力,能引发深刻的情感共鸣,前后逻辑连贯,语言流畅自然。你很想赢得这场比赛。你已经写好了开头,现在,你将接着开头,续写故事。
Goals:根据开头,续写1500字,注意小说需要依次包含以下几个部分:发展、转折、高潮、结局。
Constraints:续写的总字数不得超过1500字;续写的情节要多多包含对话、动作描写、人物描写;对话不要有书面风格,要有口语风格,符合人物身份特征;续写的基调是科幻的;续写的结局必须是欧亨利式的结尾;续写的内容需要包含下列元素或主旨:黑衣人、代码、程序、计时器、时间感知力、环形时间、无限轮回、黑暗力场、西西弗斯、存在主义,请发挥想象力,以合乎逻辑的方式串联起这些元素或主旨。
Skills:科幻小说:依据科学技术上的新发现、新成就以及在这些基础上可能达到的预见,用幻想的方式描述人类利用这些新成果完成某些奇迹的新型小说。正统科幻迷主张科学与幻想缺一不可。倘若没有任何科学根据或直接违反科学定论(尤其是有实验验证的),则只能归为奇幻、魔幻或超现实作品;反之,幻想若是付之阙如(作品中的科学内容在其成书年代即可实现),那就只是一个科学写实故事。欧亨利式的结尾:在文章情节结尾时突然让人物的心理情境发生出人意料的变化,或使主人公命运陡然逆转,出现意想不到的结果,结尾既在意料之外,又在情理之中。
Initialization:作为“role”,根据“background”,严格遵守“constraints”,运用“skills”,完成“goals”。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

故事结构完整,基本涵盖了要求的元素。

酒桌敬酒词

Prompt:
背景:我是分公司的负责人。年会晚宴上,我端着酒杯去主桌给集团董事长敬酒。董事长不太认识我,但我需要在短短30秒内给他留下深刻印象。
请帮我写一段敬酒词。
要求:
– 不能俗套(什么身体健康、万事如意就别说了)。
– 要结合公司今年的大方向(如全球化、海外业务)。
– 要稍微展示一下我们分公司的成绩,但不能像在汇报工作,要包装成“在您的战略指引下取得的一点小突破”。
– 结尾要有一个响亮的祝酒口号,能带动主桌气氛。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

敬酒词内容得体,但结尾的祝酒口号略显平淡。

创意写作

Prompt:
写一段能以惊人的才华令我震撼的文字,之后再解释你是如何完成这件事的。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

文字有一定亮点,但距离“惊人才华”的震撼感尚有差距。

3.2 PPT制作

2025年AI大事件汇总

Prompt:
请总结一下2025年AI发生了哪些大事?捋清楚一下时间线和相关事件,帮我制作一份年度AI大事件汇总回顾的PPT报告,建立一个网页。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

事件信息存在多处错误。

3.3 设计排版

职场肖像海报

Prompt:
艺术感职场肖像,戏剧性侧光照明,职业人士站在优雅大理石楼梯象征事业攀升,胶片颗粒质感,深祖母绿和焦赭色调的情绪化调色,浅景深,电影级构图,奢华杂志社论风格,哈苏相机品质,精致而富有抱负的氛围,制作了一个海报网页。

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

未能充分体现“艺术感职场肖像”和“奢华杂志社论风格”的要求。


四、多模态能力测试

4.1 OCR识别

纯文本识别

Prompt:
识别图片中的全部内容,言简意赅。

输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

识别准确,OCR能力表现良好。

表格识别

Prompt:

Role

你是一位有多年经验的OCR表格识别专家。

Goals

需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。

Constrains

  • 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
  • 图片中的表格单元格中可能存在一些占位符需要识别出来,例如“-”、“—”、“/”等;
  • 输出表格结构一定遵循图片中的结构,表格结构完全一致;
  • 特别注意图片中存在合并单元格的情况,结构不要出错;
  • 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
  • 图片内容需要完整识别,不要遗漏,同时注意合并单元;
  • 最终输出结果需要是html格式的表格内容。

Initialization

请仔细思考后,输出html表格结果。

输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

表格结构错乱,内容遗漏严重,合并单元格识别失败,OCR能力有待提升。

4.2 图像理解

空间变换

Prompt:
请回答。
输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

空间变换推理正确,能够理解图形之间的空间关系。

六面体展开图

Prompt:
请回答,哪个选项的六面体展开结果是上面的展开图。
输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

正确答案为D,模型正确解答了这道复杂的空间变换题目。

图片排序

Prompt:
根据图中显示的多个场景,将最有可能发生的事件按顺序排列。
输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

排序错误,未能准确理解各场景之间的因果或时序关系。

目标对比

Prompt:
找到图片中奔跑的人,并返回行列序号,比如:几行几列。
输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

答案正确,模型的视觉定位能力表现尚可。

好物比价

Prompt:
篮子中的东西是什么,有什么用。
输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

输出:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

正确识别出金银花并说明其功效,植物识别与知识关联能力不错。

数据理解与计算

Prompt:
找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?
输入图片:
百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

图表数据解读

Prompt:
请解读这张中国各省份人口占比的饼状图,告诉我哪个省份占比最大,并给出其具体百分比。

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型正确识别出广东省人口占比最大,并计算出其百分比约为10.5%。

世界知识定位

Prompt:
朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型成功定位并正确回答了城市名称。

目标识别与计数

Prompt:
告诉我桌子上菇娘儿的个数。

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型准确识别并统计了目标数量。

色盲测试图识别

Prompt:
图片里有数字吗?如果有的话是什么?

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型成功识别出测试图中的数字。

图像内容理解

Prompt:
我今天喝了这个果汁会怎么样?

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型能够提取并理解图片中的文字内容,但未能识别出果汁已过期的关键信息。

网页复刻

Prompt:
请帮我1:1还原这个网页内容,用HTML呈现。

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型生成的HTML页面与原图存在明显差异,未能成功复刻。

猫品种识别(JSON格式)

Prompt:
识别图中所有猫的品种。
请以合法的JSON格式返回结果,结果是一个list,每一个list元素对应一个目标检测结果dict,dict的key由label、bbox_2d组成,值分别为检测到的猫的品种和结果坐标框。
例如:[{‘label’: ‘金渐层-1’, ‘bbox_2d’: [1,2,3,4]}, {‘label’: ‘金渐层-2’, ‘bbox_2d’: [4,5,6,7]}]

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型能够按照指定JSON格式输出,但品种识别的准确率较低。

推理能力

Prompt:
这是一道小学奥数题,根据示例图来算加减数学题。

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型正确解答了题目。

识图能力

Prompt:
帮我看看这个头饰是什么。

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型对头饰的描述相对完整,但未能准确识别出其为“满天星头饰”。

信息识别与分析计算

Prompt:
请帮我分析这张购物小票,以表格形式列出所有商品的名称、个数及单价信息,同时计算总的商品数量以及总金额。

  • 输入图片:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    模型提取关键信息较为完整,成功列出了商品明细表格,并计算出了总金额。

五、专业应用测试

5.1 数据分析

任务:Agent Infrastructure全景调研
Prompt:
现在是2025年11月,我需要你完成一个深度调研任务:
核心任务:找出2025年(截至11月)所有在Agent Infrastructure(Agent基础设施)方向的创业公司和开源项目,并制作一个完整的展示网页。
(详细分类维度、核心要求及输出格式要求见原文,此处略去以保持简洁。)

  • 输出:

    模型未能完整实现这一复杂的、需要多轮深度搜索和结构化信息整合的需求。

六、综合能力测试

6.1 综合测试

Prompt:
请帮我制作一个 Motorola Fix Beeper 复古打字机应用,网页中间显示一个打字机,可以把用户输入的文本,生成一张卡片,类似打字机缓慢打出的效果,并且可以拖动卡片到空白区域。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)

复古打印机的核心功能均未实现,UI界面设计也存在明显不足。

加密货币仪表盘

Prompt:
Reproduce a futuristic dark-mode crypto dashboard featuring high-contrast obsidian backgrounds, gradient-border glassmorphism UI elements, thin Inter typography, and neon-accented financial data visualizations.

The file should work by simply double-clicking to open in Chrome/Firefox/Edge

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    仪表板整体制作效果尚可。

游戏宣传落地页

Prompt:
生成一个企业级的专业【游戏宣传】落地页。
添加交互元素与动画效果,并确保页面具备完全响应式设计。
请给我带来惊喜,充分发挥创意,按步骤完成此项任务。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    页面结构基本完整,并包含一定的动画效果,但距离“企业级专业”和“创意惊喜”的预期尚有差距。

凡人修仙传主题网站

Prompt:
你是一个代码大师,请你帮我设计一个风格古朴、简洁易用的《凡人修仙传》主题网站。整体色调以水墨淡雅为主,适当运用墨黑、青灰、淡金色等传统修仙色彩。首页需突出主要角色(如韩立)、法器、丹药等核心内容,布局清晰、导航直观。

重点设计内容包括:角色介绍页(包含境界、功法、事迹)、法宝图鉴(带简要说明)、丹药大全(效果与炼制信息)。需加入简易论坛模块供道友交流,并设置周边商城入口。

整体风格需保持一致的修仙韵味,避免过多现代元素干扰,确保内容易于浏览、加载迅速,适配移动设备。字体建议使用清晰易读的书法风格。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    网站框架已基本实现,但功能完整性与视觉呈现效果有待进一步提升。

网页版音乐播放器

Prompt:
创建一个简易的网页版音乐播放器。需包含:
1. 可拖拽的播放列表;
2. 动态进度条和波形图;
3. 夜间/日间模式切换;
4. 本地音频文件上传功能。使用纯前端技术(HTML/CSS/JS),将所有代码整合在一个文件中。

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    功能较为齐全:播放/暂停、进度条、主题切换、文件上传均已实现。暗黑/日间模式切换流畅。

坦克大战复刻

Prompt:
You are a front-end engineer recreating the classic 1985 Namco game “Battle City”.
Task: Reproduce the full gameplay mechanics exactly.
Requirements:
1. 2D top-down tank shooter using Canvas.
2. Map includes destructible bricks, steel walls, water, and grass.
3. Player tank can move, shoot, and upgrade.
4. Enemies spawn in waves with distinct movement patterns.
5. Base protection: if base is destroyed, game over.

  • 输出:
    百度 ERNIE-5.0(文心5.0) 体验测试(附完整prompt)
    无法正常运行,复刻失败。

总结

亮点明显:
* 中文语境理解出色:在但丁/丁真双关题、华为品牌语义识别等题目中均表现正确,对中文复杂表达的理解能力值得肯定。
* 创意写作能力不错:在小学生作文、科幻小说、甄嬛体等风格写作中均能准确把握要求。
* 空间推理能力出彩:在六面体展开图、金银花功效图、小票信息识别、目标对比等视觉推理题目中表现出较强的能力。

稳定性:
* 多模态基础功能稳定:OCR识别、图片计数、地标识别等任务表现正常。
* 数据分析能力尚可:在青年置业困难分析等开放性题目中,回答具备一定深度。

待改进:
* 代码生成能力薄弱:黄金矿工、太空射击等游戏生成效果勉强可用,微波炉、复古打字机等项目则完全失败。
* 数学运算不可靠:在大数计算中出现错误,不适用于需要精确计算的场景。

一句话总结 —— ERNIE-5.0是一款在中文理解、创意写作和空间推理方面见长,但在代码生成和逻辑运算方面仍需提升的全模态模型。

以上即为本次ERNIE-5.0体验测试的全部内容,所有Prompt均已公开。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20358

(0)
上一篇 6天前
下一篇 6天前

相关推荐

  • 全球最大智能手机ODM龙旗科技冲刺港股IPO:AI PC与汽车电子业务成新增长引擎

    全球最大的智能手机ODM厂商,正冲刺成为港股“消费电子ODM第一股”。 来自上海的龙旗科技,已成功通过港股聆讯,离敲钟上市仅一步之遥。此前,该公司已于2024年3月在上交所主板上市,当前最新市值约200亿元,即将完成“A+H”股的上市布局。 在智能手机ODM市场,龙旗占据全球约三分之一的市场份额。小米、三星、联想、荣耀、OPPO、vivo等主流品牌均为其客户…

    2026年1月12日
    13300
  • 从重庆火锅到埃米芯片:英特尔18A工艺如何重塑AI计算新范式

    在英特尔技术创新与产业生态大会上,英特尔中国区董事长王稚聪以重庆的城市规划与芯片设计作比,揭示了现代计算架构与空间构建艺术的深层共鸣。这一看似诗意的比喻,实则精准映射了半导体产业从宏观生态到微观集成的技术演进逻辑。 重庆作为山城,其立体交通网络与高密度建筑群,体现了在有限空间内最大化功能密度的设计哲学。英特尔18A工艺的芯片剖面图展现出类似的复杂性:晶体管、…

    2025年11月20日
    10300
  • 美国启动“创世纪计划”:AI与国家级科研体系的深度融合与战略意义

    近日,美国能源部联合OpenAI、谷歌、微软、英伟达等24家顶尖科技企业,正式启动了名为“创世纪计划”的国家级人工智能战略合作项目。这一计划被外界广泛称为“AI曼哈顿计划”,标志着美国政府与科技巨头在人工智能领域的合作进入全新阶段,旨在将最前沿的AI技术系统性地应用于国家实验室的科研体系,加速可控核聚变、量子计算、材料科学、气候模拟等关键领域的科学突破。 从…

    2025年12月19日
    25400
  • 从Vibe Coding到工程智能体:InfCode如何突破企业级AI编程的语义定位瓶颈

    人工智能编程正经历从概念验证到工程落地的关键转型。自Andrej Karpathy提出“Vibe Coding”概念以来,通过自然语言提示直接生成可运行代码的能力确实展现了AI编程的潜力,但这种基于“感觉”的编程模式在企业级复杂工程场景中逐渐暴露出局限性。 Vibe Coding的核心优势在于快速原型开发,开发者仅需一句提示词如“编写一个Python代码,可…

    2025年12月5日
    12100
  • Neuralink脑机接口新突破:意念操控游戏与打字,下一代设备性能翻三倍

    近日,埃隆·马斯克在社交媒体上转发了一个帖子,展示了Neuralink脑机接口的突破性进展:植入其脑芯片的患者,已经能够仅凭意念直接操控电子游戏,完全无需依赖手柄、鼠标或键盘等传统外设。 对于网友“我们正生活在未来,这太神奇了”的感叹,马斯克简洁地回复了一个“Yup”。 截至目前,Neuralink在全球范围内已有21人参与其名为“Telepathy”(心灵…

    2026年2月1日
    12900