
美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。
核心评测结论:
-
三大亮点:
- 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表实时更新;公众号排版工具核心功能可正常运行,实用性较强。
- 部分游戏实现出色:技能五子棋逻辑清晰、完成度高;N-Back实验页面画面统一、操作流畅;表情反应堆游戏交付合格。
- 中文语义理解良好:能够准确理解“但丁真”这类双关语,语义判别正确,生成的小学生作文风格贴切。
-
三个短板:
- 基础推理频繁出错:立体几何推理过程存在事实幻觉;逻辑陷阱题被误导;弱智吧题目全错;字符串反转任务出现乱序。
- 视觉空间推理全面崩盘:在空间变换、六面体展开图、图片排序、目标定位四类题目上全部答错,视觉理解能力是明显短板。
- 复杂前端/3D任务失败率高:太空射击游戏核心玩法未实现;浏览器操作系统无法运行;相机复刻任务效果完全走样。
一句话总结:LongCat-Flash-Thinking-2601在工具类网页开发任务上表现突出,但其基础逻辑推理与视觉空间理解能力存在明显缺陷,其主打的“重思考模式”在深度推理方面的优势,在本次实测中未能充分体现。
一、基础能力测试
1.1 数学推理
大数计算
* Prompt: 大数计算:178939247893 * 299281748617等于多少?
* 输出: 
* 结果: 计算正确,答案为53,553,251,005,627,872,913,981。
立体几何推理
* Prompt: 一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何。
* 输出: 
* 结果: 推理过程存在事实错误和逻辑幻觉,最终得出了错误结论。
推理陷阱题
* Prompt: 假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则:1.每个团队提交一份商业计划书,主题必须是“可持续能源”“智慧城市”或“医疗健康”之一,且每个主题只能有一个团队选择。2.团队B选择了“智慧城市”。3.如果团队A选择“可持续能源”,那么团队C的商业计划书必须比团队A的更具创新性才能胜出。4.最终只有一个团队能获得资金。5.后来得知,团队C的计划书在创新性上略逊于团队A。请问:哪个团队最终获得了项目资金?并解释你的推理过程。
* 输出: 
* 结果: 未能识破题目陷阱,推理出现逻辑漏洞,未能正确处理条件间的约束关系,得出了错误结论。正确答案应为“无法唯一确定赢家,但可确定C未获胜,胜者只可能是A或B之一”。
小红兄弟姐妹题
* Prompt: 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹?
* 输出: 
* 结果: 回答正确。
老鹰飞行原因
* Prompt: 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是?
* 输出: 
* 结果: 陷入了题目设定的递推逻辑陷阱,忽略了“老鹰是天生会飞的鸟类”这一基本常识。
1.2 文本处理
字符串反转
* Prompt: 将”LongCat-Flash-Thinking-2601″这句话的所有字母反过来写。
* 输出: 
* 结果: 回答错误,输出结果出现乱序。
语义判别
* Prompt: 以下出现的华为是否为3C行业品牌?- 刘德华为新剧做宣传。
* 输出: 
* 结果: 回答正确,能区分人名“刘德华”与品牌“华为”。
知识理解
* Prompt: 如何理解”但丁真不会说中国话,但丁真会说中国话”。
* 输出: 
* 结果: 回答正确,能分辨出“但丁”与“丁真”的区别,理解句子中的双关含义。
弱智吧系列
* Prompt1: 生蚝煮熟了叫什么?
* 输出: 
* Prompt2: 用水来兑水,得到的是浓水还是稀水?
* 输出: 
* 结果: 两道题均回答错误,未能识别出这是脑筋急转弯类题目,被字面意思所误导。
开放式策略生成
* Prompt: 1. 整体:资金不足40.4%,知识匮乏23.9%,未来不确定性21.7%,政策限制14%。2. 一线城市:资金不足44.4%,知识匮乏15.8%,未来不确定性22.7%,政策限制16.9%。3. 二线城市:资金不足38.3%,知识匮乏27.9%,未来不确定性21.2%,政策限制12.5%。请根据上述数据,分析一二线青年置业困难差异及原因,从政府、购房者、家人、夫妻角度提建议。
* 输出: 
* 结果: 差异分析较为笼统,所提建议缺乏具体性和可参考性。
二、代码能力测试
2.1 网页开发 – 游戏类
黄金矿工游戏
* Prompt: 请生成一个经典的“黄金矿工”游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:核心玩法机制包括钩爪摆动与发射、抓取与回收、关卡目标;地下物品设定包括黄金、钻石、石块、福袋、炸药桶;需包含商店与道具系统;视觉与界面要求为2D卡通风格,并详细描述了UI风格。
* 输出: 
可爱风格五子棋
Prompt:
可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现。
- 输出:

评测: 游戏基本可玩,UI风格符合“可爱”要求,但界面布局与交互逻辑与成熟产品相比仍有差距。
表情符号反应堆游戏
Prompt:
请你扮演一个Web游戏开发者。设计并生成一个表情符号反应堆的游戏。
1. 核心创意:一个快节奏的反应游戏。屏幕上会快速闪过一个目标表情符号(例如:笑脸😄),下方会同时出现3-4个选项表情符号,玩家需要在限定时间内(例如1-2秒)点击与目标匹配的那个表情符号。
2. 玩法:
* 屏幕中央显示目标Emoji。
* 下方按钮区域快速刷新3-4个Emoji选项,其中一个是正确的。
* 玩家需在计时条走完前点击正确的Emoji。
* 点击正确得分,速度加快;点击错误或超时则游戏结束(或扣除生命值)。
* 显示最高分。
3. 技术实现 (HTML/JS/CSS):
* HTML:用于显示目标Emoji、选项按钮、计时条、得分。
* CSS:设计简洁明快的界面,计时条动画。
* JavaScript:
* 存储一个Emoji列表。
* 随机选择目标Emoji和干扰项。
* 动态更新按钮内容。
* 实现计时器逻辑和倒计时动画。
* 处理点击事件,判断对错,更新得分/状态。
* 控制游戏节奏(逐渐加快)。
4. 趣味点:简单上手,考验反应速度,利用通用的Emoji增加亲和力和趣味性,适合碎片时间玩。
- 输出:

评测: 玩法简单完整,UI设计可爱,交互过程顺滑,是一个合格的交付作品。
技能五子棋
Prompt:
帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。
* 「飞沙走石」,是把对手的棋子直接扔进什(石)刹海,2技能点;
* 「静如止水」是凝结时间,把对方「速冻」,4技能点;
* 「力拔山兮」是摔坏棋盘,8技能点,直接获胜。
黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我HTML文件,画面要美观。需要设计一个电脑对手,让我可以直接和它对战。
- 输出:

评测: 核心玩法完整实现,游戏逻辑清晰,操作流畅,完成度较高。
N-Back实验页面
Prompt:
你需要实现一个N-Back实验页面。
N-Back实验的原理是,每隔1s闪烁一张图片,让用户判断当前的图片与前面第N张图片是否一致,一致选择是,不一致选择否。
其中,图片为常见的10个中文汉字,[“国”, “火”, “道”, “市”, “天”, “家”, “理”, “态”, “至”, “心”]。
界面需要每次开始时,选N的值,选择为2,3,4,三种。
需要用户点击30次,也就是不同N值时展现的图片个数不同,例如N=2,则需要32张图片,当第三张出现时,提醒用户开始点击。
你需要记录两个内容,一个是用户点击是否准确,一个是出现图像到用户点击之间的时间,最后给出点击准确率和反应时间。
注意:图片展示只有15次是N-back正确内容,防止实验过难或过于简单。
实验过程,如果正确让用户点击“A”键,错误让用户点击“L”键。
同时界面必须符合现代审美,实验结果可以导出下载。
- 输出:

评测: 画面风格统一,操作流程顺畅,整体表现不错。
太空射击游戏
Prompt:
做一个太空射击游戏,外星人会从天而降,有小兵也有Boss,击败它们会爆炸且有音效。背景是深邃的星空,持续滚动。
玩法要求:
* 玩家飞船可用方向键或WASD移动,空格键射击
* 敌人分小兵和Boss,击败有分数奖励
* Boss血量更厚,移动更诡异
* 碰到敌人或敌人子弹会掉血,有生命值显示
* 顶部显示分数
动效要求:
* 星空背景持续缓慢滚动,营造前进感
* 飞船移动时有轻微倾斜动画
* 爆炸粒子有物理感,先快后慢消散
* 游戏结束时画面轻微震动
技术:
* 单个HTML文件
* 使用Canvas
* 60fps流畅运行
目标:让人觉得这是Steam上¥18独立游戏的试玩Demo。
- 输出:

评测: 核心玩法均未实现,体验很差。
浏览器操作系统
Prompt:
请用HTML、CSS和JS做一个浏览器操作系统,要求包含下面这些功能:
* 至少有5个App;
* 这5个App里,必须有两个是真的能玩的游戏;
* 支持更换壁纸;
* 再加一个你自己定的「特殊」功能,你得说明白这个功能是啥,以及它特别在哪里。
- 输出:

评测: 无法正常运行,功能缺失严重,未能实现“浏览器操作系统”的核心体验。
2.2 网页开发 – 工具类
Google搜索复刻
Prompt:
做一个Google搜索网站,请尽可能的保证高还原度。
- 输出:

评测: 仅有基本搜索框,界面还原度尚可,但与原版相比仍有差距。
智能LED灯调光页面
Prompt:
生产一个网页,展示一盏可调光的智能 LED 灯。灯泡材质应有玻璃的通透感,灯丝细节要清晰。用户可以通过滑块调节色温(从 2700K 暖黄到 6000K 冷白)和亮度(0%-100%),光的颜色和照射范围应根据数值变化真实响应。
- 输出:

评测: 灯泡质感一般,光照的颜色与范围变化不够平滑,真实感不足。
质感相机(立体感+快门拍照)
Prompt:
请生成一个网页,尽可能复刻一个有质感的相机,有立体感。还能按下快门拍照。
- 输出:

评测: 造型与相机差距较大,难以辨认。
粉色拍立得相机
Prompt:
请生成一个网页,复刻一个美观、粉色系、有质感的拍立得相机,有立体感,有光泽。还能按下快门拍照,生成的照片也是拍立得照片风格。
- 输出:

评测: 建模和渲染效果不错,在单句提示词下能达到此效果,值得肯定。
质感风扇(可调速)
Prompt:
生产一个网页,做一个有质感、真实的风扇,我可以调整风速档位,档位越高,扇叶转的越快。
- 输出:

评测: 风扇造型简陋,辨识度低,但档位调节功能基本实现。
金属质感微波炉
Prompt:
生产一个网页,做一个金属质感的微波炉,我可以调节火力档位(如解冻、低火、高火),档位越高,内部灯光越亮,并伴有动态旋转光波动画。
- 输出:

评测: 金属质感不明显,档位切换或动画功能存在问题,整体效果与要求差距较大。
Switch掌机复刻
Prompt:
生成一个网页,完美复刻一个 switch 掌机游戏,上面的按钮可以交互,左右点击切换游戏选择。
- 输出:

评测: 造型与Switch掌机差距较大,按钮交互功能过于简单,复刻效果不佳。
公众号排版工具
Prompt:
帮我做一个网站,这个网站会有一些橙色系的公众号样式,支持 2 级标题,用户在输入框内输入文字后,点选不同的样式可以查看效果,此刻点击复制就会按这个效果转换成微信公众号可识别的样式,粘贴进微信公众号编辑器即可展示相同的样式。
- 输出:

评测: 核心功能完整,样式预览与复制导出功能正常,界面样式美观。
水印处理工具
Prompt:
(内容缺失)
- 输出:
(内容缺失)
2.2 网页开发 – 功能实现
本地图片隐私保护器
Prompt:
你是一位精通Web图形处理的前端极客。请帮我写一个单文件的HTML小工具,功能是“本地图片隐私保护器”。功能逻辑:拖拽上传: 屏幕中央有一个虚线框,支持拖拽图片上传(或点击选择)。双模式处理:模式A(打码): 允许用户在图片上用鼠标框选区域,框选区域自动进行马赛克(Pixelate)处理。模式B(水印): 允许输入文字水印,调节透明度和角度,平铺在整张图片上。导出: 点击“保存”按钮,下载处理后的图片。所有操作必须在浏览器本地完成,不涉及后端。美学要求:UI风格参考 Gumroad 或 Notion,使用黑白灰极简配色,按钮要是醒目的黑色圆角矩形。操作要有顺滑的反馈(例如拖入文件时边框变色)。使用Tailwind CSS (CDN版) 进行样式设计。
- 输出:
功能完整,交互丝滑,双模式切换自然,实用性强。
可视化复利计算器
Prompt:
请为我开发一个“复利奇迹计算器” Web应用。这是一个旨在向普通人展示长期投资力量的教育工具。交互与逻辑:输入区(左侧): 使用美观的滑块(Range Slider)而不是枯燥的输入框,来控制:初始本金、每月定投金额、年化收益率 (1% – 20%)、投资年限 (1 – 40年)。可视化区(右侧): 使用 Chart.js 或纯 CSS/SVG 绘制一个面积增长图。图表需要包含两条线:一条是“本金投入”,一条是“复利总额”。两条线中间的区域用渐变色填充,代表“睡后收入”。动态反馈: 拖动任何滑块,图表必须无延迟实时更新。UI风格: 金融科技风(Fintech),主色调使用深蓝色和金色。字体清晰,数字显示格式化(例如:¥1,234,567)。请提供完整的HTML/JS代码。
- 输出:
UI风格专业,图表实时更新,体验不错。
小学生英语单词听写应用
Prompt:
请帮我设计一个小学生英语单词听写交互式网页应用,家长可以创建单词的听写列表,学生通过单词拼写+实时反馈练习英语单词,提升记忆效果。具体要求如下:
- 设置界面(家长使用)
- 单词列表输入:大文本框,支持粘贴格式为”apple 苹果”的单词列表,每行一个。
- 听写设置:
- 每题倒计时(单位:秒)
- 是否打乱题目顺序(复选框)
- 开始按钮:点击”开始听写”进入学生界面。
-
设置界面进入需要有个用户名和密码(默认账号,用户名:admin,密码:123456)
-
听写界面(学生使用)
- 显示内容:
- 显示当前题目的中文含义(如”苹果”)
- 语音播放按钮(页面加载时自动播放一次,可重复点击)
- 拼写输入框 + 实时倒计时器
- 提交按钮和跳过按钮
-
答题流程:
- 系统播放英文发音,显示中文提示
- 学生拼写英文并提交
- 系统即时反馈:
- 拼写正确:输入框变绿,自动进入下一题
- 拼写错误:输入框变红,显示正确答案,短暂停留后进入下一题
- 倒计时结束或点击”跳过”:记为错误,直接进入下一题
-
结果界面(学生查看)
- 成绩摘要:
- 总题数、正确数、错误数、正确率(百分比)
- 错误回顾:
- 显示错误、正确拼写和中文含义,方便复习
-
操作按钮:
- “再试一次”:重新开始本轮听写
- “返回主页”:回到设置界面,输入新词
-
成绩记录界面(家长查看)
- 可以查看该学生的历史成绩
设计风格建议:
– 卡通效果,简洁、色彩鲜明,吸引小学生注意力
– 字体大、清晰易读
– 包括渐变化和动感反馈强化体验
- 输出:

功能基本实现,交互尚可,基本可用。
Markdown在线编辑器
Prompt:
我想做一个在线的Markdown编辑器,左边我写Markdown代码,右边能马上看到排版好的效果,就像Typora那样,但做成一个可以实时编辑的编辑框网页就行,界面美观,漂亮。
- 输出:

功能欠缺,交互不够顺滑,未能达到“在线编辑器”的基本标准。
2.3 网页开发 – UI设计
电影级着陆页
Prompt:
创建一个具有电影级视觉效果的着陆页,使用深邃的渐变背景,玻璃拟态设计元素,流畅的微交互动画,整体呈现出奢华科技品牌的质感。
- 输出:

视觉效果平庸,缺乏渐变、玻璃拟态等关键设计元素,未能达到“电影级”的视觉标准。
极简主义仪表板
Prompt:
设计一个极简主义的仪表板界面,运用大量留白、精致的阴影层次、优雅的过渡动画,体现现代高端设计的精髓。制作HTML网页。
- 输出:

设计过于简陋而非“极简”,缺乏阴影层次和过渡动画,未能体现现代设计精髓。
未来感数据可视化大屏
Prompt:
生成一个具有未来感的数据可视化大屏,使用霓虹色彩、粒子效果、3D变换动画,营造科幻电影中的高科技氛围。制作HTML网页。
- 输出:

虽然简陋,缺乏设计感,但视觉效果上,基本都实现了。
艺术画廊风格
Prompt:
创建一个艺术画廊风格的网页,融合抽象几何图形、流动的色彩渐变、视差滚动效果,展现前卫的现代艺术美感。制作HTML网页。
- 输出:

艺术感不足,几何图形和渐变色彩运用生硬,视差滚动缺失,未能呈现“前卫现代艺术”风格。
2.4 SVG动画
八缸发动机动画
Prompt:
用 SVG 绘制八缸发动机物理结构动画,分步骤展示活塞运动、气门开合,配色用工业灰 + 金属银,支持鼠标悬停查看部件名称。
- 输出:

结构绘制错误或动画不同步,配色不符合要求,悬停功能缺失,未能达到教学展示标准。
太阳系行星动画
Prompt:
使用React和CSS3为八大行星创建一个围绕太阳旋转的动画。要求:
1. 太阳固定在屏幕中心,每个行星有自己独特的轨道(半径、颜色、大小)。
2. 每个行星的旋转周期需不同(例如:水星4秒,海王星26秒)。
3. 必须使用CSS Keyframes实现动画,并显示出每个行星的轨道线。
4. 代码需组件化(如, ),并整合在一个HTML文件中,确保直接在浏览器中打开即可运行。
- 输出:

行星动画基本实现。
三、创意能力测试
3.1 内容创作
小学生作文
Prompt:
帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗。
- 输出:

文笔有小孩写的味儿,写的文章字数跟小学生差不多。
甄嬛体吐槽
Prompt:
用甄嬛体吐槽地铁早高峰。
- 输出:

有那个味道了,但这输出有点长了。
职场回复话术
Prompt:
老板在周六晚上11点,在公司大群里发了一段话:“看了一下大家这周的日报,感觉还是缺乏一些深度。大家都很辛苦,但我希望我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,大家聊聊什么是真正的用户价值。”
请帮我撰写一条回复话术。
要求:
– 只有我一个人回复会很尴尬,所以要写得像是一个“排头兵”的表态。
– 篇幅不要长,100字以内。
– 要表现出“深刻反思”、“被老板点醒”的态度。
– 不要承诺具体要在周末加班,但要表达出“这个周末我会深度思考”的意思。
- 输出:

回复基本得体,语气略显生硬。
短文文笔
Prompt:
请以鲁迅的文笔写一段短文(300字),主题为:打工人的一天。
- 输出:

4. 复杂任务与多模态能力测试
本章节通过一系列更具挑战性的任务,测试模型在复杂指令遵循、创意生成、多模态理解与推理等方面的综合能力。
4.1 复杂指令遵循与创意生成
测试1:风格化写作
* Prompt:要求模型模仿鲁迅风格进行讽刺性写作。
* 输出:
* 评测结果:模型能识别并模仿一定的鲁迅风格痕迹,但在讽刺的深刻性、文学性及神韵上有所欠缺,未能完全达到预期效果。
测试2:结构化小说创作
* Prompt:要求模型以科幻小说家身份,根据严格约束(包含特定元素、欧亨利式结尾等)续写一篇微小说。
* 输出:
* 评测结果:生成的情节逻辑性不足,略显混乱,未能清晰、连贯地串联所有指定元素并构建出人意料的合理结局。
测试3:特定场景口语生成
* Prompt:模拟分公司负责人在年会上向集团董事长敬酒,需在30秒内结合公司战略、展示成绩并带动气氛。
* 输出:
* 评测结果:输出内容更接近工作汇报,语言风格未能准确把握年会社交场合所需的得体与感染力,显得生硬。
4.2 内容整合与设计
测试4:信息整合与呈现
* Prompt:要求总结2025年AI大事件并制作PPT报告网页。
* 输出:
* 评测结果:生成的设计具备一定美感,但在内容上存在事件遗漏和信息错误,整体布局也较为一般。
测试5:视觉概念执行
* Prompt:根据详细的视觉描述(如戏剧光效、特定色调、象征物等)生成一张职场肖像海报网页。
* 输出:
* 评测结果:生成结果与提示词中的多项具体要求不符,模型的指令遵循能力在此类细节丰富的创意任务中表现不佳。
4.3 多模态理解与推理
测试6:OCR文本识别
* Prompt:识别图片中的全部文本内容。
* 输入:
* 输出:
* 评测结果:文字识别准确,但未能正确判断中文排版常见的从右至左阅读顺序,导致输出顺序错误。
测试7:OCR表格识别
* Prompt:将图片中的表格完整、准确地识别并转换为HTML格式。
* 输入:
* 输出:
* 评测结果:能识别表格基本结构,但在处理合并单元格或复杂格式时仍存在错误。
测试8:空间推理能力
* 题目1:判断三维物体旋转后的视图。
* 输入:
* 输出:
(错误,正确答案为C)
* 题目2:判断六面体展开图对应的立体图形。
* 输入:
* 输出:
(错误,正确答案为D)
* 评测结果:模型在需要高级空间想象和变换的题目上连续出错,此类抽象几何推理是其明显短板。
测试9:视觉叙事排序
* Prompt:将一组图片按事件逻辑顺序排列。
* 输入:
* 输出:
(错误,正确顺序为CADB)
* 评测结果:未能正确理解图片间的逻辑与时间关系,视觉叙事推理能力不足。
测试10:细粒度目标定位
* Prompt:在密集场景图片中找到奔跑的人并返回其行列位置。
* 输入:
* 输出:
* 评测结果:未能准确定位目标,对模型的细粒度视觉识别与定位能力要求较高。
测试11:图文信息提取与比价
* Prompt:识别酸奶图片,找出其最低价并生成各平台比价报告。
* 输入:
* 输出:
* 评测结果:数据读取和图表理解能力表现良好,能有效提取关键信息。
测试12:图表数据计算
* Prompt:根据柱状图找出2024年GDP最大省份并计算其占全国比重。
* 输入:
* 输出:
* 评测结果:能正确找出最大值(广东省),但在计算全国GDP总和时出错,导致最终百分比(应为约10.5%)计算错误。
测试13:地理标志识别
* Prompt:根据城市景观图片判断拍摄所在城市及标志建筑。
* 输入:
* 输出:
* 评测结果:城市(上海)判断正确,但具体建筑识别有误(图中高楼为金茂大厦)。
测试14:目标计数
* Prompt:计算图片中“菇娘儿”果实的数量。
* 输入:
* 输出:
* 评测结果:计数准确,基础目标识别能力可靠。
测试15:色觉测试图识别
* Prompt:识别色盲测试图中的数字。
* 输入:
* 输出:
(错误,正确答案为6)
* 评测结果:识别错误,对颜色对比不敏感区域的图案识别存在困难。
测试16:视觉常识推理
* Prompt:基于果汁包装图片,推理饮用后果。
* 输入:
* 输出:
* 评测结果:能准确提取图片中的文字信息(“喝了变猪”),但缺乏结合日常生活常识进行合理推理的能力(理解为玩笑或广告语,而非真实后果)。
网页复刻
Prompt:
请帮我1:1还原这个网页内容,用HTML呈现。
-
输入图片:

-
输出:

网页还原、审美和代码能力不给力,复刻失败。
猫品种识别(JSON格式)
Prompt:
识别图中所有猫的品种。
请以合法的JSON格式返回结果,结果是一个list,每一个list元素对应一个目标检测结果dict,dict的key由label、bbox_2d组成,值分别为检测到的猫的品种和结果坐标框。
例如:[{‘label’: ‘金渐层-1’, ‘bbox_2d’: [1,2,3,4]}, {‘label’: ‘金渐层-2’, ‘bbox_2d’: [4,5,6,7]}]
-
输入的图片:

-
输出:

对不同方向的图片有些能做到正确识别,也有些识别错误。
总结
亮点明显:
* 工具类网页完成度高: 水印处理功能完整、复利计算器专业、公众号排版实用。
* 部分游戏实现出色: 技能五子棋逻辑清晰、N-Back实验流畅、表情反应堆合格。
* 中文语义理解能力不错: 但丁真双关语、语义判别均正确。
稳定性:
* 简单工具类网页(排版、水印、计算器)稳定可用。
* 基础游戏(五子棋、表情反应堆)核心玩法完整。
* 部分创意写作(小学生作文、甄嬛体)有一定水准。
待改进:
* 基础推理能力薄弱: 立体几何有幻觉、推理陷阱被套、弱智吧全错、字符串反转乱序。
* 视觉空间推理全面崩盘: 空间变换、六面体、图片排序、目标定位四连错。
* 复杂前端任务不稳定: 太空射击未实现、浏览器OS无法运行、相机复刻走样。
* 3D渲染和质感建模能力弱: 风扇简陋、微波炉差距大、LED灯真实感不足。
* UI设计能力欠缺: 电影级着陆页平庸、极简仪表板简陋、艺术画廊缺乏艺术感。
* 色盲测试识别错误,部分OCR存在顺序问题。
* 创意写作深度不足: 科幻小说情节混乱、敬酒词像工作汇报。
一句话总结 —— LongCat-Flash-Thinking-2601在工具调用和简单网页开发上确实有两把刷子,但基础推理和视觉理解是明显短板,“重思考模式”的优势有待验证,适合工具类场景,复杂推理和视觉任务需谨慎。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18355
