最近,Anthropic 的一位工程师发表了一篇文章,主张让 AI 输出 HTML 比使用 Markdown 更优,这一观点迅速获得了 Karpathy 的点赞。相信大家已经对“HTML 优于 Markdown”这个说法耳熟能详了。GitHub 上有一个名为 html-effectiveness 的开源项目,非常值得深入研究。虽然它的 Star 数不多,但能帮助我们清晰地理解为什么 HTML 更具优势。

下面是我对 Thariq 和 Karpathy 观点的总结,我个人对此表示赞同,从长远来看,这或许确实是趋势所在。
但就目前而言,Markdown 仍然不可替代,两者各有千秋。
最终还是需要根据具体场景来决定。
HTML 也存在一些问题。它包含标签信息,这可能会带来额外的成本并影响效率。
目前,并不是所有人都在使用 Opus 4.7 这种拥有 100 万上下文窗口的顶级模型。
虽然不久之后,百万上下文窗口将成为各大模型厂商的标配。
而且,Markdown 的生态壁垒比我们想象的要深得多。例如,各种 Readme 文件以及众多文档产品都兼容这种格式。
此外,HTML 还有一些 Markdown 所没有的坑,比如维护成本:手动修改 HTML 比手动修改 Markdown 要难上 10 倍。
当 AI 生成的 HTML 不太对劲时,你自己进行微调的门槛会很高。
还有就是工具链的断裂问题。在 Git diff 中查看 HTML 的改动几乎不可读,在进行 Code Review 时,HTML 的可读性反而比 Markdown 还要差。
如果是 Agent 的中间产物,可能还是得用 Markdown;如果是最终产品或方案对比,HTML 确实更合适一些。
Markdown 真正的优势不在于人类能轻松阅读,而在于 AI 能高效处理。
01
近期讨论
Claude Code 团队的工程师 Thariq Shihipar 写了一篇长文,标题非常震撼:The Unreasonable Effectiveness of HTML(HTML 不合理的有效性)。

核心观点只有一个:在 AI Agent 时代,HTML 正在取代 Markdown,成为人类与 AI 之间最高效的沟通格式。
Andrej Karpathy 转发并评论了这条推文。他表示自己一直以来也是这么做的,并分享了一个更宏大的视角:
人脑大约有三分之一的算力专门用于处理视觉信息,视觉是人类大脑接收信息的十车道高速公路。
因此,AI 的输出不应该只是一堆文字,而应该是拥有颜色、布局和交互的可视化内容。

02
为什么 Markdown 不够用了
Thariq 认为 Markdown 之所以能火起来是有原因的:简单、通用、轻量。
Claude 甚至能在 Markdown 里用 ASCII 码来画图。

但问题是,随着 AI Agent 越来越强大,它输出的 spec、plan、report 也越来越长。
对于超过 100 行的 Markdown 文件,他基本不会读完,他团队里也没人愿意读。
而且,这些长文件现在基本也不是由人来编辑了,都是让 Claude 去修改。
Thariq 认为 Markdown 最大的优势——方便手动编辑——直接消失了。
在 Agent 时代,Markdown 变成了一种限制。
03
HTML 能做什么 Markdown 做不了的事
Thariq 列举了一系列 HTML 相对于 Markdown 的碾压级能力:
用表格呈现数据,用 CSS 控制设计,用 SVG 画图,用 script 标签嵌入代码,用 HTML 元素做交互,用绝对定位做空间布局,用 canvas 画图,用 img 标签放图片。

他的原话是:几乎没有任何一种信息是 HTML 无法表达的。
他举了几个实际使用场景:
探索和规划。 在不确定方向时,让 Claude 一次性生成 6 种不同的方案,铺在一个 HTML 页面里并排对比,而不是阅读三堵文字墙然后在脑子里来回比较。

代码审查。 HTML 能渲染 diff、标注、流程图、模块图。Thariq 说他现在每个 PR 都会附带一个 HTML 代码解读文件,比 GitHub 默认的 diff 视图好用得多。

设计原型。 HTML 本身就是一种设计语言。Claude 可以先在 HTML 里画出设计稿,然后再翻译成 React、Swift 等所需的框架。还能加入滑块和旋钮,让你实时调整参数。

报告和汇报。 让 Claude 把 Slack 讨论记录、代码库、Git 历史等信息综合起来,生成一份带有图表和交互功能的 HTML 报告。发给老板,老板大概率会看。发个 Markdown,大概率不会。

临时编辑器。 有些东西在文本框里很难描述,比如颜色、动画曲线、正则表达式。那就让 Claude 直接给你做一个一次性的 HTML 编辑器,调完后点击复制按钮粘贴回去就行。

还有一点很关键:分享更方便。
Markdown 文件在大多数浏览器里无法直接渲染,只能作为附件通过邮件或消息发送。
HTML 文件上传到任何地方(比如 S3),直接发个链接就行。同事无论在手机上还是电脑上都能打开查看。
别人真正读完你的 spec、report、PR 描述的概率,HTML 比 Markdown 高了好几倍。
04
Karpathy 的更宏大视角
Karpathy 在转发中补充了一个更有趣的观点。
他说:音频是人类给 AI 输入的首选方式,但视觉——图片、动画、视频——才是 AI 给人类输出的首选方式。
人脑大约有三分之一的算力专门处理视觉信息。视觉是信息进入大脑的十车道高速公路。
他画出了一条演进路线:
① 纯文本,读起来很费劲
② Markdown,有加粗、斜体、标题、表格,稍微好读一些。这是当前的默认格式
③ HTML,底层虽然也是代码,但图形、布局甚至交互的自由度大了很多。正在成为新的默认选项
④ 更远的未来,交互式神经视频、模拟。技术还不成熟,但方向很明确
Karpathy 还给出了一个非常实用的操作建议:在提示词最后加上一句 structure your response as HTML,然后把生成的文件在浏览器里打开。
效果会好很多。他也试过让 LLM 把输出做成幻灯片。
Simon Willison 也验证了这个方法。
他用 GPT-5.5 把 copy.fail 网站上的一个混淆过的 Python 提权脚本丢进去,让 AI 生成一份 HTML 格式的详细解析。结果是一份带有侧边栏、代码标注、颜色标记、步骤拆解的精美技术文档。
05
如何上手
Thariq 特别强调了一点:不需要搞什么复杂的配置或技能。
你只需要在提示词里说 make a HTML file 或者 make a HTML artifact 就行。
关键不在于怎么生成,而在于你想用这个 HTML 做什么。
几个可以直接使用的提示词:
Generate 6 distinctly different approaches for the onboarding screen, and lay them out as a single HTML file in a grid so I can compare them side by side. Label each with the tradeoff it’s making.
Help me review this PR by creating an HTML artifact that describes it. Render the actual diff with inline margin annotations, color-code findings by severity.
I need to reprioritize these 30 tickets. Make me an HTML file with each ticket as a draggable card across Now / Next / Later / Cut columns. Add a copy as markdown button.
Thariq 创建了一个示例画廊,其中收录了 20 个 HTML 文件,覆盖了探索规划、代码审查、设计、原型、图表、幻灯片、研究学习、报告以及自定义编辑器等 9 大类应用场景。
这也就是前面提到的那个开源项目。
GitHub 地址:https://github.com/ThariqS/html-effectiveness
示例画廊地址:https://thariqs.github.io/html-effectiveness/
06
最后说两句
Thariq 有句话我觉得是全篇最核心的:
我以前担心自己会因为不读计划而在决策中逐渐脱离,但自从使用了 HTML 之后,我感觉自己比以往任何时候都更深地融入了与 AI 的协作之中。
不是为了追求花哨,也不是为了炫技。
而是因为 HTML 能让人真正看清 AI 正在做什么,从而保持对决策的掌控。
虽然生成时间会长一些——HTML 比 Markdown 慢 2 到 4 倍——但考虑到你真正读完它的概率提高了好几倍,这笔账无论怎么算都很划算。
使用 Opus 4.7 的 100 万上下文窗口,多出来的 token 开销基本上可以忽略不计。
07
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,可以直接关注微信公众号:逛逛 GitHub,后台对话聊天即可:

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35281

