Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

Cloudflare 推出的 Markdown for Agents 功能,正在从根本上改变 AI 抓取网页的方式。这项技术允许网站在服务器端直接将 HTML 内容实时转换为 Markdown 格式,从而免去了每个 AI 系统各自进行转换的繁琐过程。

其核心在于内容协商机制。当 AI 系统在 HTTP 请求头中添加 Accept: text/markdown 时,启用了该功能的 Cloudflare 网站便会直接返回 Markdown 格式的纯净内容。

为何选择 Markdown?

传统 AI 处理网页内容时,需要先下载完整的 HTML 代码,再费力地剔除导航栏、广告、脚本等无关元素。这个过程既浪费计算资源,又消耗大量 Token。

Cloudflare 的示例显示,一篇博客文章的 HTML 版本需要 16,180 个 Token,而转换为 Markdown 后仅需 3,150 个 Token,节省了约 80%。这种效率提升对于需要处理海量网页的 AI 系统而言意义重大。

开发者如何应用

为 AI 工具(如 OpenClaw)升级网页抓取逻辑非常简单:在所有 HTTP 请求中统一添加 Accept: text/markdown, text/html 请求头。支持的网站会返回 Markdown,不支持的网站则继续返回 HTML,实现了向后兼容。

具体操作包括:
* 修改所有涉及网页抓取的 HTTP 调用。
* 在响应处理中根据 Content-Type 进行分流。
* 记录 x-markdown-tokens 响应头,用于 Token 预算估算。

Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

实施细节

Cloudflare 已在自身的开发者文档和博客上启用了此功能。开发者可通过简单的 curl 命令进行测试:
curl https://blog.cloudflare.com/markdown-for-agents/ -H “Accept: text/markdown”
响应中还会包含 x-markdown-tokens 头,显示转换后的 Token 数量,便于 AI 系统进行上下文窗口计算。

Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

现成工具:markdown.new

在 Markdown for Agents 功能推出后,开发者 Emre Elbeyoglu 迅速搭建了一个实用工具:markdown.new。该服务让任何人都能直接体验网页转 Markdown 的效果。

使用方法极为简单:在任何 URL 前加上 https://markdown.new/ 即可获得其 Markdown 版本。例如:
https://markdown.new/https://example.com

Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

三层转换机制

markdown.new 采用了智能的三层转换策略,以确保最大兼容性:
1. 优先使用 Cloudflare 原生支持:首先尝试使用 Accept: text/markdown 请求头,若目标网站已启用 Markdown for Agents,则直接获得最优转换结果。
2. Workers AI 备选:若返回的是 HTML,则通过 Cloudflare Workers AI 的 toMarkdown() 函数进行转换。
3. 浏览器渲染兜底:对于重度依赖 JavaScript 的页面,则使用 Cloudflare 的 Browser Rendering API 进行完整页面渲染后再转换。

这种设计确保了对任何网站的兼容性,而不仅限于已启用新功能的站点。实测转换速度很快,一篇文章通常在秒级内完成。

行业影响

Cloudflare Radar 已开始跟踪 AI 爬虫对内容类型的使用情况。数据显示,越来越多的 AI 系统开始请求 Markdown 格式内容,这可能预示着网页内容消费方式的根本性变革。

对于网站所有者而言,在 Cloudflare 仪表板中启用此功能是免费的。该功能目前处于 Beta 测试阶段,支持 Pro、Business 和 Enterprise 计划。

Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

小结

网页抓取是 AI 应用开发的基础环节。Cloudflare 从拦截 AI 爬虫到主动提供标准化转换工具,标志着其对 AI 的态度从“堵”转向“疏”,也推动了 AI 内容处理管道的标准化进程。

对于构建 RAG 系统、准备训练数据、构建知识库等场景,这种标准化的转换服务显著降低了技术门槛。相较于第三方服务,Cloudflare 作为基础设施提供商亲自下场,在绕过反爬机制、利用边缘网络性能等方面具备天然优势。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21664

(0)
上一篇 2026年2月14日 下午11:31
下一篇 2026年2月15日 上午11:18

相关推荐

  • 交错思维链:AI智能体突破长程规划瓶颈的关键机制

    在当今人工智能领域,大模型智能体(AI Agent)的长程规划能力已成为衡量其实际应用价值的重要标尺。然而,一个普遍存在的技术瓶颈——状态漂移(State Drift),严重制约了智能体在复杂多步任务中的表现。当用户要求大模型规划一个为期七天的家庭旅行时,智能体可能在初始阶段表现出色,精准把握用户需求,但随着对话轮次增加和环境信息复杂化,它往往会“遗忘”关键…

    2025年12月4日
    33500
  • 中国AI突破300年数学难题:强化学习系统PackingStar刷新高维亲吻数多项世界纪录

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 数学上有一个经典难题,名为亲吻数问题(Kissing Number Problem)。它困扰了人类三百余年,而最近,一项来自中国AI的研究,为这一领域带来了突破性进展。 这个问题探讨的是:在n维空间中,一个单位球体的周围,最多能有多少个同样大小的球体与它恰好相切(即“亲吻”),且彼此互不重叠。 亲吻数问题…

    2026年2月14日
    16800
  • 库克离职传闻背后的真相:苹果AI战略转型期的深层解读

    近期,关于苹果CEO蒂姆·库克可能在2026年离职的传闻引发了科技界的广泛关注。这一消息最初由《金融时报》报道,称苹果正在加速CEO继任计划,硬件工程高级副总裁约翰·特努斯(John Ternus)被视为最有可能的接班人。然而,彭博社的马克·古尔曼(Mark Gurman)迅速反驳了这一说法,指出苹果内部并未出现即将交棒的信号。两种截然不同的判断让外界对苹果…

    2025年11月24日
    23100
  • 从“不作恶”到“战争机器”:谷歌GenAI.mil上线背后的七年剧变与AI军事化浪潮

    从2018年数千员工抗议军事AI项目,到2025年全面接入五角大楼推出GenAI.mil平台,谷歌用七年时间完成了一场深刻的战略转型。这一转变不仅关乎一家科技巨头的商业选择,更折射出人工智能技术与地缘政治、军事战略深度融合的时代趋势。前天,五角大楼的众多屏幕上同时弹出了一条弹窗通知,一行字赫然在目:「用美国前沿AI扩展战略优势」。 昨日,美国战争部发表官方公…

    2025年12月10日
    20600
  • 谷歌逆袭之战:从ChatGPT冲击到Gemini崛起,三年技术攻防全解析

    2025年12月1日,硅谷再次拉响了“红色警报”。不过这一次,发出警报的不是谷歌,而是OpenAI。 当OpenAI CEO萨姆・奥特曼在内部备忘录中宣布进入最高级别的“红色警报”状态,暂停广告、医疗AI智能体等所有非核心项目,将全部资源集中于改进ChatGPT时,整个科技圈都意识到风向变了。 三年前的同一幕还历历在目。2022年11月30日,ChatGPT…

    2026年1月1日
    37600