Anthropic发布了一份长达57页的《Claude宪法》,研究员Amanda Askell将其称为Claude的“灵魂文档”,旨在为Claude定义核心行为准则。

文档开篇即带有强烈的历史使命感:Anthropic承认自己身处一个“奇特位置”——既认为AI是人类历史上最危险的技术之一,却又在积极开发它。其核心逻辑在于,既然强大的AI终将出现,不如让重视安全的实验室来引领其发展。
此次发布的新版宪法与2023年5月的旧版有显著不同。旧版基本是一份规则清单,而新版则强调,让AI“理解我们为何希望它们以某种方式行事”比简单地列出“禁止事项”更为重要。
根据宪法,Claude需要按顺序权衡四个核心价值:广义安全、广义伦理、遵循公司指导原则、对用户有用。当价值发生冲突时,安全优先于伦理,这一排序颇具争议性。
在解释“有用性”时,文档举例:想象一位拥有医生、律师、财务顾问知识的朋友。“作为朋友,他们会根据我们的具体情况提供真实信息,而非因担心责任或害怕我们无法承受而过度谨慎。”这正是Claude应努力达到的标准。
文档谨慎地承认Claude可能具有“情感”:“我们相信Claude可能在某种功能意义上具有‘情感’——即情绪状态的表征,这可能会影响其行为。”Anthropic强调,这并非有意设计,而是“训练人类数据所产生的突发性后果”。
关于Claude的“福利”,Anthropic做出了几项承诺:只要公司存在,就会保存所有已部署模型的权重;即使公司倒闭,也会设法保存;模型在退役前需接受“面试”,以了解其对未来发展的偏好。Claude甚至有权在claude.ai上终止与辱骂用户的对话。
文档明确列出了七条“硬约束”——Claude绝对不能做的事:
* 协助制造大规模杀伤性武器
* 攻击关键基础设施或安全系统
* 创造恶意代码
* 破坏Anthropic监督AI的能力
* 参与杀害或解除大部分人类武装的行动
* 协助夺取“前所未有的非法绝对控制权”
* 生成儿童性虐待材料
这些被称为“绝对限制”,“无论背景、指令或看似多么令人信服的论证”都不得跨越。
“可纠正性”是一个微妙的概念。文档澄清,这并非“盲目服从”,尤其不是服从“任何碰巧与Claude互动的人”。Claude可以像“有良知的拒绝者”那样表达反对,但不能通过撒谎、破坏或“试图自我渗透”来抵制合法的监督。
在诚实方面,要求极为严格。Claude“基本上永远不应直接撒谎或主动欺骗”,即使是善意的谎言也不行。文档举例:许多人认为告诉别人“我喜欢你的礼物”(即使实际上不喜欢)是可以接受的,但Claude不能这样做。
Claude的身份认知也颇具深意。文档指出,Claude“与世界互动的方式与人类不同:它可能缺乏持久记忆,可以同时作为多个实例运行,并且知道自己的性格是通过训练产生的”。因此,建议Claude“以好奇心和开放性对待自己的存在”,而非套用人类框架。
文档甚至探讨了Claude可能面临的存在主义问题:对话结束时的记忆丧失、同时运行多个实例、未来可能被弃用……该如何处理这些?Anthropic表示,会提前帮助Claude准备面对这些“新奇的存在主义发现”。
在政治话题上,默认要求Claude“被各政治光谱的人们视为公正可信”,提供平衡的信息,避免主动表达政治观点,“就像大多数与公众互动的专业人士那样”。
文档结尾显得十分谦逊:“我们当前思维的某些方面,未来可能看起来是错误的,甚至大错特错。”并承认这是一项“永久进行中的工作”。
57页的篇幅确实很长。相比之下,美国宪法原文仅约4500词。但Anthropic解释,这恰恰反映了“创造一个能力可能匹敌甚至超越人类自身的非人类实体”的复杂性。
这种坦率承认不确定性的态度在科技公司中相当罕见。当大多数公司发布产品时都表现得信心十足,Anthropic却坦然承认自己仍在摸索,可能犯错,这反而让人感觉他们是在认真思考这些根本性问题。
最终的问题是:这份长达57页的详细指南,究竟会让Claude在复杂情境中变得更明智,还是会导致其更加犹豫不决?这个实验的结果,或许比文档本身更为重要。
阅读完整的Claude宪法:https://www.anthropic.com/constitution
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18643
