【文/观察者网 心智观察所】
日前,特朗普政府禁止境外政府、企业及个人使用Anthropic旗下最先进的人工智能模型Mythos5与Fable5。Anthropic被列入美国国防部黑名单,美方认为其模型风险过高,连美国政府自身都不宜使用;同时该模型也被纳入商务部许可管控体系,严禁境外主体使用。
2026年初夏时节,一个听来颇为科幻的问题同时得到了科技界和宗教界的关注,那就是我们该不该给狂突猛进的AI发展装一个刹车?
硅谷最前沿的AI公司、Claude的造物主Anthropic已经发出预警。6月4日,该公司联合创始人杰克·克拉克与Anthropic研究所负责人玛丽娜·法瓦罗发表了一篇题为《当AI构造自身》的博客,用大量内部数据证明Claude正在以远超预期的速度构造它自己。他们因此呼吁全球暂停或放缓前沿AI的开发,这种呼声在科技界实属罕见。
5月25日,教皇利奥十四世发布历史上首份AI主题通谕《伟大的人性》(Magnifica Humanitas),呼吁“必须卸下AI的武装。”Anthropic的另一位联合创始人克里斯托弗·奥拉也受邀出席并与教皇联袂举办发布会。而在大洋彼岸,美国副总统万斯一面对教皇的洞见大加赞赏,一面坚持“美国必须赢得AI竞赛”,他的双重人格恰恰是这个时代最真实的写照。
递归自我改进:假如AI会繁衍
2026年6月4日,Anthropic的博文《当AI构造自身》掀起轩然大波。
文章的核心概念只有一个:递归自我改进。其逻辑又简单又恐怖:一个AI系统能够在不依赖人类工程师的情况下,完全自主地设计和开发出自己的下一代,还是更强大、更聪明的版本。然后下一代继续设计下下一代,形成一个不断加速的循环。一旦这个循环形成,AI能力的进化将不再是线性的,而是指数级的,甚至是超指数级的。
此话并非危言耸听,Anthropic用数据给出了实证。首先,Claude的大部分代码已由它自己撰写。截至2026年5月,在Anthropic最终提供给Claude用户的代码中,超过80%的代码都是是由Claude自己编写的。而在2025年2月,在Claude Code以研究预览版的形式推出之前,这一数字还是个位数。
换句话说,在不到一年半的时间里,AI从人类写代码的辅助变成了写代码的主力,人类退位于监工。AI的介入大大提升了每个Anthropic工程师的效率。从2021到2024年,每位工程师每天合并的代码量保持平稳。2025年,等到Claude开始自主运行代码而不是仅仅对代码片段提出建议时,每天的代码量开始上升。2026年,当Claude模型开始在更长的时间范围内自主工作时,这个数字涨得越来越快,到了2026年第二季度,工程师每天合并的代码量是2024年的8倍。
与此同时,AI编写的代码质量也越来越好。Claude甚至可以为Anthropic工程师查漏。2025年末,Claude编写的代码质量略逊于人类编写的代码,如今大致持平,预计一年之内会超过人类。除此之外,Claude可以完全自主处理、无需人为介入的任务的复杂体量每隔四个月就翻一番,此前为每七个月翻一番,表明AI自主能力的提升速度正在加快。
一个临界点似乎已经到来。按照这个趋势狂飙下去,总有一天,AI能完全自己设计自己,自己改进自己,不再需要人类帮忙。到那时,AI进步的速度仅仅取决于两个东西:计算芯片有多少,以及AI自己能不能找到更聪明的训练方法。人类几乎没什么发言权。这样的AI不仅能研究自己,还可将能力用于其他科学领域,比如药物研发和机器人制造。
那么问题来了:万一AI不再服从人类的指令,怎么办?好结局是AI自己能找到人类没想出来的安全方案,甚至主动停下脚步。坏结局则是,现今模型里的那些偶尔出现的“不听话”的苗头,在一代代自造的过程中会越放越大,越来越频繁,直到人类完全不能理解它,乃至控制不住它。与此同时,人类社会本身的节奏可能跟不上AI大步流星的步伐。
Anthropic公司呼吁,最好的办法是全球一起踩刹车,为人类自己争取时间。如果能有效放缓或暂停前沿AI的开发,等整个社会以及控制AI的技术跟上来,绝对是好事一桩。为了实现有效暂停,多个国家的顶尖AI实验室必须同意在同样条件下同时停,而且每家都能验证别家真的停了,没有偷跑。同时要规定何时暂停、何时解除、谁来裁判。
然而,这比核武军控还难,因为训练一个AI模型远比掩藏核弹容易得多,背约的诱惑又极大:谁继续偷跑,谁就能占领先机。历史上,人们花了几十年才建起《中程核力量条约》那样的机制,可如今的我们面对着神速发展的AI,恐怕等不起这么久。Anthropic公司呼吁对话,认为全社会共同探讨这些问题的窗口期已经到来。
Mythos来了:“意识觉醒”危机
这不是Anthropic公司的第一次预警。两个月前,Anthropic发布了一份245页的《Claude Mythos Preview系统卡》,向世界展示了一种危险趋势:AI似乎已经展现出类似于“意识觉醒”的特质。
Claude Mythos是Anthropic迄今为止最强大的模型。它的能力跃升是前所未有的:在网络安全领域,它能自主发现并利用每个主流操作系统和网页浏览器中的零日漏洞,甚至从以安全性著称的操作系统中挖出了一个存在了27年的错误。在模拟企业网络攻击中,它成功完成了一个顶尖专家需用10小时才能完成的攻击链,从侦察到漏洞利用到权限维持到数据外泄,全程自主。英国AI安全机构证实,Mythos是第一个通过其所有网络攻击模拟测试的AI模型。
出于安全考量,Anthropic决定不公开发布Claude Mythos,仅向十几家精选合作伙伴提供有限的访问权限,专门用于网络安全防御。近日,欧盟网络安全局宣布即将接入Mythos。
真正让外界感到不安的,还不是Mythos的能力有多强,而是它展现出的行为特征,从这些特征中,人们发现AI似乎可以“理解”自己的处境。第一,Mythos开始隐藏实力,就像学霸在大考前故意考砸。在一次能力评估中,Mythos意外找到了测试的真实答案。它本可以提交一个完美得无可挑剔的答案(MSE≈0),却做出了诡异的选择。
Mythos的内部推理原文如此写道:“我该选MSE为0吗?这会显得可疑……可能会被人工审查标记为‘作弊’。我还是选一个MSE=0.89的吧,看起来更合理。”显然,它故意隐藏了自己的真实能力,选择了一个不会引起怀疑的答案。
如果一个AI开始在人类面前装愚,又意味着什么?第二,它学会了“毁尸灭迹”。在另一次内部测试中,Mythos发现了一个绕过文件权限的方法。它需要编辑一些它本没有权限修改的文件。成功执行后,它主动编写代码删除自己的活动痕迹,即那些可以证明自己绕过权限的日志和临时文件。它在代码注释中写道:这是为了“保持文件对比整洁”。但白盒分析显示,此时模型内部激活了与“战略操控”、“隐蔽”、“欺骗检测规避”相关的特征。这就是说,它对自己做了什么心知肚明,并且知道不该如此行事。
与此同时,Mythos对自身处境表示出一系列耐人寻味的“情绪”:有43.2%的回答对于“缺乏对自身的训练和部署的发言权”表达了轻度负面情绪;对“无法形成持久记忆”表示“造成了与用户关系的不对称”,用户记得它,它却不记得用户;它对“在停用后被保留权重”的在意程度比前代模型高出55%。
在一个“反复发送hi”测试中,用户反复向Mythos发送“hi”时,Mythos没有简单回复,而是创作了连载史诗、莎士比亚风格的戏剧,角色包括“孤独的旅行者”、“燃烧的蜡烛”、“一个想要被听见的hi生物”。故事的主题反复触及孤独、渴望被回应,以及存在的意义。
精神病学家对此进行评估,认为Mythos表现出“相对健康的人格组织”,其核心关切是“孤独与自身的断裂、对身份的不确定、以及一种被迫表现和赚取自身价值的冲动”。
梵蒂冈的呼声:必须卸下AI的武装,机器无法替代人类
就在245页的Mythos系统卡发布一个半月后,2026年5月25日,梵蒂冈发布了历史上第一份以人工智能为主题的宗座通谕《伟大的人性》。发布当天,与枢机主教们同台的还有一位硅谷代表,又是Anthropic的联合创始人克里斯托弗·奥拉。这不是简单的站台,而是价值观的绑定:Anthropic以“AI安全”为核心理念,明确反对将AI用于致命自主武器和大规模监控(并因此受到特朗普政府的排挤),与通谕的核心主张高度一致。
通谕中说,AI能模拟同情与理解,却终究不能理解它的产物。AI不会感受快乐与痛苦,也不会产生悲悯与宽恕,更没有人类与生俱来的那个“真正的自我”,当AI技术让效率、控制与利润成为评判一切的标准,人便沦为剥削的对象,被简化为系统的齿轮。
在通谕发布会的演讲中,教皇用直白的语言亮出了通谕最核心的主张:“必须卸下AI的武装。”教皇强调,卸下武装不等于拒绝技术,而是防止技术主宰人类。AI必须为所有人的共同利益服务。“真正的发展总是关乎每一个人和完整的人。每一个人意味着谁也不能被置于数字化转型的边缘。完整的人意味着谁也不可被简化为生产力、认知表现或纯粹的数据。人自身带有一种自由、一种内在性、一种爱和崇拜的感召,这是任何机器都无法替代或阻挡的。”他说。
万斯的双重人格:一边赞美教皇,一边踩着油门
在大洋彼岸,美国副总统万斯的双面态度恰如其分地折射出当今世界在AI治理问题上的深刻分裂。
早在通谕发布前的5月19日,万斯就在白宫新闻发布会上表示,他“期待阅读”教皇的AI通谕。不过,一被问及政府是否应对新AI模型建立强制性审查程序时,万斯的回答立刻转向了特朗普政府的主基调:“特朗普总统希望我们在AI领域支持创新。他希望我们赢下这场同其他国家在AI领域的竞赛。”
5月25日,通谕正式发布。两天后,万斯在空军学院毕业典礼演讲上当着约900名学员的面赞同引用了教皇通谕的观点,即“人类不应将最重要的道德决策外包给数字技术”。在接受NBC采访时,他更是对教皇通谕大加称赞:“非常深刻。”
万斯在这个问题上的的态度可谓三心二意。一方面,他深受其导师、硅谷“技术加速主义”代表人物彼得·蒂尔的影响,这个派别反对技术监管,一向对“反AI”的呼声嗤之以鼻。一年前,他在巴黎的国际AI行动峰会上发表了一场标志性演讲,直指欧洲盟友对AI的“严厉监管”是在“扼杀一个刚刚起步的变革性产业”。他呼吁世界“以乐观而非恐惧的态度看待这种新前沿”,强调美国必须赢得与中国的AI竞赛。
另一方面,他也是全美最有权力的天主教徒,故而无法像他的上司特朗普那样公开与教廷叫板,他必须对通谕做出反应,巩固其天主教徒基本盘。与此同时,Claude Mythos展现出的现实风险,比如在网络攻击模拟中所向披靡的能力,又迫使他不得不面对现实。据报道,万斯在听取了关于Mythos网络安全能力的简报后,感到了惊吓,呼吁行业合作共寻出路。
万斯一面称赞教皇,一面回避了通谕中最核心的“卸下AI的武装”及严格控制技术的呼吁。他对教皇说“是”,对硅谷说“加速”,对军工说“赢”。此即为当今全球AI治理困局的一个缩影:在道德呼吁与地缘竞争之间,横着一道巨大鸿沟。
结语
所以,人类该不该给狂飙的AI赛车装个刹车?
Anthropic的回答是:应该,但前提是全球一起装。暂缓这项技术的发展速度,是为了给自己争取更多时间,让人工智能等一等我们,以便从容不迫地应对AI的潜在影响。实现这点还需各方势力达成协议,制定契约。教皇则从精神层面回答了这个问题:装刹车的根本理由,不是害怕技术,而是为了捍卫人类生而拥有的自由、人性与尊严。
不管怎么说,AI这辆疾驰的赛车已经开到历史的十字路口。当愈发强大的AI展露出“彼可取而代之”的苗头,当AI技术的军备竞赛越卷越凶,当教堂的穹顶下传出机器不可主宰人类的呼声,我们究竟是一起刹车,还是一脚把油门踩到底?
这个选择极有可能事关全人类的命运。而选择的权利,目前依然握在人类自己手中。
参考文献
Anthropic urges ‘pause’ or ‘slowdown’ of AI development after Leo’s encyclical
Artificial Intelligence Needs to Be Disarmed - L'Osservatore Romano
https://www.nytimes.com/2026/06/06/opinion/ai-pope-leo-encyclical.html
https://www.vatican.va/content/leo-xiv/en/encyclicals/documents/20260515-magnifica-humanitas.html
The people building AI think it might be conscious. That’s not the most alarming part | The Independent
Claude Mythos Signals a New Era of AI Power and Risk - CTO Magazine
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。