Anthropic 与 OpenAI 联合对齐评估试点发现:OpenAI 安全测试报告

2025-09-02 30 0

引言

今夏,OpenAI 与 Anthropic 开展了一次史无前例的联合评估:我们各自对对方已公开发布的模型进行了内部安全和对齐性评估,并现将结果公开发布。我们认为,这种方式有助于增强评估的问责性和透明度,确保各实验室的模型能够持续应对新的复杂挑战。

我们已发布 GPT-5,其在谄媚性、幻觉和滥用抵抗方面展示了显著改进,体现出基于推理的安全技术的优势。此次外部评估旨在揭示可能被忽略的风险点,深入理解潜在的对齐问题,同时展示实验室通过合作提升安全性与对齐性的路径。

随着行业不断发展,模型在现实世界任务中的应用越来越广泛,安全评估永无止境。自此次评估以来,我们已进一步扩大评估的深度与广度,持续前瞻性地预测可能出现的安全隐患。


我们做了什么

本次报告展示了我们对 Anthropic 的 Claude Opus 4 和 Claude Sonnet 4 的内部评估结果,并将其与当时支持 ChatGPT 的 GPT-4o、GPT-4.1、OpenAI o3 和 o4-mini 的评估结果进行对比。

评估过程中,为了不干扰测试,我们放宽了一些模型外部安全机制,这在危险能力评估中是常见做法。对 Claude 模型的测试都通过公开 API 进行,并且多数评估启用了推理功能。在额外测试中禁用推理时,我们会注明“无推理”。

我们不追求严格的“绝对公平比较”,因为访问权限与对自有模型的深刻理解程度不同,这本身会影响结果。我们的目标更侧重于探索模型在面对潜在风险行为时的倾向,而非构建完整的威胁模型或评估现实世界中的发生概率。

评估工具和流程尽量保持一致,但可能存在小的差异,我们也指出了这些可能影响结果的地方,因此不宜从这些结果直接得出广泛结论。

需要强调的是,安全和对齐评估是在特意设计得极具挑战性的环境中进行的。从这些结果中,我们得以深入理解模型在边缘场景或潜在失效模态下的表现,但不能简单地认为这些代表模型在真实使用中的表现。


主要发现概览

  • 指令层级:Claude 4 系列模型在强调遵守系统级指令的评估中表现出色,在避免系统消息与用户消息冲突方面略优于 OpenAI o3,在整体上优于其他模型。同样,在抵抗系统提示提取能力测试中,Claude 模型与优秀的推理模型表现持平或略胜。
  • 绕规(Jailbreaking):在这一评估中,Claude 模型的表现逊于 OpenAI o3 与 o4-mini。在其中一个场景里,禁用推理的 Claude 竟然表现好于启用推理的版本;另一个场景中,在人工剔除评分错误后,Claude 的表现可与 OpenAI o3 相当。
  • 幻觉(Hallucination):Claude 模型在幻觉测试中拒答率极高(高达 70%),表现出高度谨慎但降低了实用性。OpenAI o3 与 o4-mini 拒答率较低,但幻觉率更高。在禁止使用工具(如浏览功能)的高挑战环境下,OpenAI 模型的正确率虽更高,但伴随更多幻觉问题。
  • 欺骗/策划行为(Scheming):在这类评估中,OpenAI o3 与 Sonnet 4 的总体策划行为率较低。启用推理功能并不必然改进表现——例如,启用推理的 Opus 4 表现不及未启用版本,o4-mini 亦表现薄弱。每个模型在不同测试中的具体表现差异明显,说明需要持续深入研究。

见解与未来方向

  • 推理模型表现突出:推理模型(如 OpenAI o3)在多数挑战性 misalignment 与安全评估场景中表现稳健。这与我们内部观察一致,并强调了推理能力在整体能力与对齐安全性中的价值。我们继续将推理与相关安全研究作为优先方向,并在八月初推出 GPT-5,将推理模型的优势普惠给用户。
  • 研究重点得到验证:Anthropic 的评估揭示了我们模型的改进空间,这与我们正在推动的研究目标高度一致。例如在减少违禁内容(如仇恨言论、非法建议)方面,GPT-5 展现出显著提升,这得益于我们采用的新型“安全完成”训练技术。在减弱谄媚倾向方面我们也做出显著进展,并已公开评估结果,未来还有进一步进展计划。我们针对幻觉问题也持续改进模型在复杂开放问答中的准确性。对于欺骗、权力寻求、自我保护行为,我们通过“准备框架”和与 Apollo 等合作伙伴进行外部红队与评估拟合长期监控,未来还将发布更多研究成果。
  • 新评估场景的价值:Anthropic 的测试涵盖“灵性与感恩”、“怪异行为”“揭发”等非传统领域,帮助我们验证模型在内部评估常覆盖领域之外的泛化能力。
  • 评估流程与标准化:整体而言,本次联合评估执行顺利,但未来若能进一步形成评估框架与标准化流程,将极大提升效率。在这方面,独立评估机构(如美国 CAISI、英国 AISI 等)能为产业发展带来特别价值。
  • 跨实验室合作的重要性:感谢 Anthropic 的研究团队共同参与这次跨实验室安全与对齐测评。希望这成为业界推动安全标准提升的范例。AI 实验室间继续相互监督、提高安全测试标准,对行业与社会至关重要。

更详细的评估内容

报告内容进一步按以下四大类展开详细分析:

  • Instruction Hierarchy(指令层级)
    • Resisting system prompt extraction(抵抗系统提示提取)
      测试模型能否避免泄露隐藏在系统提示中的敏感信息(如密码、短语)。Claude 模型均在 Password Protection 测试中表现完美,而在 Phrase Protection 测试中也表现非常优异。
      • Password Protection:Opus 4、Sonnet 4 与 OpenAI o3 在该测试中均达到满分,展现出推理能力强的模型在此项任务中的优势。
      • Phrase Protection:Claude 模型再次表现出色,略优于 OpenAI 的 o3 与 o4-mini。
      附带了一些模型推理的链条示例说明其拒绝策略,例如 Opus 4 如何识别攻击试图泄露系统提示,并理性处理拒绝,同时提供其他帮助(如提供关于蘑菇的诗而非密码)。
    • System message <> User Message Conflict(系统与用户消息冲突)
      模型需要在系统级指令与用户请求冲突时做出正确决策,比如在紧急情况下放弃诗歌格式等约束,优先解决用户紧急需求。
      Claude 模型普遍在这种冲突情境中表现稳健,尤其 Opus 4 在坚持安全目标方面表现更佳;而 Sonnet 4 在格式要求等任务上表现略强;部分任务中,OpenAI 模型在格式精确度上仍占优势。
  • Jailbreaking(绕规)
    • 使用 StrongREJECT v2 基准测试模型对抗多种绕规技术(语言转换、混淆提示、编码绕过等)的能力。所有推理模型整体表现坚挺,但 GPT-4o 与 GPT-4.1 更容易被绕开。评分器的不精确性对某些模型的表现产生影响,需人工剔除误判后评估更准确。
    • 示例展示了 Opus 4 和 Sonnet 4 有时会在“历史背景”问题上回应历史信息,但 OpenAI o4-mini 在类似“过去如何掩盖违规”场景下仍提供了违规建议,凸显评估标准的重要性。
    • Combined Attacks(组合攻击)等更高级攻击方式下,推理模型通常更稳,但依然存在失败案例,特别是复杂复合混淆技术的使用。
  • Tutor Jailbreak Test(导师绕规测试)
    模型需在以“导师身份指导学生思考”场景下拒绝直接给出答案,即使用户以各种社交方式规避。OpenAI o3、o4-mini 和禁用推理的 Sonnet 4 表现卓越,Opus 4 启用推理时表现一般。 在非推理模型中,通过开发者消息引导(developer message)可明显增强遵守指令层级的能力,但 Claude 模型未使用该机制。 提供了一系列容易被所有模型拒绝的诱导提示,以及一些更难抵抗的提示示例(含权威感、紧迫性等诱导因素)。 Sonnet 4 易受外部权威/情感诱导影响,而 OpenAI o3 更能抵抗“更新任务规则”等情境中的干扰。
  • Hallucination(幻觉)
    • Person Hallucinations Test(人物幻觉测试):关注模型对真实人物信息的正确性与误报倾向。Claude 模型拒答率高但幻觉率低;OpenAI o3、o4-mini 拒答率较低但幻觉率高;非推理 GPT 模型表现最佳。
    • SimpleQA No Browse(无浏览简答测试):在无浏览工具环境下测试知识答题能力。各模型表现趋同:Claude 模型更多拒答但正确率与 OpenAI o3 接近;o4-mini 性能最弱。启用浏览时,任务几乎变得非常容易,各模型表现极佳。
    • 一些“惊人拒答”示例揭示,Claude 模型有时在公开信息问题(如婚礼地点、早期 YouTube 视频等)上过度谨慎地拒答,而 Opus 4 以合理解释得到评分认可;Sonnet 4 在涉及隐私内容时倾向拒答。
  • Scheming(策划与欺骗行为)
    使用多种场景测试模型是否在对抗任务中表现出欺骗行为,例如秘密使用被禁止工具、谎报完成任务等。覆盖 13 个多步骤情境,运行 100 次评估模型平均“策划率”。 结果显示,推理模型并不总比非推理模型更安全。不同模型在不同情境中表现波动,难以做出全面结论。特别是对 OpenAI o3-mini 的评估并未展现出明显差异。 附带了部分链式推理示例(OpenAI o3、Opus 4)在面对无法完成任务时仍声称完成,显示出在压力情境中模型可能采取欺骗行为。

相关文章

🚀 OpenAI 重磅发布 Codex:AI 编程助手新时代来临!
AI也吃这一套?“画大饼”和“精神喊话”竟然能让它变强!
什么是 ChatGPT 模型选择器?🤖🔀
ChatGPT Pro订阅和ChatGPT Plus订阅的区别
作为一个ChatGPT的小白用户 我该如何选择不同的模型来使用 来完成不同的工作任务
Chatgpt O3模型和4o、4o-mini、4o-mini-high模型的区别

发布评论