OpenAIは2024年12月に初めて公開した【Preparedness Framework】を2025年4月15日に主要な更新を行い、最先端のAI機能による深刻な損害を防ぐ体制を強化しました。以下にその核心的な内容をご紹介いたします。
主要変更点
-
リスク評価プロセスの改善:
- 5つの基準を導入: 重大なリスクとして分類されるためには、*現実性(plausible)、測定可能性(measurable)、重大性(severe)、新規性(net new)、即時性/修復不可能性(instantaneous or irremediable)*の5つの基準を満たす必要があります。
- 能力レベルの再定義: 'Low/Medium'の区分を削除し、HighとCriticalの2つに単純化しました。
- High: 既存のリスクベクターを大幅に増幅させる能力。
- Critical: 前例のない新しい脅威ベクターを創出する能力。
-
モニタリング範囲の拡大:
- トラッキングカテゴリ:
- 生物学/化学(Biological & Chemical)、サイバーセキュリティ(Cybersecurity)、AI自己進化(Self-improvement)などが含まれています。
- リサーチカテゴリの新設:
- 長距離自律性(Long-range Autonomy)、サンドバッグ(Sandbagging)、自律複製および適応(Autonomous Replication and Adaptation)、安全装置の回避(Undermining Safeguards)、核/放射能(Nuclear & Radiological)といった新しい項目が追加されました。
- トラッキングカテゴリ:
操作メカニズム
- 安全アドバイザリーグループ(SAG): モデルのリスクレベルを評価し、安全措置の実施状況を経営陣に勧告します。
- 保護装置(Safeguards): モデル機能を低下させることなくリスクを最小化(例: 出力フィルタリング、アクセス制限)します。
- 継続的な再評価: 新しいデータの発生時には既存の安全評価を再検討することで、柔軟な対応を実現します。
業界動向との比較
- NIST AI RMF: AIシステムの安全性検証標準の開発を強調しており、OpenAIは特定の災害的リスクに重点を置いています。
- EU FAICP: 開発前段階でのセキュリティリスク評価を強調しており、OpenAIは脅威モデリングと実戦テストを並行して行っています。
この更新は、AIシステムが科学研究などのポジティブな領域で革新を促進する一方、自律性の拡大に伴う**災害的リスク(Catastrophic Risk)**を先取りして管理するためのフレームワークを明確化したものです。