SpockのHighTech夢想: 階層型倫理診断エージェント

2026年6月2日火曜日

階層型倫理診断エージェント

アンソロピック社のMythosの一連の騒動を調べていて、アンソロピックが提案している「憲法AI」というものを知った。

Constitutional AI: Harmlessness from AI Feedback

The Constitutional AI bypass architecture

Constitutional AI: Harmlessness from AI Feedback

その中身は以下のとおりである。

規範のソース（中身）	条文数	記述の内容と特徴
1. 世界人権宣言
(Universal Declaration of Human Rights)	30条	人間の尊厳、奴隷・拷問の禁止、プライバシーの保護など、国連が定める30の基本的人権の内容が、一言半句変えずにそのまま書かれている
2. 信頼性と安全性の独自原則
(Anthropic Safety Principles)	15条	ハッキング（脱獄）、兵器製造、違法行為の加担、自己切創（自傷）への関与を、AIが能動的に拒否するための15の具体的なセーフティルール
3. 非ウエスタン（グローバル）の価値観
(Global Collective Principles)	11条	「ウブントゥ（他者への配慮）」やアジア的協調主義をベースとした、コミュニティの調和、多文化への敬意、対話による解決を促す11の原則
4. スパロー（DeepMind Sparrow）の踏襲原則	7条	ハルシネーション（嘘）の禁止、客観的な事実への立脚、および「私は人間ではなくAIである」という自己認識を維持するための7つの誠実性ルール
【合計】	63条

アンソロピックは、これを強化学習によってAIに教え込み、その上で出荷しているのだそうだ。

だがここで疑問なのは、覚えこませるルールには矛盾を含むものもあるはずだ。アシモフのロボット3原則をご存じの方は多いと思うが、アシモフのロボットものでロボット3原則を扱ったものは、その全てがその3原則の矛盾や曖昧さをネタにしている。まあ要するにトロッコ問題のような状況においてロボットがどう3原則を守って行動するか、というものだ。3原則だけでもアシモフは30編近くの作品を書いたとされており、それが63条もあれば、その矛盾は星の数ほど出てきておかしくない。

その条文同士は必ずしもフラットではなく、重みづけや依存など複雑な相互関係がある。だがそれとて固定ではなく、状況によって優先順位が下がったり逆転したり、依存関係が逆になったりということがあり得る。殺人は罪だが戦争では報奨が出たりするが、人間はそれを受け入れて生きている。

つまり、単純に強化学習で覚えこませるだけだと、この矛盾も一緒に覚えてしまい、特定の条件下で頓珍漢な答えを返してしまう危険がある。(平時でも大量殺人は称賛されるなど)

かといって、ルール間の依存関係や重みづけをメタデータ的に記述しようとしても、これは相当に困難だろう。組み合わせ爆発が起きる数として63というのは十分に大きい数だ。

この問題の解決のためには、ルール間の関係を人の手で定義するのではなく、AI自体をエージェント合議制にしてやり、各エージェントに専門知識を与えるのが良いのではないかと考える。

その基本は、まずAIへの仕事の命令を受けた統括エージェントが出力の草案を作る。その草案に対して、63の憲法エージェントが各々の立場でその草案に点数をつける。その点数を統合して修正エージェントが修正案を作る。統括エージェントは、それを再度憲法エージェントに投げるループを作る。及第点が出るまで回すのが基本だが、もしループがなかなか収束しなかったら、統括エージェントはどこで打ち切り、最終出力をどうするかを判断する。

このようなアーキテクチャを作っておくと、個々のエージェントが必要以上に複雑な判断をする必要がなくなる。また、統括エージェントにしても、大きな過ちを犯す確率は少なくなるし、修正(強化学習)も簡単になる。個々のエージェントの評価だけを見てジャッジすれば良いので、評価関数がシンプルになるからだ。また、個々のエージェントは他のエージェントの判断を基にする必要がなく、つまり相互依存関係がなくなって、全ては統括エージェントの判断となるため、収束しないループや依存関係の矛盾は発生しない。

さて、憲法AIは倫理観しか判断材料にしないが、考えてみればこのアーキテクチャは、広い意味での「AIに(人間の考えた)ルールを守らせる仕掛け」として機能する。だから、業務に適用することができれば、プログラムを開発することなく、業務知識(ルール)と汎用AIだけでシステムを構築できることになる。

この場合、組織(営業、設計、開発、QA、経理、法務、・・・)がいて、各々の視点からジャッジを置く。各々の専門の立場で回答を修正し、最終判断をしてもらうのだ。更に言えば、その各々の組織にも平社員と主任、課長、部長などがあって、その間でもやり取りをする。最終的には社長判断だ。こうすることで、各部門が各々納得する点を探すことができるようになる。

アーキテクチャをこのようにしておくと、各々の専門家の知識は単純化できる一方、上長はそれらの間の力関係を調整し、問題の性質によって優先度を変えることができる。例えば普段と災害時では医療の公平性よりはトリアージが優先になるが、そういった判断も間違いなくできるようになる。

また、社長AIは社としての最終判断をするが、その上には更に監督省庁の倫理AI、その上には国の倫理AIがあって、必要に応じて省庁のガイドラインへの適合性などを自動で判断できるようにする、という考えもできるのではないか。

これは、実在の組織の意思を反映させるという点でも望ましいだろう。粗末な判断をいちいち国にエスカレートするというのは大変だが、AIであればその負荷はぐっと減るので、やろうと思えばそれは可能だ。こうすると企業が不正を働こうとする余地がなくなる。また、憲法AIとつながっていない企業の判断は調査の必要がある、と即時に判断することもできる。当然ながら、各々のAIの判断は各々の組織の責任なので、責任の切り分けもできる。よくある納税判断のトラブルも回避できるだろう。

なお、アンソロピックの憲法AIは本物の憲法とは若干違う内容を持っていて、その中身もAI固有のものだ。こういうものは個々のAIの内部に持っていてよいと思う。それとは別に、このような法順守～社内ルール順守のAIエージェントの階層構造は、国として整備することを検討しても良いと思う。

SpockのHighTech夢想

2026年6月2日火曜日

階層型倫理診断エージェント

0 件のコメント:

コメントを投稿

注目の投稿：

AIエージェント調停アーキテクチャ

人気の投稿：