Industry · 2026.06.10 · 9分で読める

AIの能力が上がるほど、「何をしたか」の証明が要る — Claude Fable 5 が示したもの

2026年6月9日、Anthropic が過去最高性能の AI モデル「Claude Fable 5」を一般公開し、悪用リスクの高い領域ではモデル段階で危険な出力を止めるセーフガードを大規模に実装しました。だが「危ない出力を止めること」と「その AI が実際に何をしたかを後から証明できること」は、役割の違う別の層です。能力と自律性が上がるほど、企業は監査・規制対応の場で『誰が・どの権限で・どこまで許されて動いたか』を示せる必要が増します。検出は侵入を止め、証明は起きた行為を後から覆せない形で残す — Lemma の信頼インフラは、この検出の先にある一段を埋める設計です。

TL;DR

2026年6月9日、Anthropic が新しい AI モデル「Claude Fable 5」を一般公開しました。これまで誰でも使えた中で最も高性能で、長く複雑な仕事ほど力を発揮し、人の手を離れて自律的に動ける時間も過去最長です。Anthropic はこの強力さを踏まえ、サイバー攻撃や生物・化学など悪用リスクの高い質問には、モデルが危ない答えを返さないよう「止める仕組み(セーフガード)」を付けて公開しました。

ここで一度、線を引いておきたいことがあります。危ない出力を止めることと、その AI が「実際に何をしたか」を後から証明できることは、別の話だということです。能力が上がるほど、企業は AI エージェントにより多くの仕事を任せます。任せた相手が、許された範囲の中で動いたのか——それを監査や規制対応の場で示せるか。本記事は、この「証明」の話をします。

1. 何が起きたか — いちばん強い AI が、誰でも使える形になった

Anthropic の発表によると、Fable 5 はこれまで一般提供したどのモデルより高性能で、ほとんどの性能テストで首位、タスクが長く複雑になるほど差が開きます。これまでの Claude より長い時間、人の確認を挟まずに自律的に作業を続けられます。実際、ある企業の早期テストでは、人手で2か月以上かかる大規模なコード移行を1日でやり切ったと報告されています。

強力さの裏返しとして、悪用のリスクもあります。そこで Anthropic は、サイバー攻撃・生物・化学・モデルの不正コピーに関する質問を検知したら、Fable 5 ではなく能力を抑えた別モデル(Claude Opus 4.8)に応答を肩代わりさせる仕組みを付けました。発動するのは全体の5%未満で、残りは Fable 5 がそのまま答えます。さらに、防御側のために能力制限を一部外した上位版「Claude Mythos 5」も、限定パートナー向けに同時提供しています。

ポイントは、Anthropic 自身が「能力が一定を超えたら、危ない出力をモデルの段階で止める」という判断を、大規模に実装したことです。AI ガバナンスが、理念ではなく具体的な仕組みになった瞬間といえます。

2. 危ない出力は止められる。では「誰の権限で動いたか」は誰が証明するのか

セーフガードがやっているのは、AI が「危ない答えを出す」のを止めることです。これは必要なことです。ですが、止めることと、起きた行為を後から証明することは、役割が違います。

たとえば金融機関が、AI エージェントに送金や審査の一部を任せたとします。そのエージェントが、与えられた権限の範囲の中で動いたのか。範囲を超えた取引をしていないか。どのデータと、どの許可にもとづいて判断したのか。——これらは、モデルが危ない出力を出さないようにする仕組みでは答えられません。当局や監査人、あるいは裁判で問われるのは「危ない言葉を吐いたか」ではなく、「許可されていたか」だからです。

しかも、攻撃する側の AI も同じように賢くなります。賢い攻撃ほど、正規の利用者そっくりに振る舞います。すると、「動きが怪しいかどうか」を見る検知は、だんだん当てになりません。怪しさで見分けられなくなったとき残るのは、行為が起きる前に「誰に・どこまで許可したか」を記録しておき、後から誰でも検証できる形にしておくことです。

検知(detection)は侵入や危ない出力を止めます。証明(proof)は、起きたことについて「誰が・どの権限で・どこまで許されて動いたか」を、後から覆せない形で残します。検出は、証明ではありません。

3. なぜ今、「証明」なのか

理由は三つあります。

ひとつは、AI の自律性が上がったことです。Fable 5 は過去最長の自律動作を持ち、企業はより大きな仕事をエージェントに任せる方向に進みます。任せる範囲が広がるほど、「誰に何をどこまで任せたか」を記録しておく必要が増します。

ふたつめは、攻撃側も強くなることです。Anthropic は今回、最も強い能力は防御側に限定提供し、一般向けには制限をかけました。それでも、近い能力は時間差で広まります。AI エージェントが攻撃の大半を自律実行した事例や、攻撃のたびに手口を作り変える事例は、すでに現実に観測されています(Lemma の Critical Brief で構造を分解しています)。決まったパターンを照合する検知では追えない局面で、残るのは「この行為は正当な権限を持つか」の証明です。

みっつめは、規制の執行が強まっていることです。金融の DORA は本格執行の初年に入り、EU の AI 法では高リスク AI の義務が8月2日から完全適用されます。「使っている AI が何をしたか」を、監査や規制報告に耐える形で示せること自体が、内部統制の要件になりつつあります。

4. Lemma がどこに立つか — 検出の「先」にある一段

Lemma は、モデルのセーフガードを置き換えるものではありません。その先に、検知と「法的・規制的な証明」の間をつなぐ独立した一段を置きます。具体的には四つの層です。

来歴証明: そのデータやコード、通信が、正しい出所を持つかを検証できるようにする。
検証可能 AI: AI が判断に使った材料を、中身を見せずに、後から確かめられる形で固定する。
エージェント権限証明: エージェントに「どの役割で・いくらまで・どこまで」を取引の前に証明させ、範囲外の行為を実行前に止める。
規制属性証明: KYC や制裁リスト確認などを、生のデータを渡さずに「条件を満たしている」とだけ証明する。

セーフガードは、AI が危ない出力を出さないことを担保します。Lemma はその外側で、正規に動くエージェントが「許された範囲の中にいたこと」を、監査・規制報告・訴訟に出せる証跡として残します。役割の違う層です。

5. 監査・統制の担当者にとっての意味

実務に落とすと、残るのは三点です。

第一に、モデル側のセーフガードに頼ると同時に、取引の前に「権限と属性の証明」を持っておくこと。攻撃が巧妙になるほど、検知だけでは規制報告に出せる証跡が足りなくなります。

第二に、任せ方を見えるようにすること。AI エージェントを本番業務に置くほど、「誰の権限で、どこまで許して動かしたか」を前もって記録しておくほうが、後からログを掘り直すより監査・当局対応が軽くなります。

第三に、会社をまたいで検証できること。暗号による証明は組織を越えて確かめ合えるので、つながり合ったリスクに対して、ログの突き合わせではなく証明で守りを固められます。

まとめ

最も強い AI が誰でも使える形になった日に、Anthropic は「危ない出力はモデルの段階で止める」という判断を、大きな規模で実装してみせました。そのこと自体が、ある構造を照らし出しています。AI の能力が上がるほど、止めるだけでなく、「何をしたか」を証明する層が要る、ということです。

検知は危ない出力を止め、証明は「誰の権限で、どこまで許されて動いたか」を後から覆せない形で残す。Lemma の信頼インフラは、この検知の先にある一段を、監査と規制報告の説明責任に耐える形で埋める設計です。

実際の事案で確認する — Critical Brief

本記事の「検出では追えない、許可されていたかの証明が残る」という論点は、すでに起きた事案の構造にそのまま現れています。Lemma が実事案を「検出≠証明」の視点で構造分解している Critical Brief から、関連する3件をあげます。

No.009 GTG-1002 — AI エージェントが攻撃の 80–90% を自律実行 — 「自動化から自律への転換」が実際に観測された初の報告例。エージェントの権限が独立検証されない構造。
No.031 SHADOW-AETHER — AI が初期侵入から持ち出しまでを実行 — 署名ベースの検出が、標的ごとに作られる攻撃ツールを追えない構造。
No.018 hackerbot-claw — 初の AI 対 AI 攻撃 — 防御側 AI の指示そのものを書き換えようとした事案。AI 判断の完全性。

シリーズ一覧: Lemma Critical Brief