検証可能なAI:信頼の出所を暗号で示す新しいRAG設計

2026.03.04

Tech Insight

検証可能なAI:信頼の出所を暗号で示す新しいRAG設計

AIエージェントやRAG(Retrieval-Augmented Generation)は、すでに多くの現場で「調べて、まとめて、答える」役割を担い始めています。
一方で、「その答えは、本当に信頼していいのか?」という問いには、まだ十分に応えられていません。

Lemmaはこのギャップに対して、「AIが読む前のデータ」に暗号的な検証レイヤを差し込むことで、AI全体の信頼性を底上げするアプローチをとっています。 本稿は、このアプローチをRAGとエージェントの文脈で整理し、シリーズ全10本の技術的な土台を共有することを目的としています。


なぜ今「検証可能なAI」が必要なのか

生成AIは、テキスト・ナレッジベース・ログなど、膨大な情報を高速に読み込み、自然言語で答えを返してくれます。
しかし、実務の現場では「どの情報に基づいて、どのように判断したのか」が見えづらく、説明責任やコンプライアンスの観点から、不安が残ります。

とくにエンタープライズのユースケースでは、次のような要件が常に付いて回ります。

  • 誰が発行した情報なのか、出所を確認したい
  • その情報が特定のビジネスルール(年齢制限や金額閾値など)を満たしているか、機械的に検証したい
  • 後から監査・再現ができる形で、証拠を残しておきたい

これらは、LLM本体の賢さだけでは満たせません。
「AIの外側」に、暗号・検証・プロヴナンスのレイヤを用意する必要があります。


RAGとエージェントの弱点:データの“出所”がグレーなまま

一般的なRAG構成では、以下のような流れが典型的です。

  1. 社内外のドキュメントを収集してインデックス化する
  2. ユーザーの質問に応じて、関連ドキュメントをベクタ検索で取り出す
  3. 取り出したテキストをプロンプトに埋め込み、LLMで回答を生成する

この構成でも、引用元URLやドキュメントタイトルを示すことで、ある程度の「根拠の見える化」は可能です。 しかしそこには、次のような限界があります。

  • そのドキュメントを「誰が」「どのルールで」承認したのかまでは分からない
  • ビジネス上重要な属性(例:地域、資格、認証、有効期限)が本当に条件を満たしているかは、人手のチェックに依存しがち
  • 時間が経つと、どの時点の前提で判断されたかが曖昧になり、再現や監査が難しくなる

つまり、ドキュメントの「文字列」は見えていても、その背後にある検証ロジックと証明が欠けているのです。


Lemmaのアプローチ:属性を暗号的に検証してからAIに渡す

Lemmaは、「AIが読む前の段階」で、対象データを暗号的に検証済みの属性として整形するレイヤを提供します。

ポイントは大きく4つです。

  1. すべての原文書はAES-GCMで暗号化され、AIは生データに直接触れない
  2. 文書にはハッシュ値(docHash)とコンテンツID(CID)だけが表に出る
  3. ビジネスルールをゼロ知識証明で機械可読な事実に変換する
  4. それらの検証結果と由来(誰が、どのスキーマで、どの回路で証明したか)が永続的に記録される

Encrypt Everything, Expose Nothing

Lemmaのドキュメントは、AES-GCMで暗号化され、平文の個人情報や機密データがAIの実行環境に直接流れないように設計されています。 AIが見るのは、暗号化された文書を指すdocHashとCIDだけで、これが後述するプロヴナンスのアンカーになります。

Prove Facts with Zero Knowledge

「18歳以上」「売上が一定以上」「ISO認証取得済み」といったビジネスルールは、そのままではテキストのメタ情報に過ぎません。
Lemmaでは、こうしたルールをゼロ知識証明として実装し、「条件を満たす」ことだけを機械的に検証できるようにします。

  • 具体的な数値や詳細属性は明かさない
  • それでも、指定された条件を満たしているという事実だけは暗号的に保証される

このとき、使用されたZK回路と生成器は、どのようなロジックで証明されたかを後から辿れるよう、メタデータとして残されます。


“必要な属性だけ開示する”セレクティブディスクロージャ

現実のビジネスでは、「相手に全部見せたくはないが、条件を満たしていることは信じてほしい」という場面が多くあります。
ここで重要になるのが、 選択的開示(Selective Disclosure) の仕組みです。

BBS+署名のようなスキームでは、発行者がまとめて署名した属性群から、必要な属性だけを選んで証明に含めることができます。
検証者は、元の署名へのリンクを用いて、「部分的に開示された属性が、確かに正しい元データの一部である」ことを確認できます。

Lemmaのレイヤでは、こうした選択的開示を前提として、AIが扱う属性セットを柔軟にコントロールします。

  • AIに渡すのは、業務ロジックに必要な最小限の属性だけ
  • それでも、元の発行者とスキーマ、検証方法へのリンクは保持される

これにより、「見せる情報を最小化しつつ、信頼の根拠は最大限維持する」ことが可能になります。


検証済み属性をクエリする:RAGの前にある「属性レイヤ」

Lemmaの特徴的なポイントは、「AIがデータを読む前に、検証済みの属性だけをクエリできる」という設計です。

たとえば、次のようなクエリを考えます。

「日本在住かつ18歳以上で、特定の製品を購入したユーザーに関するFAQを取得せよ」

従来のRAGであれば、ユーザーレコードやログをそのままインデックス化し、検索時にフィルタリングを行うか、人手で前処理を行う必要がありました。
Lemmaでは、あらかじめ以下のような形に落とし込みます。

  • 「在住国」「年齢」「購入履歴」などの属性は、それぞれ検証済みの属性として保持される
  • 「18歳以上」「日本在住」といった条件はZK回路で証明済みの事実として登録される
  • RAGやエージェントは、「条件を満たす検証済み属性」をクエリするだけで済む

返ってくるのは、単なるレコードではなく、以下を含む「証明付き属性」です。

  • 発行者
  • スキーマ
  • 検証ステータス
  • 使用されたZK回路と生成器
  • 関連するCIDとdocHash

このレイヤを通過したデータだけをRAGに流し込むことで、「AIが読んでいる情報は、すべて検証済み」という前提が成立します。


スキーマでドメインを定義する:AIの“解釈の単位”を固定する

検証可能な属性とZKだけでは、まだ断片的です。
Lemmaは、「どのような属性を、どのような型・レンジ・カテゴリで扱うか」をスキーマとして定義することも重視しています。

たとえば、次のような粒度でスキーマを設計できます。

  • 年齢を「18歳以上」「18〜25歳」「26〜40歳」のようにバケット化する
  • 地域を国・地域ブロック・事業エリアなど、ビジネスに即した階層で定義する
  • リスクスコアを数値レンジや段階(Low / Medium / High)として表現する

これにより、AIエージェントは次のようなメリットを得ます。

  • 属性の意味やレンジが事前に明確になっているため、「解釈」が安定する
  • 検証ロジック(ZK回路)もスキーマと紐づいているため、後から再現可能
  • 埋め込みやクラスタリングの際も、同じスキーマを前提にした表現が可能

AIの上に「スキーマ+検証」のレイヤを置くことで、RAGシステム全体の一貫性と再現性が高まります。


プロヴナンスは永続する:インデックスが変わっても“証明”は残る

RAGの実装では、インデックス構造やベクタDB、モデル構成を変えながら改善していくことが一般的です。
しかし、そのたびに「過去の判断の前提が失われる」と、監査や再評価が難しくなります。

Lemmaは、次の情報を永続的なプロヴナンスレイヤとして扱います。

  • 文書コミットメント(docHashとCID)
  • スキーマ定義
  • 発行者情報
  • ZK検証の結果と、そのメソッド

これらは、オンチェーン等の形でアンカーされるため、RAGインデックスや埋め込みが再構築されたとしても、「どの時点で、どの前提を満たした事実だったか」を後から辿ることができます。

つまり、AIのインフラは変わっても、信頼の土台となる証明は残り続ける設計になっているのです。


まとめ:AIは“推論エンジン”、信頼は“暗号レイヤ”で担保する

検証可能なAIを実現しようとすると、つい「より厳密なモデル」「より安全なプロンプト」を考えがちです。
しかし、AI本体にすべての責任を背負わせるのではなく、その前段に暗号的検証レイヤとプロヴナンスレイヤを置くことで、システム全体としての信頼性を大きく引き上げることができます。

Lemmaは、

  • 文書を暗号化して守りつつ、docHashとCIDでプロヴナンスを固定し、
  • ビジネスルールをゼロ知識証明で機械可読な事実に変え、
  • 必要最小限の属性だけを選択的に開示しながら、
  • AIが読む前に「検証済み属性だけをクエリできる」環境を提供します。

本稿で示した設計思想は、シリーズ全10本で扱うビジネス・ガバナンス・社会実装のユースケースすべてに共通する技術的な前提です。 次の記事では、この検証レイヤを前提として、エージェント間の暗号的信頼チェーンがAPI経済やB2B連携にどのようなインパクトをもたらすかを掘り下げていきます。


Lemma Oracle による「検証可能なAI」および暗号的 RAG 設計の詳細な技術仕様やデモ環境は、現在クローズドで提供準備を進めています。 本記事のアプローチに関心をお持ちの事業会社・SIer・プロダクト開発チームの方で、パートナー候補としての優先案内をご希望の場合は、以下よりお申込みください。

パートナー候補として登録する(1分)