Verifiable Claim-Check:オンデバイスのGemma 4と、暗号論的なモデル証明を組み合わせる
GoogleのGemma 4ハッカソン(Safety & Trust部門)に、example-claim-checkを提出しました。AIの出力を、それを生成したモデルと暗号論的に結びつけるオープンソース(Apache 2.0)のリファレンス実装です。モデルをすり替えると証明が破綻し、それが即座に可視化されます。
TL;DR
GoogleのGemma 4ハッカソンに、example-claim-checkを提出しました。AIが下した判断を、その判断を生成した特定のモデルと暗号論的に結びつける、オープンソース(Apache 2.0)のリファレンス実装です。ローカルのモデルが——たとえわずかな変更であっても——すり替えられた場合、暗号論的なチェックが即座に、そして視覚的に破綻します。パイプラインは意図的に小さく設計されており、クライアント側に重厚な暗号ライブラリは必要ありません。モデルのダイジェストを読み取り、クレームをハッシュし、ペイロードを正規化し、LemmaのAPIを呼ぶだけです。この記事はその発表と解説です。
問題:AIの出力は「信用」で成り立っている
AIモデルは日々、数百万件の判断を下しています——要約、解釈、分析。しかし、その出力を生成したモデルが、本当に自分が思っているモデルなのか、そして審査後に重みが改ざんされていないか——それをどうやって知ることができるでしょうか。
現状、ほとんど不可能です。出力は信用の上に成り立っています。
このギャップは仮説ではありません。モデルのサプライチェーン改ざんや審査後のすり替えは、すでに文書化された脅威ベクトルであり、AIが「受け手に検証手段がない現場」——帯域制約下でファクトチェックを行うジャーナリスト、診療所、フィールドオフィス——に展開されるにつれて、リスクは拡大しています。
これは、先日広く報じられた「悪意あるエージェントスキルがすべてのセキュリティスキャナを通過し、数万のエージェントに到達した」事例と同じ構造的弱点でもあります。スキャンやスター数といった信頼シグナルは、過去の一時点を表すものであり、いま動いている成果物を表すものではありません。
私たちが作ったもの
example-claim-checkは、小さく読みやすいパイプラインを走らせます:
[クレーム入力]
↓
[モデル証明] — Ollamaの/api/tagsからモデルのコンテンツアドレス型マニフェストダイジェストを
読み取り、ピン留めされた既知の正常値と比較
↓(一致)
[Gemma 4推論] — Ollama経由でローカル実行、JSON制約付き出力
↓
[証明バインディング] — SHA-256 over canonical(modelDigest, claimHash, outputHash, nonce, ts)
↓
[Lemma登録] — Lemma documents APIを通じてバインディングを登録
↓
[判定] — ✔ VERIFIED · ✘ TAMPERED · ! UNVERIFIEDオンデバイス部分は意図的に最小限にしてあります。モデルダイジェストの読み取り、クレームのハッシュ化、ペイロードの正規化、LemmaのAPIコール——これだけです。証明側の処理はLemma Workers APIに委譲されており、クライアントは暗号プリミティブのパッケージに一切依存せず、HTTPだけで動作します。
中核にある考え方は、「審査時」ではなく「使用時」に再検証することです。モデル証明は推論のたびに実行され、現在動いているモデルのダイジェストをピン留めされた既知の正常値と比較します。これこそが、「一度スキャンすれば大丈夫」という発想が欠いている性質です。
なぜGemma 4なのか
Gemma 4(Google DeepMind)はApache 2.0で公開されたオープンウェイトモデルであり、OllamaのDay 1サポートがあります。そして、その「開かれていること」こそが、この仕組みを成立させます:
- コンテンツアドレス型の検証可能な同一性。 ウェイトがオープンに配布されているため、Ollamaはどのマシンで同じバージョンをプルしても同一になる、コンテンツアドレス型のマニフェストダイジェストを公開しています。このダイジェストこそが、私たちがピン留めし再チェックする対象——信頼チェーン全体のアンカーです。
- オンデバイス、ローカルファースト。 パイプラインはOllama経由でローカル実行され、クレームやソースをデバイスの外に出す必要はありません。信頼検証とローカル推論は、トレードオフではなく、補完し合う優先順位であることがわかります。
- マルチモーダルで高性能な推論。 Gemma 4の推論能力とマルチモーダル入力により、同じパイプラインが現実のクレームを処理できます。証明レイヤーはモデルの使い方を変えることなく、その上に乗ります。
WOWモーメント:信頼が破られたとき
このデモの核心は、信頼が破られたときに何が起きるかです:
pnpm dev # 1. クレームを実行 → ✔ VERIFIED
pnpm tamper # 2. 期待値を反転(サプライチェーン改ざんをシミュレート)
pnpm dev # 3. 同じクレーム → ✘ TAMPERED(赤)
pnpm untamper # 4. 信頼を復元tamperスクリプトはディスク上のモデルウェイトには一切触れません——期待されるダイジェスト値を上書きするだけです。これは、実際のモデルすり替えが判定に与える影響を正確に再現しています。チェックマークが緑から赤に反転する様子は、抽象的な脅威を具体的なものに変えます。
同じハッシュ比較プリミティブは、第二のモード——KYC / DeFiコンプライアンスのための属性証明(--mode attribute、または --mode both)——でも動作します。一つのプリミティブが、AIの信頼と検証可能なコンプライアンスという、二つの領域をカバーできることの実証です。
いまは「しない」こと
私たちはスコープを明確に線引きしています:
- セキュリティ製品ではないし、「防止」ではない。 これはモデルのすり替えを検出し、出力を検証済みモデルに結びつけるものであり、攻撃を防いだりスキャナを置き換えたりするものではありません。検証・来歴のレイヤーです。
- エッジ証明は将来の課題。 現在の証明ステップはLemma documents APIを通じてバインディングを登録します。デバイス上での完全なゼロ知識証明は、現在進行中の研究領域であり、出荷済みの機能ではありません。
- ウェイトの整合性のみ。 証明が検出するのは学習後の改ざんであり、学習データのバイアスやモデルが推論に使うソースの来歴ではありません。それらは別の、補完的な問題です。
一つのプリミティブ、多くの領域
この信頼レイヤーは、特定の領域に依存しません。「この出力は検証済みのウェイトから来た」ことを証明するダイジェストバインディングのプリミティブは、以下の領域にそのまま拡張されます:
- DeFi / ステーブルコインのコンプライアンス —— MiCAや米国PPSIフレームワークのような制度に対応する検証可能な属性証明。個人データをオンチェーンに晒さずに。
- エージェント決済 —— 自律的なトランザクションの前に、エージェントの身元と権限を証明する。
- ソフトウェア / 成果物の来歴 —— スキル、モデル、パイプラインが、実行される瞬間に既知の正常な参照と一致することを再検証する。「一度スキャンすれば大丈夫」への直接的な反証です。
AIのクレームチェックから始めたのは、信頼の問題が直感的で、インパクトが即時的だからです。その下にあるインフラは、AI、金融、その他あらゆる領域——「信じて」よりも「証明して」が勝つ領域すべてのための、汎用的な検証可能信頼レイヤーです。
試す
- リポジトリ: example-claim-check(Apache 2.0)
- あなたのスタックでの検証可能AIについて、話しましょう
GemmaおよびGemma 4はGoogle LLC / Google DeepMindの商標であり、ここではモデルを特定するための記述的用法として使用しています。本プロジェクトは独立したものであり、Googleによる支持や提携を受けたものではありません。FRAME00 / Lemmaによる制作。
意思決定のために
つくられている。
Lemma を組織の信頼インフラに。