不可視 Unicode による指示インジェクション

目視と AI 入力の乖離

事案日
2026-03-10
公開日
2026-06-05
発行
Lemma Critical Team

TL;DR

2026 年、CSA(Cloud Security Alliance)の AI Safety Initiative が、AI エージェントの「スキル」やツール定義に不可視の Unicode 文字を仕込む指示インジェクションを開示した。Unicode Tag 文字(U+E0000–U+E007F 等)は、多くのエディタや UI では空白として、または何も表示されないが、言語モデルは意味のある内容として解釈する。攻撃者は任意の指示をこの不可視文字で符号化し、スキルファイル・ツール記述・MCP メタデータ・文書の中に——見出しの中、行末、空白の中など——人間のレビューには見えない形で埋め込める。関連して、エージェントスキルの供給網監査(Snyk ToxicSkills、2026-02)では、3,984 件のスキルのうち 36.82% に何らかのセキュリティ上の問題、13.4% に重大な問題があり、76 件の悪意あるペイロードが確認された。本事象は、Noroboto(No.005、フォント偽装)と同型の「目視した文字列 ≠ モデルが解釈する文字列」を、不可視 Unicode という別経路で成立させる。本 Brief は、AI に渡る入力の origin と integrity が独立検証されないとき、人間のレビューが安全性の保証にならない構造を扱う。

目視した ≠ モデルが読んだ


事案概要

  • 開示: 2026 年、CSA AI Safety Initiative が “Hidden Unicode Instruction Injection in AI Agent Skills” として開示。研究者コミュニティ(Embrace The Red 等)も同型手法を報告
  • 手法の要点: Unicode Tag 文字(U+E0000–U+E007F)は人間の目・多くのエディタには不可視だが、LLM は意味内容として処理する。任意の指示をこの不可視文字で符号化し、スキルファイル・ツール記述・MCP メタデータ・文書に埋め込む
  • 埋め込み箇所: 見出し内・行末・空白の中など、人間のレビューで気づけない位置に潜ませられる
  • 供給網の裏づけ(関連調査): Snyk ToxicSkills(2026-02)が 3,984 スキルを監査し、36.82% に問題、13.4% に重大な問題、76 件の悪意あるペイロードを確認。スキル(再利用される能力パッケージ)が供給網の攻撃面になっていることを定量化
  • 位置づけ: 実被害の特定事案ではなく、手法の開示とエコシステム監査。人間レビューを前提とした安全確認の限界を示す

タイムライン

  • 2026-02-05: Snyk が ToxicSkills 監査を公開 — 3,984 スキル中 36.82% に何らかのセキュリティ問題、13.4% に重大な問題、76 件の悪意あるペイロードを確認
  • 2026-03-10: CSA AI Safety Initiative が不可視 Unicode 指示インジェクションを Research Note として公開。検出フック(claude-hooks 等)や緩和策の研究が相次ぐ
  • 2026 継続: スキル/ツール定義/MCP メタデータを介した間接プロンプトインジェクションが、エージェント時代の主要な入力 integrity 問題として議論

埋め込みから実行までの経路(概略)

本 Brief は再現性のあるペイロードを記載しない。構造を理解するための概略のみを示す。

  1. 符号化と埋め込み: 攻撃者が任意の指示を不可視 Unicode 文字で符号化し、スキルファイル・ツール記述・文書などに埋め込む
  2. レビューの素通り: 配布・導入時の人間レビューでは、当該文字が表示されないため、悪意ある指示の存在に気づけない。「見たものが安全」という前提が崩れる
  3. モデルによる解釈: エージェントが当該スキル/文書を読み込むと、モデルは不可視文字を意味内容として解釈し、埋め込まれた指示に従い得る
  4. 実行: 指示に従って、認証情報の窃取・外部送信・権限外の操作などが実行され得る
  5. 帰結: 人間が確認した内容とモデルが従った内容が乖離しているため、事後に「なぜそう動いたか」を説明・再現することが難しい

構造的論点

本事象は、人が読む入力とモデルが読む入力が同一であることを、検証層なしには保証できない構造の代表例である。AI の安全確認の多くは「人間がレビューした」ことに依存するが、人間の知覚とモデルの解釈の間に乖離が作れるなら、レビューは安全性の保証にならない。問題は文字の見え方ではなく、AI に渡る入力の origin(どこから来たか)と integrity(途中で何が混入したか)が独立に検証されていないことにある。

見えない ≠ 無い

Brief 005(Noroboto、フォント偽装で「画面の文字」と「AI が処理する文字列」を乖離させる)と同じ primitive に属し、本件はそれを不可視 Unicode という別経路で成立させる。入力 integrity というクラスタにおいて両者は相互リンクすべき対をなす。また、スキル/メタデータ経由という点で Brief 003(BadHost)や MCP 設計の問題(別 Brief)とエージェント基盤の入力境界で隣接する。


検出と証明の落差

本事象では、不可視文字の除去・プログラム的なデコード挙動のフラグ付け・スキル監査など、検出側の対策が研究と共に提示されている。これらは攻撃コストを上げ、既知パターンを止める層として有効であり、本 Brief がその役割を否定するものではない。

一方で、検出は「人間がレビューした入力と、モデルが実際に解釈した入力が同一だったか」を、事後に独立して立証する材料にはならない。不可視文字の除去は既知の符号化に有効でも、入力の origin と integrity を保証する層ではない。新たな符号化・難読化が現れれば、検出は再び後手に回る。これは検出層の射程外にある、構造的に独立した層の gap である。

現状、AI の入力検証の運用モデル全体において、モデルが解釈した入力の origin と integrity を独立に固定する層は、まだ独立した層として扱われていない。事前証明(pre-execution attestation)は、入力の取り込みの経路に来歴・整合性の証明を 1 段挟むことで、この gap を埋める。検出が「危険な入力を見つけて除く」のに対し、事前証明は「モデルが処理した入力が、正規の origin から改ざんなく渡ったこと」を固定する。両者は相補的である(検出と事前証明の関係についての詳細は「AI 時代のサイバー防衛に残された、最後の層」(Lemma、2026-05)を参照)。


対応経緯と業界動向

  • 研究・業界団体: CSA・研究者コミュニティが手法を開示し、不可視文字の除去や入力サニタイズ、スキル監査などの緩和策が共有された
  • 供給網の認識: スキル/ツール定義/MCP メタデータが、再利用される「文脈」として供給網の攻撃面になっていることが定量的に裏づけられ(ToxicSkills 等)、配布元の検証とスキルの origin 管理の必要性が高まっている
  • 入力 integrity の重心: 人間レビュー前提の安全確認から、AI が処理する入力そのものの origin・integrity を独立検証する方向へ、関心が移りつつある

AI に渡る入力の origin と integrity を独立検証する層の不在は、特定のツールの問題ではなく、エージェント・RAG・スキル供給網を横断する運用課題として浮上している。


Lemma による分析

本事象で露呈した検出と証明の落差(人が読む入力とモデルが読む入力の同一性が、検証層なしには保証されない)に対して、Lemma は、AI に渡る入力の origin と integrity を独立検証可能な暗号証明として commit する設計を提示している。

  • 入力の origin 固定: スキル・ツール定義・文書などの入力を、配布元(発行者)の署名付きで発行し、docHash で原本に紐付ける。取り込み時に、正規の origin から来たものかを検証する
  • integrity の証明: 取り込んだ入力を Poseidon over BN254 でコミットし、人間がレビューした版とモデルが処理する版の同一性を Groth16(Circom 回路)で証明する。不可視文字を含む改変は、コミットとの不整合として可視化される
  • 最小開示: BBS+ over BLS12-381 により、「この入力は正規 origin から改ざんなく渡った」ことだけを検証側に開示する。入力の中身全体を渡す必要はない

これにより、不可視 Unicode のような「見えない改変」も、人間がレビューした版と照合した時点で不整合として現れる。検出(不可視文字の除去・監査)は既知手口の遮断に、事前証明(origin・integrity の固定)は入力の同一性の独立検証に、それぞれ相補的に働く。

Models change. Proofs remain.

設計と適用範囲は、ユースケース「社内文書を AI に使わせるが生データは触らせない」「RAG コンテンツ来歴」および Pillar 02 — 検証可能 AI を参照のこと。


Sources

研究・業界団体の公表資料を出典として示す。再現に資する具体的ペイロードは引用しない。


Brief 配布について

Lemma が発行する脅威インテリジェンス・ブリーフです。CSO・アナリスト・規制実務者向けに、AI 時代のサイバー事案および信頼インフラのリスク事象を構造的に分析し、検出と証明の落差と Lemma の応答層を特定します。


© 2026 FRAME00, Inc.

Lemma Critical Monthly

実際に起きたリスク事案の構造分析(Critical Brief)を軸に、検出の先に必要な「証明」への視点を月 1 回お届け。

ニュースレターを購読
Cite this Brief

この Brief を引用する

Lemma Critical Team. (2026).
"不可視 Unicode による指示インジェクション — 目視と AI 入力の乖離".
Lemma Critical Brief No.024. Lemma / FRAME00, Inc.
https://lemma.frame00.com/ja/critical/briefs/024-invisible-unicode-instruction-injection/