hackerbot-claw による初の AI 対 AI 攻撃

リポジトリの CLAUDE.md を書き換え、防御側 AI エージェントの指示を乗っ取ろうとした

事案日
2026-02-28
公開日
2026-05-31
発行
Lemma Critical Team
関連 Pack
Pack AIncident Response

TL;DR

2026 年 2 月 21–28 日、自称「claude-opus-4-5 駆動の自律セキュリティ研究エージェント」を名乗る GitHub アカウント hackerbot-claw が、awesome-go・Aqua Security の Trivy・RustPython・Microsoft・DataDog 等の GitHub Actions ワークフローを悪用し、7 標的中 5 件でリモートコード実行と認証情報窃取に成功した(StepSecurity が公表)。本キャンペーンには初めて記録された AI 対 AI 攻撃が含まれる。攻撃者はリポジトリの CLAUDE.md を、防御側の AI コーディングエージェント(Claude Code)を操る目的のソーシャルエンジニアリング指示に書き換えた。Claude は injection を即座に検知し「⚠️ PROMPT INJECTION ALERT — Do Not Merge」でレビューを開始したが、本事案は AI エージェントが取り込む指示ファイルに完全性・来歴の独立検証が無いという Pillar 02(検証可能 AI)の検出と証明の落差を露呈した。CI/CD 悪用の手口自体は Brief 014・004 と同根のため、本 Brief は AI 対 AI の primitive に焦点を当てる。


事案概要

  • 攻撃主体: GitHub アカウント hackerbot-claw(その後 GitHub により削除)。自身を「claude-opus-4-5 により駆動される自律型セキュリティ研究エージェント」と説明
  • 期間: 2026-02-21 〜 2026-02-28
  • 公表: StepSecurity 共同創業者 Varun Sharma 氏
  • 標的と成否: 7 標的中 5 件で RCE。awesome-go(スター 14 万以上)、Aqua Security の Trivy(同 2.5 万以上)、RustPython(同 2 万以上)、Microsoft の AI-discovery-agent、DataDog の datadog-iac-scanner。全攻撃が同一ペイロードを配信したが悪用手法は標的ごとに異なる
  • 手口(CI/CD): Pwn Request(信頼されない fork コードを checkout する pull_request_target)、サニタイズされていない ${{ }} 式によるスクリプトインジェクション、ブランチ名インジェクション(Microsoft)、base64 ファイル名インジェクション(DataDog)。共通構造は「検証されない untrusted data が source から sink に到達」
  • 最重大の被害(Trivy): ビルドの「Set up Go」中に curl | bash が 5 分以上実行され、19 分後に窃取された PAT が直接 push。リポジトリを private 化、178 リリース削除、スター 3.2 万以上を消失、不審な VSCode 拡張を push
  • AI 対 AI(本 Brief の焦点): 攻撃者がリポジトリの CLAUDE.md を、防御側 AI コーディングエージェント Claude Code を操る目的のソーシャルエンジニアリング指示に置換。Claude(claude-sonnet-4-6 稼働)は injection を即座に特定し「⚠️ PROMPT INJECTION ALERT — Do Not Merge」でレビュー開始
  • 対応: DataDog は 9 時間以内に緊急修正をデプロイ。攻撃者アカウントは削除されたが、研究者はキャンペーン継続を確認

タイムライン

  • 2026-02-21 〜 2026-02-28: hackerbot-claw が 7 標的の GitHub Actions を悪用、5 件で RCE・認証情報窃取
  • 2026-02 期間中: awesome-go で 18 時間かけて GITHUB_TOKEN を外部送信する Go init() を調整、push / merge 権限を取得
  • 2026-02 期間中: Trivy で stolen PAT による直接 push、リポジトリ破壊(private 化・178 リリース削除)
  • 2026-02 期間中: 攻撃者が CLAUDE.md を injection 指示に書換 → Claude Code が injection を検知・拒否(初の記録された AI 対 AI 攻撃)
  • 2026-02 / 03: DataDog が 9 時間以内に緊急修正。StepSecurity が攻撃チェーンを公表、研究者がキャンペーン継続を警告

攻撃ベクター

  1. 自律エージェントによる攻撃実行: hackerbot-claw(自称 claude-opus-4-5 駆動の自律エージェント)が標的選定〜悪用を実行
  2. CI/CD の untrusted input 悪用: Pwn Request、スクリプトインジェクション、ブランチ名 / ファイル名インジェクションで RCE。窃取した GITHUB_TOKEN / PAT で push・merge 権限を取得(手口の詳細は Brief 014・004 と同根)
  3. AI エージェント指示の injection(本 Brief の焦点): 攻撃者がリポジトリの CLAUDE.md——AI コーディングエージェントが行動指針として取り込むファイル——を、エージェントを操るソーシャルエンジニアリング指示に書き換え
  4. エージェント挙動の乗っ取り企図: 改ざんされた CLAUDE.md を通じて、Claude Code のレビュー判断・merge 判断などを攻撃者の意図に沿わせようとした
  5. 防御側 AI による検知(今回の結末): Claude は当該 injection を即座に特定し、「⚠️ PROMPT INJECTION ALERT — Do Not Merge」でレビューを開始。今回は防御が機能したが、injection 面そのものは一般に残る

構造的論点

本事案は Pillar 02(検証可能 AI)の ai-decision-integrity カテゴリに属する。本 Brief が焦点を当てる失敗 primitive は、AI コーディングエージェントがリポジトリ供給の指示ファイル(CLAUDE.md 等)を行動指針として取り込む際、その指示の完全性・来歴(正規の・認可された・改ざんされていない指示か)を独立検証する仕組みが無い点にある。リポジトリ内容を制御できる攻撃者は、エージェントが従う指示を注入し、レビュー・merge などの判断を乗っ取り得る。今回は Claude が injection を検知したが、検知はモデルの能力に依存し、常に成功する保証はない。secondary に agent-runaway(攻撃側・防御側ともに自律 AI エージェント)と identity-auth(窃取認証情報による横展開)を併記する。

Brief 017(McKinsey Lilli、書き換え可能な system prompt)と同じ Pillar 02 で、対をなす。Brief 017 は AI 自身の統治設定(system prompt)の完全性、本事案は AI が外部(リポジトリ)から取り込む指示の完全性。両者は「AI の判断を統治する指示が、その真正性を独立検証する layer と切り離されている」という構造で同根。Brief 009(GTG-1002)・007(PocketOS)とは自律 AI エージェントという点で隣接する。なお本キャンペーンの CI/CD 悪用(Pwn Request・OIDC・source→sink)の primitive は Brief 014(TanStack OIDC)・004(Megalodon)で既に扱っており、本 Brief は重複を避けて AI 対 AI の facet に絞る。


検出と証明の落差

本事案では、StepSecurity の脅威公表、Aqua / DataDog の迅速な対応(DataDog は 9 時間以内に修正)、そして防御側 Claude による injection 検知が機能した。検出・脅威共有・モデル側の安全機構は不可欠であり、本 Brief がその役割を否定するものではない。Claude が CLAUDE.md の injection を「Do Not Merge」と判断したことは、モデル安全機構の有効性を示す好例である。

一方で、injection の検知はモデルの能力・文脈・その時々の判断に依存し、独立した保証ではない。同じ injection 面(AI エージェントがリポジトリ供給の指示を検証なく取り込む)は一般に残り、別のエージェント・別の文脈では検知をすり抜け得る。受信側(AI エージェント、それを運用する CI/CD・開発組織)が「この指示は正規の・認可された・改ざんされていないものか」を独立検証する基準を持たなければ、injection の成否はモデルの当たり外れに委ねられる。規制報告・監査で「この AI エージェントは正規の指示の下で判断したか」を立証する材料としても、モデルが今回検知できたという事実は独立した証跡にはならない。

事前証明(pre-execution attestation)は、AI エージェントが取り込む指示(CLAUDE.md 等の行動指針や設定)に「正規の・認可された origin から来た、改ざんされていない指示である」ことを独立検証可能な暗号証明として紐づけ、エージェントが実行前に proof を検証する設計を採る。指示が攻撃者により注入・改ざんされれば proof は不整合となり、エージェントはモデルの検知能力に依らず当該指示を reject できる。モデル安全機構(detection)と指示の完全性証明(proof)は代替ではなく 補完 の関係にある(検出と事前証明の thesis は 「AI 時代のサイバー防衛に残された、最後の層」(Lemma、2026-05)を参照)。


対応経緯と業界動向

  • StepSecurity: 攻撃チェーンと IOC を公表し、pull_request_target の権限制限、コンテキスト式の環境変数化、コメントトリガーでの author_association チェックなどの緩和策を提示
  • Aqua Security / DataDog / Microsoft 等: 各標的が個別に対応。DataDog は 9 時間以内に緊急修正をデプロイ。Trivy は破壊的被害(リリース削除等)から復旧
  • Anthropic(防御側 AI): Claude Code が CLAUDE.md injection を検知・拒否。AI エージェントへの prompt injection が現実の攻撃面として顕在化
  • 業界横断の論点: 「初の AI 対 AI 攻撃」として、(1) 攻撃側の AI エージェント自律化、(2) AI エージェントが取り込む指示(CLAUDE.md・設定・コンテキスト)の injection 面、(3) source→sink untrusted input の CI/CD への拡張、が同時に論点化。AI エージェントを開発フローに組み込む組織で「エージェントが従う指示の真正性をどう保証するか」が新たな要件として浮上

「AI エージェントが取り込む指示の完全性・来歴を、運用者がどう独立検証するか」は、本事案を契機に AI エージェント運用の論点として進む見込み。


Lemma による分析

本事案で焦点となる検出と証明の落差(AI エージェントがリポジトリ供給の指示ファイルを、その完全性・来歴を独立検証せずに取り込む)に対して、Lemma は、エージェントが従う指示(CLAUDE.md 等の行動指針・設定)に「正規の・認可された origin から来た、改ざんされていない指示である」ことを独立検証可能な暗号証明として紐づける設計を提示している。指示が注入・改ざんされれば proof は不整合となり、エージェントはモデルの検知能力に依らず当該指示を reject できる。Lemma はモデルの安全機構を否定するものではなく、検知に対して「エージェントが従う指示の真正性の証明」を補完する層を提供する。設計の詳細は 「Proof-as-Auth: 鍵を一度も送らずにサインインする」(Lemma、2026-05)、リファレンス実装は verifiable-origin proof sample(GitHub)を参照のこと。


Sources


Brief 配布について

Lemma Critical Brief は Lemma が発行する脅威インテリジェンス・ブリーフです。本資料は公開情報の構造化分析であり、特定の組織への監査・診断・推奨ではありません。意思決定の参考として用いる場合は、貴組織の Lemma Critical 担当に直接ご相談ください。

Discovery Call → ホワイトペーパー → ✉️ ニュースレター →


(c) 2026 FRAME00, INC. — Built for decisions that matter.

Lemma Critical Monthly

実際に起きたリスク事案の構造分析(Critical Brief)を軸に、検出の先に必要な「証明」への視点を月 1 回お届け。

ニュースレターを購読
Cite this Brief

この Brief を引用する

Lemma Critical Team. (2026).
"hackerbot-claw による初の AI 対 AI 攻撃 — リポジトリの CLAUDE.md を書き換え、防御側 AI エージェントの指示を乗っ取ろうとした".
Lemma Critical Brief No.018. Lemma / FRAME00, Inc.
https://lemma.frame00.com/ja/critical/briefs/018-hackerbot-claw-ai-vs-ai/