Lemma Critical Brief · Category archive
AI 学習データ来歴
AI training data の収集元・利用 scope 属性が独立検証されないまま下流に流通する構造を扱う。chat プラットフォームの公開 API 経由 scraping、規約違反 scope での dataset 配布、AI training audit 層の不在等。
2 件の Brief
128 億枚の AI 学習データに、パスポート・履歴書・顔が混入していた
学習データの来歴と同意が、収集の時点で検証されていなかった
公開 API 経由の Discord 20.5 億メッセージのスクレイピング
公開チャンネルデータが AI 学習データセットとして再配布される構造