Lemma Critical Brief · Category archive

Data Provenance

RAG poisoning, training-data contamination, tampered document chains.

3 Briefs

No. 011 · 2026-05-31

SynthID Watermark Reverse-Engineering

How a Statistical Attack Strips the Provenance Mark from AI-Generated Content

Pillar 01 Verifiable Origin Data Provenance AI Decision Integrity Brief →

No. 005 · 2026-05-30

Noroboto Attack

AI Document Review Input-Integrity Forgery via Embedded Lying Fonts

Pillar 02 Verifiable AI AI Decision Integrity Data Provenance Brief →

No. 008 · 2026-05-30

Discord 2.05 Billion Message Scraping via Public API

How Public Channel Data Gets Redistributed as AI Training Datasets

Pillar 01 Verifiable Origin Training Data Provenance Data ProvenanceAttribute Proof Bypass Brief →