KI und Datenschutz: Trainingsdaten – Das unsichtbare Fundament

28.04.2026
Gernot Fritz, Tanja Pfleger

Die rechtlichen Risiken von KI-Systemen entstehen nicht erst im Einsatz, sondern deutlich früher. Nicht bei der Inbetriebnahme, nicht beim Prompt oder Output, sondern in einem Stadium, das in vielen Projekten erstaunlich wenig Aufmerksamkeit bekommt: beim Training.

Dort werden die Weichen gestellt. Welche Daten verwendet werden, wie sie gewonnen wurden, unter welchen Annahmen sie verarbeitet werden – all das prägt nicht nur die Leistungsfähigkeit eines Modells, sondern auch sein regulatorisches Risiko. Wer Trainingsdaten falsch versteht oder unterschätzt, baut auf einem Fundament, das später kaum mehr korrigierbar ist.

Training als rechtlicher Ausgangspunkt

Technisch betrachtet ist Training der Prozess, in dem ein Modell aus großen Datenmengen Muster ableitet. Juristisch betrachtet ist es etwas anderes: ein massenhafter Verarbeitungsvorgang, der häufig personenbezogene Daten umfasst.

Die zentrale Frage ist dabei nicht, ob Daten „öffentlich“ sind, sondern ob sie identifizierbare Personen betreffen. Genau hier liegt ein erster systematischer Bruch: Daten, die frei im Internet zugänglich sind, bleiben personenbezogen. Ihre Nutzung im Training ist damit an die Anforderungen der Datenschutz-Grundverordnung gebunden.

Diese Diskrepanz zwischen technischer Verfügbarkeit und rechtlicher Einordnung ist kein Randphänomen, sondern strukturell. KI-Systeme skalieren über Datenmengen. Datenschutzrecht begrenzt genau diese Skalierung.

Systemimmanente Risiken des Trainings

Und die rechtlichen Spannungsfelder erschöpfen sich nicht in der Frage des Personenbezugs. Sie sind bereits im Training selbst angelegt – in der Art und Weise, wie KI-Systeme Daten aufnehmen, gewichten und in Modelle übersetzen.

Denn Training bedeutet nicht nur Verarbeitung, sondern Selektion und Strukturierung. Welche Daten einfließen, in welcher Form sie vorliegen und welche Muster daraus abgeleitet werden, prägt das spätere Verhalten des Systems. Genau hier entstehen Risiken, die sich im weiteren Lebenszyklus kaum mehr korrigieren lassen.

Ein zentrales Beispiel ist das Phänomen des Bias. Trainingsdaten bilden selten eine neutrale Realität ab. Sie spiegeln bestehende Verteilungen, Präferenzen und Ungleichgewichte wider. Modelle, die auf solchen Daten basieren, übernehmen diese Strukturen – und können sie im Ergebnis sogar verstärken. Diskriminierung entsteht dabei nicht als bewusste Entscheidung, sondern als Folge statistischer Zusammenhänge.

Hinzu tritt ein strukturelles Transparenzdefizit. Betroffene Personen wissen in der Regel nicht, ob und in welchem Umfang ihre Daten in Trainingsprozesse eingeflossen sind. Einflussmöglichkeiten bestehen faktisch nicht. Die Verarbeitung bleibt abstrakt, ihre Auswirkungen werden erst später sichtbar.

Auch aus technischer Sicht zeigt sich, dass Umfang allein kein Qualitätskriterium ist. Modelle sollen Muster erkennen, die über den konkreten Datensatz hinausgehen. Gelingt dies nicht, verfestigt sich das Gelernte zu stark am Ausgangsmaterial. Das System reagiert dann zwar konsistent innerhalb der bekannten Daten, verliert aber an Aussagekraft gegenüber neuen Konstellationen.

Noch weiter reicht ein anderes Phänomen: Informationen aus den Trainingsdaten können im Modell selbst erhalten bleiben und unter bestimmten Umständen wieder sichtbar werden. Die Vorstellung, dass Daten im Training „aufgehen“ und ihre Individualität verlieren, greift daher zu kurz. Vielmehr bleibt eine Verbindung bestehen, die sich nicht vollständig kontrollieren lässt.

Diese Zusammenhänge verdeutlichen, dass Trainingsdaten mehr sind als ein technischer Ausgangspunkt. Sie definieren die Struktur des Systems – und damit auch die Grenzen seiner rechtlichen Beherrschbarkeit.

Der strukturelle Konflikt: Skalierung vs. Zweckbindung

Training lebt von Masse und Vielfalt. Datenschutzrecht von Begrenzung und Zweckbindung.

Dieser Konflikt ist kein Detailproblem, sondern ein Grundspannungsfeld: Je breiter und heterogener Trainingsdaten sind, desto leistungsfähiger wird das Modell. Gleichzeitig wird es schwieriger, eine klare Zweckbestimmung und eine tragfähige Rechtsgrundlage zu definieren.

Das zeigt sich besonders deutlich beim Scraping großer Datenbestände aus dem Internet. Die Annahme, dass „öffentliche Daten“ frei genutzt werden können, greift zu kurz. Vielmehr stellt sich die Frage, ob betroffene Personen vernünftigerweise erwarten konnten, dass ihre Daten Teil eines KI-Trainings werden. Diese Erwartung wird man in vielen Fällen verneinen müssen.

Rechtsgrundlagen im Trainingskontext – und ihre Grenzen

Die klassische Palette möglicher Rechtsgrundlagen ist bekannt. Ihre praktische Tragfähigkeit im Training ist es weniger.

Eine Einwilligung scheitert regelmäßig an der Skalierung. Sie setzt Informiertheit, Granularität und Widerrufbarkeit voraus – Anforderungen, die mit großvolumigen Trainingsdatensätzen kaum vereinbar sind.

Vertragliche Grundlagen helfen nur dort, wo Daten gezielt und im Rahmen klarer Leistungsbeziehungen genutzt werden. Für generisches Training sind sie regelmäßig nicht ausreichend.

Das berechtigte Interesse bleibt damit häufig die einzige realistische Option. Doch auch hier verschärft sich die Prüfung: Je breiter der Datensatz, desto schwieriger wird die Interessenabwägung. Insbesondere dann, wenn Daten ohne unmittelbaren Bezug zur betroffenen Person verarbeitet werden, aber potenziell weitreichende Modellwirkungen entfalten.

Das Ergebnis ist ein paradoxer Befund: Gerade die leistungsfähigsten Trainingsansätze sind oft die rechtlich fragilsten.

Bei besonderen Kategorien personenbezogener Daten verschärft sich die Lage, da für deren Verarbeitung ein dem berechtigten Interesse vergleichbarer Rechtfertigungsgrund fehlt. Die Forschungsprivilegierung setzt einen über rein kommerzielle Ziele hinausgehenden Nutzen voraus, der häufig schwer greifbar ist.

Anonymisierung – eine trügerische Stabilität

Ein naheliegender Ausweg liegt in der Anonymisierung. Wenn Trainingsdaten nicht mehr personenbezogen sind, entfällt die Anwendung der DSGVO.

In der Praxis ist dieser Weg jedoch schmaler, als er erscheint. Anonymisierung ist kein statischer Zustand, sondern eine relationale Bewertung. Daten können für einen Akteur anonym erscheinen, während sie für einen anderen weiterhin identifizierbar sind. Insbesondere bei großen, verknüpfbaren Datensätzen entsteht ein Risiko der Re-Identifikation, das sich nicht vollständig ausschließen lässt.

Für Trainingskontexte bedeutet das: „Anonymisierte Daten“ sind häufig nur unter bestimmten Annahmen stabil. Diese Annahmen müssen dokumentiert, überprüft und im Zweifel verteidigt werden.

Synthetische Daten – Ausweg oder neue Baustelle?

Vor diesem Hintergrund gewinnen synthetische Daten an Bedeutung. Statt reale Datensätze zu verwenden, werden künstliche Daten generiert, die statistische Eigenschaften realer Daten abbilden sollen, ohne auf konkrete Personen zurückzuführen zu sein.

Der Ansatz ist attraktiv. Er verspricht Skalierbarkeit ohne unmittelbaren Personenbezug. In der Praxis verschiebt er das Problem jedoch, anstatt es vollständig zu lösen.

Denn synthetische Daten sind nur so „synthetisch“ wie ihr Ausgangspunkt. Werden sie auf Basis personenbezogener Daten erzeugt, stellt sich die Frage, ob und in welchem Umfang diese Ausgangsdaten weiterhin rechtlich relevant bleiben. Hinzu kommt ein zweites Problem: Auch synthetische Daten können – je nach Modell und Generierungslogik – Rückschlüsse auf reale Personen ermöglichen.

Synthetische Daten sind daher kein Freifahrtschein, sondern ein Instrument. Richtig eingesetzt, können sie Risiken reduzieren. Falsch eingesetzt, erzeugen sie eine neue Schicht von Intransparenz.

Trainingsdaten als Governance-Thema

Die eigentliche Herausforderung liegt damit weniger in einzelnen Rechtsfragen als in der Governance. Trainingsdaten müssen nachvollziehbar, dokumentiert und kontrollierbar sein.

Das betrifft insbesondere ihre Herkunft, ihre Zusammensetzung und die Frage, welche Annahmen ihrer Nutzung zugrunde liegen. In vielen Organisationen fehlt genau diese Transparenz. Trainingsdaten werden übernommen, kombiniert und weiterverarbeitet, ohne dass ihre rechtliche Qualität systematisch geprüft wird.

Dabei ist gerade hier der entscheidende Punkt erreicht: Was im Training entschieden wird, lässt sich später kaum korrigieren. Modelle tragen ihre Datenhistorie in sich – oft unsichtbar, aber rechtlich wirksam.

Fazit und Ausblick

Training ist kein technischer Vorprozess, sondern der zentrale rechtliche Ausgangspunkt von KI-Systemen. Hier entscheidet sich, ob ein System auf tragfähigen Grundlagen steht oder ob es spätere Compliance-Probleme bereits in sich trägt. Die jüngere Rechtsprechung zum relativen Personenbezug eröffnet dabei einen differenzierten Weg: Wirksame Pseudonymisierung kann dazu führen, dass Trainingsdaten für den Empfänger außerhalb des Anwendungsbereichs der DSGVO liegen – vorausgesetzt, die Trennung zwischen Datensatz und Zuordnungsinformationen ist dauerhaft abgesichert. Das ist (etwa für KI-Trainingsanbieter) kein Freibrief, sondern eine anspruchsvolle Gestaltungsaufgabe.

Während Trainingsdaten den Ausgangspunkt bilden, verlagert sich das Risiko im Betrieb. In nächsten Teil geht es um Inputdaten – also die Daten, die Nutzer in Systeme eingeben. Dort entstehen neue, oft unterschätzte Fragestellungen, insbesondere im Zusammenspiel von Kontrolle, Zweckbindung, Echtzeitverarbeitung und Risiken.

Wer Daten für KI nutzbar machen will, muss sie auch rechtlich beherrschbar machen – dabei unterstützen wir Sie gerne.

Kontaktieren Sie uns

Gernot Fritz

Partner

Bereich
IP/IT + Wettbewerbsrecht

Tanja Pfleger

Ständige Substitutin, Rechtsanwältin

Bereich
IP/IT + Wettbewerbsrecht