KI und Datenschutz: Inputdaten – Der Moment der Wahrheit

04.05.2026
Gernot Fritz, Tanja Pfleger

Ein zentrales Datenschutzrisiko von KI-Systemen liegt neben den Trainingsdaten (siehe unseren vorherigen Beitrag) vor allem in dem, was Nutzer in diese eingeben. Inputdaten sind der blinde Fleck der Praxis.

Ein Prompt ist schnell formuliert. Eine Datei schnell hochgeladen. Ein Use Case schnell getestet. Doch was technisch wie ein banaler Nutzungsschritt erscheint, ist rechtlich ein eigenständiger Verarbeitungsvorgang – mit eigenen Voraussetzungen, Risiken und Konsequenzen.

Während Trainingsdaten die Vergangenheit eines Modells prägen, sind Inputdaten seine Gegenwart.

Input als eigenständige Datenverarbeitung

Inputdaten sind die Daten, die Nutzer in ein KI-System eingeben. Das können einfache Texte sein, aber auch komplexe Dokumente, personenbezogene Informationen, vertrauliche Unterlagen oder ganze Datensätze. Ihre Gemeinsamkeit liegt nicht in ihrer Form, sondern in ihrem Kontext: Sie entstehen situativ, sind häufig aktuell und oft deutlich sensibler als Trainingsdaten.

Gerade diese Kontextgebundenheit macht sie rechtlich anspruchsvoll. Denn anders als beim Training, das häufig abstrakt und vorgelagert stattfindet, ist die Eingabe von Daten unmittelbar mit konkreten Personen, konkreten Geschäftsprozessen und konkreten Erwartungen verbunden. Was eingegeben wird, ist selten neutral, sondern eingebettet in bestehende Rechtsbeziehungen – zu Kunden, Mitarbeitern oder Geschäftspartnern.

Die Folge ist ein Perspektivenwechsel: Der Input ist kein technischer Zwischenschritt, sondern ein eigenständiger datenschutzrechtlicher Vorgang, der für sich genommen gerechtfertigt werden muss.

Wer verarbeitet hier eigentlich was?

Mit der Eingabe von Daten in ein KI-System verschiebt sich die klassische Rollenverteilung. Der Nutzer gibt Daten ein, der Anbieter stellt die Infrastruktur bereit, das Modell verarbeitet die Inhalte und generiert ein Ergebnis. Doch diese Beschreibung greift zu kurz. In der Praxis wird häufig vorausgesetzt, dass der KI-Anbieter als Auftragsverarbeiter agiert. Das kann zutreffen – muss es aber nicht. Sobald der Dienstleister Prompts, Uploads oder Telemetriedaten – also automatisiert erfasste und übermittelte Nutzungsdaten – für eigene Zwecke verwendet, etwa zur Produktverbesserung, zur Sicherheitsanalyse oder zum Modelltraining, ist die reine Auftragsverarbeitung oft nicht mehr haltbar.

Ein anschauliches Beispiel sind KI-basierte Voice-Transcription-Tools. Viele dieser Systeme beschränken sich nicht auf die reine Transkription – etwa für ein Meeting-Protokoll –, sondern verwenden Sprachdaten zusätzlich zur Verbesserung der zugrunde liegenden Modelle, etwa durch Fine-Tuning oder Training. Eine solche Nutzung ist datenschutzrechtlich nicht ohne Weiteres als Auftragsverarbeitung einzuordnen: Wer Sprachdaten für eigene Entwicklungs- oder Trainingszwecke verwendet, kann selbst zum (Mit-)Verantwortlichen werden.

Die entscheidenden Fragen bleiben dabei immer dieselben: Wer bestimmt die Zwecke? Wer bestimmt die wesentlichen Mittel? Und wer nutzt die Daten für eigene Interessen? Genau dort entscheidet sich, ob eine Auftragsverarbeitung vorliegt – oder ob über eigene oder gemeinsame Verantwortlichkeit zu sprechen ist. Für Unternehmen bedeutet das: Die Einordnung des Anbieters ist keine Formalität, sondern ein zentraler Bestandteil der Risikobewertung.

Zweckbindung unter Echtzeitbedingungen

Die Datenschutzlogik der Zweckbindung trifft bei Inputdaten auf eine besondere Herausforderung. Daten werden typischerweise für einen bestimmten Zweck erhoben – etwa zur Vertragsabwicklung oder zur internen Analyse. Wird ein KI-System genutzt, stellt sich die Frage, ob diese Nutzung noch vom ursprünglichen Zweck gedeckt ist.

Die Antwort ist selten trivial. Die Einbindung eines KI-Systems kann nämlich schnell den Verarbeitungskontext ändern. Daten werden nicht nur gespeichert oder weitergeleitet, sondern analysiert, transformiert und in neue Zusammenhänge gestellt. Gleichzeitig fehlt es häufig an Transparenz darüber, was im System tatsächlich passiert.

Der Effekt ist ein schleichender Funktionswandel. Was als unterstützender Einsatz gedacht war, kann sich zu einer eigenständigen Verarbeitung entwickeln. Die Grenze verläuft nicht an der Benutzeroberfläche, sondern in der tatsächlichen Nutzung der Daten.

Rechtsgrundlagen im Nutzungskontext

Im Unterschied zum Training sind die rechtlichen Anknüpfungspunkte bei Inputdaten oft näher an bestehenden Geschäftsbeziehungen. Vertragliche Grundlagen können eine Rolle spielen, etwa wenn ein KI-System zur Erfüllung einer konkreten Leistung eingesetzt wird. Doch auch hier gilt: Diese Rechtsgrundlage passt nur, wenn die Datenverarbeitung objektiv erforderlich ist, um einen Vertrag zu schließen oder zu erfüllen; bloß praktisch, nützlich oder komfortabel reicht nicht.

Das berechtigte Interesse bleibt ein zentraler Anknüpfungspunkt, insbesondere bei internen Anwendungen. Allerdings verschärft sich die Interessenabwägung. Inputdaten sind häufig unmittelbar personenbezogen und betreffen konkrete Lebenssachverhalte. Entsprechend hoch sind die Anforderungen an Transparenz, Erwartungshorizont und Schutzmaßnahmen.

Einwilligungen können in einzelnen Konstellationen eine Rolle spielen, stoßen aber auch hier schnell an praktische Grenzen. Gerade in dynamischen Nutzungssituationen ist es schwierig, informierte, freiwillige und wirksame Zustimmungen einzuholen.

Das Gesamtbild bleibt damit ambivalent: Die rechtlichen Instrumente sind vorhanden, ihre Anwendung im konkreten Nutzungskontext jedoch komplex und stark einzelfallabhängig.

Shadow AI – das eigentliche Risiko

Ein erheblicher Teil der Risiken im Zusammenhang mit Inputdaten entsteht nicht durch bewusst gesteuerte Prozesse, sondern durch informelle Nutzung. Mitarbeiter greifen auf frei verfügbare Tools zurück, um schneller zu arbeiten, bessere Ergebnisse zu erzielen oder Routineaufgaben zu automatisieren. Dabei werden Daten eingegeben, die für diese Systeme nie vorgesehen waren.

Kundendaten, Vertragsentwürfe, interne Analysen oder strategische Überlegungen – all das findet sich in der Praxis in Prompts wieder. Was als Effizienzgewinn gedacht ist, kann sich schnell in einen Kontrollverlust verwandeln. Denn mit der Eingabe verlassen diese Informationen häufig den unmittelbaren Einflussbereich des Unternehmens und als Trainingsdaten verwendet werden.

Die Herausforderung liegt weniger im einzelnen Verstoß als in der Struktur. Shadow AI ist kein Ausnahmefall, sondern ein systemisches Phänomen. Es entsteht dort, wo Governance fehlt oder nicht gelebt wird. Und es zeigt, dass die eigentliche Schwachstelle vieler KI-Systeme nicht technischer, sondern organisatorischer Natur ist.

Vertraulichkeit und wirtschaftliche Sensibilität

Neben dem Datenschutz tritt bei Inputdaten ein weiterer Aspekt in den Vordergrund: Vertraulichkeit. Viele der eingegebenen Informationen sind nicht nur personenbezogen, sondern auch wirtschaftlich sensibel. Sie unterliegen vertraglichen Geheimhaltungspflichten oder stellen Geschäftsgeheimnisse dar.

Die Nutzung externer KI-Systeme kann in solchen Fällen zu einer ungewollten Offenlegung führen. Selbst wenn keine aktive Weitergabe erfolgt, stellt sich die Frage, ob bereits die Verarbeitung durch den Anbieter eine Offenlegung darstellt. Diese Frage ist nicht nur theoretisch. Sie entscheidet darüber, ob bestehende Geheimhaltungsverpflichtungen eingehalten werden.

Technische Realität und rechtliche Annahmen

Ein zentrales Problem im Umgang mit Inputdaten liegt in der Intransparenz der Systeme. Nutzer wissen oft nicht, ob ihre Eingaben gespeichert werden, wie lange sie vorgehalten werden und ob sie für andere Zwecke genutzt werden. Gleichzeitig basieren rechtliche Bewertungen häufig auf Annahmen über genau diese Prozesse.

Diese Diskrepanz führt zu einem strukturellen Risiko. Entscheidungen werden auf Basis unvollständiger Informationen getroffen. Verträge werden abgeschlossen, ohne dass die tatsächliche Datenverarbeitung vollständig verstanden ist. Compliance wird angenommen, ohne überprüft zu sein.

Gerade deshalb ist ein nüchterner Blick auf die technische Realität notwendig. Wer Inputdaten rechtlich bewerten will, muss verstehen, was mit ihnen tatsächlich passiert – und dieses Verständnis durch belastbare vertragliche Vereinbarungen absichern.

Fazit und Ausblick

Inputdaten sind der Punkt, an dem sich die abstrakten Fragen der KI-Regulierung in konkrete Risiken übersetzen. Hier treffen Datenschutz, Vertraulichkeit und Unternehmenspraxis unmittelbar aufeinander. Und hier zeigt sich, ob ein KI-Einsatz tatsächlich kontrolliert ist – oder nur so erscheint.

Die größte Schwachstelle vieler KI-Systeme liegt nicht in ihrem Training, sondern in dem, was täglich in sie eingegeben wird.

Während Inputdaten die Nutzung prägen, wirft der Output eigene rechtliche Fragen auf. Im nächsten Teil geht es daher um Outputdaten – also um die Frage, welche rechtlichen Konsequenzen aus den Ergebnissen von KI-Systemen entstehen und wer dafür Verantwortung trägt.

KI-Governance, Schulungen, Richtlinien und Verträge sind essentiell, um die rechtlichen Risiken des Einsatzes von Künstlicher Intelligenz zu minimieren – dabei unterstützen wir Sie gerne.

Kontaktieren Sie uns

Gernot Fritz

Partner

Bereich
IP/IT + Wettbewerbsrecht

Tanja Pfleger

Ständige Substitutin, Rechtsanwältin

Bereich
IP/IT + Wettbewerbsrecht