Visueller Diebstahl durch Midjourney & Co.: So schützt du deine Bild-Assets mit maschinenlesbaren Lizenzen

Midjourney & Co. trainieren mit deinen Bildern: Mit diesen 2 Befehlen schützt du sie wirklich

Ich erinnere mich an den Moment, als ich das Corporate Design eines Kunden in einem KI-generierten Bild wiedererkannte. Es war keine Kopie, kein Plagiat im klassischen Sinn. Es war schlimmer: Die visuelle DNA unserer Arbeit war verdaut, neu kombiniert und als etwas ‚Neues‘ ausgespuckt worden – von einer Maschine, die nie um Erlaubnis gefragt hatte.

Dieser Moment hat mir klargemacht, dass das alte Konzept von Urheberrecht, basierend auf menschlicher Inspektion und juristischen Texten, im Zeitalter der generativen KI zerbricht. Modelle wie Midjourney, DALL-E oder Stable Diffusion scannen Milliarden Bilder aus dem Internet, um zu ‚lernen‘. Deine Designs, deine Produktfotos, deine Infografiken – alles wird zu Trainingsdaten.

Darauf reagieren die meisten mit Resignation oder blindem Aktionismus, indem sie digitale ‚Bitte nicht betreten‘-Schilder wie den noai-Tag auf ihre Seiten kleben und hoffen, dass die KI-Crawler sie respektieren.

Aber Hoffnung ist keine Strategie. Wenn wir unsere visuellen Assets schützen wollen, reicht es nicht, menschliche Bitten an Maschinen zu richten – wir müssen ihnen maschinenlesbare Befehle geben.

Das Problem: KI-Modelle lesen keinen Disclaimer

Generative KI-Systeme basieren auf riesigen Datensätzen, den sogenannten Large-Scale Diffusion Models (LSDMs). Um diese zu füllen, durchforsten Web-Crawler das Internet und saugen alles auf, was sie finden können – ohne Rücksicht auf Copyright-Hinweise im Footer deiner Webseite.

Ihr juristisches Argument? ‚Fair Use‘ oder, im deutschen Rechtsraum, die Berufung auf die Schrankenregelungen für Text und Data Mining (§ 44b UrhG). Sie argumentieren, dass das Training eines Modells keine Urheberrechtsverletzung darstellt, da die Bilder nicht direkt kopiert, sondern zur Mustererkennung genutzt werden. Die Klage von Getty Images gegen Stability AI zeigt jedoch, dass diese Argumentation juristisch alles andere als wasserdicht ist.

Während Anwälte streiten, werden Fakten geschaffen. Deine visuellen Assets werden Teil des kollektiven KI-Wissens, ob du willst oder nicht. Initiativen wie ‚Have I Been Trained?‘ von Spawning AI oder DeviantArts noai-Meta-Tag sind gut gemeinte Versuche, eine Opt-out-Möglichkeit zu schaffen. Doch sie sind reaktiv und fragmentiert. Sie sind ein Flehen, kein Befehl.

Die Wahrheit ist: Eine KI versteht keine juristischen Texte, aber sie versteht Daten. Genau hier liegt die Lösung: Statt nur über das Problem zu reden, müssen wir anfangen, eine technische Infrastruktur für Eigentum aufzubauen.

Die Lösung: Sprich die Sprache der Maschine

Um einer Maschine klarzumachen, wem ein Bild gehört und was sie damit tun darf, müssen wir die Informationen direkt und unmissverständlich mit dem Asset verknüpfen. Wir müssen Lizenzen von einem juristischen Dokument in ein maschinenlesbares Datenattribut verwandeln.

Dafür gibt es zwei mächtige, aber oft übersehene Werkzeuge: Strukturiertes Daten-Markup und eingebettete Bild-Metadaten.

Diese Methoden sind keine Bitten, sondern klare technische Deklarationen von Besitz und Nutzungsrechten. Sie sind der Grundstein für eine funktionierende semantische Architektur, in der nicht nur Texte, sondern auch Bilder eine klare Identität haben.

1. Schema.org licensable Markup: Der digitale Eigentumsnachweis für Google

Google hat das Problem früh erkannt und eine einfache, aber wirkungsvolle Lösung in sein Schema.org-Vokabular integriert: die licensable-Eigenschaft für Bilder.

Indem du ein Bild auf deiner Webseite mit diesem Markup versiehst, tust du im Grunde drei Dinge:

  1. Du signalisierst Besitz: Du teilst Google (und jeder anderen Maschine, die Schema.org liest) mit, dass dieses Bild lizenzierbar ist und es einen Rechteinhaber gibt.

  2. Du bietest einen Lizenzweg an: Du verlinkst direkt auf eine Seite, auf der die Lizenzbedingungen erklärt oder erworben werden können.

  3. Du machst es sichtbar: Google hebt solche Bilder in der Bildersuche mit einem ‚Lizenzierbar‘-Badge hervor.

Technisch ist das kein Hexenwerk. Es ist ein kleiner JSON-LD-Schnipsel im head-Bereich deiner Webseite, der die Bild-URL mit einer Lizenz-URL verknüpft. Google selbst liefert in seiner Dokumentation klare Beispiele dafür.

Warum ist das so wichtig? Weil Google der größte Daten-Aggregator der Welt ist. Wenn wir Google strukturierte Daten über unsere Bildrechte geben, schaffen wir einen De-facto-Standard. KI-Unternehmen, die ihre Modelle mit Daten aus der Google-Suche trainieren (und das sind fast alle), können nicht mehr behaupten, sie hätten von nichts gewusst. Die Information war da, klar strukturiert und maschinenlesbar.

2. IPTC-Metadaten: Die Geburtsurkunde, die im Bild lebt

Während Schema-Markup den Kontext um ein Bild herum beschreibt, sind IPTC-Metadaten Informationen, die direkt in die Bilddatei selbst eingebettet sind. Stell es dir so vor: Schema.org ist die Adresse auf dem Briefumschlag, IPTC ist der Inhalt des Briefes. Selbst wenn das Bild von deiner Seite heruntergeladen und woanders hochgeladen wird, reisen diese Informationen mit.

Das International Press Telecommunications Council (IPTC) ist der globale Standard für Metadaten im Fotojournalismus. Fast jede professionelle Bildbearbeitungssoftware (wie Adobe Photoshop oder Bridge) ermöglicht es dir, diese Felder auszufüllen.

Die entscheidenden Felder für uns sind:

Copyright Notice: Dein expliziter Urheberrechtshinweis (z. B. ‚© 2024 Dein Unternehmen GmbH. Alle Rechte vorbehalten.‘).

Creator: Der Name des Fotografen oder Designers.

Web Statement of Rights: Ein Link zu einer Seite mit den detaillierten Nutzungsrechten.

Die IPTC hat die Zeichen der Zeit erkannt und ihr Standard-Set um eine entscheidende Information erweitert: die Erlaubnis für KI-Training. Über das Feld ‚Rights Usage Terms‘ kannst du explizit festlegen, ob das Bild für das Training von KI/ML-Systemen verwendet werden darf oder nicht.

Diese Information direkt in der Datei zu verankern, ist die robusteste Form des Schutzes. Es ist ein digitaler Stempel, der sagt: ‚Ich gehöre jemandem, und hier sind die Regeln.‘ Wenn ein KI-Unternehmen diese eingebetteten Daten ignoriert, handelt es nicht mehr aus Unwissenheit, sondern mit Vorsatz.

Vom unsichtbaren Asset zur geschützten Entität

Die Kombination aus licensable Schema-Markup und eingebetteten IPTC-Metadaten verwandelt ein einfaches Bild von einem Haufen Pixel in eine digitale Entität mit einer klaren Identität. Statt nur darauf zu hoffen, dass dein Copyright respektiert wird, deklarierst du es damit technisch.

Für eine Maschine ist ein Bild ohne Metadaten nur ein weiteres anonymes Datenpaket im Ozean des Internets. Ein Bild mit diesen Metadaten ist ein Asset mit einem Besitzer, einer Herkunft und klaren Nutzungsregeln. Es ist der Unterschied, ob du ein verlassenes Haus findest oder eines mit einem Namen am Briefkasten und einem Grundbucheintrag.

Indem du deine visuellen Assets so behandelst, baust du nicht nur eine Verteidigungslinie auf. Du stärkst deinen Brand-Trust, indem du konsistente und verifizierbare Signale über dein geistiges Eigentum sendest. Du sorgst dafür, dass du nicht nur als Name, sondern auch mit deinen Assets als Entität existierst – maschinenlesbar und unmissverständlich.

Die KI-Ära zwingt uns, unser Verständnis von Eigentum neu zu denken. Juristische Texte allein reichen nicht mehr. Die Zukunft des Asset-Schutzes liegt in der Sprache, die Maschinen verstehen: strukturierte Daten und untrennbar verknüpfte Metadaten.

FAQ: Häufig gestellte Fragen zum Schutz von Bild-Assets

F: Reicht ein Wasserzeichen nicht aus, um meine Bilder zu schützen?

A: Ein Wasserzeichen ist eine visuelle Abschreckung für Menschen, aber für Maschinen oft nur ein zu entfernendes Störelement. Moderne KI-Modelle können Wasserzeichen relativ leicht identifizieren und entfernen. Maschinenlesbare Metadaten sind eine viel robustere, wenn auch unsichtbare, Schutzmaßnahme.

F: Sind diese technischen Maßnahmen rechtlich bindend?

A: Sie schaffen eine unmissverständliche Faktenlage. Wenn ein KI-Unternehmen Bilder crawlt und dabei explizit eingebettete IPTC-Daten ignoriert, die eine Nutzung für KI-Training verbieten, wird es vor Gericht schwer haben, auf ‚Unwissenheit‘ zu plädieren. Es stärkt deine juristische Position enorm, weil du nachweisen kannst, dass die Information technisch verfügbar war.

F: Kostet die Implementierung dieser Metadaten etwas?

A: Nein. Sowohl das Hinzufügen von Schema.org-Markup zu deiner Webseite als auch das Bearbeiten von IPTC-Metadaten in Programmen wie Adobe Bridge, Photoshop oder kostenlosen Alternativen wie GIMP oder IrfanView ist kostenlos. Es ist ein reiner Zeit- und Prozessaufwand.

F: Was ist, wenn meine Bilder bereits ohne Metadaten im Netz sind?

A: Du kannst nicht rückwirkend kontrollieren, was bereits in Trainingsdatensätzen gelandet ist. Aber du kannst ab sofort damit beginnen, alle neuen und bestehenden Bilder auf deiner eigenen Infrastruktur mit den korrekten Metadaten zu versehen. Es geht darum, für die Zukunft eine saubere, geschützte Datenbasis zu schaffen.

F: Gilt dieser Ansatz auch für Videos oder andere Medienformate?

A: Das Prinzip ja, die technische Umsetzung unterscheidet sich. Für Videos gibt es ebenfalls Schema.org-Typen (VideoObject) und eingebettete Metadaten-Standards (z. B. im XMP-Format), die ähnliche Informationen zu Urheberrecht und Lizenzierung transportieren können. Die Logik, Eigentum maschinenlesbar zu machen, ist universell.