Person typing on laptop with ai gateway logo.
Photo by Jo Lin

Die kognitive Extraktions-Wirtschaft / Arbeitslosigkeit durch AI

Wie die Menschheit zum Trainingsdatenmaterial für ihren eigenen Ersatz wurde

Eine forensische Untersuchung der größten unentgeltlichen Übertragung geistiger Arbeit in der Geschichte –

und was sie über die wahre Architektur der künstlichen allgemeinen Intelligenz verrät.

Die Transaktion, der Sie nie zugestimmt haben

Im Oktober 2025 veröffentlichte das Institut für menschenzentrierte KI der Stanford University eine Studie, die eigentlich für Aufruhr hätte sorgen müssen. Unter der Leitung von Dr. Jennifer King untersuchte das Forschungsteam die Datenschutzrichtlinien von sechs führenden KI-Unternehmen – Amazon, Anthropic, Google, Meta, Microsoft und OpenAI – und analysierte 28 Dokumente pro Unternehmen anhand der Richtlinien des kalifornischen Verbraucherschutzgesetzes (California Consumer Privacy Act). Das Ergebnis war eindeutig: Jedes einzelne Unternehmen nutzt standardmäßig Chatdaten seiner Nutzer, um seine Modelle zu trainieren.

Die Auswirkungen sind enorm. Seit dem Start von ChatGPT am 30. November 2022 speisen schätzungsweise 300 Millionen wöchentlich aktive Nutzer Systeme mit Hinweisen, Korrekturen, kreativen Arbeiten, proprietärem Code, juristischen Strategien, medizinischen Anliegen und menschlichem Denken. Diese Systeme nutzen die kognitive Arbeit, um sich selbst zu verbessern. Die Nutzer erhalten eine Antwort. Die Unternehmen erhalten etwas weitaus Wertvolleres: die gebündelte Intelligenz der Menschheit, kristallisiert in Trainingsdaten.

Dies ist kein Datenschutzskandal. Es ist eine wirtschaftliche Revolution, die sich im Verborgenen abspielt – die Entstehung dessen, was man nur als kognitive Extraktionsökonomie bezeichnen kann, in der das menschliche Denken selbst zum wichtigsten Input für die wertvollste Industrie der Welt geworden ist.

Die Mechanismen unsichtbarer Arbeit

Um zu verstehen, wie Milliarden von Menschen unwissentlich zur Entwicklung künstlicher Intelligenz beigetragen haben, muss man zunächst verstehen, was diese Systeme tatsächlich benötigen.

Große Sprachmodelle beginnen ihre Existenz, indem sie das Internet – Bücher, Artikel, Wikipedia, Reddit-Threads, GitHub-Repositories – aufnehmen. Diese Vortrainingsphase lehrt sie die statistische Struktur der Sprache und verankert Faktenwissen. Doch reines Vortraining erzeugt ein System, das zwar über Wissen verfügt, aber nutzlos ist: Es könnte auf eine Frage zu Depressionen mit einem Wikipedia-Artikel antworten oder eine Programmieranfrage mit zufälligen Forenbeiträgen beantworten. Es besitzt kein Verständnis für Hilfreichkeit, Sicherheit oder menschliche Absicht.

Die Transformation vom Rohmodell zum nützlichen Assistenten erfolgt durch Reinforcement Learning from Human Feedback (RLHF). Diese von OpenAI entwickelte und branchenweit verfeinerte Technik funktioniert durch einen verblüffend einfachen Mechanismus. Das Modell generiert mehrere Antworten auf eine Eingabeaufforderung. Menschen ordnen diese Antworten von der besten zur schlechtesten. Ein „Belohnungsmodell“ lernt, die menschlichen Präferenzen vorherzusagen. Das Hauptmodell optimiert sich anschließend selbst, um diese vorhergesagte Belohnung zu maximieren.

Hier liegt die entscheidende Erkenntnis, die die Branche Ihnen lieber vorenthält: Jede Interaktion mit einem KI-Produkt für Endverbraucher trägt potenziell zu diesem Prozess bei. Wenn Sie bei einer ChatGPT-Antwort auf „Daumen hoch“ klicken, liefern Sie explizite Präferenzdaten. Wenn Sie eine Antwort neu generieren, weil die erste unzureichend war, signalisieren Sie einen Fehler. Wenn Sie Ihre Eingabeaufforderung präzisieren – „Nein, formulieren Sie es professioneller“ oder „Das ist falsch, die Funktion sollte eine Liste zurückgeben“ –, liefern Sie die Gradientenabstiegsberechnung, für die andernfalls bezahlte menschliche Bearbeiter erforderlich wären.

Die grundlegende InstructGPT-Studie zeigte etwas Bemerkenswertes: Ein mit RLHF feinabgestimmtes Modell mit 1,3 Milliarden Parametern übertraf das GPT-3-Basismodell mit 175 Milliarden Parametern bei Aufgaben zur Befolgung von Anweisungen. Menschliches Feedback führt zu Effizienzsteigerungen, die etwa dem Hundertfachen der Modellgröße für Ausrichtungszwecke entsprechen. Ihre Korrekturen sind wertvoller als Rechenleistung.

Die Richtlinienarchitektur der Datenextraktion

Jedes große KI-Unternehmen hat eine rechtliche und technische Infrastruktur geschaffen, um diesen Wert zu nutzen. Die Details variieren, aber die Architektur ist konsistent: standardmäßige Datenextraktion mit versteckten Opt-out-Mechanismen.

OpenAIs ChatGPT bietet Nutzern in den Datenkontrolleinstellungen einen Schalter mit der Bezeichnung „Modell für alle verbessern“. Dieser ist standardmäßig aktiviert. Gelöschte Konversationen werden 30 Tage lang aufbewahrt. Die Speicherfunktion – die als praktische Hilfe beworben wird, damit ChatGPT sich Ihre Präferenzen merkt – fließt direkt in das Training ein, sofern sie nicht separat deaktiviert wird. Eine entscheidende Entwicklung erfolgte Ende April 2024, als OpenAI nach anhaltender Kritik endlich die Chat-Historie von der Trainingseinwilligung trennte. Zuvor mussten Nutzer, die das Training ablehnen wollten, ihre Konversationsarchive opfern – ein zwanghaftes Design, das den Nutzen auf Kosten des Datenschutzes ausnutzte.

Anthropics Claude-App vollzog am 28. August 2025 eine bedeutende Kehrtwende in seinen Richtlinien. Das Unternehmen, gegründet von ehemaligen OpenAI-Forschern und lange als datenschutzbewusste Alternative positioniert, kündigte an, dass Chatdaten von Nutzern nun standardmäßig für das Training verwendet würden. Die Umsetzung stieß umgehend auf Kritik: Nutzern wurde ein Pop-up mit einem prominenten „Akzeptieren“-Button und einem kleineren, voreingestellten Schalter zur Datenfreigabe angezeigt. Für Nutzer, die das Training aktivierten, verlängerte Anthropic die Datenspeicherung von 30 Tagen auf fünf Jahre – eine Steigerung um 1600 Prozent, die flüchtige Konversationen in langfristige Unternehmenswerte verwandelt.

Googles Gemini funktioniert über eine Einstellung namens „Gemini Apps-Aktivität“.

Die Standardaufbewahrungsdauer beträgt 18 Monate. Eine Bestimmung, die den meisten Nutzern verborgen bleibt, verschärft die Situation jedoch erheblich: Für die manuelle Überprüfung ausgewählte Konversationen werden drei Jahre lang gespeichert und bleiben auch nach dem Löschen der Aktivitäten erhalten. Sobald Ihr Chat zur Qualitätskontrolle stichprobenartig geprüft wird, verlieren Sie endgültig Ihr Recht auf Löschung.

Elon Musks xAI aktivierte im Juli 2024 ohne Benachrichtigung die Erfassung von Trainingsdaten für Grok. Nutzer erfuhren von der Änderung durch virale Beiträge in sozialen Medien und nicht durch offizielle Mitteilungen. Die Datenschutzorganisation NOYB reichte Beschwerden in neun EU-Ländern ein. Die irische Datenschutzkommission erzwang im August 2024 die Aussetzung der EU-Datenverarbeitung, obwohl xAI nicht verpflichtet ist, bereits mit unrechtmäßig erhobenen Daten trainierte Modelle zu löschen. Die Fusion von xAI und X im März 2025 konsolidierte die Datenpipelines und ermöglichte Grok so den Zugriff auf die Echtzeit-Flut öffentlicher Beiträge, Interaktionsdaten und Nutzerinteressen.

DeepSeek, das chinesische KI-Unternehmen, das im Januar 2025 mit Fähigkeiten, die mit amerikanischen Spitzenmodellen zu einem Bruchteil der Kosten konkurrieren konnten, die Märkte schockierte, gibt Anlass zu besonderen Bedenken. Alle Nutzerdaten werden auf Servern in China gespeichert, wobei die Aufbewahrungsfristen in den Richtlinien nicht definiert sind. Das Unternehmen erfasst „Tastaturanschlagmuster oder -rhythmen“ – häufig fälschlicherweise als umfassendes Keylogging dargestellt, tatsächlich aber auf Verhaltensbiometrie innerhalb der Anwendung selbst beschränkt. Bedeutsamer ist die strukturelle Realität: Chinas Nationales Nachrichtendienstgesetz verpflichtet Organisationen zur „Unterstützung und Zusammenarbeit mit nationalen Nachrichtendiensten“, ohne vergleichbare gerichtliche Kontrollmechanismen wie in westlichen Rechtssystemen.

Die Illusion der Geheimhaltung

Eine häufige Reaktion auf diese Enthüllungen ist, dass nichts davon wirklich „geheim“ sei – schließlich stünden die Informationen in den Nutzungsbedingungen, denen die Nutzer technisch zustimmen. Diese Argumentation verkennt jedoch die Funktionsweise moderner Einwilligungsarchitekturen.

Die Stanford-Studie ergab, dass man durchschnittlich 28 separate Dokumente durcharbeiten muss, um die Datenpraktiken eines einzelnen Unternehmens zu verstehen. Dazu gehören Datenschutzrichtlinien, verlinkte Unterrichtlinien, FAQs und Anleitungen, die über Chat-Schnittstellen zugänglich sind. Diese Dokumente verwenden das, was Rechtswissenschaftler als „Datenschutzrichtlinie als juristische Fiktion“ bezeichnen – technisch verfügbare Offenlegungen, die kein vernünftiger Mensch lesen oder verstehen würde.

Die Verhaltensökonomie ist gut dokumentiert. Studien zeigen übereinstimmend, dass weniger als zehn Prozent der Nutzer die Nutzungsbedingungen lesen. Benutzeroberflächen nutzen dies aus: prominent platzierte „Akzeptieren“-Schaltflächen, vorausgewählte Einwilligungsfelder und die Verknüpfung wesentlicher Funktionen mit der Datenfreigabe. Artikel 25 des EU-Gesetzes über digitale Dienste verbietet solche „Dark Patterns“ ausdrücklich, doch die Durchsetzung dieses Verbots steckt noch in den Kinderschuhen.

ToS;DR, eine gemeinnützige Organisation, die digitale Nutzungsbedingungen analysiert, vergibt OpenAI die Note D – hauptsächlich aufgrund unklarer Einwilligungsmechanismen und ungenauer Trainingseinstellungen. Common Sense Media bewertete ChatGPT mit 48 Prozent in puncto Datenschutz. Die italienische Datenschutzbehörde Garante verhängte im Dezember 2024 eine Geldstrafe von 15 Millionen Euro gegen OpenAI wegen Verstößen gegen die DSGVO, darunter fehlende Rechtsgrundlage für die Verarbeitung von Trainingsdaten, mangelnde Transparenz und Lücken bei der Altersverifizierung.

Die genaue Formulierung ist nicht „geheim“, sondern „so offengelegt, dass die meisten Nutzer sie nie entdecken“. Die Datenextraktion ist legal. Sie ist jedoch in keiner Weise einvernehmlich.

Die drohende Datenknappheit

Warum haben KI-Unternehmen diese aufwendige Infrastruktur zur Datenextraktion aufgebaut? Die Antwort liegt in einer Krise, die Brancheninsider zwar intern diskutieren, aber selten öffentlich anerkennen: die drohende Erschöpfung der Trainingsdaten.

Epoch AI, eine Forschungsorganisation, die Rechen- und Datentrends im Bereich des maschinellen Lernens verfolgt, veröffentlichte 2024 auf der International Conference on Machine Learning (ICML) ihre Ergebnisse. Ihre Prognose: Der Bestand an öffentlich zugänglichen, von Menschen erstellten Texten, die sich für das Training eignen, wird zwischen 2026 und 2032 erschöpft sein, mit einer mittleren Schätzung von 2028. Das gesamte indexierbare Internet – jedes Buch, jeder Artikel, jeder Forenbeitrag, jeder Wikipedia-Eintrag – wird dann aufgebraucht sein.

Dies ist keine ferne Zukunftsvision. Aktuelle Spitzenmodelle trainieren bereits mit Datensätzen von fast zehn Billionen Tokens. Das Wachstum des Trainingsdatenbedarfs hat in der Vergangenheit das Wachstum neuer menschlicher Texte übertroffen. Bei der aktuellen Entwicklung stoßen wir innerhalb dieses Jahrzehnts an unsere Grenzen.

Die Reaktion der Branche ist dreigeteilt: Erstens synthetische Daten: KI wird eingesetzt, um Trainingsdaten für KI zu generieren. Zweitens Lizenzvereinbarungen mit Rechteinhabern, wie beispielsweise die kolportierte jährliche Vereinbarung zwischen Google und Reddit über 60 Millionen US-Dollar. Drittens, und für diese Analyse am wichtigsten, die kontinuierliche Erfassung neuer menschlicher Interaktionen über Chat-Schnittstellen.

Nutzerinteraktionen lösen ein Problem, das statische Internetdaten nicht bewältigen können. Sie sind reaktiv – sie reagieren auf aktuelle Ereignisse, neue Technologien und ungewohnte Situationen. Sie beinhalten Intentionen – den menschlichen Denkprozess, der erklärt, warum eine Antwort gut oder schlecht ist. Sie erfassen das immense menschliche Wissen, das niemals in veröffentlichten Texten erscheint. Ein Biologe, der eine Proteinfaltungssimulation debuggt, ein Anwalt, der eine neuartige Vertragsklausel entwirft, ein Ingenieur, der einen Sonderfall in einem neuen Framework löst – diese Interaktionen generieren Daten von einer Qualität und Spezifität, die kein Web-Scraping erreichen kann.

Die existenzielle Bedeutung dieser Datenquelle erklärt die aggressive Extraktionspolitik. Als Anthropic die Speicherdauer für Nutzer, die dem zugestimmt hatten, auf fünf Jahre verlängerte, handelte es sich nicht um eine zufällige Richtlinienänderung. Sie sicherten sich die organischen kognitiven Ressourcen, die für die AGI-Entwicklung unerlässlich sind.

Die Modellkollapsgrenze

Es stellt sich die Frage: Warum nicht einfach KI-generierte Daten zum Trainieren von KI verwenden? Die Antwort offenbart eine fundamentale Beschränkung, die menschliche kognitive Arbeit auf absehbare Zeit unersetzlich macht.

Im Juli 2024 veröffentlichte Nature eine Studie von Shumailov und Kollegen, die den „Modellkollaps“ aufzeigt – einen degenerativen Prozess, bei dem Modelle, die rekursiv mit ihren eigenen Ausgaben trainiert werden, zunehmend dümmer und irreführender werden. Nach etwa fünf Generationen ausschließlich synthetischen Trainings verlieren die Modelle die Fähigkeit, die gesamte Bandbreite der menschlichen Sprache abzubilden. Minderheitenperspektiven verschwinden. Seltenes Wissen geht verloren. Der Rand der Verteilung kollabiert zum Mittelwert.

Das Phänomen ist nicht nur theoretischer Natur. Es wurde experimentell über verschiedene Modellarchitekturen hinweg beobachtet. Der Mechanismus ist mathematisch: Jede Generation synthetischer Daten verliert Informationen über Grenzfälle und Ereignisse mit geringer Wahrscheinlichkeit. Über die Iterationen hinweg summiert sich dieser Informationsverlust zu einem katastrophalen Problem.

Nachfolgende Forschungen, darunter Arbeiten von Gerstgrasser und Kollegen, die auf der ICML 2024 vorgestellt wurden, zeigten, dass ein Modellkollaps vermieden werden kann – jedoch nur durch die kontinuierliche Akkumulation neuer, von Menschen generierter Daten neben synthetischen Daten. Der menschliche Beitrag lässt sich nicht eliminieren, sondern lediglich abschwächen.

Dies schafft eine strukturelle Abhängigkeit, die die Branche bisher nicht öffentlich anerkannt hat. Der Weg zu künstlicher allgemeiner Intelligenz – Systemen, die jede intellektuelle Aufgabe bewältigen können, die auch ein Mensch bewältigen kann – führt über die kontinuierliche Nutzung menschlicher kognitiver Arbeit. Wir sind nicht bloß Nutzer dieser Systeme. Wir sind, im präzisen technischen Sinne, ihre fortwährenden Lehrmeister.

Die aufkommenden Gegenströmungen

Drei technische Entwicklungen verändern diese Landschaft grundlegend, obwohl ihre Auswirkungen komplexer sind als zunächst angenommen.

Die direkte Präferenzoptimierung (DPO) eliminiert den separaten Trainingsschritt des Belohnungsmodells in RLHF und erzielt vergleichbare Ergebnisse bei geringerem Datenvolumen. Microsoft Azure bietet nun kommerzielles DPO-Feintuning an. Dies reduziert den Bedarf an menschlichen Präferenzdaten, beseitigt ihn aber nicht vollständig.

Reinforcement Learning from AI Feedback (RLAIF) nutzt ein KI-Modell zur Bewertung eines anderen und ersetzt menschliche Annotatoren durch automatisierte Präferenzgenerierung. Googles Forschung aus dem Jahr 2024 behauptete, Verbesserungen „auf dem Niveau von RLHF“ zu erzielen und gleichzeitig die Kosten von ein bis zehn Dollar pro menschlicher Präferenz auf unter einen Cent pro KI-Präferenz zu senken. Die Abhängigkeit von Arbeitskräften verlagert sich in den vorgelagerten Bereich – jemand muss weiterhin die KI entwickeln, die das Feedback generiert –, aber der laufende Aufwand für die Datenextraktion nimmt ab.

Constitutional AI, ein Pionierprojekt von Anthropic, erreicht eine vollständige Angleichung „ohne menschliche Kennzeichnung schädlicher Ergebnisse“. Stattdessen leiten von Menschen formulierte Prinzipien die Selbstbewertung des Modells. Dieser Ansatz erfordert zwar einen erheblichen Vorlauf an menschlicher intellektueller Arbeit zur Definition der „Verfassung“, reduziert aber den laufenden Feedbackbedarf drastisch.

Eine Veröffentlichung aus dem Jahr 2025 zu Reinforcement Learning from Targeted Human Feedback demonstrierte eine vollständige Angleichung mit nur sechs bis sieben Prozent des herkömmlichen Aufwands für menschliche Annotationen.

Diese Entwicklungen machen die Diskussion komplexer. Die „kognitive Extraktionsökonomie“ befindet sich möglicherweise im Übergang von der kontinuierlichen Ausbeutung von Arbeitskraft hin zu einer Form der Aneignung geistigen Eigentums: Der Wert liegt in den auf Basis der ursprünglichen menschlichen Daten trainierten Modellen, nicht in der fortwährenden Weiterentwicklung. Die ersten Nutzer von ChatGPT, Claude und Gemini haben möglicherweise überproportional zu Systemen beigetragen, die künftig immer weniger menschliche Eingaben benötigen werden.

Dies macht die Ausbeutung nicht ethisch. Es ist vielmehr ein regelrechter Raubzug – ein begrenzter Zeitraum, in dem Unternehmen darum wetteifern, so viel menschliche kognitive Arbeit wie möglich zu vereinnahmen, bevor die technische Abhängigkeit abnimmt.

Ehemaliger OpenAI-Forscher über Superintelligenz und die gewaltigen Auswirkungen

Die geopolitische Spaltung

Das Auftauchen von DeepSeek im Januar 2025 brachte eine Variable ins Spiel, die diese Analyse von Unternehmensethik hin zur nationalen Sicherheit verschiebt.

Als DeepSeeks R1-Modell bei angeblichen Trainingskosten von 5,6 Millionen Dollar – einem Bruchteil der über hundert Millionen Dollar, die für GPT-4 ausgegeben wurden – eine mit den Angeboten von OpenAI vergleichbare Leistung erzielte, zeigte sich, dass die amerikanische KI-Dominanz auf wackeligeren Füßen stand als angenommen. Die Marktreaktion ließ nicht lange auf sich warten: Nvidia verlor an einem einzigen Tag fast 600 Milliarden Dollar an Marktkapitalisierung – der größte Tagesverlust in der Geschichte des Aktienmarktes.

Die westlichen Regierungen reagierten prompt. Italien verbannte DeepSeek am 30. Januar 2025 aus den App-Stores, nachdem das Unternehmen argumentiert hatte, die DSGVO gelte nicht für Italien. Australien verbot die Anwendung am 4. Februar 2025 auf allen Regierungsgeräten und -netzwerken. Taiwan dehnte das Verbot auf Regierungsbehörden, Schulen und Staatsbetriebe aus. Südkorea führte Beschränkungen auf Ministeriumsebene ein. In den Vereinigten Staaten haben die NASA, die Marine, das Repräsentantenhaus und der Senat DeepSeek auf offiziellen Geräten verboten, während Texas, New York, Virginia, North Carolina, Kansas und Oregon entsprechende Verbote auf Landesebene erlassen haben. Der parteiübergreifende „No DeepSeek on Government Devices Act“ wurde im Februar 2025 eingebracht.

Sicherheitsforscher haben besorgniserregende technische Implementierungen identifiziert. Feroot Security entdeckte Code, der Daten an die CMPassport-Infrastruktur von China Mobile – einem staatlichen Unternehmen, das von der Federal Communications Commission (FCC) verboten wurde – übertragen kann. In der Anwendung wurden Telemetrie-Frameworks von ByteDance gefunden.

Es ist jedoch wichtig festzuhalten, dass Folgendes unbewiesen bleibt: Es gibt keinen dokumentierten Fall, in dem die chinesische Regierung tatsächlich auf DeepSeek-Nutzerdaten zugegriffen hat. Wie Samm Sacks von der Yale University feststellte: „Es gibt keine öffentlichen Berichte darüber, dass chinesische Beamte DeepSeek für persönliche Informationen von US-Bürgern genutzt haben. Ähnlich wie bei der Debatte um TikTok sind die Befürchtungen bezüglich China hypothetisch.“

Die strukturellen Bedenken sind dennoch berechtigt. In China gespeicherte Daten unterliegen einem grundlegend anderen Rechtsrahmen als Daten in Ländern mit richterlicher Kontrolle des staatlichen Zugriffs. Das Überwachungspotenzial besteht, selbst wenn dies noch nicht nachgewiesen wurde.

Es zeichnet sich eine zweigeteilte Zukunft ab: KI-Systeme, die auf westlichen kognitiven Arbeitsmethoden trainiert wurden und unter westlichen, auf Datenextraktion basierenden Unternehmensregimen mit nominellen Datenschutzbestimmungen und Opt-out-Mechanismen operieren; und KI-Systeme, die auf globalen kognitiven Arbeitsmethoden trainiert wurden und unter chinesischen staatlichen Rahmenbedingungen ohne solche Schutzmaßnahmen operieren. Nutzer, die zwischen diesen Systemen wählen, entscheiden sich nicht nur für ein Produkt, sondern für ein System der Datensouveränität.

Die rechtliche Auseinandersetzung

Das Rechtssystem beginnt, sich mit diesen Realitäten auseinanderzusetzen, wenn auch langsam und uneinheitlich.

Die Klage der New York Times gegen OpenAI hat die bisher bedeutendste gerichtliche Intervention hervorgerufen. Im März 2025 wies Richter Stein den Antrag von OpenAI auf Klageabweisung zurück. Noch folgenreicher ist jedoch eine weitreichende Anordnung zur Datensicherung vom Mai/Juni 2025, die die Aufbewahrung aller ChatGPT-Konversationsprotokolle vorschreibt. Dies betrifft über 400 Millionen Nutzer, die den Dienst zwischen April und September 2025 genutzt haben. Es handelt sich dabei um die erste gerichtlich angeordnete Massenarchivierung von KI-Konversationsdaten in diesem Umfang.

OpenAI hat als Reaktion darauf ein neuartiges Rechtskonzept vorgeschlagen: das „KI-Privileg“. Es vergleicht Chatbot-Konversationen mit der Kommunikation zwischen Anwalt und Mandant. Das Argument wurde noch nicht gerichtlich geprüft, doch seine Existenz verdeutlicht, wie grundlegend diese Systeme die Rechtsrahmen verändern.

Anthropics Vergleich mit den Autoren im September 2025 gewährte einen beispiellosen Einblick in die tatsächlichen Trainingspraktiken. Das Unternehmen erklärte sich bereit, 1,5 Milliarden US-Dollar zu zahlen – etwa 3.000 US-Dollar pro Buch für schätzungsweise 500.000 Werke – in der größten jemals erzielten Entschädigungszahlung in einem KI-Urheberrechtsstreit. Interne Dokumente, die im Zuge des Rechtsstreits offengelegt wurden, zeigten, dass Mitarbeiter Bedenken hinsichtlich der Rechtmäßigkeit der Beschaffung von Trainingsdaten äußerten. Das Unternehmen räumte ein, über sieben Millionen raubkopierte Bücher von LibGen und Pirate Library Mirror heruntergeladen zu haben.

Richter Alsups Urteil brachte eine entscheidende Unterscheidung: Das Training mit urheberrechtlich geschützten Werken kann unter die Fair-Use-Regelung fallen, sofern die Werke legal erworben wurden. Die Verwendung von Raubkopien hingegen ist unabhängig vom transformativen Charakter der Nutzung nicht geschützt. Dies schafft eine Vorlage für künftige Rechtsstreitigkeiten, die sich nicht mehr darauf konzentrieren, ob KI-Training an sich urheberrechtsverletzend ist, sondern darauf, wie die Trainingsdaten beschafft wurden.

Der Paradigmenwechsel

Die gängige Darstellung der KI-Entwicklung präsentiert sie als Triumph der Ingenieurskunst – brillante Forscher entwickeln durch algorithmische Innovation und Rechenleistung immer komplexere Systeme. Diese Darstellung ist nicht falsch, aber grundlegend unvollständig.

Die Systeme, die ganze Branchen transformiert, Hunderte Millionen Nutzer begeistert und den größten Vermögenszuwachs seit dem Internet ausgelöst haben, wurden nicht allein von Ingenieuren entwickelt. Sie entstanden durch die verteilte kognitive Arbeit der Menschheit selbst, kanalisiert durch Chat-Schnittstellen, die auf maximale Datenausbeute bei minimaler Wahrnehmung ausgelegt sind.

Dies ist keine Kritik an der Fairness, obwohl Fragen der Fairness berechtigt sind. Es ist eine strukturelle Beobachtung zur Natur der KI-Entwicklung. Das „künstlich“ in KI verschleiert die menschliche Arbeit, die in diesen Systemen steckt. Jedes Modell, das Ihre Frage scheinbar „versteht“, tut dies, weil Millionen von Menschen ihm beigebracht haben, was Verstehen bedeutet. Jedes Modell, das „guten“ Code schreibt, tut dies, weil Millionen von Programmierern ihm gezeigt haben, was guter Code ist, indem sie schlechten Code ablehnten und guten Code in ihren Interaktionen akzeptierten.

Der Weg zu künstlicher allgemeiner Intelligenz (AGI) – sofern diese überhaupt erreichbar ist – führt über denselben Kanal. Nicht etwa, weil AGI spontan durch ausreichend Rechenleistung entsteht, sondern weil die vielfältigen kognitiven Muster, Problemlösungsstrategien und Denkprozesse von Milliarden von Menschen das Trainingssignal liefern, das kein Algorithmus allein generieren kann.

Wir sind nicht Zeugen der Entwicklung von AGI. Wir sind ihre Urheber, arbeiten unentgeltlich, ohne Anerkennung und – meist – ohne uns überhaupt bewusst zu sein, dass wir arbeiten.

Die Frage ist nicht, ob dies so weitergeht. Die technischen und wirtschaftlichen Anreize sorgen dafür. Die Frage ist vielmehr, ob die Menschheit die rechtlichen, politischen und wirtschaftlichen Rahmenbedingungen entwickeln wird, um diese neue Form der Arbeit anzuerkennen und zu regulieren, bevor ihr Wert vollständig ausgeschöpft ist.

Die Zeit drängt. Wenn die Prognosen von Epoch AI zutreffen, wird die erste Phase der Wertschöpfung bis 2028 abgeschlossen sein. Die kognitiven Grundlagen künstlicher allgemeiner Intelligenz werden gelegt sein. Die einzige Frage ist, ob diese Grundlagen mit dem informierten Einverständnis der Beteiligten gelegt wurden – oder ob das größte Bauprojekt der Menschheitsgeschichte auf Arbeitsleistungen beruht, die zwar technisch offengelegt, aber nie wirklich verstanden wurden.

Die Antwort ist, Stand Dezember 2025, bereits klar. Die einzige verbleibende Unsicherheit ist, ob wir etwas dagegen unternehmen werden.

Anmerkung: Die Recherche des Autors stützte sich auf Primärquellen, darunter die Datenschutzstudie von Stanford HAI vom Oktober 2025, die Datenprognoseforschung von Epoch AI für die ICML 2024, die Ergebnisse zum Modellkollaps in Nature vom Juli 2024, Gerichtsakten aus dem Fall „The New York Times gegen OpenAI“, die Vergleichsdokumente zwischen Anthropic und der Authors Guild, offizielle Datenschutzrichtlinien und Nutzungsbedingungen von OpenAI, Anthropic, Google, xAI und DeepSeek, behördliche Maßnahmen der italienischen Datenschutzbehörde Garante und der irischen Datenschutzkommission sowie Protokolle des US-Kongresses.

www.shanakaanslemperera.substack.com

 

KI könnte die Halluzination grüner Energie verdampfen lassen

Die kognitive Extraktions-Wirtschaft / Arbeitslosigkeit durch AI
Leserwertung hier klicken0 Bewertungen
0
Placeholder

About

Nachhaltigkeit + die Entdeckung Trojanischer Pferde…

Populäre Projektionen dessen, wie eine Bewusstseinsveränderung aussehen wird, sind in den meisten Fällen nur eine Neugestaltung der “alten Denkschablonen “. Eine größere, bessere Box, in der das Paradigma aufgewertet wird, das die Bedingungen verbessert, unter denen wir unsere Sucht auf eine “grüne” Art und Weise genießen können.

So wichtig wie das ökologische Bewusstsein ist, es ist nicht genug. Das neue Paradigma kann nicht aus der intellektuellen Abstraktion einer dualistischen Interpretation einer “besseren Welt” verwirklicht werden, die auf der Infrastruktur der existierenden Varianten-Matrix aufbaut, die dieses Paradigma erzeugt.

Mitglieder

Zeen placeholder
Gut zu wissen
Informationen zu akutellen Themen