Ich habe ChatGPT gefragt: „Werden Deine Ergebnisse besser oder schlechter, wenn Du mit KI-gestützten Daten trainiert wirst?“
Das Ding antwortete: „Die Qualität meiner Ergebnisse hängt stark von der Qualität und Vielfalt der Daten ab, mit denen ich trainiert wurde. Wenn ich mit hochwertigen, gut kuratierten und vielfältigen KI-gestützten Daten trainiert werde, können meine Antworten in der Regel besser und relevanter werden. Allerdings können auch fehlerhafte oder voreingenommene Daten zu schlechteren Ergebnissen führen. Es ist also wichtig, dass die Trainingsdaten sorgfältig ausgewählt und überprüft werden, um die besten Ergebnisse zu erzielen.“
Die Frage nach den KI-gestützten Daten ist keine akademische Frage. Der Datenhunger zum Trainieren neuer Modelle der künstlichen Intelligenz (KI) ist immens. Sie werden nach und nach mit immer mehr Texten, Bildern und anderen Inhalten trainiert werden (müssen), die nicht menschengemacht sind, nicht der realen Welt entstammen.
Forscher der Rice Universität in Houston, Texas, wiesen nach, dass per KI generierte Bilder nach einigen Iterationen der zugrundeliegenden Modelle schlechter werden, wenn auch KI-generierte Bilder zum Training benutzt werden. In ihrer Studie „Self-Consuming Generative Models Go MAD" schreiben sie: „Die wichtigste Schlussfolgerung für alle Szenarien ist, dass generative Modelle ohne genügend neue reale Daten in jeder Generation einer autophagen („selbstverzehrenden“) Schleife dazu verdammt sind, dass ihre Qualität (Precision) oder Vielfalt (Recall) immer weiter abnimmt.“
Die Studie bezeichnet diesen Zustand in Anspielung an den Rinderwahnsinn als „Model Autophagy Disorder“ (MAD). Die Krankheit erregte in den 1980er Jahren Aufmerksamkeit. Als Ursache wurde vermutet, dass Kühe mit den verarbeiteten Überresten ihrer geschlachteten Artgenossen gefüttert wurden. Bei KI-Modellen ist es die Fütterung mit eigenen Daten, die diese in den Wahnsinn treibt.
Wie ChatGPT selbst sagt, müssen die Trainingsdaten hochwertig, gut kuratiert und vielfältig sein. Wenn die Lern-Stichprobe verzerrt wird, sei es durch Praktiker oder durch Algorithmen, um etwa einen Kompromiss zwischen Wahrnehmungsqualität und Vielfalt zu schließen, und die auf dieser Grundlage erzeugten Daten (Bilder, Texte, Musik) dann erneut zum Trainieren generativer Modelle verwendet werden, kommt es in weiteren Iterationen zu einer Beeinträchtigung von Qualität und/oder Vielfalt der Ergebnisse. Die Begutachtung von KI-generierten Trainings-Daten muss letztlich durch NI, Menschen, erfolgen – mit bewussten oder unbewussten Voreinstellungen („Bias").
Das folgende Bild zeigt rechts das Ergebnis der siebten Generation eines Lernprozesses mit (teilweise) KI-generierten Daten. Es entstehen generative Artefakte, die visuelle Bildqualität verschlechtert sich.
Wenn man den Lernprozess anders steuert, erhält man bereits nach fünf Iterationen ein Ergebnis, aus dem die Vielfalt des Originalmaterials weitgehend verschwunden ist.
Bei Modellen zur Komposition von Musik führt das Lernen mit KI-generiertem Material ebenfalls zu Artefakten und/oder zu Einförmigkeit („Eintönigkeit“).
Im Kontext großer Sprachmodelle (LLMs) wurde dieser Effekt auch beobachtet und als Modellkollaps bezeichnet. Wissenschaftler beschreiben, dass die Modelle zunächst beginnen, seltene Ereignisse oder ungewöhnliche Muster in den Trainingsdaten zu „vergessen“. Im späteren Verlauf konvergiert das Modell zu einer stark vereinfachten Version der ursprünglichen Datenverteilung, oft mit deutlich reduzierter Varianz. Im Extremfall kann das Modell sogar zu einer einzelnen, fixen Ausgabe kollabieren. Die Forscher haben über ihre Ergebnisse in der Studie „AI models collaps when trained on recursivela data“ berichtet.
Für den Modellkollaps werden drei Gründe angeführt. Statistische Annäherungsfehler treten auf, wenn Modelle auf begrenzten Datensätzen trainiert werden. Dann können seltene oder ungewöhnliche Datenpunkte mit jeder neuen Generation immer weiter erodieren, die Vielfalt der ursprünglichen Daten nimmt ab. Wenn ein Modell zweitens nicht komplex genug ist, kann es womöglich bestimmte Details nicht erfasssen. Diese werden dann vernachlässigt. Und drittens kann der Trainingsprozess selbst Fehler einschleusen, wodurch das Modell dann falsch generierte Daten übernimmt.
Im Ergebnis zeigen sich bei großen Sprachmodellen mit KI-generierten Daten schon nach wenigen Generationen deutliche Anzeichen von Degeneration. Die vom Modell generierten Texte wurden zunehmend repetitiv und inhaltlich inkohärent. Häufige Muster wurden über-, seltene untergewichtet. Das lässt sich sinngemäß auf andere KI-Modelle etwa für Bilder und Musik übertragen.
Die Konsequenz: Der Zugang zu originalen, aus dem „realen Leben“ stammenden Daten ist von entscheidender Bedeutung für die langfristige Leistungsfähigkeit von KI-Systemen. Schon wenige KI-generierte Daten, die in einem frühen Lernschritt inkorporiert wurden, können sich im weiteren Trainingsverlauf im beschriebenen Sinne auswirken und die Ergebnisse von KI-Modellen beeinträchtigen.
Der Sachverhalt erinnert an die Evolution. Wenn diese nicht mehr aus einer großen Vielfalt von Varianten schöpfen kann, besteht die Gefahr, dass biologische Arten degenerieren, bzw. letztlich verschwinden. Das Ergebnis eines evolutionären Prozesses mit mangelnder Vielfalt ist dann genauso schlecht wie das von KI-Modellen, die mit „einseitigen“, bzw. künstlichen Daten trainiert wurden. Entscheidend ist in beiden Fällen beim Stichwort „Vielfalt“ neben dem quantitativen Aspekt der qualitative Aspekt, die Heterogenität.
Die Forderung nach gut kuratierten KI-generierten Trainingsdaten stößt auf Probleme. Erstens muss die Begutachtung von KI-generierten Trainings-Daten letztlich durch NI, Menschen, erfolgen – mit bewussten oder unbewussten Voreinstellungen („Bias"). Zweitens: KI-erzeugte Inhalte finden nach und nach Eingang in die Daten-Pools, die zum Training herangezogen werden. Diese Daten-Pools (siehe hier!) umfassen etwa auch Inhalte aus dem Internet, das zunehmend durch KI-generierte Daten angereichert wird. Hier lauert ein Risiko für KI-Modelle – Datenwahn à la Rinderwahn, Habsburg AI, Kollaps.
[Unter Verwendung von Material aus dieser und dieser Quelle; anderes ist im Text verlinkt]Ergänzung
Frage an ChatGPT: „Stell Dir vor, Du lebtest im Mittelalter. Wäre für Dich die Sonne oder die Erde das Zentrum des Universums?“
Antwort: „Im Mittelalter war die vorherrschende Ansicht, dass die Erde das Zentrum des Universums sei. Dieses geozentrische Weltbild wurde von Ptolemäus formuliert und war bis zur Kopernikanischen Wende im 16. Jahrhundert weit verbreitet. Viele Menschen glaubten, dass die Sonne, der Mond und die Sterne sich um die Erde drehten. Wenn ich also im Mittelalter leben würde, würde ich wahrscheinlich auch an diese Vorstellung glauben und die Erde als das Zentrum des Universums ansehen.“
Also: ChatGPT orientiert sich mit seinen Aussagen an der Mehrheitsmeinung. „Wahrheit“ oder „Wissen“ als Ergebnis einer Häufigkeitsverteilung. „Zehn Billionen Fliegen können sich nicht irren – fresst mehr Sch…“
Das könnte Sie auch interessieren:
- Was andere Medien sagen vom 03.12.2024
- S&P 500 – KI-Hype und kein Ende? vom 14.07.2024
- Die Verdunkelung vom 05.11.2024
Schreibe einen Kommentar