OpenAI hat nach eigenen Angaben Hinweise darauf gefunden, dass das chinesische KI-Start-up DeepSeek die Modelle des US-Unternehmens unerlaubt genutzt hat, um seine eigene Open-Source-KI zu trainieren. Die Vorwürfe heizen die Diskussion über den Schutz geistigen Eigentums im KI-Sektor weiter an.
Laut OpenAI gibt es Anzeichen für sogenannte „Distillation“, eine Methode, bei der Entwickler die Leistungsfähigkeit kleinerer Modelle durch die Ausgabe größerer, leistungsfähigerer Modelle optimieren. Dies ermöglicht vergleichbare Ergebnisse bei deutlich geringeren Kosten. Die Nutzung solcher Techniken ohne Erlaubnis könnte gegen die Nutzungsbedingungen von OpenAI verstoßen, die es verbieten, „Ausgaben zur Entwicklung konkurrierender Modelle“ zu verwenden. Details zu den Beweisen wollte das Unternehmen nicht bekannt geben.
David Sacks, der unter US-Präsident Donald Trump für KI- und Krypto-Politik zuständig ist, äußerte sich am Dienstag bei Fox News zu den Vorwürfen: „Es gibt eine Technik namens Distillation […], bei der ein Modell von einem anderen Modell lernt und das Wissen des Elternmodells extrahiert. Es gibt erhebliche Hinweise darauf, dass DeepSeek genau das mit OpenAI-Modellen gemacht hat.“ Sacks lieferte jedoch keine konkreten Belege für seine Behauptung.
DeepSeek reagierte bislang nicht auf die Vorwürfe. Das Unternehmen hatte kürzlich mit der Veröffentlichung seines R1-Modells für Aufsehen gesorgt. Dieses zeigte beeindruckende kognitive Fähigkeiten und erzielte vergleichbare Ergebnisse wie marktführende US-Modelle – trotz deutlich geringerer finanzieller und technischer Ressourcen. DeepSeek behauptet, sein V3-Modell mit nur 2.048 Nvidia H800-Grafikkarten und einem Budget von 5,6 Millionen US-Dollar trainiert zu haben – ein Bruchteil der Kosten, die OpenAI und Google für ähnlich leistungsfähige Modelle aufwenden.
Branchenexperten halten es für durchaus üblich, dass sowohl chinesische als auch US-amerikanische Start-ups sich an den Ergebnissen führender KI-Modelle orientieren. Laut Ritwik Gupta, einem KI-Forscher an der University of California, Berkeley, ist es „gängige Praxis, dass Start-ups und akademische Institute die Ausgaben von bereits trainierten Large Language Models (LLMs) nutzen, um eigene Modelle zu verbessern“. Dies könne den kostenintensiven menschlichen Feinabstimmungsprozess („human feedback alignment“) erheblich reduzieren.
Doch genau hier liegt für Marktführer wie OpenAI ein zentrales Problem: Während sie Millionen in die Optimierung ihrer Modelle investieren, können kleinere Akteure durch Distillation-Techniken und geschicktes Chip-Management ihre Modelle günstiger trainieren – und so aufholen. OpenAI betonte in einer Stellungnahme, dass es laufend Gegenmaßnahmen ergreife, um sein geistiges Eigentum zu schützen, und eng mit der US-Regierung zusammenarbeite, um fortschrittliche Modelle vor unautorisierter Nutzung zu bewahren.
Ironischerweise sieht sich OpenAI derzeit mit ähnlichen Vorwürfen konfrontiert. Mehrere Zeitungsverlage, darunter die New York Times, sowie namhafte Autoren werfen dem Unternehmen vor, ihre Inhalte ohne Erlaubnis zum Training von KI-Modellen verwendet zu haben. In laufenden Klagen argumentieren die Kläger, OpenAI habe mit seinen Modellen von urheberrechtlich geschützten Texten profitiert, ohne die Urheber zu entschädigen.