Was ist Modelldestillation? Der Trick hinter kostengünstigerer, schnellerer KI der GPT-Klasse

Anfang 2025 veröffentlichte ein Labor namens DeepSeek Modelle, die die Schlußfolgungsfähigkeit weit teurerer Frontier-Systeme mit einem Trainingsbudget erreichten, das wie ein Rundungsfehler wirkte, und die KI-Welt verlor kollektiv die Fassung. Ein Wort tauchte in jeder Erklärung auf: Destillation. Ein Jahr später kam das Thema wieder auf die Titelseite, als Anthropic berichtete, dass mehrere Labore sein Claude-Modell heimlich in industriellem Maßstab kopierten und über etwa 24.000 betrügerische Konten mehr als 16 Millionen Austausche mit Claude generierten.

Welche Technik steckt also hinter beiden Geschichten, und hat sie einen Platz in Ihrer Roadmap? Dieser Leitfaden behandelt Modell-Destillation von Grund auf: was es ist, wie es funktioniert, wo es seinen Wert hat, was es wirklich nicht kann, und ob es überhaupt legal ist, ChatGPT zu destillieren oder Claude zu destillieren. Wenn Sie es für ein Produkt in Betracht ziehen, kann unser KI-Modell-Destillationsservice-Team Ihnen helfen, das Projekt zu planen und die Kosten zu verstehen, bevor Sie Budget einsetzen.

Was ist Modelldestillation?

Modell-Destillation ist der Prozess der Übertragung des Wissens eines großen, leistungsfähigen Modells (des Lehrers) in ein kleineres, günstigeres Modell (den Schüler), sodass der Schüler die Qualität des Lehrers bei einer bestimmten Aufgabe annähert und dabei schneller läuft und viel weniger kostet. Der Schüler erreicht selten die Fähigkeiten des Lehrers in allem. In einem engen Bereich kann er jedoch bemerkenswert nahe herankommen. Die Idee ist nicht neu. Sie wurde von Geoffrey Hinton und Kollegen in ihrem Artikel von 2015 formalisiert „Distilling the Knowledge in a Neural Network“, und seitdem ist sie ein stilles Arbeitspferd des praktischen maschinellen Lernens.

Der klassische Beweis ist DistilBERT. BERT war ein wegweisendes Google-Sprachmodell, das eine Welle von Such- und Textverständnis-Tools antrieb, und DistilBERT ist eine komprimierte Version davon, die vom Team bei Hugging Face erstellt wurde. Laut Sanh et al., 2019 behielt DistilBERT etwa 97 % von BERTs Sprachverständnis, war dabei rund 40 % kleiner und 60 % schneller. Dieses einzige Ergebnis erfasst den gesamten Reiz der KI-Modell-Destillation: den größten Teil der Intelligenz behalten, den größten Teil der Kosten einsparen.

Wie funktioniert Modell-Destillation?

Sie nehmen ein starkes Modell, nutzen es zur Erzeugung hochwertiger Antworten und trainieren dann ein kleineres Modell, diese Antworten nachzuahmen, bis das kleine sich wie eine kompakte Kopie des großen für Ihren Anwendungsfall verhält. Der Schüler memoriert keine Nachschlagetabelle. Er lernt die Denkmöglichkeiten und Antwortmuster des Lehrers bei der Aufgabe, die Ihnen wichtig ist. Die meisten modernen LLM-Destillationen verwenden einen von zwei Mechanismen, und der Unterschied ist wichtig, wenn Sie ein Projekt planen.

Was ist Modelldestillation? Wie Teams KI der GPT-Klasse 10x günstiger in Modelle klonen

Antwortbasierte (Daten-)Destillation

Dies ist der gängige Ansatz für Sprachmodelle und derjenige, den die meisten Plattformen automatisieren. Sie führen den Lehrer über eine große Menge von Prompts aus, erfassen seine Ausgaben und trainieren den Schüler an diesen Eingabe-Ausgabe-Paaren. Der Schüler lernt, das Verhalten des Lehrers direkt zu reproduzieren. Genau so hat DeepSeek seine destillierten Modelle aufgebaut: Das Team stellte einen Datensatz mit 800.000 Beispielen zusammen, die von seinem eigenen R1-Modell generiert wurden, und verwendete diese Daten dann, um bestehende offene Modelle wie Qwen und Llama zu fine-tunen.

Soft-Label-(Logit-)Destillation

Anstatt nur auf dem endgültigen Text des Lehrers zu trainieren, trainiert der Schüler auf der vollständigen Wahrscheinlichkeitsverteilung des Lehrers über mögliche Tokens – den sogenannten Soft Labels. Dieses Signal trägt mehr Informationen, da es dem Schüler nicht nur sagt, dass die Antwort A war, sondern auch, dass B fast genauso wahrscheinlich war.

Der Haken ist der Zugang. Geschlossene APIs wie ChatGPT legen ihre internen Wahrscheinlichkeiten nicht offen, daher ist Soft-Label-Destillation meistens verfügbar, wenn Sie den Lehrer kontrollieren oder einen offenen verwenden (ein offen lizenziertes Modell, dessen Interna Sie selbst inspizieren und ausführen können, wie Llama oder Qwen).

Merkmalsbasierte Destillation

Diese Variante geht eine Ebene tiefer als die endgültige Antwort oder ihre Wahrscheinlichkeiten und schaut in den Lehrer selbst hinein. Anstatt nur das zu kopieren, was der Lehrer sagt, lernt der Schüler, die Zwischenrepräsentationen des Lehrers abzugleichen – die internen Muster, die das Modell in seinen verborgenen Schichten bildet, während es auf eine Ausgabe hinarbeitet. Eine grobe Analogie ist, den Schüler den Arbeitsweg des Lehrers reproduzieren zu lassen, nicht nur seine endgültige Antwort. Wie die Soft-Label-Destillation benötigt sie Zugang zu den Interna des Lehrers und nicht nur zu seinem Text, daher eignet sie sich für offene oder selbst besessene Modelle, und sie war zentral für den Aufbau von DistilBERT.

Modell-Destillationstechniken und -typen

Die Modell-Destillationstechniken, denen Sie begegnen werden, sortieren sich entlang drei einfacher Fragen: Von welchem Signal der Schüler lernt, wie Lehrer und Schüler während des Trainings zusammenhängen und wie breit die Zielaufgabe ist. Die erste Frage, das Trainingssignal, ist diejenige, die wir in den Mechanismen oben behandelt haben: Antwortbasiertes Lernen von endgültigen Ausgaben, Logit-basiertes von Soft-Wahrscheinlichkeiten und merkmalsbasiertes von den verborgenen Repräsentationen des Lehrers. Die anderen beiden Fragen erzeugen die Typen, die es wert sind, vor der Einweisung eines Engineering-Teams zu kennen, und die richtige Kombination zu finden ist das, was erfahrene Entwicklung großer Sprachmodelle von einem verschwendeten Quartal trennt.

Offline-Destillation

Dies ist das Standard-Setup für den täglichen Gebrauch. Der Lehrer ist bereits trainiert und bleibt eingefroren, während der Schüler von seinen Ausgaben lernt. Da der Lehrer sich nie ändert, ist der Prozess einfach auszuführen und leicht nachvollziehbar, weshalb die meisten Produktionsprojekte hier beginnen.

Online-Destillation

Hier trainieren Lehrer und Schüler gleichzeitig anstatt nacheinander. Der Lehrer verbessert sich weiterhin zusammen mit dem Schüler, was ein stärkeres Ergebnis liefern kann, aber es ist komplexer und teurer zu koordinieren. Teams greifen in der Regel nur darauf zurück, wenn die Offline-Destillation die Leistung nicht maximal ausreizt.

Selbstdestillation

Bei der Selbst-Destillation agiert ein Modell als sein eigener Lehrer und gibt sein Wissen an eine kleinere oder spätere Version seiner selbst weiter. Das klingt kreisförmig, ist aber eine praktische Möglichkeit, ein Modell zu komprimieren oder sein Verhalten zu bereinigen, ohne einen separaten, größeren Lehrer hinzuzuziehen. Der Ansatz taucht auf, wenn ein Team eine schlankere Version eines Modells möchte, das es bereits besitzt.

Aufgabenspezifische Destillation

Dies zielt auf eine enge Aufgabe ab, wie z. B. Support-Ticket-Triage, Dokumentenklassifizierung oder strukturierte Datenextraktion. Da der Schüler nur bei einer einzigen Aufgabe gut sein muss, kann er klein, günstig und sehr schnell sein. Dies ist die kosteneffizienteste Form der Destillation und diejenige, die die meisten Unternehmen zuerst in Betracht ziehen sollten.

Allgemeine Destillation

Dies zielt darauf ab, breite Fähigkeiten statt einer einzelnen Fähigkeit zu übertragen und ein kleineres Modell zu erzeugen, das über viele Aufgaben hinweg kompetent bleibt. Es ist der schwerere Weg, da er weit mehr Daten und Rechenleistung erfordert, und es ist der Weg, den DeepSeek mit seinen Allzweck-Schlußfolgungsmodellen genommen hat. Die meisten Unternehmen müssen nicht so weit gehen, aber es ist die richtige Entscheidung, wenn ein Modell ein breites Arbeitsspektrum bewältigen muss.

Modelldestillation vs. Feinabstimmung: Worin liegt der Unterschied?

Menschen verwenden die beiden Begriffe oft synonym, und die Verwirrung ist verständlich, da der letzte Schritt in beiden derselbe ist. Die klarste Unterscheidung ist die Quelle des Trainingssignals. Beim gewöhnlichen LLM-Fine-Tuning lernt das Modell aus von Menschen geschriebenen Gold-Labels, die Sie bereitstellen. Bei der Destillation kommen die Labels von einem anderen Modell, dem Lehrer, der die Daten generiert, aus denen der Schüler lernt.

Mit anderen Worten: Destillation ist eine Methode zur Erzeugung von Trainingsdaten, und Fine-Tuning ist der Akt des Trainierens darauf. Eine Destillationspipeline endet fast immer in einem überwachten Fine-Tuning-Lauf, weshalb die Grenze in der Praxis verschwimmt. Der Grund, sich um den Unterschied zu kümmern, sind Kosten und Eigenverfügungsrecht. Fine-Tuning auf Ihren eigenen beschrifteten Daten geht darum, Stil oder Format beizubringen. Destillation geht darum, günstig die Fähigkeit eines viel größeren Modells für eine definierte Aufgabe zu übernehmen.

Warum Teams auf Modelldestillation setzen

Die Ökonomie ist der entscheidende Punkt, und sie wird von Quartal zu Quartal überzeugender. In seinem verwalteten Modell-Destillation-Service berichtet AWS, dass destillierte Modelle bis zu 500 % schneller und 75 % günstiger als die Originale laufen können, mit weniger als 2 % Genauigkeitsverlust für Anwendungsfälle wie Retrieval-Augmented Generation. Sie erhalten auch kleinere Modelle, die auf günstigerer Hardware funktionieren oder auf dem Gerät laufen, geringeren Energieverbrauch, und wenn Sie selbst hosten, vollständige Kontrolle über die Gewichte ohne API-Gebühren pro Token.

Die allgemeine Kostenkurve zeigt in dieselbe Richtung. Laut Stanford HAIs KI-Indexbericht 2025 sanken die Inferenzkosten für ein System auf GPT-3.5-Niveau, angetrieben durch zunehmend leistungsfähigere kleine Modelle, zwischen November 2022 und Oktober 2024 um mehr als das 280-Fache, von rund 20 $ auf 0,07 $ pro Million Tokens. Der Markt verschiebt sich bereits entsprechend. Gartner prognostiziert, dass Organisationen bis 2027 kleine, aufgabenspezifische KI-Modelle mindestens dreimal häufiger einsetzen werden als allgemeine große Sprachmodelle.

Die Qualität bei engen Aufgaben ist das, was Menschen überrascht. Der DeepSeek-R1-Artikel berichtet, dass sein destillierter 32B-Schüler 94,3 % auf dem Wettbewerbsniveau-MATH-500-Benchmark erzielt, gegenüber 97,3 % des 671B-Parameter-Lehrers – eine kleine Lücke von einem Modell, das etwa zwanzigmal kleiner ist. Spezialisierung wird zur Norm statt zur Ausnahme, und Gartner erwartet, dass bis 2027 mehr als 50 % der GenKI-Modelle, die Unternehmen nutzen, branchenspezifisch oder auf eine Geschäftsfunktion ausgerichtet sein werden, gegenüber etwa 1 % im Jahr 2023.

Was Modell-Destillation nicht kann

Ein destilliertes Modell ist ein Spezialist, kein Generalist, und so zu tun als ob, ist der schnellste Weg zu einem enttäuschenden Pilotprojekt. Der Schüler übertrifft den Lehrer selten und übernimmt sowohl seine blinden Flecken und Verzerrungen als auch seine Stärken. Wenn der Lehrer bei etwas falsch liegt, wird der Schüler bei derselben Sache selbstsicher falsch liegen, daher gehören Bias-Prüfungen von Anfang an in den Plan.

Enge Verallgemeinerung ist die subtilere Falle. Ein Schüler, der für eine Domäne abgestimmt ist, kann anderswo still nachlassen, und eine aktuelle Studie stellte fest, dass jeder DeepSeek-R1-Distill-Qwen-Checkpoint auf einem Constraint-Solving-Benchmark unter der größenentsprechenden Baseline lag, obwohl dieselben Modelle bei Mathematik und Code glänzen. Destillation kauft Aufgabenleistung, keine universelle Verbesserung. Es gibt auch einen iterativen Kostenanstieg zu beobachten, denn die Generierung synthetischer Daten von einem hochwertigen Lehrer bedeutet, die Premium-Token-Raten dieses Lehrers zu zahlen, und wiederholte Trainingszyklen summieren sich, selbst wenn das endgültige Modell günstig läuft.

Ist Modell-Destillation legal? Kann man ChatGPT oder Claude destillieren?

Die Destillation selbst ist eine legitime, jahrzehntealte Technik. Die rechtliche Frage dreht sich vollständig darum, auf wessen Ausgaben Sie trainieren und unter welchen Bedingungen. Das Destillieren innerhalb der eigenen Plattform eines Anbieters ist nicht nur erlaubt, es ist eine unterstützte Funktion: OpenAI bietet Modell-Destillation in seiner API an, damit Sie ein größeres GPT-Modell wie GPT-4o nutzen können, um ein kleineres wie GPT-4o mini zu fine-tunen, alles an einem Ort.

Der Versuch, ChatGPT zu destillieren von außen ist eine andere Sache. OpenAIs Nutzungsbedingungen verbieten die Verwendung seiner Ausgaben zum Training konkurrierender Modelle, genau das war der Vorwurf gegen DeepSeek Anfang 2025. Dasselbe gilt für jeden Versuch, Claude zu destillieren. Anthropic berichtete im Februar 2026, dass drei Labore im industriellen Maßstab Destillationsangriffe gegen Claude durchgeführt hatten, und das Unternehmen betreibt nun Erkennungssysteme, die Destillations-ähnlichen Datenverkehr und koordinierte Kontoaktivitäten markieren.

Die ehrliche Schlussfolgerung ist, dass Sie die Gewichte oder Wahrscheinlichkeiten eines geschlossenen Modells nicht erhalten und einen Konkurrenz-API nicht legal klonen können, um einen Rivalen aufzubauen. Die realistischen Wege sind das Destillieren innerhalb der Plattform eines Anbieters oder die Verwendung eines offen lizenzierten Lehrers wie Llama, Qwen oder DeepSeek, bei dem Sie die gesamte Pipeline besitzen. Wir gehen durch die praktischen Mechaniken in unserem Begleitartikel, wie man Schritt für Schritt ein LLM destilliert.

Was kostet es wirklich?

Ein kleines, aufgabenspezifisches Projekt ist günstiger, als die meisten Menschen erwarten. Nehmen Sie ein realistisches Beispiel: Generieren Sie einige tausend Trainingsproben von einem starken Lehrer, trainieren Sie einen kompakten Schüler und servieren Sie ihn dann für einen Monat mit moderatem Datenverkehr. Die einmalige Einrichtung landet in der Regel im unteren zweistelligen Dollar-Bereich, wenn Sie eine verwaltete Plattform verwenden, und die laufende Inferenzrechnung für den destillierten Spezialisten kann einige Dollar im Monat betragen.

Dasselbe monatliche Abfragevolumen beim ursprünglichen Frontier-Modell würde um ein Vielfaches mehr kosten, was das gesamte Argument fürs Destillieren ist. Self-Hosting ändert die Form der Rechnung und nicht nur ihre Größe: Sie tauschen API-Gebühren pro Token gegen GPU-Hosting ein, was bei hohem Volumen gewinnt und bei niedrigem Volumen verliert.

Bevor Sie ein Budget festlegen, rechnen Sie mit Ihren eigenen Zahlen. Holen Sie sich die aktuellen Token- und GPU-Stunden-Raten direkt von der Preisseite des Anbieters, da veröffentlichte Preise monatlich schwanken und verschiedene Anbieter unterschiedliche Zahlen angeben. Schätzen Sie Ihr reales monatliches Volumen (grob: Ihre erwartete Anzahl von Abfragen mal die Token, die jede verwendet), und berechnen Sie dann beide Optionen nebeneinander: den Frontier-Lehrer auf einer Pay-per-Token-API versus den destillierten Schüler, egal ob Sie ihn serverlos bereitstellen oder selbst hosten. Dieser Vergleich, nicht eine einzelne Headline-Zahl, sagt Ihnen, ob sich die Destillation in Ihrem Maßstab auszahlt.

Erstellen Sie Ihre Modell-Destillations-Roadmap mit Redwerk

Wenn Destillation wie eine gute Wahl aussieht, ist der nächste Schritt ein Plan, der auf Ihren Daten und Zahlen basiert. Als KI-Entwicklungsunternehmen hilft Redwerk Unternehmen dabei, das richtige Modell und den richtigen Tech-Stack für Modell-Destillation auszuwählen. Durch eine professionelle Discovery-Phase erhalten Sie eine Roadmap, die auf Ihre Branche und Anwendungsfälle zugeschnitten ist, zusammen mit einem klaren Bild der Kosten und des erforderlichen Aufwands, und wir liefern eine Schätzung, bevor die Arbeit beginnt.

Wir wenden die grundlegenden Engineering-Prinzipien und Sicherheits-Best-Practices an, die durch jahrzehntelange Entwicklung individueller Software für Unternehmen in Nordamerika und Europa verfeinert wurden, einschließlich Fortune-500-Unternehmen wie Siemens, J.B. Hunt und Universal Music Group. Das bedeutet ein destilliertes Modell, das bei Ihrer Aufgabe gut abschneidet, in der Produktion standhaft bleibt und nicht still die IP- oder Compliance-Risiken preisgibt, die die Destillation einführen kann, wenn sie nachlässig durchgeführt wird. Erzählen Sie uns von Ihrem Anwendungsfall, und wir helfen Ihnen zu entscheiden, ob Sie destillieren, fine-tunen oder einen anderen Weg einschlagen sollten.