Wie man ein LLM Schritt für Schritt destilliert: Teacher-Student-Pipeline

Die meisten Tutorials lassen LLM-Destillation wie ein Wochenendprojekt erscheinen. Vierzig Zeilen Hugging Face-Code, ein BERT-zu-DistilBERT-Austausch, fertig. Die eigentliche Pipeline ist eine andere Größenordnung. Sie wählen einen Lehrer, den Sie rechtlich nutzen dürfen, generieren einen synthetischen Datensatz, der den Schüler nicht vergiftet, trainieren mit LoRA und weisen nach, dass der Schüler bei den Eingaben, die Ihre Benutzer tatsächlich senden, nicht heimlich regressiert ist.

Das Training ist die einfachen 20 Prozent. Die Daten- und Bewertungsarbeit sind die 80 Prozent, die entscheiden, ob das Projekt liefert oder ins Stocken gerät. Deshalb benötigen die meisten Teams, die voll auf Modell-Destillationsdienste setzen, Hilfe bei den synthetischen Daten und der Bewertungsebene, nicht bei der Trainingsschleife. Bevor wir durchgehen, wie man eine LLM von Ende zu Ende destilliert, ist es hilfreich zu klären, was Lehrer-Schüler-Destillation tatsächlich in der Praxis bedeutet.

Was bedeutet Lehrer-Schüler-Destillation tatsächlich?

Ein großes Lehrer-Modell erzeugt Ausgaben für eine Reihe von Eingaben, und ein kleinerer Schüler wird trainiert, diese zu reproduzieren. Der Schüler erbt die meiste Aufgabenleistung des Lehrers zu einem Bruchteil der Inferenzkosten. White-Box-Destillation nutzt die vollständige Wahrscheinlichkeitsverteilung des Lehrers über Token, was mehr Lernsignal liefert, aber Logit-Zugang erfordert, also nur für Open-Weights-Lehrer. Black-Box-Destillation nutzt nur den Text, den der Lehrer zurückgibt, was mit jeder gehosteten API funktioniert, aber weniger Signal pro Stichprobe liefert.

Das ist es, was das Training von Lehrer-Schüler-Modellen auf konzeptioneller Ebene bedeutet. Der Beweis, an den sich jeder erinnert, ist DistilBERT. Das Hugging Face-Team zeigte, dass es BERT um 40 % schrumpfen und 60 % schneller laufen lassen konnte, während es 97 % seines Sprachverständnisses auf dem GLUE-Benchmark beibehielt. Das ist die Decke. Der Boden, wenn Teams die folgenden Schritte überspringen, ist ein kleines Modell, das bei den wichtigen Eingaben zuversichtlich falsch liegt. Destillation ist auch ein anderer Aufruf als Retrieval, und unser Entscheidungsrahmen für Fine-Tuning vs. RAG ist der bessere Ausgangspunkt, wenn Sie diese Wahl noch nicht getroffen haben.

So destillieren Sie ein LLM Schritt für Schritt: Die Teacher-Student-Pipeline

Schritt 1: Wählen Sie den Lehrer

Der Lehrer bestimmt zwei Dinge, die Sie später nicht mehr ändern können: wie gut der Schüler werden kann und ob Sie ihn veröffentlichen dürfen. Beide Fragen verdienen eine ehrliche Antwort, bevor Sie ein einziges Token Trainingsdaten generieren.

Passende Fähigkeiten

Der Schüler erbt die Decke des Lehrers, nicht Ihren Ehrgeiz. Wenn der Lehrer in Ihrer Domäne halluziniert oder Ihre Randfälle vermasselt, wird der Schüler diese Fehler schneller und billiger reproduzieren. Führen Sie Ihre härtesten 50 Prompts durch den Kandidaten-Lehrer, bevor Sie sich festlegen. Wenn der Lehrer 70 Prozent erzielt, wird der Schüler keine 90 erzielen. Wählen Sie einen Lehrer, der bei der spezifischen Aufgabe, die Sie komprimieren möchten, bereits stark ist, nicht das Modell mit den lautesten Benchmark-Zahlen.

Lizenzierung

Das ist der Teil, den die meisten Tutorials überspringen. Nach Januar 2025 verschärften die Anbieter geschlossener Modelle ihre Bestimmungen öffentlich. OpenAI, Anthropic, Mistral und xAI haben alle Klauseln aufgenommen, die die Verwendung ihrer Ausgaben zum Trainieren konkurrierender Modelle verbieten, wobei „konkurrierend“ breit ausgelegt wird. Laut Financial Times fand OpenAI Beweise dafür, dass DeepSeek seine Modelle zum Trainieren eines Konkurrenten verwendet, und der Streit wurde zum Referenzfall, den jedes Rechtsteam jetzt zitiert. Im Februar 2026 beschuldigte Anthropic DeepSeek, Moonshot und MiniMax öffentlich der Destillationsangriffe auf Claude, was klarstellte, dass Anbieter dies beobachten.

Open-Weights-Lehrer haben ihre eigenen Bedingungen. Die Llama-Community-Lizenz hat Schwellenwerte für die kommerzielle Nutzung, mehrere Forschungsveröffentlichungen verbieten die kommerzielle Nutzung gänzlich, und Apache-2.0-Modelle sind der sauberste Weg, wenn Ihre rechtliche Prüfung risikoscheu ist. Kurz gesagt: Lesen Sie die Modellkarte, lesen Sie die API-Bedingungen und dokumentieren Sie die Entscheidung schriftlich. Jede spätere rechtliche Prüfung wird fragen, welchen Lehrer Sie verwendet haben und was dessen Lizenz erlaubt.

Schritt 2: Generieren Sie den synthetischen Datensatz

Hier wird das Projekt gewonnen oder verloren. Der Schüler lernt, was immer in den Daten ist, einschließlich der Voreingenommenheit, Halluzinationen und stilistischen Eigenheiten des Lehrers. Ein typisches LLM-Destillationsbeispiel in Forschungsarbeiten verwendet Zehntausende von sorgfältig gefilterten Stichproben, und die Zeit für die Filterung übersteigt normalerweise die Zeit für das Training.

Seed-Eingaben und Volumen

Beginnen Sie mit echten Domänen-Prompts: Produktionsprotokolle, Support-Tickets, redigierte Benutzeranfragen, interne Dokumente. Vielfalt ist wichtiger als reines Volumen jenseits eines bestimmten Punktes. Für eine eng definierte Aufgabe reichen 1.000 bis 5.000 gut kuratierte Seeds oft besser als 50.000 verrauschte. Für einen breiteren Anweisungs-folgenden Schüler planen Sie 20.000 bis 100.000 ein. Wenn keine echten Prompts verfügbar sind, generieren Sie Seeds mit einem separaten Modell und lassen Sie einen Menschen die Verteilung überprüfen, bevor Sie skalieren.

Drei Generierungsstrategien

Jede Methode tauscht Aufwand gegen Signalqualität.

Strategie

Benötigter Lehrerzugang

Aufwand

Am besten für

Strategie

Soft-Label-Destillation

Benötigter Lehrerzugang

Logits (nur Open Weights)

Aufwand

Hoch

Am besten für

Klassifizierung, enge Aufgaben

Strategie

Nur-Ausgabe-Destillation

Benötigter Lehrerzugang

Jede gehostete API

Aufwand

Niedrig

Am besten für

Generative Aufgaben, allgemeiner Gebrauch

Strategie

Schrittweise Destillation

Benötigter Lehrerzugang

Jeder Lehrer, der erklären kann

Aufwand

Mittel

Am besten für

Schlussfolgerungsaufgaben, wenig Daten

Distilling Step-by-Step ist wissenswert. Der Lehrer generiert neben der Antwort eine Begründung und der Schüler wird auf beidem trainiert. Forscher von Google und Snorkel zeigten, dass dies ein größeres Modell mit deutlich weniger Daten erreichen kann, was wichtig ist, wenn Ihr Seed-Pool klein ist.

Filterung und Expertenprüfung

Der unglamouröse Teil der Pipeline. Deduplizieren und ROUGE-L-Filterung für nahezu identische Duplikate durchführen. Längen- und Format-Ausreißer, die den Schüler verwirren würden, fallen lassen. Zufällige 5-Prozent-Stichproben auf Halluzinationen prüfen. Für regulierte Ausgaben lassen Sie einen Domänenexperten eine repräsentative Stichprobe abzeichnen. Rechnen Sie damit, 20 bis 40 Prozent der Generierungen unterwegs abzulehnen. Teams, die die Filterung überspringen, liefern Schüler, die sich zu stark an die Eigenheiten des Lehrers anpassen. Bei juristischen, medizinischen oder finanziellen Aufgaben ist die Expertenprüfung nicht optional, und wenn diese Überprüfungskapazität die Einschränkung darstellt, beinhalten unsere KI-Agentenentwicklungsdienste oft diese Ebene.

Schritt 3: Trainieren Sie den Schüler

Die einfachen 20 Prozent. LoRA injiziert kleine Low-Rank-Adapter in bestehende Gewichte und friert den Rest ein, wodurch die trainierbaren Parameter auf etwa 1 Prozent des Ganzen reduziert werden. QLoRA fügt eine 4-Bit-Quantisierung des Basismodells zusätzlich zu LoRA hinzu, wodurch der Speicherbedarf nochmals um etwa die Hälfte reduziert wird. Das praktische Ergebnis: Ein 7B-Schüler kann auf einer einzigen 24 GB GPU statt auf einem Multi-GPU-Cluster feinabgestimmt werden.

Konfiguration, die bei den meisten Aufgaben gilt:

Rang zwischen 8 und 64. Alpha etwa doppelt so hoch wie der Rang.
Lernrate nahe 2e-4 mit Cosinus-Zeitplan.
Gradientenakkumulation, um Ihre effektive Batch-Größe zu erreichen.
Für Soft-Label-Destillation: gewichtete Kombination aus KL-Divergenz (Lehrer- vs. Schüler-Verteilungen) und Kreuzentropie auf Hard Labels, mit Temperatur-Skalierung auf der Softmax, T = 2 bis 4.

Ein Rat, auf den sich Produktionsteams einigen: Beginnen Sie mit dem kleinsten brauchbaren Schüler. Ein 1B-Modell dauert 20 Minuten pro Lauf und deckt Infrastrukturprobleme sofort auf. Ein 70B-Modell dauert einen Tag und verbirgt sie. Bringen Sie die Schleife Ende-zu-Ende auf einem kleinen Modell zum Laufen, und skalieren Sie dann, sobald Sie ihr vertrauen. Teams, die größere Systeme auf Basis des destillierten Modells aufbauen, benötigen oft Entwicklung von großen Sprachmodellen, die über die Trainingsschleife selbst hinausgehen.

Schritt 4: Richtig bewerten

Hier scheitern die meisten Destillationsprojekte heimlich. Das Training ist abgeschlossen, MMLU sieht gut aus, das Team liefert, und drei Wochen später zeigen Support-Tickets, dass der Schüler bei langen Eingaben, mehrdeutigen Anweisungen und allem außerhalb der synthetischen Datenverteilung versagt.

Öffentliche Benchmarks sind das schwächste Signal im Bild. MMLU, GLUE und HellaSwag sind hauptsächlich nützlich, um katastrophale Rückschritte zu erkennen, da Datenkontamination endemisch ist und der Testdatensatz möglicherweise in das Pre-Training oder die Ausgaben des Lehrers eingeflossen ist. Das Asset, das wirklich zählt, ist ein zurückgehaltener Evaluationsdatensatz, der aus echtem Traffic erstellt wurde. Fünfhundert bis zweitausend Fälle, wo möglich von Hand beschriftet, die die Eingabelänge, Komplexität, Randfälle, gegnerische Prompts und den langen Schwanz abdecken, den Ihre Benutzer tatsächlich senden.

Verwenden Sie mehrere Methoden zusammen. Aufgabenspezifische Metriken wie exakte Übereinstimmung oder BLEU für enge Ausgaben. LLM-als-Richter unter Verwendung einer anderen Modellfamilie als Ihr Lehrer, um Voreingenommenheit der gleichen Familie zu vermeiden. Menschliche Stichproben bei den unteren 10 Prozent der bewerteten Scores, dort verbergen sich Rückschritte. Verfolgen Sie die Leistung pro Kategorie, niemals nur den Durchschnitt. Ein Schüler, der insgesamt 96 Prozent erzielt, kann bei langen Eingaben 40 Prozent erzielen, während der Durchschnitt gesund aussieht.

Der Aufbau und die Wartung dieses Harness ist mehr nachhaltige Ingenieursarbeit als das Training selbst. Teams ohne dedizierte ML-Infrastruktur bauen ihn unterdimensioniert, liefern und finden die Probleme in der Produktion. Hier holen sich Unternehmen oft externe Hilfe, sowohl für den ursprünglichen Aufbau als auch für die Regression-Suite, die jeden Modellwechsel übersteht. Produktions- KI-Entwicklung ruht auf dieser Ebene mehr als auf jedem einzelnen Modell.

Wann sich Destillation lohnt und wann nicht

Die Entscheidung dreht sich selten darum, ob Destillation funktioniert. Es geht darum, ob Ihre Aufgabe und Ihr Team dafür gerüstet sind.

Gute Passform, wenn:

Aufgabe mit hohem Volumen und enger Definition.
Latenzempfindliche Produktoberfläche.
Vorhersagbares Ziel für die Inferenzkosten.
Reale Produktionsprotokolle für synthetische Daten verfügbar.

Ein Lehrer-Schüler-Modell-Ansatz rechnet sich am schnellsten, wenn das Inferenzvolumen so groß ist, dass die Kostendifferenz gegenüber einer gehosteten API die Ingenieursinvestition innerhalb eines oder zweier Quartale wieder hereinholt.

Schlechte Passform, wenn:

Der Lehrer bei Ihrer Aufgabe nicht gut abschneidet.
Keine echten Evaluierungsdaten vorhanden sind.
Keine Domänenexpertise für die Überprüfung verfügbar ist.

In diesen Fällen liefert Retrieval-Augmented Generation, Prompt Caching oder ein kleineres gehostetes Modell oft 60 bis 80 Prozent des Kostenvorteils ohne die gesamte Trainingskomplexität. Die Frage, wie man ein kleines Modell feinabstimmt, abruft oder destilliert, verdient einen strukturierten Vergleich, bevor Sie Zeit für Ingenieursleistungen investieren.

Die realistische Zeitplanung

Die Quickstarts von Hugging Face zeigen diesen Teil nicht. Eine Produktionspipeline für eine mäßig komplexe Aufgabe erfordert 2 bis 4 Wochen für die Generierung und Filterung synthetischer Daten, 1 Woche für Training und Iteration und 2 bis 3 Wochen für den Aufbau des Evaluations-Harness, zuzüglich laufender Wartung, wenn sich die Quellendomane verschiebt.

Teams, die rein nach Trainings-Compute schätzen, unterschätzen das Projekt konsequent um den Faktor drei bis fünf. Das Evaluations-Harness ist das Asset, das jedes einzelne Modell überdauert. Sie verwenden es wieder, jedes Mal, wenn Sie den Schüler austauschen, mit neuen Daten neu trainieren oder einen neuen Lehrer testen. Betrachten Sie es als eine dauerhafte Investition, nicht als das Modell selbst.

Die Startleiste

Ein destilliertes Modell ist bereit, wenn es Ihre zurückgehaltene Evaluierungssuite besteht, einschließlich der Randfall-Batterien, und zwei Wochen Schattenverkehr übersteht, ohne das Team zu überraschen. Nicht, wenn der Trainingsverlust sauber aussieht. Nicht, wenn MMLU akzeptabel ist. Der kleinste Schüler, der diese Tore passiert, ist derjenige, der in die Produktion übernommen wird. Der Widerstand gegen den Drang, weiter zu komprimieren, bis er vor echten Benutzern gelaufen ist, ist normalerweise die richtige Entscheidung.

Ein destilliertes Modell ist ein Projekt. Die synthetische Datenpipeline ehrlich zu halten, die Evaluierungssuite aktuell zu halten und den Schüler zu optimieren, wenn sich Ihre Domäne verschiebt, ist ein anderes. Die meisten Teams bewältigen das erste problemlos und unterschätzen das zweite. Wenn Sie lieber nicht beides besetzen möchten, kontaktieren Sie uns, und wir können besprechen, welche Teile es wert sind, Hilfe dafür zu holen.