Was machen eigentlich große Sprachmodelle?
Wie der Transformer Sprache zerlegt, in Vektoren übersetzt – und daraus Texte generiert.
11.06.2025 4 min
Zusammenfassung & Show Notes
In dieser Folge der KI Kantine erklärt Buschi, wie große Sprachmodelle wie GPT unter der Haube funktionieren. Es geht um die Transformer-Architektur, um Tokenisierung, Embeddings und hochdimensionale Vektorräume. Was nach reinem Rechnen klingt, wirkt oft verblüffend menschlich – warum das so ist, erfährst du in dieser Folge.
Heute wird’s technisch – aber nicht trocken:
Buschi nimmt dich mit in die Welt der großen Sprachmodelle (LLMs), genauer gesagt: in ihr Innenleben. Wie funktioniert eigentlich ein Transformer, und was genau passiert, wenn wir einen Text eingeben?
Die Folge führt Schritt für Schritt durch:
- die Tokenisierung: Wie aus Wörtern kleinere Verarbeitungseinheiten werden
- die Vektorisierung: Warum jedes Token eine Zahl bekommt – und dann ein Ort in einem mehrdimensionalen Raum
- die Embedding-Matrix: Wie ein „semantischer Raum“ entsteht, in dem „Hund“ und „Katze“ näher beieinanderliegen als „Hund“ und „Bohrmaschine“
- und schließlich: warum all das nicht wirklich Verstehen ist, aber trotzdem erstaunlich gut funktioniert
Eine dichte, aber verständliche Folge – mit anschaulichen Beispielen für alle, die endlich mal wissen wollen, was KI beim Schreiben wirklich tut.
Weiterführender Link: https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown
Die KI-Kantine ist ein Projekt von Michael Busch – Entwickler, Unternehmer und neugieriger Kantinenphilosoph.
Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.
Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.
Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.
Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.
📬 Fragen, Feedback oder eigene KI-Erlebnisse? Schreib mir an podcast@ki-kantine.de
Alle Folgen & mehr: https://ki-kantine.letscast.fm/
Alle Folgen & mehr: https://ki-kantine.letscast.fm/
Transkript
(Transkribiert von TurboScribe.ai. Upgrade auf Unbegrenzt, um diese Nachricht zu entfernen.) Mahlzeit.
Mahlzeit.
Sag mal, hast du dir eigentlich schon mal
überlegt, wie so ein Sprachmodell wie Chetchipiti unter
der Haube so funktioniert?
Nein, nicht wirklich.
Im Kern basiert das Ganze auf einer Architektur
namens Transforma.
Das ist übrigens auch das T in Chippiti.
Interessant.
Das ist so ein spezieller Typ von einem
neuronalen Netz, das extrem gut darin ist, mit
Sprache umzugehen.
Aha.
Die Idee dahinter ist, dass der Transformer sich
nicht nur ein Wort nach dem anderen anschaut,
sondern den ganzen Kontext gleichzeitig, also auch nach
vorne und auch nach hinten schaut.
So, so.
Bevor dieses Modell aber überhaupt mal irgendwas versteht,
muss der Text erstmal vorbereitet werden.
Und das fängt mit der sogenannten Tokenisierung an.
Aha.
Dabei wird der Text in kleine Einheiten zerlegt,
also sogenannte Tones.
Das kann zum Beispiel ein ganzes Wort sein,
aber auch nur ein Teil des Wortes.
Also zum Beispiel wird Unfassbar zerlegt in Unfass
- und Bar.
Und das wird deswegen gemacht, falls das Modell
mal ein Wort nicht kennt und nicht weiß,
wie es damit umgehen soll, kann es sich
aus den einzelnen Teilen zusammensetzen.
Vielleicht hast du ja auch mal gesehen, wenn
du dich mit so Modellen beschäftigt hast und
auch den Kosten, die dadurch entstehen, dann ist
das häufig beschrieben mit so und so viel
Dollar für eine Million Tokens.
Und das sind genau diese Tokens.
Interessant.
Und jedes Token bekommt eine eigene ID, also
eine Zahl.
Bei GPT-2 war zum Beispiel Hello 50
.256. Und das wird dann wiederum in sogenannte
Vektoren umgewandelt.
Und diese Umwandlung von der ID zu dem
Vektor entsteht über die Embedding Matrix.
Aha.
Und die weist dann jedem Token eine mehrdimensionale
Zahlenreihe zu.
Also mehrdimensional ist jetzt mehr als 3D, wie
du es zu Hause hast bei deinem 3D
-Drucker, sondern das geht bis zu 10.000
Dimensionen.
Also ich stelle mir das jetzt vor wie
so ein Produkt in einem Shop.
Und dieses Produkt hat echt viele Eigenschaften.
Also wenn es jetzt ein Wein wäre, also
Rotwein, wo wird es angebaut, was für Geschmäcker
hat es und so weiter.
Und so stelle ich mir diesen Vektor vor.
Und in dem Fall wären es dann halt
10.000 Eigenschaften.
Aha.
Und das Spannende ist, dass diese Embeddings, also
diese Vektoren, die werden halt im Training optimiert.
Und das passiert so, dass bedeutungsähnliche Begriffe wie
jetzt Hund und Katze, die liegen dann in
diesen Räumen näher beieinander, wenn man sich das
so vorstellen will, als Hund und Bohrmaschine.
Wenn man also jetzt den Vektor, den es
zum Token Mann gibt, vergleicht mit dem Vektor,
den es zum Token Frau gibt, dann hat
der, jetzt mal sehr bildlich gesprochen, einen gewissen
Abstand.
Nämlich der Endpunkt und der Anfangspunkt.
Dieser Pfeil hat eine Lage im Raum.
Und wenn man jetzt zum Beispiel Onkel nimmt
und man legt diesen Pfeil mit seiner Ausrichtung
hin, dann deutet die Spitze dieses Pfeils in
die Nähe von dem Wort Tante.
Und da siehst du das, was man als
intelligent bezeichnet.
Ein Muster erkennen und auf etwas Vergleichbares übertragen.
Du merkst also, es gibt nicht wirklich ein
echtes Verstehen.
Es ist alles rein mathematisch.
Aber durch die Masse der gelernten Muster wirkt
es oft echt menschlich.
Können wir jetzt in Limor essen?
Das ist die KI-Kantine.
Wir sitzen in der KI-Kantine.
Die KI-Kantine ist ein Projekt von Michael
Busch, der auch beim nächsten Mal wieder ein
frisches KI-Gericht auftischt mit einer Prise Pommes
und einer Beilage Skepsis.