Die KI Kantine - Der Podcast

Michael Busch

Was machen eigentlich große Sprachmodelle?

Wie der Transformer Sprache zerlegt, in Vektoren übersetzt – und daraus Texte generiert.

11.06.2025 4 min

Zusammenfassung & Show Notes

 In dieser Folge der KI Kantine erklärt Buschi, wie große Sprachmodelle wie GPT unter der Haube funktionieren. Es geht um die Transformer-Architektur, um Tokenisierung, Embeddings und hochdimensionale Vektorräume. Was nach reinem Rechnen klingt, wirkt oft verblüffend menschlich – warum das so ist, erfährst du in dieser Folge. 

Heute wird’s technisch – aber nicht trocken: 

Buschi nimmt dich mit in die Welt der großen Sprachmodelle (LLMs), genauer gesagt: in ihr Innenleben. Wie funktioniert eigentlich ein Transformer, und was genau passiert, wenn wir einen Text eingeben? 
Die Folge führt Schritt für Schritt durch: 
  • die Tokenisierung: Wie aus Wörtern kleinere Verarbeitungseinheiten werden
  • die Vektorisierung: Warum jedes Token eine Zahl bekommt – und dann ein Ort in einem mehrdimensionalen Raum
  • die Embedding-Matrix: Wie ein „semantischer Raum“ entsteht, in dem „Hund“ und „Katze“ näher beieinanderliegen als „Hund“ und „Bohrmaschine“
  • und schließlich: warum all das nicht wirklich Verstehen ist, aber trotzdem erstaunlich gut funktioniert
 
Eine dichte, aber verständliche Folge – mit anschaulichen Beispielen für alle, die endlich mal wissen wollen, was KI beim Schreiben wirklich tut.

Weiterführender Link: https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown

Die KI-Kantine ist ein Projekt von Michael Busch – Entwickler, Unternehmer und neugieriger Kantinenphilosoph.

Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.

Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.

📬 Fragen, Feedback oder eigene KI-Erlebnisse? Schreib mir an podcast@ki-kantine.de

Alle Folgen & mehr: https://ki-kantine.letscast.fm/

Transkript

(Transkribiert von TurboScribe.ai. Upgrade auf Unbegrenzt, um diese Nachricht zu entfernen.) Mahlzeit. Mahlzeit. Sag mal, hast du dir eigentlich schon mal überlegt, wie so ein Sprachmodell wie Chetchipiti unter der Haube so funktioniert? Nein, nicht wirklich. Im Kern basiert das Ganze auf einer Architektur namens Transforma. Das ist übrigens auch das T in Chippiti. Interessant. Das ist so ein spezieller Typ von einem neuronalen Netz, das extrem gut darin ist, mit Sprache umzugehen. Aha. Die Idee dahinter ist, dass der Transformer sich nicht nur ein Wort nach dem anderen anschaut, sondern den ganzen Kontext gleichzeitig, also auch nach vorne und auch nach hinten schaut. So, so. Bevor dieses Modell aber überhaupt mal irgendwas versteht, muss der Text erstmal vorbereitet werden. Und das fängt mit der sogenannten Tokenisierung an. Aha. Dabei wird der Text in kleine Einheiten zerlegt, also sogenannte Tones. Das kann zum Beispiel ein ganzes Wort sein, aber auch nur ein Teil des Wortes. Also zum Beispiel wird Unfassbar zerlegt in Unfass - und Bar. Und das wird deswegen gemacht, falls das Modell mal ein Wort nicht kennt und nicht weiß, wie es damit umgehen soll, kann es sich aus den einzelnen Teilen zusammensetzen. Vielleicht hast du ja auch mal gesehen, wenn du dich mit so Modellen beschäftigt hast und auch den Kosten, die dadurch entstehen, dann ist das häufig beschrieben mit so und so viel Dollar für eine Million Tokens. Und das sind genau diese Tokens. Interessant. Und jedes Token bekommt eine eigene ID, also eine Zahl. Bei GPT-2 war zum Beispiel Hello 50 .256. Und das wird dann wiederum in sogenannte Vektoren umgewandelt. Und diese Umwandlung von der ID zu dem Vektor entsteht über die Embedding Matrix. Aha. Und die weist dann jedem Token eine mehrdimensionale Zahlenreihe zu. Also mehrdimensional ist jetzt mehr als 3D, wie du es zu Hause hast bei deinem 3D -Drucker, sondern das geht bis zu 10.000 Dimensionen. Also ich stelle mir das jetzt vor wie so ein Produkt in einem Shop. Und dieses Produkt hat echt viele Eigenschaften. Also wenn es jetzt ein Wein wäre, also Rotwein, wo wird es angebaut, was für Geschmäcker hat es und so weiter. Und so stelle ich mir diesen Vektor vor. Und in dem Fall wären es dann halt 10.000 Eigenschaften. Aha. Und das Spannende ist, dass diese Embeddings, also diese Vektoren, die werden halt im Training optimiert. Und das passiert so, dass bedeutungsähnliche Begriffe wie jetzt Hund und Katze, die liegen dann in diesen Räumen näher beieinander, wenn man sich das so vorstellen will, als Hund und Bohrmaschine. Wenn man also jetzt den Vektor, den es zum Token Mann gibt, vergleicht mit dem Vektor, den es zum Token Frau gibt, dann hat der, jetzt mal sehr bildlich gesprochen, einen gewissen Abstand. Nämlich der Endpunkt und der Anfangspunkt. Dieser Pfeil hat eine Lage im Raum. Und wenn man jetzt zum Beispiel Onkel nimmt und man legt diesen Pfeil mit seiner Ausrichtung hin, dann deutet die Spitze dieses Pfeils in die Nähe von dem Wort Tante. Und da siehst du das, was man als intelligent bezeichnet. Ein Muster erkennen und auf etwas Vergleichbares übertragen. Du merkst also, es gibt nicht wirklich ein echtes Verstehen. Es ist alles rein mathematisch. Aber durch die Masse der gelernten Muster wirkt es oft echt menschlich. Können wir jetzt in Limor essen? Das ist die KI-Kantine. Wir sitzen in der KI-Kantine. Die KI-Kantine ist ein Projekt von Michael Busch, der auch beim nächsten Mal wieder ein frisches KI-Gericht auftischt mit einer Prise Pommes und einer Beilage Skepsis.