Die KI Kantine - Der Podcast

Michael Busch

Alle Modelle gleich? Warum Tools jetzt wichtiger sind als KI-Benchmarks

Wie KI zur Commodity wird – und warum unser Workflow darüber entscheidet, was am Ende wirklich zählt.

03.12.2025 6 min

Zusammenfassung & Show Notes

 In dieser Folge der KI Kantine spreche ich darüber, warum wir die einzelnen KI-Modelle kaum noch auseinanderhalten können – und warum das plötzlich überhaupt kein Problem mehr ist. Die Modelle konvergieren, die Tools divergieren: Updates liefern nur noch minimale Benchmark-Verbesserungen, aber Entwicklungsumgebungen wie Cursor oder Googles Antigravity machen den eigentlichen Produktivitätssprung. 
 
Wir reden darüber, dass KI zunehmend wie Strom funktioniert: Der Nutzer fragt nicht mehr, woher er kommt, sondern ob der Toaster läuft. Genau so egal wird das konkrete Modell, solange der Workflow stimmt. Das eigentliche Bottleneck ist inzwischen das Interface. Chat-basiertes Prompting nutzt nur einen Bruchteil dessen, was moderne Modelle könnten. Neue Interfaces, die navigieren, planen und proaktiv Vorschläge machen, werden deshalb entscheidend für die nächste Evolutionsstufe. 

Die KI-Kantine ist ein Projekt von Michael Busch – Entwickler, Unternehmer und neugieriger Kantinenphilosoph.

Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.

Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.

📬 Fragen, Feedback oder eigene KI-Erlebnisse? Schreib mir an podcast@ki-kantine.de

Alle Folgen & mehr: https://ki-kantine.letscast.fm/

Transkript

(Transkribiert von TurboScribe.ai. Upgrade auf Unbegrenzt, um diese Nachricht zu entfernen.) Mahlzeit. Mahlzeit. Sag mal, welches KI-Modell nimmst du eigentlich im Moment immer? Das kann ich dir eigentlich gar nicht so genau sagen. Ich finde, man kann die Modelle mittlerweile gar nicht mehr auseinanderhalten. In Cursor hast du mittlerweile so eine riesige Auswahl. Opus 4.5, Sony 4.5, Codex. Ich könnte mir mit verbundenen Augen irgendwas aussuchen und es würde trotzdem mittlerweile funktionieren. Aha. Und es war Anfang des Jahres noch ganz anders. Das war richtig nervig. Die Modelle haben ständig deinen Code nicht verstanden oder sind abgestürzt oder haben halluziniert. Und dann kam Update raus. Und dann hast du den Unterschied sofort gemerkt. Es war immer eine extreme Verbesserung. Also es war wie damals Windows 95 auf Windows XP. Jetzt sind die alle schon so gut, dass du die Unterschiede praktisch gar nicht mehr merkst. Klar, in den Benchmarks steht dann immer, Opus 4.5 hat 89,3 und Sony 4 .5 hat nur 86,6. Aber mal ehrlich, das sind ein bisschen über 2%. Wo merkt man denn so einen Unterschied? Also ich merke den nicht. Die einzige Frage, die wirklich zählt ist, funktioniert es oder spinnt es rum? Hat es die Datei gelesen und hat es die Aufgabe fertig gemacht? Und im Prinzip ist es bei allen großen Modellen. Ja, hat es gemacht. Interessant. Also ich glaube, dass der Durchschnitts-User überhaupt nicht mehr auf die spezifischen Modelle achten muss. Wenn du schnell sein willst, dann nimmst du zum Beispiel Cursor Composer. Und wenn du irgendwie ein bisschen länger nachdenken willst, dann nimmst du Reasoning Modell. Aber welches Modell es genau ist, ist egal. Behalt es halt dann und fertig. Und damit hast du auch viel weniger FOMO. Früher hast du wieder gelesen, es gibt ein neues Modell, das ist da und da viel, viel besser. Und da muss ich mich sofort mit beschäftigen und ich muss das nutzen. Heute bei 0,3% besser, who cares. Aber jetzt ist halt die Entwicklungsumgebung viel wichtiger. Also wenn wir jetzt Cursor nehmen zum Beispiel, mit dem ich ja viel arbeite. Und ich finde, Cursor hat mehr für meine Produktivität getan als jedes einzelne Modellupdate in diesem Jahr. Denn Cursor hat es schon in ein richtig schönes Paket gepackt. So ein echter Developer-Workflow. Du kannst planen, erfickst dir die ganzen Lint -Errors. Also die Tools divergieren jetzt und die Modelle konvergieren. Damit meine ich, dass ein mittelmäßiges Modell immer noch mit einem guten Workflow das beste Modell ohne Workflow schlägt. Und zwar wirklich deutlich. Aha. Man könnte fast sagen, wir sind jetzt mit der KI in die Strom-Ära gerutscht. Wenn du heute einen Toaster bedienen willst, dann fragst du dich nicht, ist der Strom jetzt aus Solar oder ist der von irgendwelcher Windkraft? Nö, du machst den runter und dann soll er dein Brot toasten. Ob das jetzt Solarstrom ist, Kohle, Atomkraft, das ist ja erstmal irrelevant, solange der Toaster funktioniert. Dadurch werden diese KI-Modelle zur Commodity, also nur noch ein Gebrauchsgegenstand. Uns geht jetzt halt mehr um das Interface, um den Workflow und um den Speed. Da sieht man auch daran, dass das mit den Kosten gar nicht mehr so ein großes Thema ist. Vor einem halben Jahr hat ständig jeder sich darüber aufgeregt, wie hoch denn die Kosten sind, um einen vernünftigen Code zu schreiben. Die Kosten sind echt gesunken und auch im Prinzip bei allen Modellen vergleichbar. Aber das Chat-Interface ist jetzt auch der Flaschenhals. So eine Chatbox ist ja okay für schnelle Antworten. Es ist aber ein beschissenes Medium, um herauszufinden, was so ein fortgeschrittenes System eigentlich alles kann. Das Interface verbirgt Möglichkeiten, verengt die Interaktion auf das, was ich tippen kann. Alles hängt ja nur noch von meiner eigenen Vorstellungskraft ab, von meinem Wording und von meiner Fähigkeit zu prompten. Und es ist ja auch das Absurde. Ich beschreibe eine Aufgabe an etwas, das das Problem bereits besser versteht als ich. Der langsamere Denker führt den schnelleren Denker. Das ist ja schon ein bisschen Paradox. Und weil jetzt bald Weihnachten ist, wenn du zu deinen Eltern fährst und die mal wieder ein Problem im Computer haben, und wenn du dann nur exakt das machst, was sie sagen, dann kommt dir überhaupt nicht weiter. Es wäre doch frustrierend für alle, denn die wissen ja irgendwie gar nicht, was noch alles geht. Ja, da hast recht. Das heißt, die meiste Power der Modelle bleibt ungenutzt, weil das Interface eben nur reaktiv und stumm ist. Wir brauchen also Interfaces, wo die KI ihre Fähigkeiten zeigen kann, wo die Vorschläge macht, den Kontext versteht, ohne dass ich den magischen Satz erraten muss, also sprich das Prompt. Und da ist jetzt hier die neueste Entwicklungsumgebung Anti-Gravity von Google total spannend, weil die kann selbstständig durch den Browser navigieren und im Prinzip kann die dir im Browser zeigen, was sie meint. Und auch der Cursor kann erstmal einen riesigen Plan aufstellen, was er alles vorhat zu machen. Du kannst ihn eben rumkorrigieren und verändern und musst dir nämlich nicht alles selbst ausdenken. Also nicht mehr, welches Modell, sondern welches Tool hilft mir, dieses Modell richtig zu nutzen. Also ich habe hier das Modell Messer und ich habe das Modell Gabel und ich weiß auch genau, wie ich das nutzen muss. Können wir jetzt endlich mal essen? Das ist die KI-Kantine. Wir sitzen in der KI-Kantine. Die KI-Kantine ist ein Projekt von Michael Busch, der auch beim nächsten Mal wieder ein frisches KI-Gericht auftischt mit einer Prise Ponz und einer Beilage Skepsis. Wir sitzen in der KI-Kantine. Hier ist die KI-Kantine.