Große Sprachmodelle

Große Sprachmodelle, auch als Large Langugage Model oder kurz LLMs bezeichnet, sind der Auslöser des aktuellen Hypes um KI. Die meisten kennen sie als "Chatbot", mit dem man sich ganz natürlich unterhalten kann.

Ich bin noch immer fasziniert von den Antworten dieser Modellen. Auch, oder vielleicht gerade weil ich weiß, wie sie funktionieren. Dass sie eigentlich gar nichts "verstehen", aber sie sind sehr gut darin einen anderen Eindruck zu vermitteln.

AI Chatbots, die mehr oder weniger vernünftige Antworten geben, sind gar nicht so neu. Eliza, wurde z.B. bereits 1966 veröffentlicht. Und seit dem haben sie sich eigentlich kontinuierlich weiterentwickelt.

Der Durchbruch kam als in 2017 ein Mechanismus zur Gewichtung einzelner Teile der Eingabe veröffentlicht wurde ("Attention is all you need"). Das hat den Chatbots von Firmen wie OpenAI, Anthropic und Co. zum durchbruch verholfen.

Aber LLMs sind mehr als ein paar Algorithmen. Für das Training der Modelle wurde ein sehr großer Teil des allgemein zugänglichen Wissens verwendet. Das sind nicht nur die öffentlichen Internetseiten, sondern auch viele andere Dokumente und Bücher. Letztere wohl zum einem Großteil als Raubkopie von einschlägigen Websites. Nach dem Training mit dieser unvorstellbaren Datenmenge ist nochmals eine Feinjustierung notwendig. Erst dann kann man die Allgemeinheit auf diese Chatbots loslassen.

Ein großer Teil der Nutzung erfolgt allerdings längst nicht mehr über die Chat-Schnittstelle, sondern indem Anwendungen die LLMs über eine Schnittstelle direkt ansprechen.