LLM, genAI und künstliche Intelligenz sind nach wie vor große Themen, die die Nachrichten insbesondere im Bereich Technologie beherrschen. Fast täglich gibt es Erfolgsmeldungen über Durchbrüche bei verbesserten Modellen oder es werden neue und intelligente Anwendungsmöglichkeiten aufgezeigt. Gleichzeitig finden sich allerdings auch viele kritische Stimmen – Stimmen die von Übertreibungen sprechen und in Frage stellen, was die Technologie überhaupt leisten kann, Stimmen die Kritik an Urheberrecht und Datenschutz äußern und sogar von Hype und einer Blase sprechen…
Um die Thematik und insbesondere die kritischen Stimmen besser einordnen zu können und um zu verstehen, wie genau KI funktioniert, wollen wir uns in diesem Beitrag um ein generelles Verständnis der KI-Technologie bemühen. Zuerst wollen wir die Begrifflichkeiten genauer einordnen und spezifizieren, da in vielen Bereichen keine korrekte Trennung zwischen KI, generativer KI (genAI) oder Large Language Modellen (LLM) stattfindet und somit Diskussionen aufgrund unterschiedlichen Verständnisses erschwert werden.
Als erstes stellt sich die Frage: Was ist also Künstliche Intelligenz überhaupt?
Ohne zu tief auf die philosophische Frage einzugehen, wie Intelligenz grundsätzlich definiert wird, wird KI in der Informatik damit beschrieben, dass es sich mit dem Themenfeld der Automatisierung sowie dem maschinellen Lernen befasst.
Was versteht man unter Automatisierung?
Automatisierung bzw. der Ersatz von manueller, menschlicher Tätigkeit durch technische Abläufe oder Hilfsmittel war grundsätzlich immer ein Ziel von Forschung und Entwicklung. Es verhalf der Menschheit zu rasanten Entwicklungssprüngen, Produktionssteigerungen und machte aus unserer Zivilisation letztlich das, was sie heute ist. Lag der Kern von Automatisierung bis zur Erfindung des Computers darin, eine Möglichkeit zu finden, mithilfe von nicht menschlichen Hilfsmitteln, die Arbeit des Menschen zu verringern oder die Produktivität zu steigern, ist es Menschen mithilfe von Computern mittlerweile möglich, bei bestimmten Tätigkeiten den Menschen vollständig zu ersetzen.
Angefangen haben Automatisierung und Effizienzsteigerung der Menschheit durch die Zuhilfenahme von simplen Werkzeugen. Hierdurch konnten Arbeiten wie Ackerbau oder das Jagen schneller, präziser und effizienter erledigt werden. Der nächste große Entwicklungsschritt wurde durch die Erfindung des Rads ausgelöst und leitete eine Entwicklungsepoche ein, deren Ziel es war, durch Zuhilfenahme von technischen Konstruktionen menschliche Arbeiten teilautomatisiert zu erledigen. Allerdings – und das ist der entscheidende Unterschied zu reinen Werkzeugen – konnten Arbeiten ausgeführt werden, welche niemals durch körperliche Arbeit oder Anstrengung allein hätte bewältigt werden können. Doch jede Maschine brauchte nach wie vor einen Menschen, der sie bedient oder zumindest beaufsichtig und korrigiert, sodass die erledigte Arbeit im erdachten Sinne erfolgt.
Wie veränderten Computer die Automatisierung und was führte schließlich zu maschinellem Lernen?
Mit der Entwicklung des Computers wurde es der Menschheit nach und nach möglich, Tätigkeiten nicht nur teilautomatisiert erledigen zu lassen, sondern sie war fähig, bestimmte Tätigkeiten vollautomatisiert und ohne eine menschliche Kontrollinstanz erledigen zu lassen. Der Geist der Informatik war hierbei durch eine strikte Logik bestimmt: Wenn -> Dann. Tritt Ereignis A ein, führe X aus, tritt hingegen B ein, führe Y aus, usw. Die Fähigkeiten jedes Programms sind hierdurch dem Grunde nach von Weitsicht und Fleiß der Programmierer abhängig. Kennt das Programm beispielsweise Ereignis C nicht, kann es auch keine adäquate Aktion ausführen und stoppt im besten Fall einfach und gibt eine Fehlermeldung aus. Technische Möglichkeiten und Leistungsfähigkeit von Computern entwickelten sich ständig weiter, sodass auch die Anforderungen an Programme ständig zunahmen.
Nach und nach wurden Programme immer komplexer und man erreichte schließlich die Grenze der Implikation. Es wurden also Programme gefordert, bei denen es schlichtweg zu aufwändig, wenn nicht gar unmöglich ist, jeden möglichen Ausgangszustand im Vorfeld vorhersagen zu können und diesen auch noch zu programmieren. Die logische Folge zur Überwindung dieser Grenze bestand darin, sich Abhilfe mittels Rahmenbedingungen zu schaffen, bei denen sich egal wie ein Input aussieht, der Output an vorher festgelegten Gesetzmäßigkeiten orientiert, sodass nicht jeder Zustand im Vorfeld einzeln programmiert werden muss. Doch auch durch solche Rahmenbedingungen bleiben Programme geschlossene Systeme und sind nicht von sich aus außerhalb dieser Rahmenbedingungen handlungsfähig. Die Menge an Zuständen und das Problem, dass es Zustände geben kann, die im Vorfeld nicht bedacht werden konnten, brachte die Forschung letztlich dazu, sich auf maschinelles Lernen zu konzentrieren.
Maschinelles Lernen und die Veränderung von Programmarchitektur
Maschinelles Lernen löst sich grundsätzlich von der Implikation von Wenn -> Dann Zuständen. Dies wird mithilfe von statistischen Algorithmen erreicht, also Programmen, deren Output auf Wahrscheinlichkeit beruht. Die Antwort eines auf Wahrscheinlichkeit basierenden Programmes ist also nicht länger starr vordefiniert, sondern – ähnlich wie unser Gehirn – erstellt es eine Antwort, welche – basierend auf den Trainingsdaten – am wahrscheinlichsten zutrifft. Doch ähnlich wie bei einem menschlichen Gehirn müssen viele Zustände „trainiert“ oder „erlernt“ werden, sodass das Ergebnis tatsächlich mit hoher Wahrscheinlichkeit als korrekt oder sehr wahrscheinlich interpretiert wird. Ein Mensch lernt durch Try & Error. Neues Wissen wird aufgenommen oder erdacht und ausprobiert. Bei einem Fehlschlag wird in der Regel etwas Neues ausprobiert, es sei denn, man ist überzeugt, dass es funktionieren muss und es lediglich an ausreichend Übung fehlt.
Maschinelles Lernen funktioniert ähnlich, doch es fehlte lange an genügend Daten und leistungsfähiger Hardware, um gute Ergebnisse liefern zu können. Der Durchbruch gelang im Teilgebiet des maschinellen Lernens, der generativen KI (genAI). GenAI ist es möglich Text, Bilder, Videos oder andere Daten zu generieren, die es vorher so in der Form noch nicht gab. Als prominentestes Beispiel gilt OpenAI mit seinem Large Language Modell (LLM) ChatGPT. Ein LLM erhält Text als Eingabe und gibt Text als Antwort zurück, die nach menschlichen Standards meist als eine gute oder adäquate Antwort gewertet wird, ähnlich wie in einem Gespräch. Ein LLM kann allerdings nicht bewerten, ob die gegebene Antwort tatsächlich korrekt ist.
Warum LLMs, wenn sie keine gesichert korrekten Antworten geben?
Um es kurz zu fassen: Die Antwort liegt im Zugang zur Technologie.
Werden Werkzeuge und Maschinen so konstruiert, dass der Mensch sie händisch gut und sinnvoll verwenden kann, so wurden für Computer Peripheriegeräte wie Bildschirme, Maus und Tastatur entwickelt. Der letzte große Entwicklungsschritt in dieser Reihe war die Entwicklung von Touchpads, welche alle bekannten Zugangsmöglichkeiten zu Computern in sich vereinten. Spracherkennung hingegen wurde zwar in den letzten Jahren besser, doch der wirkliche Durchbruch kam erst mit LLMs und genAI. Das, was uns Menschen ausmacht, nämlich Sprache, wurde erstmals als Zugang zu Technologie erschlossen. Mithilfe von genAI ist es möglich mit Computern richtig zu sprechen und es ist nur eine Frage der Zeit, bis die Kombination von LLMs und Speech-to-Text in nahezu jedem Bereich Einzug finden wird. Wie lange es anschließend wohl noch dauern wird bis die letzte Hürde – die Kommunikation mit Computern per Gedanken – marktreif sein wird?
Was bedeutet das für zukünftige Entwicklungen?
Nun, wie eingangs beschrieben, werden genAI Modelle kontinuierlich besser. Besser werden bedeutet, sie brauchen mehr Daten und bessere Trainingsparameter. Hierdurch werden nicht nur Fehler beim Verständnis von Input- und Output verringert, sondern die Anbindung an echte Funktionen kann sukzessive entwickelt und erweitert werden. Sobald eine Art Orchestration-Layer zwischen LLMs und echten Programmen fehlerfrei arbeiten kann, wird die sprachliche Steuerung und Kommunikation mit Computern wahrscheinlich großflächig verwendet werden können. Gleichzeitig werden neue LLMs und andere genAI Modelle entstehen, die für bestimmte Aufgaben abgestimmt (fine-tuned) sind. Auch werden Investitionen in Datenzentren weiter vorangetrieben, um die rasant steigende Nachfrage nach KI überhaupt decken zu können.
Um ein komplexes Ergebnis zu erzielen, brauchte ein Nutzer bisher viele unterschiedliche Fähigkeiten, um mit den verschiedensten Programmen umzugehen. Sobald genAI bzw. LLM jedoch weit genug fortgeschritten ist, wird dies den Zugang zu Programmen liberalisieren. War es in der Vergangenheit nötig bei Spracheingabe, einzelne Schlüsselwörter zu identifizieren, um auf eine sehr begrenzte Anzahl bestimmter Funktionen zu schließen, kann genAI die Spracheingabe semantisch und als Ganzes erfassen. Aus einer Beschreibung des gewünschten Ergebnisses, können so die einzelnen Schritte abgeleitet werden, welche zum Erreichen des gewünschten Ziels nötig sind, ohne dass der Nutzer Schritt für Schritt sagen muss, wie der Ablauf zu erfolgen hat. Nutzer brauchen zukünftig also nicht mehr die einzelnen Funktionen eines Programms zu lernen um sie anschließend in der richtigen Reihenfolge anzuwenden, möglicherweise brauchen Nutzer nicht einmal mehr das Programm zu kennen, welches zur Erstellung eines gewünschten Ergebnisses hilft…
Ein guter Artikel meines Kollegen Moritz gibt Einblicke in Hindernisse von LLMs und KI für die Finanzbranche.