In der empirischen Forschung gibt es ein klassisches Problem: Die meisten interessanten Daten sind qualitativ, nicht quantitativ. Reden von Politikern, Geschäftsberichte, Social-Media-Posts, Zeitungsartikel oder historische Dokumente enthalten wertvolle Informationen, aber sie lassen sich schwer in Zahlen übersetzen. Genau hier setzt ein neues Forschungsprojekt an, das im Februar 2026 als NBER Working Paper erschienen ist: „GPT as a Measurement Tool“ von Hemanth Asirvatham, Elliott Mokski und Andrei Shleifer. Die Autoren stellen darin eine Software vor, die dieses Problem lösen soll: GABRIEL. Die Grundidee ist überraschend einfach. Large Language Models wie GPT können Texte verstehen, ähnlich wie ein Mensch. Wenn man sie gezielt einsetzt, können sie daher qualitative Informationen systematisch bewerten und quantifizieren. Zum Beispiel: • Wie innovationsfreundlich ist eine politische Rede? • Wie toxisch ist ein Social-Media-Kommentar? • Wie technisch komplex ist eine neue Tec...
Nahezu täglich sehen wir Nachrichten, welche neusten Test die LLMs gelöst haben - und die Tests sind häufig sehr komplex, wie z.B. Zulassungsprüfungen von Anwälten oder medizinische Examina. Doch gleichzeitig ist es verblüffend, an welchen einfachen Fragen LLMs scheitern. Tyler Cowen schrieb, dass die LLMs die für die Menschen mit Internetzugang einfache Frage nicht richtig beantworten Name three famous people who all share the exact same birth date and year Das Scheitern der LLMs, diese und ähnlich einfachen Fragen zu beantworten, kann uns wichtige Hinweise liefern, wie diese funktionieren. Es ist vielleicht am besten zu sagen, dass LLMs unglaubliche Intuition, aber begrenzte Intelligenz zeigen. Sie können fast jede Frage beantworten, die in einem intuitiven Durchgang beantwortet werden kann. Und mit ausreichend Trainingsdaten und genügend Schritten können sie sich einer Art von begründeter Intelligenz annähern. Mit anderen Worten, es gibt eine "Zielverschiebung", bei der,...