Riesiger Datenschatz: „Fredde Mac Single Familiy Dataset“!

Was wäre, wenn die Regulierung von Large Language Models plötzlich nicht mehr nur Technologiepolitik wäre, sondern ein Fall für die Meinungsfreiheit? Dann würde aus einer Debatte über Sicherheit, Haftung und Kontrolle sehr schnell eine Debatte über Grundrechte. Genau hier setzt das Paper von Eugene Volokh, Mark A. Lemley und Peter Henderson an. Die Autoren argumentieren, dass der Output generativer KI rechtlich als geschützte Rede verstanden werden könnte. Nicht unbedingt, weil die KI selbst Rechte hat, sondern weil ihre Entwickler:innen und vor allem ihre Nutzer:innen Rechte haben, Informationen zu empfangen und mit Hilfe der Systeme selbst zu kommunizieren. Für die USA ist das ein starker Gedanke. Für Deutschland ist er interessant, aber deutlich weniger belastbar. Was ist das ökonomische Grundproblem? Im Kern geht es um die Kontrolle von Informationsproduktion. Staaten wollen Risiken von LLMs begrenzen: Desinformation, Manipulation, Diskriminierung oder gefährliche Inhalte....

Riesiger Datenschatz: „Fredde Mac Single Familiy Dataset“!

Aktuell arbeite ich mit Begeisterung am 'Fredde Mac Single Family Dataset', einem wahren Datenschatz. Diesen entdeckte ich zufällig während der Begutachtung eines Konferenzbeitrags – zu meiner großen Überraschung.

Freddie Mac stellt diesen Datensatz zur Verfügung, weil die Aufsichtsbehörde (Federal Housing Finance Agency - FHFA) es so will. Das Ziel? Mehr Transparenz schaffen und Investoren helfen, bessere Modelle für Kreditgeschäfte zu entwickeln. Ein großes Dankeschön an die Behörde dafür!

Es gibt zwei Datensätze: den Standard- und den Nicht-Standard-Datensatz. Insgesamt sind das 52,4 Millionen Hypothekendarlehen, die zwischen 1999 und 2022 vergeben wurden. Für Datenfans wie mich ist das ein echter Goldschatz, aber auch eine Herausforderung. Ich werde in den nächsten Monaten mehr darüber berichten.

Für alle, die sich für Daten interessieren, ist das eine tolle Gelegenheit, sich die Hände schmutzig zu machen. Ich nutze einen Teil des Datensatzes in meinem Seminar „Data Engineer: Daten und Datenbanken“. Auch wenn es nur Daten aus einem Quartal sind, reicht das völlig aus, um zu zeigen, warum Datenbanken so nützlich sind.

Nachdem ich die Datenbank eingerichtet hatte, habe ich gleich mit den ersten Auswertungen begonnen. Besonders interessant fand ich den Zinssatz und die Streuung der Zinsen zwischen den Hypothekendarlehen. Die Ergebnisse sind in der Abbildung zu sehen. In allen Grafiken sind die Rezessionszeiten in den USA grau markiert.

Ich habe zunächst nur die Standard-Darlehen analysiert. Diese sind am Ende der Laufzeit komplett abbezahlt, wenn alles nach Plan läuft. Und ich habe nur die Monate berücksichtigt, in denen mindestens 1000 Hypothekendarlehen vergeben wurden.

Entwicklung der Zinsen für festverzinsliche Hypothekendarlehen in den USA

Die obere Grafik zeigt den durchschnittlichen Zinssatz pro Monat. Die mittlere Grafik zeigt die Streuung der Zinsen, und die untere Grafik zeigt die Anzahl der Beobachtungen pro Monat. Es gibt noch viel mehr zu analysieren, und ich werde in den nächsten Monaten darüber berichten.

Für die obere Grafik habe ich für jeden Monat den durchschnittlichen Zinssatz von allen festverzinslichen Hypothekendarlehen bestimmt, deren Zahlungen in eben diesem Monat gestartet sind. Ein Beispiel: ein Vertrag für Hypothekendarlehen kann am 1.1.1999 abgeschlossen werden. Wenn die erste Zahlung am 1.1.2000 startet, dann wird der Zins dieses Kredites in meine Statistik für den Januar 2000 eingehen und nicht für den Januar 1999. Das liegt auch daran, dass die Datenbank keine Angabe macht, wann der Vertrag abgeschlossen ist. Bereits ein erster Blick auf die Daten lässt mich erstaunen. Sind die Zinsen deutlich höher als in Deutschland, so wie es den Anschein macht? Wenn ja, warum ist das so? Es ist eine interessante Frage, die sich sehr gut für ein tolles Bachelorprojekt eignet. Das langsame Absinken der Zinsen bis ca. 2021 ist auffällig und stellt ein globales Phänomen dar (meisten bekannt als Absinken der Realzinsen). Wir können dieses Phänomen somit auch für die Hypothekendarlehen dokumentieren.

Die mittlere Grafik ist die Querschnittsstreuung der Zinsen zwischen den Hypothekendarlehen zu jedem Zeitpunkt. Konkret habe ich dort für jeden Monat die Standardabweichung der Zinsen bestimmt. Je höher die Querschnittsstandardabweichung ist desto größer sind die Zinsunterschiede zwischen den Krediten. Einen offensichtlichen Zusammenhang zwischen der Heterogenität der Zinsen und der Höhe der mittleren Zinsen kann ich bis ca. 2014 nicht erkennen. Ab diesem Zeitpunkt scheint ein gewisser Gleichlauf vorzuliegen.

Die untere Grafik ist die Anzahl der Beobachtungen in 1000 für jeden Monat. Zur Erinnerung: Mit einer Beobachtung ist gemeint, dass die erste Zahlung gemäß des Hypothekendarlehns exakt in diesem Monat gestartet hat. Es ist also nicht die Anzahl der laufenden Hypothekendarlehen gemeint. Es ist nur die Anzahl der Verträge gemeint, die im betroffenen Markt angefangen haben. Der Monat mit den wenigsten Beobachtungen ist mit 5011 der Februar 1999. Die maximale Anzahl startender Kredite ist mit 576871 im März 2003 zu beobachten.

Der Datenschatz hat noch sehr viele weitere Analysen zu bieten, über die ich in den nächsten Monaten berichten werde.

Falls es jemanden interessiert, den Datensatz für die Analysen habe ich in SQL mit

SELECT Date, AVG(Rate) as AVGR, STD(Rate) as STDR, COUNT(Rate) as NUMOBS FROM tabellenname GROUP BY Date;

erstellt. Den Datensatz und die Matlab-Codes für die Berechnungen habe ich in meinen Github hinterlegt, falls jemand mit den Daten spielen möchten, denn immerhin haben wir eine Zeitreihe mit 293 monatlichen Beobachtungen.

AfFinE

Search This Blog

LLM-Regulierung als Frage der Meinungsfreiheit?

Riesiger Datenschatz: „Fredde Mac Single Familiy Dataset“!

Labels

Comments

Post a Comment

Popular posts from this blog

Verfügbarkeit von Informationen und Endowment-Effekt

Tauschparadigma und Endowment in der marktbasierten Ökonomie