Die Staats- und Universitätsbibliothek Bremen (SuUB) und Bibliotheks- und Informationssystem (BIS) der Universität Oldenburg organisieren für die Studierenden die virtuelle Schreibnacht . Meiner Meinung ist es ein sehr gutes Projekt, das ich durch einen eigenen Beitrag unterstütze. Ich werde den Studierenden aufzeigen, wie sie datenbasierte Ausarbeitungen erfolgreich umsetzen. Ich werde natürlich auch die Nutzung von ChatGPT einbinden. Ich freue mich auf den regen Austausch.
Aktuell arbeite ich mit Begeisterung am 'Fredde Mac Single Family Dataset', einem wahren Datenschatz. Diesen entdeckte ich zufällig während der Begutachtung eines Konferenzbeitrags – zu meiner großen Überraschung.
Es gibt zwei Datensätze: den Standard- und den Nicht-Standard-Datensatz. Insgesamt sind das 52,4 Millionen Hypothekendarlehen, die zwischen 1999 und 2022 vergeben wurden. Für Datenfans wie mich ist das ein echter Goldschatz, aber auch eine Herausforderung. Ich werde in den nächsten Monaten mehr darüber berichten.
Freddie Mac stellt diesen Datensatz zur Verfügung, weil die Aufsichtsbehörde (Federal Housing Finance Agency - FHFA) es so will. Das Ziel? Mehr Transparenz schaffen und Investoren helfen, bessere Modelle für Kreditgeschäfte zu entwickeln. Ein großes Dankeschön an die Behörde dafür!
Es gibt zwei Datensätze: den Standard- und den Nicht-Standard-Datensatz. Insgesamt sind das 52,4 Millionen Hypothekendarlehen, die zwischen 1999 und 2022 vergeben wurden. Für Datenfans wie mich ist das ein echter Goldschatz, aber auch eine Herausforderung. Ich werde in den nächsten Monaten mehr darüber berichten.
Für alle, die sich für Daten interessieren, ist das eine tolle Gelegenheit, sich die Hände schmutzig zu machen. Ich nutze einen Teil des Datensatzes in meinem Seminar „Data Engineer: Daten und Datenbanken“. Auch wenn es nur Daten aus einem Quartal sind, reicht das völlig aus, um zu zeigen, warum Datenbanken so nützlich sind.
Nachdem ich die Datenbank eingerichtet hatte, habe ich gleich mit den ersten Auswertungen begonnen. Besonders interessant fand ich den Zinssatz und die Streuung der Zinsen zwischen den Hypothekendarlehen. Die Ergebnisse sind in der Abbildung zu sehen. In allen Grafiken sind die Rezessionszeiten in den USA grau markiert.
Ich habe zunächst nur die Standard-Darlehen analysiert. Diese sind am Ende der Laufzeit komplett abbezahlt, wenn alles nach Plan läuft. Und ich habe nur die Monate berücksichtigt, in denen mindestens 1000 Hypothekendarlehen vergeben wurden.
Die obere Grafik zeigt den durchschnittlichen Zinssatz pro Monat. Die mittlere Grafik zeigt die Streuung der Zinsen, und die untere Grafik zeigt die Anzahl der Beobachtungen pro Monat. Es gibt noch viel mehr zu analysieren, und ich werde in den nächsten Monaten darüber berichten.
Für die obere Grafik habe ich für jeden Monat den durchschnittlichen Zinssatz von allen festverzinslichen Hypothekendarlehen bestimmt, deren Zahlungen in eben diesem Monat gestartet sind. Ein Beispiel: ein Vertrag für Hypothekendarlehen kann am 1.1.1999 abgeschlossen werden. Wenn die erste Zahlung am 1.1.2000 startet, dann wird der Zins dieses Kredites in meine Statistik für den Januar 2000 eingehen und nicht für den Januar 1999. Das liegt auch daran, dass die Datenbank keine Angabe macht, wann der Vertrag abgeschlossen ist. Bereits ein erster Blick auf die Daten lässt mich erstaunen. Sind die Zinsen deutlich höher als in Deutschland, so wie es den Anschein macht? Wenn ja, warum ist das so? Es ist eine interessante Frage, die sich sehr gut für ein tolles Bachelorprojekt eignet. Das langsame Absinken der Zinsen bis ca. 2021 ist auffällig und stellt ein globales Phänomen dar (meisten bekannt als Absinken der Realzinsen). Wir können dieses Phänomen somit auch für die Hypothekendarlehen dokumentieren.
Die mittlere Grafik ist die Querschnittsstreuung der Zinsen zwischen den Hypothekendarlehen zu jedem Zeitpunkt. Konkret habe ich dort für jeden Monat die Standardabweichung der Zinsen bestimmt. Je höher die Querschnittsstandardabweichung ist desto größer sind die Zinsunterschiede zwischen den Krediten. Einen offensichtlichen Zusammenhang zwischen der Heterogenität der Zinsen und der Höhe der mittleren Zinsen kann ich bis ca. 2014 nicht erkennen. Ab diesem Zeitpunkt scheint ein gewisser Gleichlauf vorzuliegen.
Die untere Grafik ist die Anzahl der Beobachtungen in 1000 für jeden Monat. Zur Erinnerung: Mit einer Beobachtung ist gemeint, dass die erste Zahlung gemäß des Hypothekendarlehns exakt in diesem Monat gestartet hat. Es ist also nicht die Anzahl der laufenden Hypothekendarlehen gemeint. Es ist nur die Anzahl der Verträge gemeint, die im betroffenen Markt angefangen haben. Der Monat mit den wenigsten Beobachtungen ist mit 5011 der Februar 1999. Die maximale Anzahl startender Kredite ist mit 576871 im März 2003 zu beobachten.
Der Datenschatz hat noch sehr viele weitere Analysen zu bieten, über die ich in den nächsten Monaten berichten werde.
Falls es jemanden interessiert, den Datensatz für die Analysen habe ich in SQL mit
SELECT Date, AVG(Rate) as AVGR, STD(Rate) as STDR, COUNT(Rate) as NUMOBS FROM tabellenname GROUP BY Date;
erstellt. Den Datensatz und die Matlab-Codes für die Berechnungen habe ich in meinen Github hinterlegt, falls jemand mit den Daten spielen möchten, denn immerhin haben wir eine Zeitreihe mit 293 monatlichen Beobachtungen.
Comments
Post a Comment