Teststärke in verteilungsfreien Hypothesentests

Hier finden Sie Begleitmaterial zu dem veröffentlichen Artikel 'Teststärke in verteilungsfreien Hypothesentests' (nachfolgend Varmaz/Riebe (2019)) aus der Zeitschrift 'Wirtschaftswissenschaftliches Studium - WiSt', Heft 2-3, 2019. Es wird das Vorgehen zur Berechnung der Teststärke in Microsoft Excel™ (nachfolgend: Excel) anhand eines illustrativen Beispiels erläutert; insbesondere jedoch die Bestimmung der Teststärke in verteilungsfreien Hypothesentests basierend auf Resampling-Verfahren. Hinweis: Eine allgemeine Einführung in die theoretischen Grundlagen zur Bestimmung der Teststärke ist nicht Bestandteil dieses Blog-Beitrags.

Vorbemerkungen

Hier wird ein überschaubares Beispiel zur Berechnung gewählt, das jedoch ohne großen Aufwand auf beliebige Untersuchungsdesigns anwendbar ist. Die Vorgehensweise wird unter Verwendung von beispielhaften Daten erläutert. Die notwendigen Excel-Dateien sind in der Archiv-Datei enthalten.

Als Datengrundlage dient eine Stichprobe des studentischen Lernerfolgs. Der Lernerfolg einer Studentin $s$ wird ermittelt als

$Lernerfolg_s=\frac{(Erreichte Punkte)_s}{Gesamtpunkte}$

Die Studierenden werden in zwei Gruppen unterteilt. In der Gruppe 1 sind Studierende mit wöchentlicher Lernzeit unterhalb des Medians der Angaben aller Studierenden. In der Gruppe 2 sind Studierende mit wöchentlicher Lernzeit oberhalb des Medians. Abbildung 1 zeigt die aggregierten Daten aus der Exceldatei Fallstudie.xlsx an, die für die Berechnungen notwendig sind. Es handelt sich dabei um die gleichen Daten, die auch in der Tab. 2 bei Varmaz/Riebe (2019) zu finden sind.

Abb. 1.: Aufbau des Datensatzes für den t-Test in Excel (Auszug). Excel-Datei: Fallstudie.xlsx

Die Zellen C4 und D4 beinhalten die Mittelwerte der Variable ‚Lernerfolg‘ für die jeweilige Gruppe, die Zellen C5 und D6 (C7 und D7) beinhalten die Standardabweichung der Variable (Anzahl der Beobachtungen pro Gruppe).

Hypothesentests und Teststärke

Durchführung des t-Tests auf Mittelwertunterschiede

Für die Fragestellung der Fallstudie wird in Varmaz/Riebe (2019) ein einseitiger Zweistichproben-t-Test für unabhängige Stichproben durchgeführt. Dabei werden die beiden Hypothesen als

$H_0: \hat{\mu}_1\geq \hat{\mu}_2$
$H_1: \hat{\mu}_1 < \hat{\mu}_2$

formuliert. $\hat{\mu}_1$ und $\hat{\mu}_2$ sind die geschätzten Mittelwerte der Elemente aus der ersten Stichprobe (Gruppe 1) und die geschätzten Mittelwerte der Elemente aus der zweiten Stichprobe (Gruppe 2). Die Testfunktion (auch t-Statistik genannt) ist nach Gleichung (1)
$$(1)\qquad t=\frac{\hat{\mu}_1 - \hat{\mu}_2}{SE}$$
mit: $$SE=\sqrt{\frac{\sigma^2_1}{N_1}+\frac{\sigma^2_2}{N_2}}$$
und die Irrtumswahrscheinlichkeit nach Gleichung (2) zu bestimmen
$$(2) \quad \hat{\alpha}=F_t(t,DF)$$ mit $$DF=\begin{cases}\frac{\left(\frac{\sigma_1^2}{N_1}+\frac{\sigma_2^2}{N_2}\right)^2}{\frac{\left(\frac{\sigma_1^2}{N_1}\right)^2}{N_1 - 1} + \frac{\left(\frac{\sigma_2^2}{N_2}\right)^2}{N_2 -1}} & falls \quad \sigma_1^2\neq\sigma_2^2 \\ & \\ N_1 + N_2 - 2 & falls \quad \sigma_1^2\approx \sigma_2^2 \end{cases}$$

$SE$ ist der Standardfehler, $\sigma^2$ ist die Varianz der Elemente in der jeweiligen Stichprobe, und $N_1$ bzw. $N_2$ ist der jeweilige Stichprobenumfang. $\hat{\alpha}$ ist die geschätzte Irrtumswahrscheinlichkeit, $F_t$ ist die Verteilungsfunktion der t-Verteilung und $DF$ ist die Anzahl der Freiheitsgrade.

Abb. 2.: Aufbau des Tabellenblattes für den t-Test in Excel (Auszug). Excel-Datei: Fallstudie.xlsx

Die Abbildung 2 zeigt die Excel-Funktionen zu Bestimmung der notwendigen Kennzahlen, um die geschätzte Irrtumswahrscheinlichkeit für einen t-Test unter der Annahme gleicher Varianzen in beiden Gruppen zu bestimmen. Die Ergebnisse sind in der Tabelle 3 bei Varmaz/Riebe (2019) zu finden.

Die Excel-Datei beinhaltet auch die Bestimmung der Kennzahlen unter der Annahme ungleicher Varianzen. Dabei wird die Anzahl der Freiheitsgrade nach der anderen Formel in Gleichung (2) bestimmt.

Bestimmung Teststärke bei der Durchführung des t-Tests

Die Bestimmung der Teststärke geschieht in drei Schritten:

Bestimmung der unteren/oberen Grenze des Konfidenzbereiches x für ein Signifikanzniveau α für die Gruppe 1 nach Gleichung (3), $$(3)\quad x=F^{-1}_N(\alpha | \hat{\mu}_1,\hat{\sigma}_2)$$ wobei $F^{-1}_N$ der Wert der inversen Normalverteilung an der Stelle $\mu$ und $\sigma$ ist.
Bestimmung der Irrtumswahrscheinlichkeit $\beta$ für den Fehler 2. Art nach Gleichung (4) $$(4) \quad \beta=F_N(x | \hat{\mu}_2, \hat{\sigma}_2 )$$ wobei $F_N$ der Wert der Verteilungsfunktion der Normalverteilung an der Stelle $\mu$ und $\sigma$ ist.
Bestimmung der Teststärke als $(1-\beta)$

Abb. 3.: Aufbau des Tabellenblattes für die Bestimmung der Teststärke im Rahmen eines t-Test in Excel (Auszug). Excel-Datei: Fallstudie.xlsx

Die Abbildung 3 zeigt die Excel-Funktionen zur Durchführung der angegebenen drei Schritte. Alpha entspricht der maximal vom Nutzer akzeptierten Irrtumswahrscheinlichkeit. UCI korrespondiert zum Wert x aus der Gleichung (3), Beta ist die Irrtumswahrscheinlichkeit $\beta$ für den Fehler 2. Art nach Gleichung (4) und (1-Beta) ist die Teststärke. Die Ergebnisse sind in der Tabelle 3 bei Varmaz/Riebe (2019) zu finden.

Die Excel-Datei Fallstudie.xlsx im Archiv beinhaltet die Bestimmung der Kennzahlen unter der Annahme ungleicher Varianzen.

Bootstrap-basierte Hypothesentests

Die Durchführung eines bootstrap-basierten Hypothesentests lässt sich in sechs Schritten beschreiben:

Formulierung der Null- und Gegenhypothese, Vorgabe des Signifikanzniveaus sowie des Prüfwertes, der unter der Nullhypothese gültig ist. Der Prüfwert kann anhand der originären Stichprobe bestimmt werden.
Variation der originären Stichprobe durch Bootstrap-Verfahren.
Berechnung der Kenngröße (z.B. Mittelwerte aus den bootstrap-basierten Stichproben in Gruppe 1 und 2)
Wiederholung der Schritte 2. und 3. R mal
Bestimmung des Konfidenzintervalls

Bei zweiseitigem Hypothesentest: Aggregation über alle R Ergebnisse, Bestimmung des Konfidenzintervalls zwischen dem unteren (α/2)- und dem oberen (1-$\alpha$/2)-Quantil von R Mittelwerten aus bootstrap-basierten Stichproben;
Bei einseitigem Hypothesentest: Aggregation über alle R Ergebnisse, Bestimmung des Konfidenzintervalls als Werte höher als der untere $\alpha$-Quantil (falls $H_0: \mu_1<\mu_2$) oder als Werte niedriger als der obere (1-$\alpha$)-Quantil (falls $H_0: \mu_1>\mu_2$ basierend auf R Mittelwerten aus bootstrap-basierten Stichproben

Vergleich des Prüfwertes mit dem Konfidenzintervall aus Schritt 5

Falls Prüfwert im Konfidenzintervall liegt, dann Nullhypothese beibehalten
Falls Prüfwert nicht im Konfidenzintervall liegt, dann Nullhypothese ablehnen

Excel bietet in seinen Grundfunktionen nur sehr eingeschränkte Möglichkeiten an, die Schritte 2 bis 5 umzusetzen. Daher greifen wir an dieser Stelle auf das frei erhältliche Excel-AddIn „PopTools“ zurück. Die aktuellste Version lässt sich von der Seite http://www.poptools.org herunterladen.

Anstelle der nachfolgenden Beschreibungen für den bootstrap-basierten Hypothesentest und der verteilungsfreien Bestimmung der Teststärke können Sie sich an dieser Stelle das Video-Begleitmaterial anschauen. Das Video zeigt und erläutert das Vorgehen in Excel.

Abb. 4.: Aufbau der Stichprobe für den bootstrap-basierten Hypothesentest in Excel (Auszug). Excel-Datei: Fallstudie_Sumulation.xlsx

In der Abb. 4 sind die Daten der originären Stichprobe zu sehen. Nach der Festlegung der Zielgröße (Mittelwert des Lernerfolgs) im Schritt 1, wird im Schritt 2 eine Variation der originären Stichprobe durch Bootstrapping vorgenommen. Die Einstellung des PopTools-Dialogfensters zeigt die Abb. 5 an. Das Dialogfenster erreichen Sie über das Ribbon „Add-Ins“ in Excel, dann PopTools und anschließend „Resample“.

Abb. 5.: Einstellungen für das Bootsrapping

Die Einstellungen für das Bootstrapping sollen genauso wie in der Abb. 5 erfolgen, damit das Verfahren angewendet werden darf. Insbesondere sollen die Zufallsstichproben als „Ziehen mit Zurücklegen“ gebildet werden. Das Ergebnis legt PopTools in den ausgewählten Tabellenbereich ('Outputrange'), der gleichzeitig die Dimension der Zufallsstichprobe angibt. Ferner fügt PopTools in den Tabellenbereich eine Reihe von internen Funktionen ein, mit denen nach jeder Nebenrechnung eine neue Zufallsstichprobe erstellt wird (vgl. Abb. 6).

Abb.6.: Aufbau des Tabellenblattes, hier Ziehen der Zufallsstichprobe, zum bootstrap-basierten Hypothesentest in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

Im Schritt 3, dargestellt in der Abb. 7, erfolgt die Bestimmung der Zielgröße. In unserem Fall handelt es sich dabei um die Mittelwerte des Lernerfolgs für die Gruppe 1 und 2. Beachten Sie, dass die Zielgrößen anhand der Zufallsstichprobe (und nicht anhand der originären Stichprobe) bestimmt werden.

Abb. 7.: Bestimmung der Zielgröße für den bootstrap-basierten Hypothesentest, hier Mittelwert, in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

Die R Variation der Zufallsstichprobe aus dem Schritt 4 wird wieder unter Zuhilfenahme von PopTools erreicht. Dazu wird die „Monte Carlo analysis“ (über PopTools → Simulation tools zu erreichen) verwendet. Die notwendigen Einstellungen für die Durchführung der Monte-Carlo-Simulation sind in der Abb. 8 dargestellt.

Abb.8.: Durchführung von 1000 Wiederholungen für den bootstrap-basierten Hypothesentest in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

PopTools bietet an dieser Stelle nicht nur die einfache Neuberechnung von Stichprobenwiederholung und die Bestimmung der Mittelwerte. Vielmehr kann durch entsprechende Einstellungen direkt der Schritt 5 umgesetzt werden. Die Abbildung 3 stellt die hierzu notwendigen Einstellungen dar. Das Signifikanzniveau von 5% für den einseitigen Hypothesentest wird in PopTools durch die Einstellung von 0,95 im Feld „Upper percentile“ festgelegt. Für einen zweiseitigen Hypothesentest könnte entsprechend auch die untere Grenze des Konfidenzbereichs spezifiziert werden. Die Anzahl der R Wiederholungen der Schritte 2 und 3 wird im Feld „Number of replicates“ auf 1000 festgelegt.

Für den eigentlichen Hypothesentest sind die Ergebnisse der Mittelwertschätzungen nicht weiter bedeutend. Die eigentliche Auswertung der Ergebnisse für den Hypothesentest nimmt PopTools vor. Für die Bestimmung der Teststärke ist es ratsam, die Ergebnisse der Mittelwertschätzungen in einem zusätzlichen Tabellenblatt durch die Bestätigung der Checkbox „Keep results“ abzuspeichern (vgl. Abb. 8).

Abb.9.: Ergebnisse für den bootstrap-basierten Hypothesentest in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

Die Ergebnisse des bootstrap-basierten Hypothesentests sind in der Abb. 9 dargestellt. Für die Diskussion und die Erläuterung der Ergebnisse wird auf den Artikel verwiesen.

Bootstrap-basierte Bestimmung der Teststärke

Die Bestimmung der Teststärke in einem bootstrap-basierten Hypothesentest erfolgt grundsätzlich nach dem gleichen Ablaufschema wie bei dem t-Test.

Schritt 1 ist analog zur Berechnung der Inverse xboot aus der Gleichung (3). Somit entspricht dieser Schritt inhaltlich der Bestimmung der oberen Grenze des Konfidenzbereiches im bootstrap-basierten Hypothesentest für Gruppe 1. Nachfolgend wird die obere Grenze des Konfidenzbereiches im bootstrap-basierten Hypothesentest für Gruppe 1 als $x_1^boot$ bezeichnet.
Schritt 2 beinhaltet die Bestimmung der Wahrscheinlichkeit $\beta$ für den Fehler 2. Art. Die Wahrscheinlichkeit β entspricht dem β-Quantil der bootstrap-basierten Mittelwertschätzungen für Gruppe 2, für die gelten muss, dass dieses β-Quantil mit der oberen Grenze der Konfidenzintervalls x_1^boot aus dem Schritt 1 übereinstimmt. Leider gibt es hierzu keine analytische Formel. Es muss das Optimierungsproblem nach Gleichung (5) gelöst werden. $$(5) \quad \min_{\hat{\beta}^{boot}}|x_1^{boot}-x_2^{boot}|$$ wobei $x_2^{boot}=F_Z^{-1}\left( \hat{\beta}^{boot} | \hat{\mu}_2^{boot},\hat{\sigma}_2^{boot} \right)$ Das Optimierungsproblem (5) beschreibt den Lösungsansatz, bei dem das $\beta$ als veränderbare Variable $\beta^{boot}$ solange angepasst wird, bis die Differenz zwischen $x_1^{boot}$ und dem $\beta$-Quantil der Gruppe 2 ($x_2^{boot}$) minimal wird. Die Inverse der empirischen Verteilungsfunktion $F_Z^{-1}$ kann aus den (abgespeicherten) K Mittelwertschätzungen bestimmt werden.
Im Schritt 3 wird dann anhand des Wertes von $\beta$ aus der Optimierung die Teststärke berechnet.

In der ‚Monte Carlo analysis‘ aus dem vorangegangenen Abschnitt (bei der Umsetzung des bootstrap-basierten Hypothesentest) sind die berechneten Mittelwerte gespeichert worden. Die Ergebnisse werden durch PopTools in ein neu angelegtes Tabellenblatt namens „Monte Carlo results X“ abgelegt, wobei X für den aktuellen Aufruf des Tools „Monte Carlo analysis“ steht. Die Abb. 9 zeigt den Aufbau des neu angelegten Tabellenblatts an. Durch die Zufallsstichprobe werden alle Leser_innen unterschiedliche Mittelwertschätzungen sehen.

Abb. 10.: Aufbau des Tabellenblattes mit den abgespeicherten Mittelwerten zur Bestimmung der Teststärke im Rahmen eines bootstrap-basierten Hupothesentests in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

Abb. 11.: Bestimmung der Teststärke im Rahmen eines bootstrap-basierten Hypothesentests in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

Die Abb. 11 zeigt die Umsetzung der Schritte 1 und 3 sowie die Vorbereitung zur Umsetzung des Schritts 2. Im Schritt 1 wird die obere Grenze des Konfidenzintervalls $x_1^{boot}$ für die Gruppe 1 bestimmt, daher wird hier nur der Verweis auf die Zelle im Tabellenblatt 1 benutzt. Die Bestimmung der Teststärke im Schritt 3 erfolgt als einfache Differenzbildung in der Zelle F5.

Für den Schritt 2 muss das Optimierungsproblem in Gleichung (5) gelöst werden. Das Optimierungsproblem lässt sich mit der „Zielwertsuche“ lösen. Weil die Zielwertsuche nicht minimieren kann, wird als Zielwert eine geringe Abweichung (0,001) zwischen $|x_1^{boot}-x_2^{boot}|$ angestrebt. Anhand der gespeicherten Mittelwertschätzungen für Gruppe 2 kann für eine beliebige Startlösung (Zelle F4) das $\beta$-Quantil (Zelle F3) berechnet werden. Mit Hilfe des so berechneten Quantils für die Mittelwerte der Gruppe 2 wird die Differenz $|x_1^{boot}-x_2^{boot}|$ in der Zelle F7 gebildet. Anschließend kann mit der Zielwertsuche die Differenz zwischen dem $\beta$-Quantil für die Gruppe 2 und der Vorgabe aus Schritt 1 minimiert werden. Die notwendigen Einstellungen für die Zielwertsuche sind in der Abb. 11 dargestellt.

Abb. 12.: Einstellungen in der Zielwertsuche für die Bestimmung der Teststärke im Rahmen eines bootstrap-basierten Hypothesentests in Excel (Auszug). Excel-Datei: Fallstudie_Simulation.xlsx

Eine elaborierte Umsetzung des Optimierungsproblems wäre mit der Nutzung von „Solver“ möglich. Die Vorgehensweise mit dem Solver wird im 4. Video der Playlist aufgezeigt.

AfFinE

Search This Blog

Was können LLMs nicht (nie?) tun?