Dieser Beitrag richtet sich an Data Analysten und Data Scientists, welche sich für die Unterschiede in der Wahl eines geeigneten Hypothesentests im Bezug zur mittleren Lage interessieren.

Ziel dieses Beitrags ist es ein besseres Gefühl für den Unterschied in der Einsetzbarkeit von Hypothesentests zu bekommen. Es wird untersucht, inwiefern sich die Teststärke der unterschiedlichen Tests verändert, wenn die Annahmen (wie Normalverteilung und symmetrische Stichprobe) nicht erfüllt sind und inwiefern dies Probleme bei der Interpretation geben kann.

Im Kontext dieser Untersuchung beschränken wir uns auf die zweiseitigen Einstichproben-Varianten der Tests. Die Aussagen der Untersuchung können aber auch auf einseitige Nullhypothesen und die Zweistichproben-Varianten erweitert werden.

Eine Übersicht der verschiedenen Tests und ihrer Annahmen und Teststärke können Sie der folgenden Tabelle entnehmen:

Gegeben dieser Einschränkung betrachten alle Tests, ob es plausibel ist, dass eine Grundgesamtheit mit vorgegebenem Lagemaß die betrachtete Stichprobe erzeugen könnte.

Während beim t-Test auf den Mittelwert getestet wird und beim Vorzeichentest auf den Median, verwendet der Wilcoxon-Vorzeichen-Rang-Test de facto eine Mischung zwischen Median und Mittelwert, wobei auf einen Wert zwischen diesen getestet wird.
Die Unterscheidung im Bezug auf das genaue Lagemaß ist deshalb relevant, da nur bei Symmetrie „Median = Mittelwert“ gilt. Ist die Voraussetzung nicht mehr erfüllt, muss zwischen den Lagemaßen unterschieden werden. Optimal wäre immer eine mathematisch perfekte Normalverteilung, da so der strengere und aussagekräftigere t-Test verwendet werden kann. Aber dieser Fall wird in der Praxis nicht vorkommen, daher muss man abwägen:

Was ist relevanter? Stärkere Teststärke aufgrund strengeren Tests ODER Fehler, die entstehen aufgrund nicht erfüllter Voraussetzungen?

Die folgende Untersuchung soll helfen, diese Frage zu beantworten.

Aufgebaut ist der Beitrag in mehreren Abschnitten. Je nach Vorkenntnissen können Sie direkt zur Analyse der Hypothesentests springen, ansonsten geben Ihnen die folgenden kurzen Abschnitte weitere Erklärungen.

Struktur des Beitrags:

Was ist ein Hypothesentest und was ist ein Fehler 1. und 2. Art?

Ein Hypothesentest wird grundsätzlich verwendet, um Annahmen über Eigenschaften der Grundgesamtheit basierend auf den Daten einer Stichprobe statistisch zu verifizieren. Hierfür wird eine sogenannte Nullhypothese (H0) aufgestellt, welche zugunsten von der Alternativhypothese (H1) verworfen werden kann.


H0: Der Median der Stichprobe liegt bei 0
H1: Der Median der Stichprobe liegt nicht bei 0.

Erklärung:
Als Eigenschaft wird der Median herangezogen. Es kann aufbauend auf den Hypothesen ein Hypothesentest erstellt werden, wobei es sich in diesem Fall um einen zweiseitigen Test handelt.

Wird H0 fälschlicherweise verworfen, obwohl die Aussage der Nullhypothese in Wahrheit richtig ist, wird ein Fehler 1. Art begangen. Die Wahrscheinlichkeit wird dabei mit der Irrtumswahrscheinlichkeit α angegeben. Die Irrtumswahrscheinlichkeit α wird vom Anwender des Hypothesentests vorher festgelegt und kann frei gewählt werden.

Außerdem gibt es den Fehler 2. Art, wenn H0 nicht zugunsten von H1 verworfen wird, obwohl diese falsch ist. Die Wahrscheinlichkeit für diesen Fall wird mit  beschrieben. Hierbei hängt  vom gewählten Test und den zugrundeliegenden Annahmen und den Eigenschaften der Grundgesamtheit ab. Im Gegensatz zur Irrtumswahrscheinlichkeit α kann  damit nicht vom Anwender direkt festgelegt und nur unter Annahmen überhaupt bestimmt werden. Die zentrale Frage dieses Beitrags lässt sich also auch herunterbrechen auf die Frage, wie sich  verhält, wenn die Annahmen der Hypothesentests nicht erfüllt sind.

Eine Zusammenfassung der Fehlertypen ist in nachstehender Tabelle zu finden:


Beide Fehlerarten stehen in einem engen Zusammenhang. Möchte man den Fehler 1. Art verringern und setzt deswegen α auf einen kleineren Wert, dann steigt automatisch die Wahrscheinlichkeit für einen Fehler 2. Art und andersherum.


Wir ziehen eine zufällige Stichprobe aus einer Grundgesamtheit mit Median 0. Diese Stichprobe analysieren wir anschließend mit einem Hypothesentest.

H0: Der Median der Stichprobe liegt bei 0.
H1: Der Median der Stichprobe liegt nicht bei 0.

Gegeben der Stichprobe gibt der Hypothesentest einen sehr signifikanten kleinen p-Wert aus. Der Hypothesentest verwirft entsprechend die Nullhypothese.
Hierdurch wurde ein Fehler 1. Art begangen.

Erklärung:
Obwohl die Nullhypothese verworfen wird, wissen wir aufgrund der Konstruktion, dass der Median der Grundgesamtheit bei 0 liegt. Die Nullhypothese wird also fälschlicherweise verworfen. Die Wahrscheinlichkeit, dass dies passiert liegt bei α bei einem Hypothesentest.


Vorgehen der Untersuchung

Im Rahmen der Analysen mit verschiedenen Verteilungen betrachten wir jeweils immer die empirische Verteilungsfunktion der p-Werte. Folgender Graph zeigt dies beispielhaft anhand des t-Test mit 10.000 normalverteilten Stichproben mit Mittelwert 0, Standardabweichung 1 und jeweils 100 Datenpunkten. Alle Anforderungen des t-Tests sind erfüllt, es gibt sich entsprechend ein typisches Idealbild:

Bevor wir näher auf die Interpretation der Grafik eingehen, zunächst folgender Hintergrund der empirischen Verteilungsfunktion und wie sie zustande kommt:

Betrachten wir, welche p-Werte überhaupt bei der Standardnormalverteilung, einem t-Test und unterschiedlichen getesteten Werten vorkommen:

In der ersten Zeile der Grafik wird jede untersuchte Stichprobe mit dem t-Test auf den Mittelwert 0 getestet. Dabei kam jeder p-Wert in der ersten Zeile gleichverteilt vor, d.h. alle p-Werte in etwa gleich häufig.

Wird dagegen mit einem falschen Mittelwert getestet, so verschiebt sich die Häufigkeiten der p-Werte weiter nach links. Es treten demnach korrekterweise mehr p-Werte mit sehr kleinem Wert auf, da der getestete Mittelwert nicht dem wahren Mittelwert entspricht.

Integrieren wir die Häufigkeitsdichte aus Zeile 1 der Grafik, so kommen wir auf die Grafik von oben zurück, welche die empirische Verteilungsfunktion aufzeigt. Hier wird gezeigt, wie viel Prozent der simulierten p-Werte kleiner oder gleich sind als ein bestimmter Wert. Mit p-Wert 0.05 sind 0.05 (5%) aller p-Werte aus der Simulationsstudie kleiner als 0.05. Das Ideal in unserem Beispiel (Gleichverteilung der p-Werte) ist demnach eine Gerade durch den Ursprung und Steigung 1. Da die Nullhypothese mit Mittelwert = 0 korrekt ist, ist die Verteilungsfunktion in hellblau näherungsweise ebenfalls eine Gerade und überdeckt das theoretische Ideal fast überall.

Der Fehler 1. Art kann ebenfalls aus dieser Grafik entnommen werden. Wir können den α-Fehler an dem Schnittpunkt zwischen der simulierten Verteilungsfunktion und der gestrichelten Linie ablesen, die die Irrtumswahrscheinlichkeit angibt. Der Schnittpunkt ist 5%, also das, was wir nach Konstruktion auch erwarten würden. Übertragen auf das Bild mit den Dichtefunktionen bedeutet das nichts anderes, als dass 5% der vorkommenden p-Werte links der 5% Grenze liegen.

Ändern wir nun den getesteten Wert minimal. In diesem Fall ist die Nullhypothese nicht mehr korrekt. Dafür können Sie die folgende Grafik mit der letzten Zeile der Grafik mit der Häufigkeitsdichte vergleichen:

Erst jetzt kann der β-Fehler abgelesen werden (da die Nullhypothese falsch ist). In diesem Fall gilt, dass der β-Fehler etwa 83.6% beträgt. Mit einer Wahrscheinlichkeit von 83.6% lehnen wir also die Nullhypothese fälschlicherweise nicht ab.


Der α-Fehler ist hier nicht mehr sichtbar, da die Nullhypothese nicht korrekt ist.


Bei dem Bild mit der Dichteverteilung sieht man die 83.6% indirekt, indem man die Anzahl der p-Werte rechts der 5% Grenze in Relation zu der Gesamtzahl setzt.

Wir wollen von unserem idealen Test, dass dieser bei Zutreffen der Nullhypothese einen α-Fehler von 5% zeigt, aber bei (relevanter) Abweichung davon einen möglichst kleinen β-Fehler.

In anderen Worten: Die Kurve sollte möglichst schnell nach oben links rutschen bei zunehmender Verfälschung der Nullhypothese.

Dieses Verhalten ist bei den Dichteverteilungen identisch dazu, dass (fast) alle p-Werte sich näher bei der 0 sammeln sollten, je mehr die Nullhypothese verfälscht wird.

Verhalten der Hypothesentests

Für alle Untersuchungen gilt, dass diese auf 10.000 Stichproben zu je 100 Werten beruhen.

Die Analyse erfolgt in mehreren Schritten. Zunächst wird die Dichte der Verteilung mit Mittelwert und Median gezeigt, danach die Analyse der Hypothesentests. Abschließend folgt jeweils eine kleine Interpretation der Analyse, wodurch wir Ihnen die wichtigsten Auffälligkeiten in jedem Analyseergebnis aufzeigen wollen.

Normalverteilung (normalverteilt, symmetrisch)

Für unseren ersten Test nutzen wir eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1. In diesem Fall gilt, dass Median und Mittelwert gleich sind und den Wert 0 haben.

Alle Voraussetzungen aller Tests sind erfüllt.

Dies führt zu folgender Simulation:

Interpretation:

Bei der ersten Grafik gilt mit Mittelwert = 0 die Nullhypothese als erfüllt. Bestes Verhalten eines Hypothesentests wäre also optimal auf der Geraden mit Ursprung 0 und Steigung 1 zu liegen.

Die Grafiken 2-3 dagegen zeigen einen zunehmend verfälschten Mittelwert und damit eine nicht-zutreffende Nullhypothese. Bestes Verhalten eines Hypothesentests wäre also eine Kurve, die möglichst weit links oben liegt.

Folgende Dinge sind bemerkenswert:

  1. Wie zu erwarten war, zeigt keiner der Tests einen erhöhten Fehler 1. Art bei korrekter Nullhypothese in Grafik 1. Während aber der Wilcoxon-Vorzeichen-Rang-Test und der t-Test fast perfekt auf dem Optimum liegen, zeigt der Vorzeichentest ein anderes Verhalten. Es sind klare Treppenstufen in der Verteilungsfunktion erkennbar, welche unterhalb der optimalen Gerade laufen.
    Übertragen auf die Dichte bedeutet das, dass nur ganz bestimmte p-Werte vorkommen. Dies liegt an der Teststatistik des Vorzeichentests, bei der nur gezählt wird, wie viele Datenpunkte links und wie viele rechts von dem untersuchten Wert liegen. Es gibt aber nur eine sehr beschränkte Anzahl an Kombinationen, die hier vorkommen.
    Dass die empirische Verteilungsfunktion des Vorzeichentests unterhalb der optimalen Geraden läuft bedeutet, dass der Test tendenziell zu hohe p-Werte angibt. Konkret gilt in diesem Beispiel, dass der Vorzeichentest nur in etwa 3.5% aller Fälle die Nullhypothese ablehnen wird. Er irrt also in die konservative Richtung; wir treffen weniger häufig starke Aussagen.
  2. Mit steigendem getestetem Vergleichsparameter sinkt wie erwartet der β-Fehler bei allen Tests. Hierbei zeigen der t-Test und der Wilcoxon-Vorzeichen-Rang-Test eine deutlich stärkere Teststärke als der Vorzeichentest.
  3. Im direkten Vergleich zwischen t-Test und Wilcoxon-Vorzeichen-Rang-Test sieht man, dass der t-Test, wie erwartet, besser abschneidet. Der Unterschied zwischen den beiden Tests ist jedoch nicht praktisch relevant. Beide zeigen in etwa das gleiche Verhalten.

Gleichverteilung (nicht normalverteilt, symmetrisch)

Betrachten wir nun die Gleichverteilung mit Minimum 0 und Maximum 1. In diesem Fall gilt, dass Median und Mittelwert gleich sind und den Wert 0.5 haben.

Diese Verteilung ist symmetrisch, aber sehr deutlich nicht normalverteilt. Damit sind die Voraussetzungen für den t-Test nicht erfüllt, aber für die anderen Tests schon.

Dies führt zu folgender Simulation:

Interpretation:

Das Ergebnis ist beinahe identisch zur Normalverteilung!

Obwohl die formalen Voraussetzungen des t-Testes der Normalverteilung nicht erfüllt ist, zeigt dieser trotzdem bessere Eigenschaften als der Wilcoxon-Vorzeichen-Rang-Test. Aus praktischer Sicht sind beide Tests jedoch austauschbar verwendbar.

Kann man daraus schließen, dass bei symmetrischen Verteilungen der t-Test pauschal vorzuziehen ist? Nein, wie unsere nächste Verteilung zeigt.

Talverteilung (Eigenkreation) (maximal nicht normalverteilt, symmetrisch)

Die Talverteilung wurde entwickelt als Beispiel für eine Verteilung, die zwar symmetrisch ist, aber auf eine gewisse Art das Gegenteil der Normalverteilung darstellt. Mittelwert und Median sind beide 0.5. Anbei die empirische Dichte basierend auf einer Stichprobe mit 10 Millionen Datenpunkten:

Die Verteilung besteht aus zwei Exponentialverteilungen, die sich gegenüberstehen. Werte außerhalb des Bereichs [0,1] wurden neu gezogen. Der Parameter λ gibt an, welcher Parameter bei den Exponentialverteilungen zugrunde gelegt wurde.

Folgendes ist die konkrete Umsetzung in R, wobei rate dem Parameter λ entspricht, um mit der Nomenklatur von R konsistent zu sein.:

rvalley <- function(n, rate){
  separation <- runif(n)
  n_left <- sum(separation<0.5)
  n_right <- n-n_left
  if(n_left>0){
    exp_left <- rexp(n_left,rate)
    to_repeat <- exp_left>1
    while(any(to_repeat)){
      exp_left[to_repeat] <- rexp(sum(to_repeat),rate)
      to_repeat <- exp_left>1
    }
  } 
  if(n_right>0){
    exp_right <- 1-rexp(n_right,rate)
    to_repeat <- exp_right<0
    while(any(to_repeat)){
      exp_right[to_repeat] <- 1-rexp(sum(to_repeat),rate)
      to_repeat <- exp_right<0
    }
  }
  res <- rep(NA,n)
  if(any(separation<0.5)) res[separation<0.5] <- exp_left
  if(any(separation>=0.5)) res[separation>=0.5] <- exp_right
  return(res)
}

Dies führt zu folgender Simulation:

Interpretation:

Alle Tests zeigen auch bei dieser eher ungewöhnlichen Verteilung bei Zutreffen der Nullhypothese korrektes Verhalten. (Grafik 1)

Abweichungen vom Median/Mittelwert (Grafik 2-3) werden im Gegensatz zur Gleich- und Normalverteilung hier wesentlich schneller vom Wilcoxon-Vorzeichen-Rang-Test erkannt. Lediglich bei sehr großen Abweichungen, bei denen man in der Praxis keinen Hypothesentest mehr benötigt, zeigt der t-Test eine bessere Leistung.

Insofern also Symmetrie vorliegt, ist der Wilcoxon-Vorzeichen-Rang-Test eine echte Alternative zum t-Test. Er zeigt de facto die gleiche Leistung bei üblichen Verteilungen, aber kann mit Sonderfällen (z.B. bimodalen Verteilungen) besser umgehen.

Gammaverteilung (fast normalverteilt, fast symmetrisch)

Die Gammaverteilung kann je nach Parameter ein sehr unterschiedliches Verhalten zeigen. In unserem Fall wählen wir Formparameter k=10.332 und Skalenparameter θ=1. Diese Verteilung wurde gewählt, da sie optisch einer Normalverteilung ähnelt, aber trotzdem eine deutliche Schiefe besitzt. In der Praxis können Gammaverteilungen zum Beispiel genutzt werden, um Reparaturzeiten oder Schadenshöhen zu modellieren.

Die gewählte Gammaverteilung ist nicht symmetrisch. Der Mittelwert ist genau 10.332, der Median gerundet 10.00.

Formal verwendetet werden darf nur der Vorzeichentest für den Median und asymptotisch (d.h. für große n) der t-Test für den Mittelwert. Die Kurve hat in etwa eine Glockenform und wir haben mit 100 Datenpunkten deutlich mehr als die häufig geforderten 30 Datenpunkte.

Dies führt zu folgender Simulation:

Interpretation:

An obenstehender Simulation kann man gut erkennen, dass man sich darüber im Klaren sein sollte, was man unter der zentralen Tendenz der Daten versteht:

  1. Der t-Test testet auf das arithmetische Mittel von 10.332. Betrachten wir die dritte Grafik sehen wir, dass das Verhalten des t-Tests hier auch einwandfrei dem entspricht, was man unter der Nullhypothese erwarten würde. Je weiter man sich davon in die eine oder andere Richtung entfernt, desto eher wird die Abweichung erkannt. Im Falle des Medians (erster Block) ist allerdings immer noch einen β-Fehler von 82.2% zu sehen.
  2. Der Wilcoxon-Vorzeichen-Rang-Test zeigt das erwartete Verhalten bezüglich des Fehlers erster Art weder beim Median (8.2%) noch beim Mittelwert (8.1%), sondern stattdessen bei dem dazwischenliegenden Wert von etwa 10.15. Abweichungen von diesem Wert werden in etwa der gleichen Stärke erkannt wie beim t-Test, nur versetzt dazu.
  3. Der Vorzeichentest ist der einzige Test, der beim Median korrekt kalibriert ist. Abweichungen davon werden erkannt, aber etwas schwächer als bei den anderen Tests.

Alle Tests sind also in der Lage grob einzuordnen, wo sich die zentrale Tendenz befinden könnte, aber testen auf unterschiedliche Dinge. Wenn man an einer robusteren Variante des Mittelwerts interessiert ist, aber eine größere Teststärke als der Vorzeichentest möchte, kann der Wilcoxon-Vorzeichen-Rang-Test ein guter Kompromiss sein.

Exponentialverteilung (nicht normalverteilt, nicht symmetrisch)

Betrachten wir nun die Exponentialverteilung mit λ=0.693. Dies wurde gewählt, da 0.693≈log(2) und hier der Median der Exponentialverteilung 1 ist. Der Mittelwert ist etwa 1.443.

Wie klar zu sehen ist, ist diese Verteilung nicht symmetrisch, geschweige denn normalverteilt.

Dies führt zu folgender Simulation:

Interpretation:

Hier wird der Unterschied der verschiedenen zentralen Tendenzen besonders deutlich.

  1. Der t-Test erkennt korrekterweise mit einer sehr hohen Genauigkeit, dass der Median von 1 nicht dem Mittelwert entspricht.
  2. Der Wilcoxon-Rangsummen-Test hat eine realistische Wahrscheinlichkeit sowohl den Median als auch den Mittelwert abzulehnen und testet effektiv auf einen Wert dazwischen.
  3. Der Vorzeichentest erkennt die Abweichung vom Median und zeigt hierbei eine leicht geringere Teststärke als der t-Test. Dies ist an der etwas schlechteren Performance der Abweichung im zweiten Bild zu erkennen, da dieser Wert in etwa in der Mitte von Median und Mittelwert liegt.

Fazit

Bei einer Stichprobengröße von 100 (oder mehr) ist der t-Test eine gute Wahl, um auf den Mittelwert zu testen, unabhängig von der zugrundeliegenden Verteilung.
Ist die Verteilung jedoch symmetrisch, kann der Wilcoxon-Vorzeichen-Rang-Test die bessere Wahl sein, da er ähnlich gut bei Normalverteilung und Gleichverteilung abschneidet, aber deutlich robuster bei Verteilungen ist, die nicht der klassischen Glockenform folgen.
Ist die Verteilung nicht symmetrisch, lassen sich die Unterschiede zwischen den drei Tests vor allem dadurch erklären, dass diese auf unterschiedliche Lagemaße testen. Es ist darum wichtig klar zu definieren, was man mit der mittleren Lage bezwecken möchte und welche Interpretation man verfolgt. In diesem Sinne sind die Tests nicht austauschbar und es ist notwendig den Vorzeichentest für den Median und den t-Test für das arithmetische Mittel zu nehmen. Der Wilcoxon-Vorzeichen-Rang-Test dagegen testet auf einen Wert in der Mitte.