Statistik mit DataLab: (Un)gleichheit...

Letztens fragte mich eine Studierende wieso in DataLab keine Tests auf Gleichheit von Mittelwerten eingebaut sind - man kann ja mit den üblichen Tests immer nur die Annahme der Gleichheit von Mittelwerten widerlegen, nie aber bestätigen. Sie erkannte darin einen schweren Mangel von DataLab und meinte, dass das Fehlen solch elementarer Tests wohl nicht verkaufsförderlich sei. Nun, statistisch gesehen eine interessante Frage - ob sich daraus allerdings Konsequenzen kommerzieller Natur ableiten lassen, wollen wir lieber den Marketingexperten überlassen (die werden schon einen passenden Spruch finden, damit der Blähbauch nicht zu groß wird).

Ich möchte die Antwort auf den statistischen Teil der Frage durch ein einfaches Beispiel illustrieren: Angenommen, wir möchten mit einem statistischen Test nachweisen, dass ein Mittelwert θ signifikant gleich einem vorgegebenen Wert θ₀ ist. Nach der üblichen Vorgangsweise bei statistischen Tests müsste man dazu als Nullhypothese das Gegenteil behaupten (H₀: "der Mittelwert ist nicht gleich θ₀"). Bei einer Ablehnung dieser H₀ wüsste man dann, dass der Mittelwert mit 100*(1-α)%iger Sicherheit gleich dem vorgegebenen Wert ist (wobei α das Signifikanzniveau ist).

So weit so gut. Das Problem ist nur, dass man keinen statistischer Test konstruieren kann, der zu einer direkten Ablehnung dieser Nullhypothese führt, da ja "nicht gleich" bedeuten kann, dass der Mittelwert sich nur ganz wenig unterscheidet (z.B. um ein Prozent abweicht), oder aber ganz enorm abweicht (z.B. um den Faktor 10 größer ist). So lange ich nicht festlege, was ich unter Ungleichheit verstehe, werde ich keine fundierte Entscheidung bzgl. H₀ treffen können (= H₀ auf einem bestimmten Signifikanzniveau ablehnen).

Um korrekt vorzugehen, muss ich also einen sogenannten Äquivalenzbereich definieren [ε₁, ε₂], innerhalb dessen ich etwaige Unterschiede als irrelevant betrachte. Für meine Null- bzw. Alternativhypothese gelten somit die Formulierungen:

H₀:	θ ≤ ε₁ oder θ ≥ ε₂
H₁:	ε₁ < θ < ε₂

Man führt also den Test auf Ungleichheit auf zwei einseitige Tests zurück und lehnt die oben formulierte Nullhypothese ab, falls beide Teiltests zu einer Ablehnung ihrer jeweiligen Nullhypothese führen.

Das bedeutet aber, dass ich (1) ohne vorherige Festlegung des Äquivalenzbereich, also ohne Festlegung, wie Ungleichheit definiert ist, keinen Test auf Gleichheit durchführen kann, und (2) bei zu kleinem Äquivalenzbereich ich nie eine Ablehnung der Nullhypothese bekommen werde. Wie groß der Äquivalenzbereich mindestens sein muss, hängt vom Signifikanzniveau und von der Zahl der Beobachtungen ab.

Zurück zur eingangs erwähnten Studierenden: Abgesehen davon, dass in DataLab natürlich einseitige Tests eingebaut sind und man auf diese Weise den Äquivalenztest durchführen kann - vielleicht sollte ich doch einen direkten Äquivalenztest in DataLab implementieren, mal sehen, ob das dann der Hit des Jahres wird und ich als kommerzielle Konsequenz daraus alle Studierenden des Jahrgangs auf ein Bier einladen kann (;-)

Statistik mit DataLab

Donnerstag, 15. November 2012

(Un)gleichheit...

Keine Kommentare:

Kommentar veröffentlichen

Blog-Archiv

Index

Dieses Blog durchsuchen