Freitag, 21. Dezember 2012

Singular Value Decomposition

Heute bin ich mehr oder weniger zufällig auf einen interessanten Film aus dem Jahr 1976 gestoßen, der die Singular Value Decomposition (SVD) visualisiert. SVD ist ja inzwischen einer der am meisten eingesetzen Algorithmen in vielen Bereichen der Naturwissenschaften. Die Anwendungen reichen dabei von der Analyse von Schwingungen von Molekülen, über das Verhalten von Brücken im Sturm, bis zu vielen multivariaten Modellierungsverfahren wie z.B. PLS (partial least squares).

1976 war SVD noch relativ wenig bekannt, darum wurde der Film damals auch als eher exotisch angesehen. Der Film wurde durch Abfotographieren der einzelnen Schritte vom Computerbildschirm erzeugt. Man bedenke dabei, dass farbige Computerbildschirme zu dieser Zeit eine absolut seltene (und sehr teure) Angelegenheit waren, und wohl nur in wenigen Forschungsstätten zur Verfügung standen. Ich denke noch immer mit gemischten Gefühlen an eine Äußerung eines Betreuers meiner Diplomarbeit einige Jahre später, der tatsächlich meinte (so um 1980/81), dass Farbbildschirme nicht wirklich einen Gewinn für die Datenanalyse bringen würden.... na ja, so kann man sich irren.

Aber bevor ich mich zu sehr in Nostalgie verfange, hier der Film:

Cool, nicht? Also dann, Frohe Weihnachten!

Freitag, 7. Dezember 2012

vom Vertrauen in Schätzungen...

Ort der Handlung: Das Innenleben eines Studierenden an der chemischen Fakultät. Das Semester läuft nun so richtig auf Hochtouren, alle wuseln herum und sind nur mehr hektisch. Neben Laborübungen gibt es dann noch irgendwelche Zwischenprüfungen zu absolvieren, Proben nochmals zu messen, sich mit abgestürzten Computern herumzuschlagen, vergessene Passwörter wieder zu organisieren, parallel dazu Vorlesungen besuchen, sich für die Übung am nächsten Tag vorbereiten, bei der Abschlussfeier nicht abstürzen, .... und dann soll man all die neuen Dinge auch noch verstehen, oder zumindest soweit inhalieren, dass keiner merkt, dass man es eigentlich doch nicht verstanden hat.

Schnitt - zu Hause am Computer: irgendein Professor behauptet, ich hätte das Konfidenzintervall für die Abschätzung meines Analysenwerts falsch angegeben. Wie ich das hasse, ich will Chemiker werden, nicht Mathe-Fuzzi. Also Max anrufen, der kennt sich aus mit dem Mathe-Zeugs. Max meint, da muss man y-dach nehmen, weil das den Schätzwert mit dem richtigen Konfidenzintervall angibt. Mehr ist auch aus Max nicht herauszubekommen, weil grade Tina bei ihm ist, und Konfidenzintervalle für ihn momentan nicht so arg wichtig sind. Am besten ich suche mir eine Freundin aus der Mathematik, da kann man dann das Angenehme mit dem Nützlichen verbinden. Ah verdammt, das wird sich nicht ausgehen, ich muss die Korrektur bis morgen abgeben.

Also, eine Rauchpause, und dann googeln: "konfidenzintervall regression".... na da kommt ja einiges an Material hoch. Gewohnheitsmäßig klicke ich auf Wikipedia - obwohl in letzter Zeit bin schon oft arg eingefahren, in den Wikipediaeinträgen steht auch nicht immer das Gelbe vom Ei. Oh, Wikipedia bietet ja eine Menge Stoff zum Thema. Verdammt, beim Runterscrollen tauchen da ja Formeln auf, die mir alle spanisch vorkommen, und die Regression wird in diesem Artikel zwar erwähnt, aber in Zusammenhang mit den Koeffizienten, ist wohl nicht mein Problem. Also weiter, zu anderen Google-Ergebnissen, ah ja, da gibt es ja noch einen Wikipedia-Eintrag, explizit zur Regressionsanalyse. Enttäuschung - das einzige was Wikipedia in diesem Artikel dazu anbietet ist folgender geniale Satz: "Häufig wird neben dem prognostizierten Wert von y auch ein Konfidenzintervall angegeben, um so die Unsicherheit der Prognose abzuschätzen." - Ah ja, dacht ich mir's doch, das hilft ja wirklich weiter.

Vielleicht sollte ich es doch zur Abwechslung mit einem Buch probieren - aber mit welchem? Genaugenommen bin ich zu faul, in die Bibliothek zu pilgern, und jetzt ist es ohnehin schon zu spät. Also weiter im Internet stöbern. Ah da! Ein Eintrag in MatheBoard. Na die Damen und Herren kennen sich ja ziemlich aus. Da ist von "deskreptiver Statistik" die Rede (ich dachte das heißt doch "deskriptiv", oder?) und von einem "Bland-Altman-Plot" - was auch immer das ist. Alles Selbstdarsteller, jeder wirft mit Ausdrücken herum, keiner kann's erklären. Ah, da gibt es noch einen Link auf Wikipedia, auch zur Regression, aber ein anderer Artikel als die bisher besuchten. Mal sehen.... Schaut so aus, als ob das genau mein Problem behandelt. Aber schon wieder Formeln - keine Chance, ich bin dabei Chemiker zu werden, nicht Mathematiker.

Na was mache ich nun? Ist irgendwie doof, ich werd einfach y-dach hinschreiben, vielleicht schluckt der Prof. es ja, und morgen bei der Besprechung werde ich um mein Leiberl reden, ein paar Kraftausdrücke, wie "Konfidenzintervall", "Residuum" und "Heteroskedastizität" kann ich ja zumindest schon aussprechen.... (Mann, bin ich froh, wenn endlich Weihnachten ausbricht).

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Dienstag, 27. November 2012

Reaktionszeit im Alko-Dusel

Haben Sie sich schon einmal gefragt, um wieviel langsamer Sie ein gepflegtes Bier macht? Die Verkehrsauguren meinen ja (völlig zurecht), dass man durch den Genuss von Alkohol fahruntauglich wird.

Da sagte neulich ein Bekannter zu mir (110 kg, ein Hühne), dass er ein Bier überhaupt nicht spüre und ein zweites eher für die innere Schönheit notwendig ist, und natürlich auch nicht wirkt. Mein bescheidener Körper ist da nicht mit solchen inneren Schönheiten ausgestattet - ich merke schon das erste Bier. Allerdings kann ich überhaupt nicht einschätzen, wie stark sich ein Bier tatsächlich auswirkt.

Wie es halt dem Wissenschafter geziemt, lässt sich diese Frage durch ein einfaches Experiment klären. Dazu habe ich ein kleines Programm zur Messung der Reaktionszeit geschrieben, bei dem man auf die Farbveränderung einer Fläche am Bildschirm durch einen Mausklick reagieren muss. Also los geht's mit der Messung, zuerst im nüchternen Zustand, dann - nach einer Flasche Gösser Zwickl - im Zustand innerer Schönheit.

Ergebnis: die Verlangsamung nach einem Bier lässt sich gerade noch nachweisen. Ab dem zweiten Bier wird sich der Effekt vermutlich schon ganz deutlich zeigen; den Test wollt ich dann aber nicht machen, da das dann doch zu viel der inneren Schönheit gewesen wäre.

Für die Statistik-Freaks nun die Details, hier sind die Daten (dabei wurde jeweils 50 bzw. 51 mal die Reaktionszeit auf den Farbumschlag von weiß auf rot gemessen):

Reaktionszeiten nüchtern [msec]
259, 299, 238, 242, 261, 258, 355, 
257, 275, 269, 265, 343, 230, 247, 
290, 287, 230, 245, 267, 348, 287,
287, 318, 249, 279, 273, 278, 233, 
411, 268, 347, 250, 289, 272, 349, 
305, 349, 252, 373, 403, 396, 258, 
300, 293, 258, 446, 288, 304, 272, 
279

Reaktionszeiten nach einem Bier [msec]
375, 324, 268, 512, 233, 274, 358, 
249, 255, 249, 556, 274, 453, 335, 
307, 361, 506, 297, 275, 271, 290, 
328, 279, 267, 351, 246, 263, 282, 
276, 310, 469, 274, 328, 454, 286, 
440, 323, 249, 252, 360, 433, 274, 
421, 419, 387, 248, 272, 289, 290,
311, 241
Was man an den Daten sofort sieht, ist, dass sie ganz offensichtlich nicht normalverteilt sind, der Shapiro-Wilk-Test liefert dann dazu auch noch die handfesten Zahlen - also nichts mit t-Test zum Vergleich der Reaktionszeiten, es drängt sich der Mann-Whitney-U-Test auf. Der Vorteil des U-Tests ist, dass er nahezu keine Voraussetzungen verlangt - ein Test für alle Lebenslagen, aber auch ein wenig geringer in der Trennschärfe.

Die Ergebnisse im Detail sprechen für sich. Der Mittelwert der Reaktionszeiten im nüchternen Zustand ist um rund 33 msec niedriger als nach einem Bier, die Standardabweichung der Reaktionszeiten ist nach einem Bier deutlich höher, was darauf hindeutet, dass man nach einem Bier nicht nur langsamer wird, sondern auch unkonzentrierter (die Ergebnisse schwanken mehr).

Daten des Blocks A (nüchtern):
      Zahl der Daten: 50
          Mittelwert: 292.62000
        Standardabw.: 50.54999

Daten des Blocks B (nach 1 Bier):
      Zahl der Daten: 51
          Mittelwert: 326.35294
        Standardabw.: 80.74003
Wendet man nun den U-Test auf die Daten an, dann kann man auf einem Signifikanzniveau von 0.05 (95%ige Sicherheit) die Nullhypothese, dass sich die beiden Verteilungen nicht unterscheiden, ablehnen. Das Ergebnis ist zwar knapp, aber doch eindeutig (U-Wert 969.5, kritische Grenze für das angegebene Signifikanzniveau 986; die Nullhypothese ist abzulehnen, wenn der U-Wert kleiner als die kritische Grenze ist).

.... bleiben noch ein paar nachdenkliche Fragen: wie weit fährt ein Auto mit 100 km/h in 33 msec? Und wie ist das mit dem vermehrt auftretenden "Sekundenschlaf" unter Alkoholeinfluss? Die Antworten lassen sich wohl so zusammenfassen: don't drink and drive.....

Donnerstag, 15. November 2012

(Un)gleichheit...

Letztens fragte mich eine Studierende wieso in DataLab keine Tests auf Gleichheit von Mittelwerten eingebaut sind - man kann ja mit den üblichen Tests immer nur die Annahme der Gleichheit von Mittelwerten widerlegen, nie aber bestätigen. Sie erkannte darin einen schweren Mangel von DataLab und meinte, dass das Fehlen solch elementarer Tests wohl nicht verkaufsförderlich sei. Nun, statistisch gesehen eine interessante Frage - ob sich daraus allerdings Konsequenzen kommerzieller Natur ableiten lassen, wollen wir lieber den Marketingexperten überlassen (die werden schon einen passenden Spruch finden, damit der Blähbauch nicht zu groß wird).

Ich möchte die Antwort auf den statistischen Teil der Frage durch ein einfaches Beispiel illustrieren: Angenommen, wir möchten mit einem statistischen Test nachweisen, dass ein Mittelwert θ signifikant gleich einem vorgegebenen Wert θ0 ist. Nach der üblichen Vorgangsweise bei statistischen Tests müsste man dazu als Nullhypothese das Gegenteil behaupten (H0: "der Mittelwert ist nicht gleich θ0"). Bei einer Ablehnung dieser H0 wüsste man dann, dass der Mittelwert mit 100*(1-α)%iger Sicherheit gleich dem vorgegebenen Wert ist (wobei α das Signifikanzniveau ist).

So weit so gut. Das Problem ist nur, dass man keinen statistischer Test konstruieren kann, der zu einer direkten Ablehnung dieser Nullhypothese führt, da ja "nicht gleich" bedeuten kann, dass der Mittelwert sich nur ganz wenig unterscheidet (z.B. um ein Prozent abweicht), oder aber ganz enorm abweicht (z.B. um den Faktor 10 größer ist). So lange ich nicht festlege, was ich unter Ungleichheit verstehe, werde ich keine fundierte Entscheidung bzgl. H0 treffen können (= H0 auf einem bestimmten Signifikanzniveau ablehnen).

Um korrekt vorzugehen, muss ich also einen sogenannten Äquivalenzbereich definieren [ε1, ε2], innerhalb dessen ich etwaige Unterschiede als irrelevant betrachte. Für meine Null- bzw. Alternativhypothese gelten somit die Formulierungen:

H0: θ ≤ ε1 oder θ ≥ ε2
H1: ε1 < θ < ε2

Man führt also den Test auf Ungleichheit auf zwei einseitige Tests zurück und lehnt die oben formulierte Nullhypothese ab, falls beide Teiltests zu einer Ablehnung ihrer jeweiligen Nullhypothese führen.

Das bedeutet aber, dass ich (1) ohne vorherige Festlegung des Äquivalenzbereich, also ohne Festlegung, wie Ungleichheit definiert ist, keinen Test auf Gleichheit durchführen kann, und (2) bei zu kleinem Äquivalenzbereich ich nie eine Ablehnung der Nullhypothese bekommen werde. Wie groß der Äquivalenzbereich mindestens sein muss, hängt vom Signifikanzniveau und von der Zahl der Beobachtungen ab.

Zurück zur eingangs erwähnten Studierenden: Abgesehen davon, dass in DataLab natürlich einseitige Tests eingebaut sind und man auf diese Weise den Äquivalenztest durchführen kann - vielleicht sollte ich doch einen direkten Äquivalenztest in DataLab implementieren, mal sehen, ob das dann der Hit des Jahres wird und ich als kommerzielle Konsequenz daraus alle Studierenden des Jahrgangs auf ein Bier einladen kann (;-)

Montag, 12. November 2012

Buchstabensalat

Ich weiß nicht, wie es anderen Leuten geht; aber wenn ich zu viel (öde) Arbeit habe, dann neige ich dazu, mir mal zwischendurch ein "Spielchen" zu genehmigen. Und am Wochenende war's mal wieder soweit. Die Zahl der zu verbessernden Übungen aus dem Biostatistik-Kurs stieg gegen gefühlte Unendlich - ein schier unüberwindlicher Haufen von Protokollen und Emails. Also was liegt näher, als sich mal kurz aus der Schlacht zu nehmen.

Idee zum Spielchen: Ermittle alle Zwei-Buchstaben-Kombinationen in beliebigen Texten und zähle sie. Die Häufigkeiten der Buchstabenkombinationen werden dann zur statistischen Analyse dieser Texte verwendet.... So weit die Idee. Nun zur Verwirklichung: Da ich seit geraumer Zeit an mehreren eBooks schreibe, und zwei davon inhaltlich praktisch ident sind, das eine in Deutsch das andere in Englisch, wollte ich mal wissen, ob man auf diesem sehr banalen Weg die beiden Ebooks unterscheiden kann.

Also schrieb ich ein kleines 100-Zeilen-Programm, das die Seiten der beiden eBooks (je 527 Seiten) in diese Zweier-Kombinationen aufspaltet. Von den so erhaltenen 676 Variablen (26x26 Buchstaben, Ziffern, Sonderzeichen und Umlaute wurden ignoriert) habe ich mit Hilfe von DataLab jene 180 Variablen ausgewählt, die die höchsten Häufigkeiten aufweisen. Der reduzierte Variablensatz wurde dann einer Hauptkomponentenanalyse unterworfen. Das Ergebnis war zwar erwartbar, ist aber doch auch interessant:

Hauptkomponentenanalyse der zwei eBooks. Texte der englischen Ausgabe sind blau, die Texte der deutschen Auflage rot eingefärbt.

Man kann in erster Näherung drei Effekte erkennen: (1) deutsche und englische Texte lassen sich sehr gut unterscheiden, (2) im roten, deutschsprachigen Bereich gibt es rund 15 blaue Markierungen. Das sind deutschsprachige Texte im englischen Buch; diese Texte wurden aus der deutschen Version in die englische Version kopiert aber noch nicht übersetzt. (3) Die beiden kleineren Cluster unterhalb der beiden Hauptcluster rühren von speziellen Seiten her, die sehr stark formalisiert sind und keine freien Formulierungen enthalten (es handelt sich um rund 90 Texte eines Wizzards zur Auswahl geeigneter statistischer Tests).

Wer selber mit dem Datensatz experimentieren möchte, findet den vollständigen Datensatz im DataLab-Repository unter dem Titel "Linguistische Textanalyse" (allerdings kann der Datensatz nur mit der registrierten Version von DataLab geladen werden, für die kostenlose Version ist er zu groß).

Übrigens: Den eingangs erwähnten unüberwindlichen Haufen an Übungsprotokollen habe ich dann natürlich auch noch fertig abgearbeitet - was dem Sonntag einen speziellen Touch gab ("am siebten Tag sollst du ruhen...").

Dienstag, 6. November 2012

US Wahlen und Austrogehirne

Irgendwie drängt sich der Eindruck auf, dass die Hysterie um die US-amerikanische Präsidentschaftswahl, das Gehirn so manchen Redakteurs schwer beeinträchtigt. Wer's nicht glaubt, kann ja mal die Nachrichtenzusammenfassung am Ende des Morgenjournals im österreichischen Rundfunk am 6.11.2012 um ca. 8h12 nachhören (in der ORF-Radiothek). Zitat:
"Bei den heutigen Präsidentenwahlen in den USA zeichnet sich ein Kopf-an-Kopfrennen ab, wie sich auch am Beispiel eines kleinen Dorfes im nordöstlichen New Hampshire zeigt. In Dixville Notch haben etwa die wenigen Einwohner bereits gewählt, dabei hat es erstmals in der Geschichte ein Patt gegeben. 5 Stimmen für Amtsinhaber Barack Obama, und ebenfalls 5 Stimmen für Mitt Romney. 5 zu 5, ein weiterer Indikator für das extrem knappe Rennen bei der diesjährigen Wahl."
Das nenne ich eine valide Vorhersage des Wahlausgangs und einen Super-Indikator! Bravo ORF, für solche Meldungen zahle ich wirklich gerne meine Gebühren. Und damit ich die geringen ORF-Gebühren nicht überstrapaziere, möchte ich eine eingehendere statistische Diskussion dieser genialen Meldung nicht weiter verfolgen.... schade um den Strom, den die Ausstrahlung dieses "Beitrags" verbraucht hat.

P.S.: Frage an die Statistiker: Wie groß ist das Konfidenzintervall für eine Hochrechnung aus diesem Ergebnis, wenn man bedenkt, dass die paar Bewohner sich vielleicht abgesprochen haben???

Donnerstag, 4. Oktober 2012

Raucher bitte tief durchatmen!

Nachdem wir uns bei der ersten Analyse der Staubmessungen in der Wiener U-Bahn über mögliche Ausreißer klar geworden sind und diese aus den Daten entfernt haben, möchte ich noch eine Frage nachschieben, die wir mit statistischen Mitteln beantworten wollen: Ist die Staubbelastung in den Stationsgebäuden U2 und U3 beim Volkstheater tatsächlich unterschiedlich?

Dazu wählen wir mal jeweils eine 5-minütige Phase während des Aufenthalts in den Stationsgebäuden U2 und U3 aus. Die Daten dazu finden sich unten, die Angaben beziehen sich auf den lungengängigen Staub, der in mg/m3 angegeben ist. Die jeweils 11 Messungen wurden mit 30 Sekunden Abstand gemessen.

Nun, bei einem Blick auf die Daten "sieht ja ein Blinder", dass die Werte in der U2 und in der U3 deutlich unterschiedlich sind. Aber lässt sich dieser Standpunkt auch vertreten, wenn z.B. ein Politiker (und davon gibt es in Wien überproportional viele) das genaue Gegenteil behauptet? Könnte es nicht sein, dass die Unterschiede zufälligt bedingt sind?

Um hier eine profunde Antwort zu geben, starten wir DataLab und laden die Daten in das Programm (Anleitung und Daten, siehe unten). Nehmen wir an, dass die Messungen der beiden Stationsgebäude unabhängig voneinander sind (sonst müsste ein kräftiger Wind die Luft von einer Station in die andere transportieren - ein Wind war aber während der Messungen nicht wahrnehmbar). Damit können wir die beiden Stichproben durch einen t-Test vergleichen. Voraussetzung für den 2-Stichproben-t-Test ist aber, dass die Stichproben jeweils normalverteilt und die Varianzen gleich sind.

Also führen wir vor dem t-Test einen Normalverteilungstest durch (z.B. den Shapiro-Wilk-Test). Dazu werden die beiden Stichproben jeweils rot und blau markiert und dann der Test durchgeführt. Für keine der beiden Stichproben wird die Nullhypothese (nämlich, dass sie normalverteilt sind) abgelehnt, also testen wir im nächsten Schritt mit dem F-Test auf Varianzgleichheit. Auch hier gibt es keine Ablehnung der Nullhypothese (p=0.07) also können wir im nächsten und letzten Schritt mit gutem Gewissen den t-Test anwenden.

Der t-Test ergibt nun mit sehr hoher statistischer Sicherheit (p < 10-4 entspricht einer Sicherheit besser als 99.99%), dass die beiden Stichproben unterschiedlich sind. Wir können also mit Fug und Recht behaupten, dass die Luft in der U3-Station hoch signifikant schlechter ist als in der U2-Station. Also, liebe Wiener Nichtraucher, haltet die Luft an, wenn ihr mit der U3 fährt und in der Station Volkstheater aussteigt; Raucher dagegen dürfen und sollen tief durchatmen, denn so reine Luft bekommen sie nur bis zum Anzünden des nächsten Glimmstengels - alles ist relativ....

Die folgenden Daten können leicht durch "Copy and Paste" in DataLab geladen werden. Dazu kopieren Sie alle Zeilen zwischen den Trennstrichen in die Windows-Zwischenablage, wechseln dann zu DataLab und rufen den Befehl Datei/Laden/ASC Daten in Zwischenablage auf.


Lungenaktive Feinstaubfraktion U2/U3, Werte in mg/m3
2
11
FALSE TRUE FALSE FALSE
RESP-U2  RESP-U3
0.036    0.064
0.040    0.063
0.034    0.064
0.040    0.062
0.038    0.066
0.042    0.054
0.043    0.050
0.039    0.053
0.039    0.056
0.037    0.058
0.046    0.063

Sonntag, 23. September 2012

Feinstaub im Cafe

Irgendwie konnte ich die Neugierde nicht unterdrücken.... Nach der letzten Staubmessung stellt sich natürlich die Frage, wie schaut denn die Feinstaubbelastung in Lokalen aus, vor allem in Lokalen in denen geraucht wird. Nach dem ich meine Lunge nicht unbedingt einer Luft "zum Schneiden" ausliefern wollte, wie man sie in manchen irischen Pubs vor einigen Jahren noch gratis zum Guinness geliefert bekam, machte ich einen Kompromiss und setzte mich in ein Kaffeehaus in Wien, in dem zwar geraucht wurde, das aber den Nichtraucher- und den Raucherteil (schlecht) separiert hatte.

Nebenbei ist da dann auch noch ein Mittagessen abgefallen (natürlich selbst bezahlt, obwohl diese Feinstaubmessung ein weiterer heldenhafter Einsatz im Dienste der Wissenschaft war). Egal wie, hier sind die Ergebnisse:

Man kann schön erkennen wie es der Kellnerin zu bunt mit der dicken Luft wurde. Um 13:44 machte sie die Eingangstür dauerhaft auf, um den Raum zu lüften. Wie man sieht, fällt die Feinstaubbelastung innerhalb ca. 5 Minuten auf weniger als die Hälfte - aber natürlich nicht wirklich auf den Level meines super-gefilterten Büros.

Was bleibt nun an Erkenntnissen vom Lokalbesuch:

  1. Die Luft in einem gelüfteten Lokal ist immer noch deutlich schlechter als die Luft im Freien in der Stadt.
  2. Die Luft in manchen Stationen der U-Bahn (siehe U3-Station Volkstheater) ist ähnlich stark mit Feinstaub belastet wie in manchen Raucherlokalen.
  3. Mein Jacket zeigt deutliche Erinnerungen an den Feinstaub (den man mit der Nase auch am nächsten Tag noch detektieren kann).
  4. Das Essen war gut ;-).

Montag, 10. September 2012

Staub in der Luft - die Pleite der Ausreißertests

Wie versprochen hier nun eine erste, eingehendere Analyse der Staubdaten. Im ersten Anlauf wollen wir mal über Ausreißer nachdenken - ein Thema, das mich immer wieder zur Weißglut treibt, wenn ich sehe wie unreflektiert manche Zeitgenossen Ausreißer eliminieren.

Unter Ausreißer versteht man im Sinne der Datenanalyse natürlich nicht jene eher jugendlichen Zeitgenossen, die die Nase voll haben von ihren meist super angepassten Eltern, sondern schlicht und einfach Datenpunkte einer Messserie, die ungewöhnlich weit weg liegen von allen anderen Messungen und damit einen Hinweis liefern, dass "irgendetwas mit diesen Messungen nicht stimmt".

Um Ausreißer erkennen zu können, bedarf es zum einen des Verständnisses der Daten und des Messprozesses und zum anderen natürlich auch eines gewissen minimalen statistischen Hintergrundwissens.

Nehmen wir der Einfachheit halber mal an, wir wären keine Naturwissenschafter sondern Statistiker - wir wissen als nichts über den Messprozess und wir wollen auch nichts darüber wissen. Dann bleibt uns nichts anderes übrig, als die Entscheidung, ob ein Wert ein Ausreißer ist, anhand von Wahrscheinlichkeiten zu treffen. Wir können uns also die Frage stellen, wie groß die Chance ist, dass ein bestimmter Wert zufällig und im Rahmen der "normalen" Daten auftritt. Ist diese Wahrscheinlichkeit sehr klein, so wird man diesen Wert als Ausreißer klassifizieren.

Allerdings ergeben sich einige Schwierigkeiten, von denen eine näher betrachtet werden soll: Um die Auftrittswahrscheinlichkeit eines bestimmten Messwerts berechnen zu können, muss ich die Verteilung der Daten kennen (oder eine Annahme dazu treffen). Der naive Anwender neigt hier dazu auf statistische Tests zu vertrauen, was implizit aber immer die Annahme einer zugrundeliegenden Verteilung mit einschließt. Beispiel: Habe ich Messungen die aus einer Pareto- oder Cauchy-Verteilung stammen, so werden die gängigen Ausreißertests sehr oft Ausreißer identifizieren, die aber in Wirklichkeit keine sind. Die hirn- und kritiklose Anwendung von Ausreißertests führt also in vielen Fällen zu grob falschen Ergebnissen (darum meine gelegentliche Weißglut...).

Betrachten wird als Beispiel einen Ausschnitt aus unseren Staubdaten (die Daten stehen als DataLab-File zur Verfügung):

Wenn wir auf diese Daten einen Ausreißertest anwenden, so wird der Dean-Dixon-Test keine Ausreißer finden, der Grubbs-Test wird den höchsten Wert des Peaks 3 als Ausreißer identifizieren.

Ich behaupte mal, dass beide Ergebnisse falsch sind. Warum diese arrogante Behauptung? - Na ja, es ist ja nicht verboten, sein Wissen über die Daten, das Messgerät und die Prinzipien der jeweiligen statistischen Tests zusammenzuführen und damit zu einem Urteil zu kommen. Im Detail: Der Dean-Dixon-Test setzt den Abstand des größten Wertes vom zweitgrößten Wert in Beziehung zur Gesamtspannweite der Daten. Gibt es nun aber zwei oder mehrere große Werte (also potentielle Ausreißer), so wird der Abstand des größten vom zweitgrößten Wert klein sein - womit der Dean-Dixon-Test keine Change hat. Der Dean-Dixon-Test eignet sich also nur für Einzelausreißer. Der Grubbs-Test hingegen testet immer den Abstand des größten Werts vom Mittelwert, gemessen in Einheiten der Standardabweichung und setzt eine Normalverteilung voraus - was in unserem Fall schlicht falsch ist.

So, und nun kommt noch mein Wissen über die Messung dazu: Ich weiß, dass das Messgerät stoßempfindlich ist, und immer dann wenn ich das Gerät abrupt bewege, zeigt es einen (einzelnen) hohen Wert an. Betrachten wir die Messwerte im Detail, so sieht man, dass Peak 1 nur ein Einzelwert ist, währen die anderen beiden Peaks deutlich breiter sind. Meine Einschätzung ist also, dass Peak 1 ein Ausreißer ist, die Peaks 2 und 3 aber auf real vorhandene Abweichungen der Staubkonzentration zurückzuführen sind.

Analysieren wir die gemessenen Daten in der Gesamtheit, so wird man jene Peaks, die stark von den vorhergehenden Werten abweichen aber nur einen Messwerte "breit" sind, als Ausreißer betrachten, alle anderen Werte aber nicht - auch wenn statistische Tests etwas Gegenteiliges behaupten. Ich würde also die Messwerte A,B,C,D und E als Ausreißer qualifizieren und vor der weiteren Analyse entfernen.

Mittwoch, 5. September 2012

Staub liegt in der (U-Bahn-)Luft

Sommer ist doppelt angenehm: Wärme und Zeit, zwar nicht im Überfluss aber doch mehr als den Rest des Jahres. Also nichts wie raus in die Natur zu Luft, Licht und Sonne. Gesagt, getan - ich borgte mir ein tragbares Staubmessgerät von einer Kollegin aus und fuhr mit dem Gerät mit verschiedenen öffentlichen Verkehrsmitteln von Tullnerbach (einem Vorort von Wien) auf verschlungenen Pfaden nach Wien ins Büro. Der Umweg im Dienste der Wissenschaft war gigantisch, brauche ich normalerweise von Tullnerbach bis ins Büro rund 45 Minuten, so fuhr ich diesmal knappe drei Stunden - von Tullnerbach nach Hütteldorf, dann weiter zum Handelskai, von da nach Wolkersdorf (ein Dorf nördlich von Wien) und von dort die selbe Strecke zurück ins Zentrum von Wien, wo mein Büro liegt.

Bei der Fahrt habe ich verschiedene Züge genommen: klimatisierte Züge mit geschlossenenen Fenstern, Schnellbahnzüge mit offenen Fenstern und zwei verschiedene U-Bahnen. Hier das Ergebnis der Messung:

Auf der Y-Achse ist die Feinstaubkonzentration in mg/m3 aufgetragen, auf der X-Achse die Zeit, unterhalb der Zeitachse sind die Zeiten, die ich in einem Zug verbracht habe, mit roten Balken gekennzeichnet.

Dazu sind ein paar Einzelereignisse eingetragen, z.B. ein in der Nähe stehender Raucher am Bahnsteig in Hütteldorf (um ca. 9h40), oder der Raucher, der in Wolkersdorf vor der Abfahrt des Zuges (ca. 10h40) schnell noch eine Zigarette "inhalierte" und den in der Lunge gesammelten Rauch zum Vergnügen aller nichtrauchenden Passagiere im Wagon rausließ (da kommt Freude auf, bei mir natürlich nur wegen des einzigartigen Mess-Events - manche der Leser mögen es schon ahnen, ich bin Nichtraucher).

Interessant auch die extreme Staubbelastung in den U-Bahn-Stationen, wo die Staubbelastung fast das Zehnfache der Belastung in gut mit gefilterter Luft versorgten Büroräumen beträgt. Weiters interessant der Unterschied zwischen den Stationsgebäuden der selben U-Bahnstation (U2 und U3 in der Station Volkstheater). Die Wiener Leser dieses Blogs, werden wohl sofort auch die Erklärung dafür parat haben: Die U3-Station liegt unterhalb der Station der U2 und hat keinen direkten Zugang zur Außenluft und ist wesentlich voluminöser als die U2-Station, die zumindest zwei direkte Zugänge nach außen hat und deshalb besser mit Frischluft versorgt wird.

Überraschend auch, wie gut die Luftfilter der ÖBB in den klimatisierten Zügen funktionieren und wie staubig die Luft im Kofferraum meines Auto ist (kurze 5-minütige Fahrt zum Bahnhof). Soweit mal der grobe Überblick, eine eingehendere (statistische) Analyse dann in den nächsten Tagen.

Mittwoch, 29. August 2012

Sommerlektüre für den Strand

Angeblich gibt es drei Kategorien von Urlaubsleseverhalten: die Kleinformatleser (handliche aber dicke Taschenbuchkrimis und Liebesromane), die Großformatleser (unhandliche aber dünne, mehr oder weniger bebilderte Zeitungen), und die Nichtleser (das ist jene wachsende Gruppe, die so tut als könnte sie nicht lesen sondern maximal YouTube-Videos anschauen). - Nein, natürlich alles Quatsch, Expedia hat klare Zahlen erheben lassen, damit endlich Schluss ist mit den Mutmaßungen: Die Strandlektüre der Deutschen. Schlimm nur, dass vor allem die Jüngeren zu den Nicht-Lesern gehören.

Ich für meinen Teil zähle da zu jenen Dinosauriern, denen es gelingt Bücher so mit Sand zu versetzen, dass man Jahrzehnte später noch den Urlaubsort durch eine chemische Analyse eben dieser Sandreste herausfinden könnte. Aber diese umständliche Art, Urlaubserinnerungen aufzufrischen wird - zumindest in meinem Fall - zunehmend schwieriger, da überall die eBooks Einzug halten und die halt Sand nur virtuell aufnehmen können.

Also genug geschwätzt, diesmal lese ich das kleine Bändchen Probability and Statistics - The Science of Uncertainty von J. Tabak, (Facts On File, 2011) am steinigen Strand einer der zahllosen kroatischen Inseln - also nichts mit Sand zwischen den Seiten. Das Buch ist perfekt für entspannte Urlaubslektüre, es gibt einen Überblick und eine kritische Würdigung der verschiedenen Strömungen der Mathematik und Statistik ohne durch allzu viele Formeln abzuschrecken.

Beginnend bei Cardano entwickelt John Tabak die Geschichte der Statistik und gibt immer wieder klare und verständliche Beispiele, die Probleme aufzeigen, deren Lösung im Laufe der Geschichte zu neuen Methoden geführt hat. Man begegnet im Buch allen wichtigen Spielern auf dem Gebiet der Statistik, von Blaise Pascal, über Thomas Bayes, S.-D. Poisson und A.N. Kolmogorov bis hin zu Karl Pearson und R.A. Fisher. Neben den historischen und persönlichen Verknüpfungen wird die Entwicklung eines neuen Fachgebiets beschrieben, das inzwischen einen erheblichen Einfluss auf alle Bereiche des Lebens hat. Schön zu lesen, wie schwierig es ist und wie lange es dauert, bis die vielen über Jahrhunderte gesammelten Mosaiksteine dann endlich zur einem tragfähigen Gerüst zusammengeschweißt werden (im Fall der Statistik hat das Andrei Kolmogorov für die Nachwelt erledigt und die entsprechenden Axiome postuliert).

Abgerundet wird das Buch durch eine Diskussion der statistisch-historischen Aspekte von Seuchen und Impfungen und durch ein Interview mit M. Stramatelatos (NASA), der einen Einblick in die Risikoabschätzung bei der Raumfahrt gibt.

Meine Meinung: Cooles Buch, das mindestens so spannend wie ein Krimi ist - vorausgesetzt man interessiert sich für Statistik.

Donnerstag, 23. August 2012

Wie groß ist Österreich wirklich?

Na ja, wenn man viel Arbeit hat, dann braucht man auch Pausen. Manche Leute erledigen die Pausen mit Kaffeetrinken, manche mit Nasenbohren oder Autofahren, ich stöbere halt (wenn ich nicht Kaffee trinke und tratsche) da manchmal in Wikipedia. Dieses wunderschöne Lexikon, in dem inzwischen fast alles aufgeschrieben steht was mehr oder weniger wichtig ist, und mit dem inzwischen etliche Jahrgänge an Maturanten (aka Abiturienten) gelernt haben, durch Copy und Paste ihre schulische Performance in letzter Sekunde noch auf ein vermeintlich unschlagbares Niveau zu heben.

Inzwischen ist die Copy&Paste-Manie auch bei den Studierenden angekommen - höchste Zeit also, da mal zu fragen, wie weit die Daten in Wikipedia zuverlässig sind.

Nachdem sich, wie wohl ein(e) jede(r) einsieht, eine umfangreiche Studie dazu in einer kurzen Pause nicht ausgeht, habe ich mich mal gefragt, wie groß Österreich in Wikipedia ist - und zwar nicht nur im deutschsprachigen Wiki sondern auch in anderen Sprachen. Die Ergebnisse für 14 Sprachen habe ich also kurzerhand in DataLab eingetragen und fertig ist das Histogramm:

Und wer sich hier einen einzigen Balken mit der Höhe 14 erwartet hat, der irrt beträchtlich. Die Flächenangaben in Wikipedia schwanken zwischen 83855 km2 in der englischen Ausgabe und 83878.99 km2 im deutschen Wikipedia. Der Unterschied entspricht etwa der zehnfachen Fläche der Innenstadt von Wien, oder ein Fünftel von Liechtenstein....

Dazu fallen zwei Dinge auf: 1) die deutschsprachige Ausgabe weist Österreich den größten Wert von allen überprüften Sprachversionen zu (ein Schelm wer da Absicht vermutet) und 2) ganz offensichtlich gibt es zwei Gruppen von Daten: Fünf Werte häufen sich um 83557 km2 und acht Werte häufen sich um 83572 km2; dazu gibt es noch einen Einzelwert bei 83579. Die Erklärung dafür kann nur vermutet werden, ich bringe mal meine Überlegung dazu: Im Laufe des Aufbaus von Wikipedia wurde zuerst die offizielle Größe von Österreich aus dem statistischen Jahrbuch 2009 oder davor entnommen (83871.97 km2), diese wurde dann aus Schlamperei durch 83871 ersetzt (also nicht gerundet), gleichzeitig hat jemand diese Zahl für die englische Ausgabe in Quadratmeilen umgerechnet, die dann ihrerseits im Zuge der späteren Internationalisierung von Wikipedia wieder in km2zurück gerechnet wurden - natürlich jedesmal mit Rundungsfehlern. So, und dann kam 2011 das Bundesamt für Eich- und Vermessungswesen im Zuge der Neuvermessung und Digitalisierung der Karten dahinter, dass Österreich eigentlich um sieben km2 größer ist als gedacht - und fertig ist der Zahlensalat.

Zwei Fragen sind noch zu klären: 1) Wohin ist Österreich gewachsen? Die Grenzen sind ja gleich geblieben. Und 2) wer hat die zusätzlichen 7 km2 bekommen? (hoffentlich der Steuerzahler)

Für alle, die es genau wissen wollen, das zugehörige DataLab-File kann man hier downloaden. Die eingetragenen Daten wurden heute um 18h herum aus Wikipedia entnommen.

Sonntag, 19. August 2012

MLR und lineare Abhängigkeiten

Letzte Woche schaute ein Studierender bei mir vorbei, mit einer Frage die ihn irgendwie nicht locker ließ. Es ging darum, dass er bei einer Messanlage, die einen neuartigen Prozess überwachte, alle paar Minuten ca. 20 Variablen ermittelte, von denen einige ziemlich stark korrelierten. Diese Variablen dienten zur Überprüfung der Ausbeute des Prozesses; letztendlich will er ein statistisches Modell erstellen, das ihm die Möglichkeit gibt, die Einflüsse der einzelnen Prozessparameter (=Variablen aus der Messanlage) auf die Ausbeute besser zu verstehen (und diese in der Folge zu optimieren).

Der Studierende experimentierte seit einiger Zeit mit multipler lineare Regression (MLR) und hatte das Problem, dass die MLR-Koeffizienten dreier Variablen einfach nicht stabil waren (von Versuch zu Versuch).

Meine erste Vermutung, dass diese Variablen multikollinear sind, führte zuerst mal zu Stirnrunzeln und dann zu zwei Kaffees aus unserer Kaffeemaschine (das ist die, die der Herr Clooney erfunden und gebaut hat, nachdem ihm das Filmbusiness vermutlich zu eintönig wurde).

Ich zeigte dem Studierenden ein kleines Beispiel, in dem ich in DataLab drei Variablen so erzeugte, dass die erste und die zweite einfach mit normalverteilten Zufallszahlen belegt wurden, die dritte war die Summe der beiden anderen plus eine kleine Zufallszahl. Außerdem erzeugte ich eine weitere Variable (C5, siehe Skript unten), die die gewichtete Summe der drei Variablen plus einen kleinen zufälligen Anteil enthielt.

Hier das DataLab-Skript zum Nachvollziehen (öffnen Sie dazu in DataLab den Skript-Editor und kopieren Sie das Skript in den Editor; durch Klick auf "Ausführen" werden die Daten entsprechend erzeugt):

Initialize
MATH
C1=gauss
c2=gauss
c3=c1+c2+0.1*gauss
c5=3*c1+2*C2+c3+0.5*gauss
/MATH
MLRCalc

Rechnet man mit diesen Daten die MLR für die Variable C5, so sollten die ermittelten Koeffizienten den Faktoren der gewichteten Summe entsprechen (also 3.0, 2.0 und 1.0 sein). Die realen Koeffizienten weichen aber sehr stark davon ab, obwohl das Ergebnis sehr gut aussieht. Schlimmer noch: Wiederholt man das Experiment, so bekommt man jedesmal gänzlich andere Koeffizienten!

Die Erklärung für dieses sonderbare Verhalten liegt in der Tatsache, dass bei (multi)kollinearen Variablen die geschätzten Regressionsparameter praktisch "Hausnummern" sind. Das ist eine mathematische Eigenheit von MLR, die unbedingt zu beachten ist.

Am einfachsten hilft man sich durch Berechnung des "variance inflation factor" (VIF), der für keine Variable den Wert 10 überschreiten sollte. Tut er dies dennoch, dann können Sie davon ausgehen, dass die Regressionsparameter nicht mehr interpretierbar sind, da sie nicht mehr stabil sind.

Zuletzt noch ein Hinweis: Man kann den VIF in DataLab bequem berechnen. Klicken Sie einfach den Knopf VIF und wählen Sie am besten alle Variablen (wenn es nicht zu viele sind) aus. Variablen, bei denen der VIF zu hoch ist, darf man nicht für das MLR-Modell einsetzen. In vielen Fällen kann man sich so helfen, dass man die Variable mit dem höchsten VIF aus dem Datensatz rausnimmt. Dadurch ändern sich die Multikollinearitäten und damit die VIFs aller anderen Variablen. Dieses Spiel kann man dann so lange fortsetzen, bis bei allen verbleibenden Variablen die VIFs unter 10 gefallen sind.

Einfach, oder? Auf jeden Fall hat sich der Studierende nicht nur für den Kaffee bedankt. Ist doch eine Freude, wenn man nicht nur den Kreislauf sondern auch noch die Wirtschaft ankurbelt....

Mittwoch, 15. August 2012

Median/Mittelwert - wann verwende ich was?

Soll man bei der Berechnung von Lageparametern lieber den Median oder den Mittelwert verwenden?

Grundsätzlich hängt die Wahl von Median oder Mittelwert von einigen Randbedingungen der jeweiligen Untersuchung ab. Dabei spielen z.B. die Symmetrie der Verteilung eine Rolle, das (Nicht)Vorhandensein von Ausreißern, oder eine eventuelle Zensierung der Daten. Außerdem sollte man nie übersehen, dass der Mittelwert nur für intervallskalierte oder verhältnisskalierte Daten Sinn macht, der Median aber auch bei ordinal skalierten Daten eingesetzt werden kann.

Also generell liefert der Median leichter interpretierbare und stabilere Ergebnisse als der Mittelwert. Ich würde immer den Median angeben, der Mittelwert ist in vielen Fällen schlicht Unfug.

Beispiel für solchen Unfug: der Notendurchschnitt in der Schule - hier wird der Mittelwert einer ordinal skalierten Variablen berechnet, was schlicht und einfach Blödsinn ist (trotzdem basiert der Numerus Clausus auf der Durchschnittsnote des Abiturs - soweit zur Fundiertheit von Bildungspolitik).

Bevor ich mich aber in die Untiefen der Bildungspolitik begebe, hier lieber eine Zusammenfassung des Vergleichs von Median und Mittelwert:

MittelwertMedian
symmetrische VerteilungMedian = Mittelwert
schiefe Verteilungstärkere Verschiebunggeringere Verschiebung
Einfluss von Ausreißerngroßkeiner
erlaubte Skalentypenintervallskaliert, verhältnisskaliertordinal skaliert, intervallskaliert, verhältnisskaliert
Interpretationschwierig, Kenntnis der Verteilung notwendigleicht, Median ist immer der mittlere Wert
Berechnung bei zensierten Datenunmöglichmöglich, falls weniger als die Hälfte der Daten zensiert sind

Freitag, 10. August 2012

A/B-Tests

Heute fragte mich ein Bekannter der u.a. Webanalysen macht, wie denn das mit A/B-Tests sei, und ob das DataLab nicht auch machen könne. Die Antwort war mal wieder typisch: "ja, aber...."

Doch langsam und der Reihe nach: Grundsätzlich muss man bei AB-Tests unterscheiden zwischen dem Test-Layout und den statistischen Verfahren, um die Ergebnisse "wasserdicht" zu analysieren. Nachdem das Test-Layout sehr spezifisch von der Situation abhängt, lässt sich dazu wenig allgemein Gültiges sage. Da muss wohl jeder selber entscheiden was er/sie testet.

Einen netten Übersichtsartikel dazu gibt's in Wired. Der Artikel geht allerdings nicht auf die Statistik ein, sondern sagt nur "making sense of the results requires deep knowledge of statistics".

Wie tief das statistische Wissen tatsächlich dazu sein muss, sei mal dahingestellt. Ich nehme mal ANOVA, t-Tests und ähnliches Zeugs als Basiswerkzeug an, über das jeder Statistiker ohnehin verfügt. Und da kann DataLab natürlich mithalten. Mal sehen, vielleicht liefert mir der Bekannte ein paar Daten eines AB-Tests. Ich werde dann versuchen, eine "wasserdichte Analyse" zu machen und sie hier veröffentlichen (natürlich nur nach Zustimmung durch den Bekannten - eh klar!).

Donnerstag, 9. August 2012

DataLab 3.5 ist da!

Wie immer bei der Erstellung einer Major Release, ist Hektik angesagt. Natürlich auch diesmal, da wir mit den Terminen schon drei Wochen über der Zeit waren. Und wie halt auch immer, treten in der letzten Sekunde dann noch Probleme auf, die man eigentlich lösen sollte - also zurück an den Start.

Wenn man diesen Zyklus in freudiger Erwartung des Endprodukts ein paarmal durchmacht, liegen die Nerven dann auch schon mal blank...

Wie auch immer, Ende gut alles gut, das Baby liegt hier zum Download und Bestaunen bereit: DataLab 3.5

... und wir machen eine Flasche Traminer auf (vom Löscher in Retz) und genießen die Reste des Sommerabends.....

Mittwoch, 8. August 2012

Help oder nicht Help - das ist hier die Frage!

Jeder Entwickler von Software kennt das Dilemma: Einerseits: ohne kontextsensitive Hilfe-Datei sind größere Programme eigentlich unprofessionell.
Andererseits: die Erzeugung einer vernünftigen Hilfe erfordert genau so viel Arbeit (und Kosten) wie die eigentliche Entwicklung.

Die bange Frage bleibt: liest der Nutzer denn Help-Files überhaupt? Mein jüngster Sohn brachte es mal auf den Punkt: "Richtige Männer lesen keine Help-Files".

Also stelle ich mal die Frage an's werte Publikum: Was erwarten Sie sich von einem Help-File? Und speziell in Bezug auf DataLab - möchten Sie lieber technisch/statistische Hintergrundinformationen, oder die Beschreibung der Funktionalität des Programms?

(ich weiß, ich weiß .... Sie wollen natürlich beides, und das in möglichst großem Umfang.... ist ja alles kein Problem, schicken Sie einfach 2 Kilo Gold und wir machen den Rest ;--)

Sonntag, 29. Juli 2012

Skalierung der Daten bei der Clusteranalyse

Vor einigen Tagen wurde ich von einem Kunden gefragt, ob man bei der Clusteranalyse die Daten standardisieren soll, obwohl diese vorher schon normiert wurden. Konkret: Es ging um Massenspektren, die jeweils auf den höchsten Peak mit 100% normiert waren. Bei solchen Daten ist es nicht unmittelbar einsichtig, ob die Daten nun quasi ein zweites Mal skaliert werden sollen.

Im Folgenden meine Antwort an den Kunden (in leicht veränderter Form), die - so glaube ich - auch für andere Nutzer von DataLab interessant sein könnte:
....die Standardisierung der Daten (=Variablen so skalieren, dass der Mittelwert null wird und die Standardabweichung eins) ist immer zu empfehlen, wenn die Größenordnung der verwendeten Variablen keine Bedeutung haben darf. Würden Sie die Variablen nicht standardisieren, würde jene Variable, die numerisch die größten Werte enthält, das Ergebnis der Clusteranalyse dominieren (was im Extremfall bedeuten kann, dass Ihr Dendrogramm nur von einer Variablen "beherrscht" wird, es also kaum einen Unterschied macht, ob Sie noch weitere Variablen dazunehmen).
Im Fall der MS-Spektren würde ich auf jeden Fall eine Standardisierung empfehlen. Die Skalierung auf den jeweils höchsten MS Peak mit 100% hat mit der Standardisierung nichts zu tun, da die 100%-Skalierung ja pro Spektrum passiert (in der Datenmatrix also entlang einer Zeile), während die Standardisierung vor der Clusteranalyse pro Variable, also bei jeder Masse getrennt für alle Proben erfolgt (in der Datenmatrix entlang der Spalte).
Beispiel: Angenommen, Sie machen eine Clusteranalyse mit den Peaks bei den Massen 78, 93 und 251; weiters angenommen, die Intensitäten bei der Masse 78 liegen alle zwischen 10 und 100%, während die Intensitäten der Peaks 93 und 251 alle unter 10% liegen. Wenn Sie die Daten nicht standardisieren, so werden die Werte von Peak 78 das Dendrogramm zum größten Teil beeinflussen, Sie erzeugen also ein Dendrogramm das sich in der Klassenzuordnung kaum von einem Dendrogramm unterscheidet, das nur auf der Masse 78 beruht.
Genau umgekehrt ist die Lage bei vorhergehender Standardisierung - plötzlich bekommen alle drei Massen die gleiche Bedeutung, und entsprechend unterschiedlich ist das Dendrogramm. Das Dendrogramm basiert also in diesem Fall tatsächlich auf allen drei Variablen.
Zusammengefasst: wenn man die Daten nicht standardisiert, riskiert man, dass man in manchen Dimensionen "blind" wird, und das Dendrogramm nur die Situation der Variablen mit den größten numerischen Werten widerspiegelt.