Schulmathematik unter didaktischen Gesichtspunkten: Stochastik in der Sekundarstufe II (Demo-Kurs)
1. Wahrscheinlichkeitsrechnung
1.2. Streuungsparameter
Definition (Spannweite)
Als Spannweite (oder Variationsbreite) wird die Differenz \(SW=x_{max}-x_{min}\) zwischen dem größten (den wir \(x_{max}\) nennen) und dem kleinsten (den wir \(x_{min}\) nennen) Merkmalswert einer geordneten Datenmenge bezeichnet.
Da die Spannweite nur vom größten und kleinsten Wert der Datenmenge bestimmt wird, hängt sie stark von Ausreißern ab und gibt keine Auskunft darüber, wie sich die Werte im Intervall \([x_{min},x_{max}]\) verhalten. Die Spannweite ändert sich nur, wenn ein neuer Wert auftritt, der kleiner als \(x_{min}\) oder größer als \(x_{max}\) ist.
Definition (Quartilsabstand)
\(x_{(1)},x_{(2)},x_{(3)},\ldots ,x_{(n)}\) seien geordnete Daten. Die Differenz \(QA=x_{0,75}-x_{0,25}\) zwischen dem oberen (dritten) Quartil \(x_{0,75}\) und dem unteren (ersten) Quartil \(x_{0,25}\) heißt Quartilsabstand QA.
Während die Spannweite also einen Bereich festlegt, innerhalb dessen \(100\%\) der Merkmalswerte liegen, wird durch den Quartilsabstand ein Bereich festgelegt, der \(50\%\) aller Messwerte beinhaltet und in dem insbesondere der Median \(x_{0,5}\) liegt.
Per Definition liegt der Median immer in diesem Bereich. Bei asymmetrischen Verteilungen allerdings liegt er nicht in der Mitte des Quartilsintervalls \([x_{0,25},x_{0,75}]\).
Durch den Quartilsabstand wird die Datenmenge in drei Bereiche eingeteilt:
- \(25\%\) der Werte, die kleiner sind als das untere Quartil
- \(50\%\) der Werte, die im Intervall \([x_{0,25},x_{0,75}]\) liegen
- \(25\%\) der Werte, die größer sind als das obere Quartil
Eine graphische Darstellungsweise, die z.B. in wissenschaftlichen Publikationen verwendet wird, ist das Box-Plot-Diagramm.
Definition Mittlere (lineare) absolute Abweichung
\(x_1, x_2, \ldots , x_n\) seien Ausprägungen eines quantitativen Merkmals und \(\overline{x}\) deren arithmetisches Mittel. Dann heißt
\[d_{\overline{x}} := \frac{1}{n}\sum_{i=i}^n |x_i-\overline{x}| = \frac{1}{n}(|x_1-\overline{x}|+\ldots+|x_n-\overline{x}|)\]
die mittlere (lineare) absolute Abweichung vom arithmetischen Mittel \(\overline{x}\).
Analog lässt sich auch die mittlere absolute Abweichung vom Median definieren:
\[d_{x_{0,5}} := \frac{1}{n}\sum_{i=i}^n |x_i-x_{0,5}| = \frac{1}{n}(|x_1-x_{0,5}|+\ldots+|x_n-x_{0,5}|)\]
Der Betrag bzw. die Wahl der absoluten Abweichung in der obigen Definition trägt der Tatsache Rechnung, dass die Summe aller Abweichungen vom arithmetischen Mittel gleich Null ist.
Empirische Varianz, empirische Standardabweichung
Definition (Empirische Varianz)
\(x_1, x_2, \ldots , x_n\) seien Ausprägungen eines quantitativen Merkmals und \(\overline{x}\) deren arithmetisches Mittel. Dann heißt
\[s^2 := \frac{1}{n-1}\sum_{i=i}^n (x_i-\overline{x})^2, n\geq 2\]
die empirische Varianz \(s^2\).
Definition (Empirische Standardabweichung)
\(x_1, x_2, \ldots , x_n\) seien Ausprägungen eines quantitativen Merkmals und \(\overline{x}\) deren arithmetisches Mittel. Dann heißt
\[s := \sqrt{\frac{1}{n-1}\sum_{i=i}^n (x_i-\overline{x})^2}, n\geq 2\]
empirische Standardabweichung.
Bei der empirischen Varianz handelt es sich um das arithmetische Mittel der quadratischen Abweichungen vom arithmetischen Mittel. Handelt es sich bei den zu Grunde liegenden Daten bspw. um Körpergrößen in cm, dann misst die Varianz die Abweichung in Quadratzentimetern. Die Standardabweichung hingegen misst wieder in der ursprünglichen Maßeinheit.
Anmerkungen/Hinweise:
- Im Rahmen der Schätztheorie in der Sekundarstufe II kann begründet werden, dass die so definierte Varianz \(s^2\) mit dem Faktor \(\frac{1}{n-1}\) ein erwartungstreuer Schätzer für die Varianz \(\sigma^2\) ist. \(\frac{1}{n}\sum_{i=i}^n (x_i-\overline{x})^2\) hingegen würde diese Eigenschaft nicht erfüllen.
- Allerdings findet sich die Definition mit dem Faktor \(\frac{1}{n}\) anstatt \(\frac{1}{n-1}\) in der (didaktischen) Literatur. Auf Taschenrechnern (bzw. häufig auch bei CAS-Rechnern) sind oft beide Implementationen vorhanden. Deshalb sollte überprüft werden, welche Definition verwendet wird.
- Bei großem Stichprobenumfang ist der Unterschied zwischen Division durch \(n\) und durch \(n-1\) allerdings unerheblich.
- In Anwendungen (z.B. in den Naturwissenschaften) werden arithmetisches Mittel und Standardabweichung häufig nicht getrennt angegeben, sondern in der Form \(\overline{x}\pm s\).
Liegen annähernd normalverteilte Daten vor, so gilt:
- Ca. \(68\%\) der Daten liegen im Bereich \(\overline{x}\pm s\), das heißt, im Intervall zwischen \(\overline{x}-s\) und \(\overline{x}+s\).
- Ca. \(96\%\) der Daten liegen im Bereich \(\overline{x}\pm 2s\).
- Ca. \(99\%\) der Daten liegen im Bereich \(\overline{x}\pm 3s\).
Anschaulich interpretiert, weichen also ungefähr \(68\%\), bzw. \(96\%\) bzw. \(99\%\) der Daten um höchstens eine Standardabweichung, bzw. um zwei Standardabweichungen, bzw. um drei Standardabweichungen vom Mittelwert ab.
Dies steht in Beziehung zu den drei Sigma-Regeln, die im Kapitel zur Normalverteilung behandelt werden (vgl. Kapitel 5.2).