1. Wahrscheinlichkeitsrechnung

1.1. Lageparameter

Lageparameter

Definition (Arithmetisches Mittel)

\(x_1, x_2, \ldots , x_n\) seien Daten eines quantitativen Merkmals. Dann nennt man \[\overline{x} := \frac{x_1+x_2+\ldots + x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i\] deren arithmetisches Mittel.

Hinweise

  1. Die zur Berechnung des arithmetischen Mittels notwendigen Operationen lassen sich nur bei quantitativen Merkmalen durchführen.
  2. Durch Umformung obiger Gleichung ergibt sich: \[n\cdot\overline{x} = x_1+x_2+\ldots + x_n\] Die Summe aller \(n\) Einzelwerte kann man sich also durch die Summe von \(n\) gleich großen errechneten Werten \(\overline{x}\) ersetzt vorstellen. In diesem Sinne nimmt das arithmetische Mittel also eine Art Ersatzfunktion ein.
  3. Durch Umformung ergibt sich weiterhin, dass die Summe der Abweichungen aller Werte vom arithmetischen Mittel gleich Null ist: \[\sum_{i=1}^n (x_i-\overline{x}) = 0\]
  4. Das arithmetische Mittel wird stark von „Ausreißern“ beeinflusst, also von einzelnen Daten, die stark vom Rest der Daten abweichen.

Definition (Gewogenes arithmetisches Mittel)

\(x_1, x_2, \ldots , x_n\) seien Daten eines quantitativen Merkmals. Dann nennt man \[\overline{x} := \frac{g_1x_1+g_2x_2+\ldots + g_nx_n}{g_1+g_2+\ldots + g_n} = \frac{\sum_{i=1}^n g_ix_i}{\sum_{i=1}^n g_i}\]

mit \(g_i\geq 0\) für \(i=1,2,3,…,n\) und \(\sum_{i=1}^n g_i > 0\)

das gewogene arithmetische Mittel der Daten. Dabei werden die nichtnegativen Zahlen \(g_i\) als Gewichtungsfaktoren, bzw. Gewichtfaktoren bezeichnet. Sie weisen den einzelnen Werten ein höheres oder niedrigeres Gewicht zu. Alternativ ließe sich mit ganzzahligen \(g_i\) auch bestimmen, wie oft ein Datum \(x_i\) jeweils in der Messreihe vorkommt.

Definition (Geometrisches Mittel)

\(x_1, x_2, \ldots , x_n\) seien Daten eines quantitativen Merkmals mit \(x_i > 0\) für \(i=1,2,3,…,n\). Dann nennt man \[\overline{x}_g := \sqrt[n]{x_1\cdot x_2\cdot\ldots\cdot x_n}\] deren geometrisches Mittel.

Definition (Gewogenes geometrisches Mittel)

\(x_1, x_2, \ldots , x_n\) seien Daten eines quantitativen Merkmals mit \(x_i > 0\) für \(i=1,2,3,…,n\). Dann nennt man \[\overline{x}_g := \sqrt[G]{x_1^{g_1}\cdot x_2^{g_2}\cdot\ldots\cdot x_n^{g_n}} \text{ mit } G=\sum_{i=1}^n g_i\] deren gewogenes geometrisches Mittel.

Definition (Harmonisches Mittel)

\(x_1, x_2, \ldots , x_n\) seien Daten eines quantitativen Merkmals mit \(x_i > 0\) für \(i=1,2,3,…,n\). Dann nennt man \[\overline{x}_h := \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n})}\] deren harmonisches Mittel.

Satz

\(x_1, x_2, \ldots , x_n\) seien metrische Daten mit \(x_i > 0\) für \(i=1,2,3,…,n\). Dann gilt:

\[\overline{x}_h\leq\overline{x}_g\leq\overline{x}\]

Dabei gilt das Gleichheitszeichen nur dann, wenn \(x_1=x_2=\ldots=x_n\)

Graphische Veranschaulichung der Ungleichung für \(\text{ }n=2\):

Für \(x_1\) und \(x_2\) gilt: \[\overline{x} = \frac{x_1+x_2}{2}\] \[\overline{x}_g = \sqrt{x_1\cdot x_2}\] \[\overline{x}_h = \frac{1}{\frac{1}{2}(\frac{1}{x_1}+\frac{1}{x_2})}\]

Damit gilt rechnerisch: \(\overline{x}_g^2 = \overline{x}_h\cdot \overline{x}\)

In einem Halbkreis mit Durchmesser \(x_1+x_2 = 2r\) hat der Radius gerade die Länge des arithmetischen Mittels \(\overline{x}\).

Nach dem Höhensatz gilt: \(\overline{x}_g^2 = x_1\cdot x_2 = h^2\). \(\overline{x}\) ist Hypotenuse des "inneren" Dreiecks, dessen eine Kathete \(\overline{x}_g\) ist. Nach obiger Rechnung gilt mit dem Kathetensatz: \[\overline{x}_h\cdot \overline{x} = \overline{x}_g^2 = m\cdot\overline{x},\] wobei \(m\) der längere der beiden Hypotenusen-Abschnitte ist.

Dementsprechend lassen sich die drei „Mittel“ (für \(n=2\) in ein rechtwinkliges Dreieck bzw. den zugehörigen Halbkreis einbeschreiben, anhand dessen sich leicht die obige Ungleichung graphisch belegen lässt.

Definition (Median)

Seien \(x_{(1)}\leq x_{(2)}\leq x_{(3)}\leq\ldots\leq x_{(n)}\) der Größe nach geordnete \(n\) Daten. Als Median wird die folgendermaßen definierte Zahl bezeichnet:

  1. Bei Daten von Rangmerkmalen \[x_{0,5} := \begin{cases} x_{(\frac{n+1}{2})} & \text{bei ungeradem } n \\ x_{(\frac{n}{2})}\text{ oder }x_{(\frac{n}{2}+1)} & \text{bei geradem } n \end{cases} \]
  2. Bei quantitativen nicht gruppierten Daten \[x_{0,5} := \begin{cases} x_{(\frac{n+1}{2})} & \text{bei ungeradem } n \\ \frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}) & \text{bei geradem } n \end{cases} \]

Die Schreibweise, Indizes in runde Klammern zu setzen, wird üblicherweise verwendet, um Daten zu kennzeichnen, die der Größe nach geordnet sind.

Für eine gerade Anzahl von Daten gibt es allerdings keine einheitliche Festlegung. Manchmal wird auch dabei das arithmetische Mittel aus \(x_{(\frac{n}{2})}\) und \(x_{(\frac{n}{2}+1)}\) gewählt, so wie dies bei quantitativen Merkmalen geschieht.

Der Median zeichnet sich dadurch aus, dass er in der „Mitte“ einer der Größe nach geordneten Datenmenge liegt. Dabei sind mindestens 50% der Daten kleiner oder gleich und mindestens 50% der Daten größer oder gleich dem Median.

Zur Bestimmung dieses Wertes werden lediglich die Rangmerkmale benötigt. Quantitative Merkmale werden nicht gebraucht.

Grafik zum Median

Satz (Minimumseigenschaft des Medians)

Seien \(x_1, x_2, \ldots , x_n\) quantitative Daten. Die Summe der absoluten Abweichungen aller Daten \(x_i\) von ihrem Median ist kleiner oder gleich der Summe aller absoluten Abweichungen der Daten \(x_i\) von irgendeinem anderen Wert \(c\), ist also ein Minimum. Es gilt:

\[\sum_{i=1}^n |x_i-x_{0,5}|\leq \sum_{i=1}^n |x_i-c| \text{ für beliebiges } c\in\mathbb{R}\]

Definition (p-Quantil)

Seien \(x_{(1)}\leq x_{(2)}\leq x_{(3)}\leq\ldots\leq x_{(n)}\) der Größe nach geordnete \(n\) Daten. Eine Zahl \(x_p\in\mathbb{R}\) heißt p-Quantil, falls gilt: Mindestens \(p\cdot 100\%\) der Daten liegen vor \(x_p\), und mindestens \((1-p)\cdot 100\%\) der Daten liegen nach \(x_p\).

Dann berechnet sich das p-Quantil durch: \[x_{p} := \begin{cases} x_{([np]+1)} & \text{ falls } np\text{ nicht ganzzahlig ist} \\ \frac{1}{2}(x_{(np)}+x_{(np+1)}) & \text{ falls } np\text{ ganzzahlig ist} \end{cases} \]

Dabei wird unter dem Symbol \([np]\) die größte ganze Zahl verstanden, die kleiner oder gleich \(np\) ist.

Hinweise

  1. Für \(p=0,5\) ergibt sich gerade der Median.
  2. p-Quantile kommen in der Praxis häufig vor. Dabei sind die folgenden Bezeichnungen üblich:
    • \(x_{0,25}\) heißt erstes Quartil (auch unteres Quartil).
    • \(x_{0,5}\) heißt zweites Quartil (Median).
    • \(x_{0,75}\) heißt drittes Quartil (auch oberes Quartil).
    • \(x_{0,1}\) heißt erstes Dezil.
    • \(x_{0,9}\) heißt neuntes Dezil.
    Das untere Quartil, der Median und das obere Quartil spielen bspw. in Box-Plot-Diagrammen eine Rolle.