Demoseiten: Stochastik - Statistik: Grundbegriffe der Statistik

Überblick
In diesem Abschnitt lernen Sie die Grundbegriffe der beschreibenden Statistik kennen. Wir werden sehen, dass es verschiedene Möglichkeiten gibt, wie wir Daten erheben und ordnen können. Mit den beiden Begriffen absolute und relative Häufigkeit lernen wir zwei erste Möglichkeiten der Datenaufbereitung kennen.

An Vorwissen anknüpfen

Grundbegriffe der beschreibenden Statistik
Wenn wir eine statistische Datenerhebung zu einer Fragestellung durchführen, dann möchten wir Merkmale (Eigenschaften) in einer Grundgesamtheit untersuchen. Die Menge der Grundgesamtheit umfasst dabei alle potenziellen Merkmalsträger zu dieser Fragestellung, wobei Merkmalsträger nicht nur Personen sein können. Da diese Menge in der Regel sehr viele Elemente beinhaltet, arbeitet man oft mit Stichproben, die möglichst repräsentativ gewählt werden sollten. Unter einer Stichprobe verstehen wir die nichtleere Teilmenge der Grundgesamtheit, die alle für eine Erhebung zufällig ausgewählte Merkmalsträger enthält. Die möglichen Werte, die ein Merkmal annehmen kann, bezeichnen wir als Merkmalsausprägungen.

Beispiel: Grundbegriffe

Übung:
An einer Algebraklausur der Lehrveranstaltung „Einführung in die Lineare Algebra“ haben im Wintersemester 2007/2008“ 110 Studierende des nicht vertieften Lehramts mit Hauptfach Mathematik an der Universität Würzburg teilgenommen. In der Klausur konnten max. 30 Punkte erreicht werden, wobei nur ganzzahlige Punktezahlen vergeben wurden. Im Rahmen der Korrektur wurde jedem Studierenden die erreichte Punktezahl zugeordnet. Bestimmen sie die Merkmalsträger, die Grundgesamtheit sowie die Merkmalsausprägungen des Merkmals "erreichte Punkte in der Statistikklausur". Lösungsvorschlag

(Quelle: Wikipedia)

Verschiedene Merkmalstypen

Um statistische Methoden anwenden zu können, muss feststehen, ob und in welchem Umfang mit den registrierten Merkmalsausprägungen umgegangen werden kann und darf. Da wir Merkmalsausprägungen immer mithilfe einer Skala messen (erst durch eine Skala kann eine Merkmalsausprägung ermittelt werden), spricht man auch von unterschiedlichen Skalenarten bzw. Skalenniveaus. Skalenniveaus bestimmen

welche Interpretationen die Ausprägungen eines Merkmals zulassen
die mathematischen Operationen, die mit einer entsprechend skalierten Variablen zulässig sind.

Die beiden nachfolgenden Tabellen geben eine Übersicht über die verschiedenen Merkmalstypen und ihre Eigenschaften:

Hierarchie der verschiedenen Datentypen.

Übungen:

Der Begriff "Qualitatives Merkmal" kann bei Schülern leicht falsche Assoziationen hervorrufen. Nehmen Sie Stellung zu dieser These. Lösungsvorschlag
Finden Sie weitere Beispiele für die verschiedenen Merkmalstypen. Lösungsvorschlag

Möglichkeiten der Erhebung von Daten
Im Folgenden befassen wir uns mit den Grundlagen einer Datenerhebung.

Problemstellung:

Ausgangspunkt ist ein Problem oder eine Fragestellung, zu dessen Lösung oder Antwort man eventuell schon Hypothesen besitzt, diese aber empirisch bestätigt oder widerlegt haben möchte. Die Fragestellung sollte dabei so genau wie möglich gestellt sein und wenig Raum zur Interpretation bieten.

Beispiel: Präzision einer Problemstellung

Erhebung von Daten:
Um eine Problemstellung zu beantworten, benötigt man je nach Fragestellung umfangreiche Informationen (Daten). Diese kann man entweder selbst erheben (primärstatistische Daten), oder man greift auf schon erhobene Daten anderer Institute zurück (sekundärstatistische Daten).

Entscheidet man sich dazu selbst Daten zu erheben, muss man sich verschiedene Fragen zur Datengewinnung stellen:
Totalerhebung oder Teilerhebung?

Querschnittsstudie oder Längsschnittstudie?

Auswahl eines Messinstruments

Exkurs: Quellen für zum Schuleinsatz geeignete Statistiken

Beispiel: Querschnittsstudie / Längsschnittsstudie

Exkurs: Probleme einer Datenerhebung

Umsetzungsmöglichkeiten in der Schule
Für den Schulbereich lassen sich zwei unterschiedliche Wege zur Einführung in die beschreibende Statistik wählen. Entweder lässt man die Schülerinnen und Schüler selbst eine Erhebung von Daten (i.d.R. in der Form einer Fragebogenerhebung) zu einem selbst gewählten Thema durchführen und nutzt diese Daten für den weiteren Unterrichtsverlauf oder man greift auf bestehende Statistiken zurück. Der erste Weg bietet den Vorteil, dass die Schülerinnen und Schüler eigenständig den Ablauf einer Datenerhebung, sowie deren Auswertung und die damit verbundenen Probleme kennenlernen, während der zweite Weg zeitsparender ist und die Schülerinnen und Schüler durch immer neue Daten motiviert werden können. Die Bildungsstandards fordern bei der Behandlung der Statistik explizit den Einsatz von Software.

Exkurs: Mögliche Themen für kleinere Erhebungen im Rahmen des Schulunterrichts

Erste Formen der Datenreduktion
Im Anschluss an eine Datenerhebung folgt deren Aufbereitung. Dabei geht man immer von der sogenannten Urliste aus. Wir verstehen unter einer Urliste die Gesamtheit der vorliegenden oder ermittelten Daten in ursprünglicher, d. h. in willkürlicher Anordnung. Aus der Urliste wird als nächster Schritt der Datenaufbereitung eine "Strichliste" entwickelt, die uns bereits einen ersten Eindruck zu der gewählten Fragestellung vermittelt. Eine Strichliste stellt schon die erste Form der Datenreduktion dar. Aus einer Strichliste können wir direkt die absolute Häufigkeit einer Merkmalsausprägung ablesen.

Urliste einer eindimensionalen Erhebung

Beispiel zur Arbeitsweise der beschreibenden Statistik

Urliste einer mehrdimensionalen Erhebung

Die absolute Häufigkeit H_n(x_i) bezeichnet die Anzahl der in einer Stichprobe vom Umfang n erhobenen statistischen Einheiten mit der Merkmalsausprägung x_i. Sie gibt also an, wie viele Merkmalsträger zu einer bestimmten Merkmalsausprägung in einem Datensatz existieren. Es gilt: Die Summe der absoluten Häufigkeiten für alle Merkmalsausprägungen ist gleich der Gesamtanzahl der Merkmalsträger n.

\(\sum_{i=1}^k H_n(x_i) = n\)
Der Quotient der absoluten Häufigkeit einer Merkmalsausprägung und der Summe n aller absoluten Häufigkeiten heißt relative Häufigkeit h_n(x_i) und wird in der Regel in Prozent angegeben:

\(h_n(x_i)=\frac{H_n(x_i)}{n}\)
Es gilt: Die Summe der relativen Häufigkeiten ist 1.

\(\sum_{i=1}^k h_n(x_i)=1\)

Urliste, Strichliste, absoulte und relative Häufigkeit Fachsemesterzahl

Übung:
Begründen Sie die obige Formel! Lösungsvorschlag

In der Praxis haben wir es oft mit einer sehr großen Anzahl von möglichen quantitativen Merkmalsausprägungen zu tun. Denken Sie dabei zum Beispiel an eine Erhebung zur Körpergröße. Befragen wir 100 Personen nach ihrer Körpergröße mit 2 Nachkommastellen, hilft uns eine Strichliste als Datenreduktionsmittel nicht mehr weiter. In der Praxis wendet man deshalb entweder schon bei der Erhebung oder aber bei der Auswertung eine sogenannte Klassenbildung (Klassierung) an. Bei einer Klassenbildung fassen wir mehrere Merkmalsausprägungen (also z.B. verschiedene Körpergrößen) zu einer Klasse zusammen.

Applet: Histogramm mit verschiedener Klassenbreite (Quelle: www.uni-muenster.de)

Vertiefung: Klassenbildung

Klassenbildung:

Übungen:

Welche Vor- und Nachteile ergeben sich, wenn Schülerinnen und Schüler eine Datenerhebung am Computer auswerten bzw. diese per Hand durchführen? Lösungsvorschlag
In einem Geschäft haben innerhalb einer Stunde 20 Personen eingekauft. Die folgende Tabelle gibt eine Übersicht über die Summe der Preise der jeweils gekauften Waren eines Kunden.

Kundennummer	Gesamtpreis gekaufter Produkte (in €)
1	4,99
2	0,99
3	5,98
4	3,69
5	10,00
6	8,61
7	12,20
8	9,99
9	1,98
10	7,69
11	0,49
12	6,99
13	5,00
14	16,40
15	3,97
16	13,50
17	8,90
18	19,99
19	7,77
20	2,00

Erstellen Sie in einem Tabellenkalkulationsprogramm diese Tabelle. Fassen Sie die Merkmalsausprägungen in Klassen zusammen (Klassenbreite = 5) und bestimmen Sie anschließend für die Klassen die absoluten und Häufigkeiten.
Lösungsvorschlag (OpenOffice) | Lösungsvorschlag (Excel)

Nützliche Befehle

Zusammenfassung:

Unter einem Merkmal verstehen wir eine zu untersuchende Eigenschaft. Die möglichen Werte, die dabei ein Merkmal annehmen kann, nennen wir Merkmalsausprägungen. Merkmalsausprägungen messen wir mithilfe von Skalen. Dabei unterscheiden wir unterschiedliche Skalenniveaus, die uns Informationen darüber geben, welche Interpretationen die Ausprägungen eines Merkmals zulassen und welche mathematischen Operationen zulässig sind.

Um Daten zu einer Fragestellung zu erheben, muss man sich verschiedene Fragen stellen:

Ist die Fragestellung präzise genug?

Soll eine Total- oder Teilerhebung mittels Querschnitts- oder Längsschnittstudie durchgeführt werden?

Mit welchem Messinstrument soll die Befragung durchgeführt werden?

Nachdem Daten erhoben wurden, ist es die Hauptaufgabe der beschreibenden Statistik diese aufzuarbeiten und zu reduzieren. Die Daten liegen zunächst als ungeordnete Urliste vor, die wir im nächsten Schritt in eine geordnete Strichliste überführen. Dabei bezeichnet die absolute Häufigkeit (H_n(x_i)) die Anzahl der in einer Stichprobe vom Umfang n erhobenen statistischen Einheiten mit der Merkmalsausprägung x_i und die relative Häufigkeit h_n(x_i) den Quotienten der absoluten Häufigkeit einer Merkmalsausprägung und der Summe n aller absoluten Häufigkeiten. Bei einer sehr großen Anzahl von Daten fassen wir mehrere Merkmalsausprägungen zu einer Klasse zusammen (Klassenbildung).