Stratified sampling/de
(→Stichprobenumfang) |
(→Varianzschätzer) |
||
Line 140: | Line 140: | ||
Hierbei ist <math>N_h-n_h/N_h\,</math> eine [[Lecturenotes:Infinit population correction/de|Endlichkeitskorrektur]], die nur dann verwendet wird, wenn die Straten klein bzw. das Verhältnis zwischen Stichprobenumfang und Populationsumfang größer als 0,05 ist (Akca 2001<ref name="multiple">Akca, A. 2001. Waldinventur. J.D. Sauerländer's Verlag. Frankfuhrt am Main, 193 S.</ref>). | Hierbei ist <math>N_h-n_h/N_h\,</math> eine [[Lecturenotes:Infinit population correction/de|Endlichkeitskorrektur]], die nur dann verwendet wird, wenn die Straten klein bzw. das Verhältnis zwischen Stichprobenumfang und Populationsumfang größer als 0,05 ist (Akca 2001<ref name="multiple">Akca, A. 2001. Waldinventur. J.D. Sauerländer's Verlag. Frankfuhrt am Main, 193 S.</ref>). | ||
− | |||
Beachte: Eine Endlichkeitskorrektur ist immer dann nötig, wenn Ziehen ohne Zurücklegen verwendet wird und der Populationsumfang durch | Beachte: Eine Endlichkeitskorrektur ist immer dann nötig, wenn Ziehen ohne Zurücklegen verwendet wird und der Populationsumfang durch | ||
die Stichprobenziehung in bemerkenswertem Umfang verringert wird. Hierdurch ändern sich die Auswahlwahrscheinlichkeiten bei jedem ziehen | die Stichprobenziehung in bemerkenswertem Umfang verringert wird. Hierdurch ändern sich die Auswahlwahrscheinlichkeiten bei jedem ziehen | ||
eines Stichprobenelementes, was durch die Endlichkeitskorrektur ausgeglichen wird. | eines Stichprobenelementes, was durch die Endlichkeitskorrektur ausgeglichen wird. | ||
− | |||
Ohne die Endlichkeitskorrektur ergibt sich also: | Ohne die Endlichkeitskorrektur ergibt sich also: | ||
Line 151: | Line 149: | ||
:<math>\hat {var} (\bar y) = \frac{1}{N^2} \sum_{h=1}^L N^2_h \frac {S^2_h}{n_h}</math>. | :<math>\hat {var} (\bar y) = \frac{1}{N^2} \sum_{h=1}^L N^2_h \frac {S^2_h}{n_h}</math>. | ||
− | |||
===Schätzer des Total=== | ===Schätzer des Total=== |
Revision as of 10:02, 27 November 2008
Contents |
Stratifizierte Stichprobe
Die stratifizierte Stichprobe (oder geschichtete Stichprobe) ist kein eigentliches Stichprobenverfahren, sondern eine Vorgehensweise um eine Grundgesamtheit in kleinere und in sich homogenere Untereinheiten (Straten, Schichten) aufzuteilen. Diese Aufteilung kann entweder vor der Stichprobenerfassung oder auch nach der Stichprobenziehung (Post-Stratifizierung) in der gewonnenen Datengrundlage durchgeführt werden.
Die stratifizierte Stichprobe ist besonders dann effizient, wenn die Variabilität innerhalb eines Stratums kleiner ist als innerhalb der Grundgesamtheit (Akca 2001[1]). In diesem Fall kann mit dem gleichen Stichprobenumfang die Genauigkeit und Präzision der Stichprobe verbessert werden. Es gibt weitere statistische aber auch praktische Überlegungen, die eine Stratifizierung unter bestimmten Bedingungen sinnvoll machen. Voraussetzungen für die Stratifizierung ist, dass sich die in nicht überlappende und homogenere Straten unterteilen werden kann. Hierfür sind Informationen über die Population nötig, die zu einer Aufteilung herangezogen werden können. In forstlichen Inventuren können das Forsteinrichtungsdaten oder aber Fernerkundungsdaten sein. Am günstigsten ist es die Grundgesamtheit nach der Ausprägung der Zielgröße aufzuteilen. Da diese nicht bekannt ist, werden Merkmale verwendet, die möglichst hoch mit der Zielgröße korrelliert sind. In Waldbeständen kann z.B. die Altersklasse von Beständen ein gutes Stratifizierungsmerkmal für die Zielgröße Volumen pro ha sein.
Argumente für eine Stratifizierung
Die Aufteilung der Grundgesamtheit in einzelne Straten, ermöglicht es Teilpopulationen getrennt zu betrachten. Hierdurch ergeben sich statistische aber auch praktische Vorteile, die dieses Verfahren für die Forstwissenschaft sehr interessant machen. Nahezu alle größeren Waldinventuren sind daher stratifizierte Stichproben.
- Statistische Gründe
- Die räumliche Verteilung von zufällig gewählten Stichprobenpunkten ist gleichmäßiger über die Grundgesamtheit verteilt, wenn die Stichproben in einzelnen Straten liegen,
- In jedem Stratum kann ein optimales individuelles Stichprobenverfahren angewendet werden,
- Die Präzision der Stichprobe erhöht sich, wenn die oben genannten Voraussetzungen erfüllt sind,
- Die Aufteilung in Straten ermöglicht es später auch getrennte Aussagen über die Teilpupulationen zu erhalten,
- Es ist sichergestellt, dass Beobachtungen aus allen Straten vorhanden sind.
- Praktische Gründe
- Die Möglichkeit verschiedene Verfahren in einzelnen Teilpopulationen durchführen zu können, erhöht die Effizienz und kann Kosten senken,
- Die Feldarbeit kann einfacher organisiert werden (einzelne Aufnahmetrupps können unterschiedliche Straten bearbeiten),
- Es ist eine höhere Spezialisierung der Aufnahmeteams möglich.
Stratifizierungskriterien
Zur Stratenbildung können verschiedene Kriterien als Stratifizierungsmerkmal herangezogen werden. Falls der Grund für eine Stratifizierung nicht die erhöhung der Präzision der Schätzung ist, müssen diese nicht in jedem Fall mit der Zielgröße korrelliert sein. Unter bestimmten Umständen ist eine Aufteilung der Grundgesamtheit auch dann sinnvoll, wenn sich aus statistischer Sicht keine nennenswerte Verbesserung der Schätzung ergibt. Dies ist z.B. der Fall, wenn politische Grenzen eine räumliche Aufteilung von Waldgebieten vorgiebt, weil Inventurergebnisse für jede einzelne Region benötigt werden. Hierbei können auch in sich homogene Flächen einzeln betrachtet werden. Weitere denkbare Stratifizierungsmerkmale sind z.B.:
- Topografische Gegebenheiten (z.B. Höhenschichten),
- unterschiedliche Bestandestypen,
- Altersklassen (nicht in Naturwäldern)
- Bodentypen, Nährstoffversorgung,
- Wuchsgebiete,
- Baumarten,
- ...
Weiterhin können auch die Inventurkosten als Stratifizierungskriterium berücksichtigt werden. Diese sind normalerweise mit den oben genannten Kriterien korrelliert. So könnte z.B. eine Stratifizierung nach Hangneigungsstufen denkbar sein, wenn die Kosten (zeitbedarf) der Feldaufnahmen zwischen den Straten erheblich variieren. Möchte man die Aufnahmekosten bei der Herleitung der Verteilung von Stichproben auf einzelne Straten berücksichtigen, könnte das in diesem Fall zu einem anderen Ergebnis führen als eine einfache Verteilung (Allokation) der Stichprobenpunkte.
Statistik
Die Schätzer für die Stratifizierte Stichprobe beruhen auf einfachen Linearkombinationen. Angenommen wir betrachten zwei unabhängige Zufallsvariablen \(Y_1\,\) und \(Y_2\,\) und interessieren uns für die Summe der beiden \(Y_1+Y_2\,\), dann ist
\[E(Y_1+Y_2)=E(Y_1)+E(Y_2)\,\] und
\[var(Y_1+Y_2)=var(Y_1)+var(Y_2)\,\]
In einfachen Worten: Der Erwartungswert E der Summe beider Variablen ist gleich der Summe der einzelnen Erwartungswerte.
Wenn \(Y_1\,\) und \(Y_2\,\) Schätzungen aus den zwei Straten 1 und 2 sind können wir diese Grundlagen für die Stratifizierte Stichprobe nutzen.
Ist die zu Schätzende Zielgröße beispielsweise ein Mittelwert (z.B. mittleres Volumen pro ha) müssen wir bedenken, dass die Straten eventuell ungleich groß sind. Im Fall von gleichgroßen Straten gilt:
\[\frac 12 (Y_1+Y_2)=\frac 12 Y_1+\frac 12Y_2=c_1Y_1+c_2Y_2\,\]
Der factor \(c\,\) kann als Gewichtungsfaktor der einzelnen Schätzungen aus 1 und 2 angesehen werden. Da hier beide Straten den gleichen Umfang haben, ist hier \(c_1=c_2\,\).
Der Normalfall wird eher sein, dass die Straten ungleich groß sind. Wir müssen die Schätzungen aus den einzelnen Straten daher unterschiedlich gewichten.
Eine Gewichtung einzelner Teilergebnisse (oder Schätzungen) ist immer dann wichtig, wenn die Teilergebnisse aus unterschiedlich großen Teilpopulationen stammen und hieraus ein Gesamtergebnis berechnet werden soll. Einfaches Beispiel: Es soll das mittlere Körpergewicht von 50 Studenten ermittelt werden. Es wurde ein Mittleres Körpergewicht der 15 Frauen (55 Kg) und ein Mittelwert für die 35 Männer (73 Kg) berechnet. Würden wir einen ungewichteten Mittelwert über beide Gruppen berechnen (64 Kg) wäre das falsch. Richtig ist 15/50*55+35/50*73=67,6 Kg! Die Gewichte 15/50 bzw. 35/50 sind dabei Ausdruck des Anteils dieser Gruppe an der Gesamtpopulation.
Die Gewichte müssen hierbei proportional zur Größe der Teilpopulationen in den jeweiligen Straten sein. Im Rahmen von Inventuren besteht die Population in den meisten Fällen aus einer unendlichen Zahl von möglichen Stichprobenpunkten, deren Größe wir durch die Fläche der einzelnen Straten ausdrücken. Die Summe der einzelnen Gewichte muss 1 sein, es gilt also:
\[\sum c_i=1\,\]
Der Erwartungswert E für ungleich große Straten ist daher:
\[E(c_1Y_1+c_2Y_2)=E(c_1Y_1)+E(c_2Y_2)=c_1E(Y_1)+c_2E(Y_2)\,\] , wobei \(c_1 \not= c_2\,\) ist, oder
\[E(\sum c_iY_i)=\sum c_iE(Y_i)\,\].
Analog ist die Varianz:
\[var(c_1Y_1+c_2Y_2)=var(c_1Y_1)+var(c_2Y_2)=c_1^2var(Y_1)+c_2^2var(Y_2)\,\] , oder
\[var(\sum c_iY_i)=\sum c_i^2var(Y_i)\,\].
Beachte: Immer wenn eine Varianz erweitert (oder wie hier durch einen Gewichtungsfaktor reduziert) wird, muss der Faktor quadriert werden, da die Varianz eine quadratische Größe ist!
Notation
Notation | Bedeutung | |
---|---|---|
\(L\,\) | Anzahl der Straten \(h=1, ... , L \,\) | |
\(N\,\) | Gesamtgröße der Population | |
\(N_h\,\) | Größe des Stratums \(h (N=sum N_h)\,\) | |
\(\bar y\,\) | Geschätzter Mittelwert der Population | |
\(\bar y_h\,\) | Geschätzter Mittelwert im Stratum \(h\,\) | |
\(n\,\) | Stichprobenumfang | |
\(n_h\,\) | Stichprobenumfang in Stratum \(h\,\) | |
\(S^2_h\,\) | Stichprobenvarianz in Stratum \(h\,\) | |
\(\tau\,\) | Total | |
\(\tau_h\,\) | Total in Stratum \(h\,\) | |
\(\hat \tau_h\,\) | Geschätztes Total in Stratum \(h\,\) |
Schätzer des Mittelwertes
Der Schätzer des Mittelwertes für die Stratifizierte Stichprobe ergibt sich analog zu den oben dargestellten Überlegungen als:
\[\bar y = \sum_{h=1}^L \frac{N_h}{N} \bar y_h = \frac {1}{N} \sum_{h=1}^L N_h \bar y_h\,\]
Varianzschätzer
Der Varianzschätzer für eine Auswahl ohne Zurücklegen kann wie folgt hergeleitet werden:
\[\hat {var} (\bar y) = \sum_{h=1}^L \left\lbrace \left( \frac {N_h}{N} \right)^2 \hat {var} (\bar y_h) \right\rbrace = \frac{1}{N^2} \sum_{h=1}^L N^2_h \frac {N_h-n_h}{N_h} \frac {S^2_h}{n_h}\].
Hierbei ist \(N_h-n_h/N_h\,\) eine Endlichkeitskorrektur, die nur dann verwendet wird, wenn die Straten klein bzw. das Verhältnis zwischen Stichprobenumfang und Populationsumfang größer als 0,05 ist (Akca 2001[2]).
Beachte: Eine Endlichkeitskorrektur ist immer dann nötig, wenn Ziehen ohne Zurücklegen verwendet wird und der Populationsumfang durch die Stichprobenziehung in bemerkenswertem Umfang verringert wird. Hierdurch ändern sich die Auswahlwahrscheinlichkeiten bei jedem ziehen eines Stichprobenelementes, was durch die Endlichkeitskorrektur ausgeglichen wird.
Ohne die Endlichkeitskorrektur ergibt sich also:
\[\hat {var} (\bar y) = \frac{1}{N^2} \sum_{h=1}^L N^2_h \frac {S^2_h}{n_h}\].
Schätzer des Total
\[\hat\tau = N\bar y = \sum_{h=1}^L \frac {N_h}{N} \hat \tau_h = \sum_{h=1}^L N_h \bar y_h\,\]
Die Varianz des Total ist demnach:
\[\hat{var}(\hat {\tau}) = \hat{var}(N \bar y) = N^2 \hat{var}(\bar y)\]
Stichprobenumfang
Bei der Herleitung des nötigen Stichprobenumfangs, der immer durch den vogegebenen zulässigen Fehler, das statistische Sicherungsniveau und durch die Variabilität innerhalb der Population beeinflusst wird, muss bedacht werden, dass die Varianz in den einzelnen Straten unterschiedlich ist. Diese unterschiedlichen Varianzen müssen demnach (gewichtet) in die Berechnung des nötigen Stichprobenumfangs eingehen.
Der "nötige" Stichprobenumfang ist die geschätzte Anzahl von Stichproben, die man benötigt, um ein vorgegebenen Fehler mit einem vorgegeben statistischen Sicherungsniveau einzuhalten. Das Sicherungsniveau ergibt sich aus der Irrtumswahrscheinlichkeit alpha, zu der ein t-Wert aus der Student-t Verteilung gehört. Der Vorgegebe zulässige Fehler A ist bei Waldinventuren oft mit 10% angegeben.
Vergleiche die Folgende Formel auch mit der für die einfache Zufallsstichprobe:
\[n = \frac {t^2 \sum \frac {N^2_h S^2_h}{w_h}}{N^2 A^2}\,\],
wobei \(w_h = n_h/N,\), also der Anteil des Stichprobenumfangs, der in Stratum \(h\) fällt.
Bemerkung: Für die Berechnung des Gesamtstichprobenumfangs ist es nötig, vorher zu wissen, wie groß der Anteil bzw. wie hoch die Anzahl in einzelnen Straten ist?! Das hört sich zunächst unlogisch an, da wir ja gerade die Anzahl nötiger Stichproben berechnen wollen. Bedenkt man aber, dass es hier darum geht, den erwarteten Fehler in jedem Stratum einzubeziehen, ist es logisch, dass wir eine Vorgabe für die Anzahl der Stichproben benötigen.
Hierzu muss die Zuteilung der Stichproben zu einzelnen Straten vorher definiert werden.