Stratified sampling

From AWF-Wiki
Revision as of 19:27, 2 December 2008 by Fehrmann (Talk | contribs)

Jump to: navigation, search


Contents

Stratified sampling

Stratified sampling is actually not a new Sampling technique of its own, but a procedural method to subdivide a population into seperate and more homogenious sub-populations called strata (Kleinn 2007[1]). The major characteristic is that independent sampling studies are carried out in each stratum where all strata are considered as sub-populations of which the parameters need to be estimated. If random sampling is applied, we call that stratified random sampling.

Startified sampling is efficient especially in those cases where the variability inside the starta is low and the differences of means between the strata is large (Akca 2001[2]). In this case we can achive a higher precision with the same sample size.

Beside statistical issues there are further arguments for stratification. The precondition for a meaningfull partitioning of a population in non-overlapping strata is the availability of prior information that can be used as stratification criteria. In forest inventories these informations might be available in form of forest managament or GIS-data or can be derived from remote sensing data like arial fotos. Most efficiant from a statistical point of view is the stratification of a population proportinal to the target value of the Inventory. As this target value is typivcally not known before the Inventory, forest variables that are correlated to this value are used as stratification criteria. In large managed forest areas the age classe might for example be a good stratification criterion if the estimation of volume per ha is targeted.


Arguments for stratification

Sometimes it is useful to subdivide the population of interest in a number of sub-populations (strata) and carry out an independent sampling in each of these strata. There are statistical as well as practical considerations that makes this technique very favorable and interesting for large area Forest Inventories. Not without reason almost all national forest invetorys are based on stratification.

Statistical justifications
  • The spatial distribution of sample points inside the population is more evenly, if these points are selected in single strata,
  • It is possible to make an individual optimization of sampling and plot design for each stratum,
  • One usually increases the precision of the estimations for the total population,
  • Separate estimations for each of the strata are produced in a pre-planned manner,
  • It is guaranteed that there are actually sufficient observations in each one of the strata.
Practical justification
  • The possibility to optimize the Inventory design seperately for each stratum is very efficient and helps to minimize costs,
  • To facilitate inventory work (particularly field work): independent field campaigns carried out in each stratum,
  • It allows a better spezialization of field crews (e.g. botanists).
Construction.png sorry: 

This section is still under construction! This article was last modified on 12/2/2008. If you have comments please use the Discussion page or contribute to the article!


Stratification criteria

Zur Stratenbildung können verschiedene Kriterien als Stratifizierungsmerkmal herangezogen werden. Falls der Grund für eine Stratifizierung nicht die erhöhung der Präzision der Schätzung ist, müssen diese nicht in jedem Fall mit der Zielgröße korrelliert sein. Unter bestimmten Umständen ist eine Aufteilung der Grundgesamtheit auch dann sinnvoll, wenn sich aus statistischer Sicht keine nennenswerte Verbesserung der Schätzung ergibt. Dies ist z.B. der Fall, wenn politische Grenzen eine räumliche Aufteilung von Waldgebieten vorgiebt, weil Inventurergebnisse für jede einzelne Region benötigt werden. Hierbei können auch in sich homogene Flächen einzeln betrachtet werden. Weitere denkbare Stratifizierungsmerkmale sind z.B.:

  • Topografische Gegebenheiten (z.B. Höhenschichten),
  • unterschiedliche Bestandestypen,
  • Altersklassen (nicht in Naturwäldern)
  • Bodentypen, Nährstoffversorgung,
  • Wuchsgebiete,
  • Baumarten,
  • ...

Weiterhin können auch die Inventurkosten als Stratifizierungskriterium berücksichtigt werden. Diese sind normalerweise mit den oben genannten Kriterien korrelliert. So könnte z.B. eine Stratifizierung nach Hangneigungsstufen denkbar sein, wenn die Kosten (zeitbedarf) der Feldaufnahmen zwischen den Straten erheblich variieren. Möchte man die Aufnahmekosten bei der Herleitung der Verteilung von Stichproben auf einzelne Straten berücksichtigen, könnte das in diesem Fall zu einem anderen Ergebnis führen als eine einfache Verteilung (Allokation) der Stichprobenpunkte.

Statistik

Die Schätzer für die Stratifizierte Stichprobe beruhen auf einfachen Linearkombinationen (Kleinn 2007[1]). Angenommen wir betrachten zwei unabhängige Zufallsvariablen \(Y_1\,\) und \(Y_2\,\) und interessieren uns für die Summe der beiden \(Y_1+Y_2\,\), dann ist


\[E(Y_1+Y_2)=E(Y_1)+E(Y_2)\,\] und


\[var(Y_1+Y_2)=var(Y_1)+var(Y_2)\,\]


info.png Einfach:
Der Erwartungswert E der Summe beider Variablen ist gleich der Summe der einzelnen Erwartungswerte. Es erscheint logisch, dass wir die einzelnen Summen einfach summieren und so eine Gesamtsumme erhalten. Anders ist das bei Mittelwerten.


Wenn \(Y_1\,\) und \(Y_2\,\) Schätzungen aus den zwei Straten 1 und 2 sind können wir diese Grundlagen für die Stratifizierte Stichprobe nutzen.

Ist die zu Schätzende Zielgröße beispielsweise ein Mittelwert (z.B. mittleres Volumen pro ha) müssen wir bedenken, dass die Straten eventuell ungleich groß sind. Im Fall von gleichgroßen Straten gilt:

\[\frac 12 (Y_1+Y_2)=\frac 12 Y_1+\frac 12Y_2=c_1Y_1+c_2Y_2\,\]

Der factor \(c\,\) kann als Gewichtungsfaktor der einzelnen Schätzungen aus 1 und 2 angesehen werden. Da hier beide Straten den gleichen Umfang haben, ist hier \(c_1=c_2\,\).

Der Normalfall wird eher sein, dass die Straten ungleich groß sind. Wir müssen die Schätzungen aus den einzelnen Straten daher unterschiedlich gewichten.


info.png Beispiel:
Eine Gewichtung einzelner Teilergebnisse (oder Schätzungen) ist immer dann wichtig, wenn die Teilergebnisse aus unterschiedlich großen Teilpopulationen stammen und hieraus ein Gesamtmittelwert berechnet werden soll. Einfaches Beispiel: Es soll das mittlere Körpergewicht von 50 Studenten ermittelt werden. Es wurde ein Mittleres Körpergewicht der 15 Frauen (55 Kg) und ein Mittelwert für die 35 Männer (73 Kg) berechnet. Würden wir einen ungewichteten Mittelwert über beide Gruppen berechnen (64 Kg) wäre das falsch. Richtig ist 15/50*55+35/50*73=67,6 Kg! Die Gewichte 15/50 bzw. 35/50 sind dabei Ausdruck des Anteils dieser Gruppe an der Gesamtpopulation.

Die Gewichte müssen hierbei proportional zur Größe der Teilpopulationen in den jeweiligen Straten sein. Im Rahmen von Inventuren besteht die Population in den meisten Fällen aus einer unendlichen Zahl von möglichen Stichprobenpunkten, deren Größe wir durch die Fläche der einzelnen Straten ausdrücken. Die Summe der einzelnen Gewichte muss 1 sein, es gilt also:

\[\sum c_i=1\,\]

Der Erwartungswert E für ungleich große Straten ist daher:


\[E(c_1Y_1+c_2Y_2)=E(c_1Y_1)+E(c_2Y_2)=c_1E(Y_1)+c_2E(Y_2)\,\] , wobei \(c_1 \not= c_2\,\) ist, oder


\[E(\sum c_iY_i)=\sum c_iE(Y_i)\,\].


Analog ist die Varianz:

\[var(c_1Y_1+c_2Y_2)=var(c_1Y_1)+var(c_2Y_2)=c_1^2var(Y_1)+c_2^2var(Y_2)\,\] , oder


\[var(\sum c_iY_i)=\sum c_i^2var(Y_i)\,\].


info.png Beachte:
Immer wenn eine Varianz erweitert (oder wie hier durch einen Gewichtungsfaktor relativiert) wird, muss der Faktor quadriert werden, da die Varianz eine quadratische Größe ist!


Notation

Notation Bedeutung
\(L\,\) Anzahl der Straten \(h=1, ... , L \,\)
\(N\,\) Gesamtgröße der Population
\(N_h\,\) Größe des Stratums \(h (N=sum N_h)\,\)
\(\bar y\,\) Geschätzter Mittelwert der Population
\(\bar y_h\,\) Geschätzter Mittelwert im Stratum \(h\,\)
\(n\,\) Stichprobenumfang
\(n_h\,\) Stichprobenumfang in Stratum \(h\,\)
\(S^2_h\,\) Stichprobenvarianz in Stratum \(h\,\)
\(\tau\,\) Total
\(\tau_h\,\) Total in Stratum \(h\,\)
\(\hat \tau_h\,\) Geschätztes Total in Stratum \(h\,\)
\(c_h\,\) Relativer Anteil des Stratum \(h\,\) bzw. Gewicht des Stratums
\(\hat {var} (\bar y)\,\) Geschätzte Fehlervarianz des geschätzten Populationsmittelwertes
\(\hat {var} (\hat \tau)\,\) Geschätzte Fehlervarianz des Total


Schätzer des Mittelwertes

Der Schätzer des Mittelwertes für die Stratifizierte Stichprobe ergibt sich analog zu den oben dargestellten Überlegungen (und auf Grundlage der vorgestellten Schätzer der einfachen Zufallsstichprobe) als:

\[\bar y = \sum_{h=1}^L \frac{N_h}{N} \bar y_h = \frac {1}{N} \sum_{h=1}^L N_h \bar y_h\,\]

Varianzschätzer

Der Varianzschätzer für eine Auswahl ohne Zurücklegen kann wie folgt hergeleitet werden:

\[\hat {var} (\bar y) = \sum_{h=1}^L \left\lbrace \left( \frac {N_h}{N} \right)^2 \hat {var} (\bar y_h) \right\rbrace = \frac{1}{N^2} \sum_{h=1}^L N^2_h \frac {N_h-n_h}{N_h} \frac {S^2_h}{n_h}\].


Hierbei ist \(N_h-n_h/N_h\,\) eine Endlichkeitskorrektur, die nur dann verwendet wird, wenn die Straten klein bzw. das Verhältnis zwischen Stichprobenumfang und Populationsumfang größer als 0,05 ist (Akca 2001[2]).


info.png Beachte:
Eine Endlichkeitskorrektur ist immer dann nötig, wenn Ziehen ohne Zurücklegen verwendet wird und der Populationsumfang durch die Stichprobenziehung in bemerkenswertem Umfang verringert wird. Hierdurch ändern sich die Auswahlwahrscheinlichkeiten bei jedem ziehen eines Stichprobenelementes, was durch die Endlichkeitskorrektur ausgeglichen wird.

Ohne die Endlichkeitskorrektur ergibt sich also:


\[\hat {var} (\bar y) = \frac{1}{N^2} \sum_{h=1}^L N^2_h \frac {S^2_h}{n_h}\].

Schätzer des Total

\[\hat\tau = N\bar y = \sum_{h=1}^L \frac {N_h}{N} \hat \tau_h = \sum_{h=1}^L N_h \bar y_h\,\]


Die Varianz des Total ist demnach:


\[\hat{var}(\hat {\tau}) = \hat{var}(N \bar y) = N^2 \hat{var}(\bar y)\]

Stichprobenumfang

Bei der Herleitung des nötigen Stichprobenumfangs, der immer durch den vogegebenen zulässigen Fehler, das statistische Sicherungsniveau und durch die Variabilität innerhalb der Population beeinflusst wird, muss bedacht werden, dass die Varianz in den einzelnen Straten unterschiedlich ist. Diese unterschiedlichen Varianzen müssen demnach (gewichtet) in die Berechnung des nötigen Stichprobenumfangs eingehen.


info.png Bemerkung:
Der "nötige" Stichprobenumfang ist die geschätzte Anzahl von Stichproben, die man benötigt, um ein vorgegebenen Fehler mit einem vorgegeben statistischen Sicherungsniveau einzuhalten. Das Sicherungsniveau ergibt sich aus der Irrtumswahrscheinlichkeit alpha, zu der ein t-Wert aus der Student-t Verteilung gehört. Der Vorgegebe zulässige Fehler A ist bei Waldinventuren oft mit 10% angegeben.

Vergleiche die Folgende Formel auch mit der für die einfache Zufallsstichprobe:


\[n = \frac {t^2 \sum \frac {N^2_h S^2_h}{w_h}}{N^2 A^2}\,\],


wobei \(w_h = n_h/N,\), also der Anteil des Stichprobenumfangs, der in Stratum \(h\) fällt.


info.png Bemerkung:
Für die Berechnung des Gesamtstichprobenumfangs ist es nötig, vorher zu wissen, wie groß der Anteil bzw. wie hoch die Anzahl in einzelnen Straten ist?! Das hört sich zunächst unlogisch an, da wir ja gerade die Anzahl nötiger Stichproben berechnen wollen. Bedenkt man aber, dass es hier darum geht, den erwarteten Fehler in jedem Stratum einzubeziehen, ist es logisch, dass wir eine Vorgabe für die Anzahl der Stichproben benötigen.

Hierzu muss die Zuteilung der Stichproben zu einzelnen Straten vorher definiert werden.

Verteilung der Stichproben auf Straten

Bei der Verteilung des Gesamtstichprobenumfangs auf einzelne Straten können verschiedene Kriterien herangezogen werden. Dies sind

  • Die Größe eines Stratums (je größer desto mehr Stichproben)
  • Die Variabilität innerhalb eines Stratums (je höher desto mehr Stichproben)
  • Die Kosten der Inventur, die zwischen den Straten variieren kann (Je höher desto weniger Stichproben).

Für den Fall, dass alle Straten gleich groß sind (gleiche Flächenanteile) und die Variabilität innerhalb der Straten gleich hoch ist, kann

\[n_h = \frac {n}{L}\,\],

also eine Gleichverteilung der Stichproben auf die einzelnen Straten, verwendet werden. Wie oben erwähnt würde die Stratifizierung hier jedoch keine statistischen Vorteile gegenüber einer unstratifizierten Stichprobe mit sich bringen.

Soll die Anzahl der Stichproben proportional zur Größe der Teilpopulationen (z.B. der Flächengröße) ermittelt werden, gilt:

\[n_h = n \frac {N_h}{N}\,\].

Diese Verteilung der Stichproben wird auch als Proportionale Zuteilung bezeichnet. Hierbei wird jedoch die Variabilität inerhalb der Straten nicht berüchsichtigt. Möchte man diese Größe mit berücksichtigen, sind vorab Informationen über die einzelnen Straten notwendig. Informationen über die Varianz könnten z.B. aus einer Voruntersuchung vorliegen. In diesem Fall kann die sog. Neyman - bzw. die Optimale Zuteilung verwendet werden:

\[n_h = n \frac {N_h S^2_h}{\sum_{i=1}^L N_i S^2_i}\,\].

Ergeben sich abweichende Inventurkosten (z.B. aufgrund der Geländebedingungen oder der Bestandesdichte) und ist die Kostenminimierung ein zu berücksichtigendes Ziel der Untersuchung, so können die Kosten in einzelnen Straten (\(c_h\,\) nicht mit den oben genannten Gewichtungsfaktoren zu verwechseln!) einbezogen werden. Hierdurch ergibt sich die Optimale Zuteilung mit Kostenminimierung:

\[n_h = n \frac {\frac {N_h S^2_h}{\sqrt {c_h}}}{\sum_{i=1}^L \frac{N_i S^2_i}{\sqrt {c_i}}}\,\]


info.png Bemerkung:
Hier wird deutlich, dass man \(n\) benötigt, um die Verteilung zu berechnen. Gleichzeitig braucht man \(n_h\), also das Ergebnis dieser Rechnung aber, um den Gesamtstichprobenumfang herzuleiten. Dieses Dilemma lässt sich nur durch ein iteratives Vorgehen lösen, indem zunächst relative Anteile für die Straten vorgegeben werden (z.B. anhand der Flächengröße) um im nächsten Schritt \(n\) zu berechnen.

Praktische Umsetzung

Je nachdem welches Zuteilungsverfahren verwendet werden soll, braucht man für die Stratifizierung folgende Informationen:

  • Anzahl der Straten,
  • Größe bzw. relativer Anteil der Straten an der Population,
  • Schätzungen für die Varianz in den einzelnen Straten,
  • Vorinformationen über die erwarteten Aufnahmekosten (z.B. über Zeitbedarf) in den Straten.

Weiterhin muss, wie in jeder Inventur, Die Präzision (A) für den Gesamtmittelwert vorgegeben werden. Die Irrtumswahrscheinlichkeit ist im allgemeinen mit \(\alpha = 0{,}05\,\) festgelegt.

Auf Grundlage der verfügbaren Informationen kann dann

  • ein angemessenes Zuteilungsverfahren gewählt werden,
  • die Gewichtung \(w_h\) für einzelne Straten berechnet werden,
  • der Gesamtstichprobenumfang hergeleitet werden, und
  • die Anzahl der Stichproben für jedes Stratum bestimmt werden.

Kommentare

Wie bereits erwähnt ist die Aufteilung einer Population in einzelne Straten besonders dann sinnvoll, wenn sich dadurch homogenere Teilpopulationen ergeben. D.h., wenn die Variabilität inerhalb der Straten geringer ist als in der Grundgesamtheit und die Unterschiede zwischen den Straten möglichst groß sind. Das Verhältnis zwischen diesen Varianzen ist dabei natürlich auch von der Anzahl der Straten selber abhängig. Je mehr Straten man bildet, desto geringer wird der Unterschied zwischen den Straten sein. Erfahrungswerte zeigen, dass die Bildung von mehr als 6 Straten nicht sinnvoll ist, da das Verfahren dann an Effektivität verliert.

Um eine Stratifizierung durchführen zu können, sind Vorinformationen absolut notwendig. Diese lassen sich teilweise aus Forsteinrchtungsdaten oder mit Hilfe von Fernerkundungsinformationen herleiten. Die Größe unterschiedlicher Bestandestypen kann bei einer offensichtlichen Abgrenzung beispielsweise durch eine Delinierung auf Grundlage von Luftbildern erreicht werden. Der große Vorteil dieses Verfahrens ist sicherlich, dass man einzelne Straten unabhängig behandeln kann. So können z.B. völlig unterschiedliche Inventurdesigns aber auch Plotdesigns verwendung finden. Diese können jeweils unabhängig für die speziellen Gegebenheiten optimiert werden.


info.png Beispiel:
Eine Waldfläche besteht aus abgegrenzten Altersklassen, deren Flächen zur Stratifizierung herangezogen werden. Es ist nun möglich in jungen und dichten Betsänden kleinere Probekreise zu verwenden, als in den älteren Beständen in einem anderen Stratum. Ebenso kann die Stichprobendichte an die Variabilität angepasst werden.

Wenn die Flächengröße (oder ein anderes Stratifizierungskriterium) vorher nicht bekannt ist, können die Informationen auch von einer Stichprobe geschätzt werden. Dieses Vorgehen wird dann als "Double sampling for stratification" bezeichnet.

Literatur

  1. 1.0 1.1 Kleinn, C. 2007. Lecture Notes for the Teaching Module Forest Inventory. Department of Forest Inventory and Remote Sensing. Fakulty of Forest Science and Forest Ecology, Georg-August-Universität Göttingen. 164 S.
  2. 2.0 2.1 Akca, A. 2001. Waldinventur. J.D. Sauerländer's Verlag. Frankfuhrt am Main, 193 S.


<math>\frac {\mathcal{AWF}}{\left [ \left [ Wiki \right ] \right ]}\,</math>
Personal tools
Namespaces

Variants
Actions
Navigation
Development
Toolbox
Print/export