Schätzung statistischer Merkmale von Zufallsdaten. Punktschätzung und ihre Eigenschaften. Arten statistischer Schätzungen

statistische Schätzverteilungsstichprobe

Eine Schätzung ist eine Näherung der Werte der gewünschten Menge, die auf der Grundlage der Ergebnisse der Probenbeobachtung ermittelt wird. Bei den Schätzungen handelt es sich um Zufallsvariablen. Sie bieten die Möglichkeit, sich fundierte Urteile über unbekannte Parameter der Bevölkerung zu bilden. Ein Beispiel für die Schätzung des allgemeinen Mittelwerts ist der Stichprobenmittelwert der allgemeinen Varianz – Stichprobenvarianz usw.

Um zu beurteilen, wie „gut“ die Bewertung die entsprechenden allgemeinen Merkmale erfüllt, wurden 4 Kriterien entwickelt: Konsistenz, Unvoreingenommenheit, Effizienz und Suffizienz. Dieser Ansatz basiert auf der Tatsache, dass die Qualität einer Schätzung nicht durch ihre Einzelwerte, sondern durch die Eigenschaften ihrer Verteilung als Zufallsvariable bestimmt wird.

Basierend auf den Prinzipien der Wahrscheinlichkeitstheorie kann nachgewiesen werden, dass von Stichprobenmerkmalen wie dem arithmetischen Mittel, dem Modus und dem Median nur das arithmetische Mittel eine konsistente, unvoreingenommene, effektive und ausreichende Schätzung des allgemeinen Mittelwerts darstellt. Dies bestimmt die Bevorzugung des arithmetischen Mittels gegenüber anderen Stichprobenmerkmalen.

Unverdrängt Die Bewertung manifestiert sich darin, dass ihre mathematische Erwartung für jede Stichprobengröße dem Wert des geschätzten Parameters in der Allgemeinbevölkerung entspricht. Ist diese Voraussetzung nicht erfüllt, erfolgt die Beurteilung versetzt.

Die Bedingung der unverzerrten Schätzung zielt darauf ab, systematische Schätzfehler zu eliminieren.

Bei der Lösung von Schätzproblemen verwenden sie auch asymptotisch unverzerrte Schätzungen, bei dem mit zunehmender Stichprobengröße die mathematische Erwartung zum geschätzten Parameter der Allgemeinbevölkerung tendiert.

Reichtum Statistische Schätzungen manifestieren sich darin, dass mit zunehmender Stichprobengröße die Schätzung dem wahren Wert des geschätzten Parameters immer näher kommt, oder, wie man sagt, die Schätzung in der Wahrscheinlichkeit dem gewünschten Parameter konvergiert oder zu seiner mathematischen Erwartung tendiert . Nur konsistente Bewertungen haben praktische Bedeutung.

Dies ist die Schätzung des erwartungstreuen Parameters, der für eine gegebene Stichprobengröße die geringste Varianz aufweist. In der Praxis wird Schätzvarianz üblicherweise mit Schätzfehler gleichgesetzt.

Als Bewertungseffektivitätsmessungen Nehmen Sie das Verhältnis der minimal möglichen Varianz zur Varianz einer anderen Schätzung.

Als Schätzung wird eine Schätzung bezeichnet, die die vollständige Nutzung aller in der Stichprobe enthaltenen Informationen über ein unbekanntes Merkmal der Grundgesamtheit gewährleistet ausreichend(erschöpfend).

Die Einhaltung der oben diskutierten Eigenschaften statistischer Schätzungen ermöglicht es, die Stichprobeneigenschaften für die Schätzung der Parameter der Allgemeinbevölkerung bestmöglich zu berücksichtigen.

Die wichtigste Aufgabe mathematische Statistik besteht darin, anhand von Stichprobendaten möglichst rationale und „wahrheitsgetreue“ statistische Schätzungen der gewünschten Parameter der Allgemeinbevölkerung zu erhalten. Es gibt zwei Arten statistischer Schlussfolgerungen: statistische Schätzungen; Testen statistischer Hypothesen.

Die Hauptaufgabe bei der Gewinnung statistischer Schätzungen besteht darin, die besten Schätzungen auszuwählen und zu begründen, die eine sinnvolle Bewertung unbekannter Parameter der Bevölkerung ermöglichen.

Das Problem der Schätzung unbekannter Parameter kann auf zwei Arten gelöst werden:

  • 1. Ein unbekannter Parameter wird durch eine Zahl (Punkt) gekennzeichnet – die Methode wird verwendet Punktschätzung;
  • 2. Intervallschätzung, das heißt, es wird ein Intervall bestimmt, in dem mit einiger Wahrscheinlichkeit der gewünschte Parameter liegen kann.

Punktschätzung Der unbekannte Parameter besteht darin, dass ein bestimmter numerischer Wert der Stichprobenschätzung als beste Annäherung an den wahren Populationsparameter verwendet wird, d. h. der unbekannte Populationsparameter wird anhand einer einzelnen Zahl (Punkt) geschätzt, die aus der Stichprobe ermittelt wird. Bei diesem Ansatz besteht immer das Risiko, einen Fehler zu machen, daher muss die Punktschätzung durch einen Indikator für den möglichen Fehler bei einer bestimmten Wahrscheinlichkeit ergänzt werden.

Seine Standardabweichung wird als durchschnittlicher Schätzfehler angenommen.

Dann kann die Punktschätzung des allgemeinen Durchschnitts als Intervall dargestellt werden

Wo ist das arithmetische Mittel der Stichprobe?

Bei der Durchführung einer Punktschätzung werden mehrere Methoden verwendet, um Schätzungen aus Stichprobendaten zu erhalten:

  • 1. Methode der Momente, bei der Momente der Gesamtpopulation durch Momente der Stichprobenpopulation ersetzt werden;
  • 2. Methode der kleinsten Quadrate;
  • 3. Maximum-Likelihood-Methode.

Bei vielen Problemen ist es notwendig, nicht nur eine numerische Schätzung eines Populationsparameters zu finden, sondern auch seine Genauigkeit und Zuverlässigkeit zu bewerten. Dies ist besonders wichtig für relativ kleine Proben. Eine Verallgemeinerung der Punktschätzung eines statistischen Parameters ist seine Intervallschätzung- Finden eines numerischen Intervalls, das den geschätzten Parameter mit einer bestimmten Wahrscheinlichkeit enthält.

Aufgrund der Tatsache, dass bei der Bestimmung allgemeiner Merkmale aus Stichprobendaten immer ein gewisser Fehler auftritt, ist es praktischer, das auf der gefundenen Punktschätzung zentrierte Intervall zu bestimmen, innerhalb dessen der wahre gewünschte Wert des geschätzten Parameters des allgemeinen Merkmals liegt eine bestimmte festgelegte Wahrscheinlichkeit. Dieses Intervall wird als Konfidenzintervall bezeichnet.

Konfidenzintervall ist ein numerisches Intervall, das mit einer gegebenen Wahrscheinlichkeit r den geschätzten Parameter der Grundgesamtheit abdeckt. Diese Wahrscheinlichkeit wird Konfidenz genannt. Konfidenzwahrscheinlichkeit r ist die Wahrscheinlichkeit, die im Rahmen des zu lösenden Problems als ausreichend angesehen werden kann, um die Zuverlässigkeit der anhand von Stichprobenbeobachtungen ermittelten Merkmale zu beurteilen. Größe

die Wahrscheinlichkeit, einen Fehler zu machen, nennt man Signifikanzniveau.

Für eine Stichprobenschätzung (Punkt) UND * (Theta) Parameter UND der Allgemeinbevölkerung mit Genauigkeit ( extremer Fehler) D und Konfidenzwahrscheinlichkeit r, das Konfidenzintervall wird durch die Gleichung bestimmt:

Die Konfidenzwahrscheinlichkeit r ermöglicht die Feststellung Grenzen des Selbstvertrauens zufällige Fluktuation des untersuchten Parameters UND für eine gegebene Stichprobe.

Die folgenden Werte und ihre entsprechenden Werte werden häufig als Konfidenzwahrscheinlichkeit verwendet: Signifikanzniveaus

Tabelle 1. – Am häufigsten Konfidenzwahrscheinlichkeiten und Signifikanzniveaus

Ein Signifikanzniveau von 5 Prozent bedeutet beispielsweise Folgendes: In 5 von 100 Fällen besteht das Risiko eines Fehlers bei der Identifizierung von Merkmalen der Grundgesamtheit anhand von Stichprobendaten. Mit anderen Worten: In 95 von 100 Fällen liegt das anhand der Stichprobe ermittelte allgemeine Merkmal innerhalb des Konfidenzintervalls.

Verteilungen in der mathematischen Statistik werden durch viele statistische Parameter charakterisiert. Durch die Schätzung unbekannter Verteilungsparameter auf der Grundlage verschiedener Stichprobendaten können Verteilungen einer Zufallsvariablen erstellt werden.

Finden Sie eine statistische Schätzung eines unbekannten Verteilungsparameters – finden Sie eine Funktion beobachteter Zufallsvariablen, die einen ungefähren Wert des geschätzten Parameters liefert.

Statistische Schätzungen können als unvoreingenommen, voreingenommen, effizient und konsistent klassifiziert werden.

Definition 1

Unvoreingenommene Schätzung– statistische Schätzung $Q^*$, die für jeden Wert der Stichprobengröße einen mathematischen Erwartungswert hat, der dem geschätzten Parameter entspricht

Definition 2

Voreingenommene Schätzung– statistische Schätzung $Q^*$, die für jeden Wert der Stichprobengröße einen mathematischen Erwartungswert hat, der nicht dem geschätzten Parameter entspricht

Definition 4

Konsistente Bewertung– eine statistische Bewertung, bei der bei einer Stichprobengröße gegen Unendlich die Wahrscheinlichkeit zum geschätzten Parameter $Q.$ tendiert

Definition 5

Konsistente Bewertung– eine statistische Schätzung, bei der die Varianz der unvoreingenommenen Schätzung gegen Null tendiert, da die Stichprobengröße gegen Unendlich tendiert.

Allgemeine und Stichprobendurchschnitte

Definition 6

Allgemeiner Durchschnitt-- Durchschnitt arithmetische Werte Populationsvariante.

Definition 7

Stichprobenmittelwert– arithmetisches Mittel der Werte der Stichprobenpopulation.

Die Werte des Gesamt- und Stichprobendurchschnitts lassen sich mit folgenden Formeln ermitteln:

  1. Wenn die Werte der Option $x_1,\ x_2,\dots ,x_k$ jeweils Häufigkeiten $n_1,\ n_2,\dots ,n_k$ haben, dann
  1. Wenn die Werte der Option $x_1,\ x_2,\dots ,x_k$ unterschiedlich sind, dann

Mit diesem Konzept verbunden ist das Konzept der Abweichung vom Durchschnitt. Dieser Wert wird mit der folgenden Formel ermittelt:

Die durchschnittliche Abweichung hat folgende Eigenschaften:

    $\sum(n_i\left(x_i-\overline(x)\right)=0)$

    Die durchschnittliche Abweichung beträgt Null.

Allgemeine, Stichproben- und korrigierte Varianzen

Ein weiterer Hauptparameter ist das Konzept der allgemeinen Varianz und der Stichprobenvarianz:

Allgemeine Varianz:

Stichprobenvarianz:

Mit diesen Konzepten sind auch allgemeine Standardabweichungen und Stichprobenstandardabweichungen verbunden:

Zur Schätzung der allgemeinen Varianz wird das Konzept der korrigierten Varianz eingeführt:

Außerdem wird das Konzept der korrigierten Standardabweichung eingeführt:

Beispiel einer Problemlösung

Beispiel 1

Die Grundgesamtheit wird durch die folgende Verteilungstabelle definiert:

Bild 1.

Finden wir dafür den allgemeinen Mittelwert, die allgemeine Varianz, die allgemeine Standardabweichung, die korrigierte Varianz und die korrigierte Standardabweichung.

Um dieses Problem zu lösen, erstellen wir zunächst eine Berechnungstabelle:

Figur 2.

Der Wert $\overline(x_в)$ (Stichprobendurchschnitt) wird durch die Formel ermittelt:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(87)(30)=2.9\]

Lassen Sie uns die allgemeine Varianz mithilfe der Formel ermitteln:

Allgemeine Standardabweichung:

\[(\sigma )_в=\sqrt(D_в)\ungefähr 1,42\]

Korrigierte Varianz:

\[(S^2=\frac(n)(n-1)D)_в=\frac(30)(29)\cdot 2,023\ungefähr 2,09\]

Korrigierte Standardabweichung.

Fragen der statistischen Bewertung verbinden zu einem Ganzen problematische Aspekte der mathematischen Statistik wie wissenschaftliche Methodik, zufällige Variablen, statistische Verteilungen usw. Für jede Probe gibt es inhärente Fehler aufgrund unvollständiger Einheitenabdeckung, Messfehlern und ähnlichen Gründen. Solche Fehler in wahres Leben Geben Sie jeder Hypothese (insbesondere denjenigen, die auf der Grundlage wirtschaftlicher Schlussfolgerungen formuliert werden) einen zufälligen, stochastischen Charakter. Unabhängig von der Anzahl der durch theoretische Hypothesen vorgegebenen Variablen wird davon ausgegangen, dass der Einfluss verschiedene Arten Mit nur einer Komponente lassen sich Fehler recht genau beschreiben. Solch methodischer Ansatz ermöglicht es uns, uns auf eine eindimensionale Wahrscheinlichkeitsverteilung zu beschränken und gleichzeitig mehrere Parameter zu schätzen.

Statistische Auswertung ist eine von zwei Arten der statistischen Beurteilung (die zweite Art ist das Testen von Hypothesen). Es handelt sich um eine besondere Art der Beurteilung numerische Werte Merkmale (Parameter) der Verteilung der Bevölkerung gemäß einer Stichprobe aus dieser Bevölkerung. Das heißt, anhand der Ergebnisse einer Stichprobenbeobachtung versuchen wir (mit größter Genauigkeit) die Werte bestimmter Parameter abzuschätzen, von denen die Verteilung des für uns interessanten Merkmals (veränderlich) in der Gesamtbevölkerung abhängt. Da die Stichprobe nur einen Teil der Grundgesamtheit (manchmal eine sehr kleine Zahl) umfasst, besteht die Gefahr von Fehlern. Obwohl dieses Risiko mit zunehmender Anzahl der Beobachtungseinheiten abnimmt, tritt es bei zufälliger Beobachtung immer noch auf. Daher ist die auf der Grundlage der Stichprobenergebnisse getroffene Entscheidung probabilistischer Natur. Aber es wäre falsch, statistische Urteile nur im Hinblick auf Wahrscheinlichkeiten zu betrachten. Dieser Ansatz reicht nicht immer aus, um korrekte theoretische Annahmen über die Parameter der Bevölkerung zu treffen. Zur tiefergehenden Rechtfertigung bedarf es oft einer Reihe zusätzlicher Urteile. Beispielsweise müssen Sie den Wert so genau wie möglich schätzen Durchschnittszahl Fachkräfte in regionalen Unternehmen. Dabei wird das arithmetische Mittel der Variablen x aus der Grundgesamtheit geschätzt, die hat Normalverteilung. Ich habe eine Probe für dieses Merkmal in großer Menge erhalten P Einheiten muss die Frage geklärt werden: Welcher Wert sollte gemäß den Stichprobendaten dem Durchschnitt der Gesamtbevölkerung am nächsten kommen? Es gibt mehrere solcher Größen, deren mathematischer Erwartungswert dem gewünschten Parameter entspricht (oder diesem nahe kommt): a) arithmetisches Mittel; b) Mode; c) Median; d) Durchschnitt, berechnet anhand der Variationsbreite usw.

Aus probabilistischer Sicht kann davon ausgegangen werden, dass jede der oben genannten Größen die beste Annäherung an den gewünschten Populationsparameter (x) liefert, da der mathematische Erwartungswert jeder dieser Funktionen (insbesondere bei großen Stichproben) dem allgemeinen Durchschnitt entspricht . Diese Annahme beruht auf der Tatsache, dass bei mehrmaliger Wiederholung einer Stichprobe aus derselben Grundgesamtheit ein „im Durchschnitt“ korrektes Ergebnis erhalten wird.

Die Richtigkeit „im Durchschnitt“ erklärt sich aus der Gleichheit der Wiederholungen positiver und negativer Abweichungen der resultierenden Fehler bei der Schätzung des Gesamtdurchschnitts, d. h. der durchschnittliche Schätzfehler ist gleich Null.

Unter praktischen Bedingungen wird in der Regel eine Stichprobe organisiert, sodass der Forscher an der Frage einer genaueren Bewertung des gewünschten Parameters basierend auf den Ergebnissen einer bestimmten Stichprobe interessiert ist. Um ein solches Problem zu lösen, sind zusätzlich zu den Schlussfolgerungen, die sich direkt aus der abstrakten Wahrscheinlichkeitsberechnung ergeben, zusätzliche Regeln erforderlich, um die beste Annäherung der Schätzung an den gewünschten Parameter der Grundgesamtheit zu motivieren.

Es gibt genügend Möglichkeiten, Konstanten aus Stichprobenbeobachtungen abzuschätzen. Welche von ihnen bestimmte Forschungsprobleme am besten lösen können, ist Gegenstand der statistischen Schätztheorie. Es untersucht die Bedingungen, denen diese oder jene Beurteilung unterliegen muss, und konzentriert sich auf Beurteilungen, die unter bestimmten Umständen vorzuziehen sind. Die Evaluationstheorie weist auf die Überlegenheit einer Evaluation gegenüber einer anderen hin.

Bekanntlich sind die aus einer Stichprobe gewonnenen Informationen nicht kategorisch. Wenn sich beispielsweise herausstellte, dass 100 untersuchte Tiere gesund waren und 99 gesund waren, besteht die Möglichkeit, dass ein Tier, das nicht untersucht wurde, das Virus der vermuteten Krankheit trägt. Da dies unwahrscheinlich ist, wird der Schluss gezogen, dass die Krankheit nicht existiert. In den meisten Fällen ist diese Schlussfolgerung völlig berechtigt.

Geleitet von solchen Schlussfolgerungen in der Praxis verlässt sich der Experimentator (Forscher) nicht auf die Verlässlichkeit der Informationen, sondern nur auf deren Wahrscheinlichkeit.

Die andere Seite der selektiven Beobachtung löst, wie bereits erwähnt, Probleme so weit wie möglich objektive Definition Grad der Zuverlässigkeit der erhaltenen Stichprobenschätzungen. Sie versuchen, die Lösung dieses Problems mit einem möglichst genauen probabilistischen Ausdruck bereitzustellen, das heißt, wir sprechen über die Bestimmung des Genauigkeitsgrads der Bewertung. Hier bestimmt der Forscher die Grenzen der möglichen Diskrepanz zwischen der aus der Stichprobe gewonnenen Schätzung und dem tatsächlichen Wert ihres Wertes in der Grundgesamtheit.

Die Genauigkeit der Schätzung wird durch die Art und Weise bestimmt, wie sie aus den Stichprobendaten berechnet wird, und durch die Methode zur Auswahl der Einheiten in der Stichprobenpopulation.

Die Methode zum Erhalten von Schätzungen umfasst jedes Rechenverfahren (Methode, Regel, algebraische Formel). Dies ist eine Priorität der Theorie der statistischen Schätzung. Auswahlmethoden führen zu Fragen der Stichprobentechnik.

Das oben Gesagte ermöglicht es uns, das Konzept der „statistischen Bewertung“ zu definieren.

Statistische Auswertung- Dies ist ein Näherungswert des gewünschten Parameters der Bevölkerung, der aus den Ergebnissen der Stichprobe ermittelt wird und die Möglichkeit bietet, fundierte Entscheidungen über unbekannte Parameter der Bevölkerung zu treffen.

Nehmen wir an, dass ^ "eine statistische Schätzung des unbekannten Parameters ^ der theoretischen Verteilung ist. Basierend auf wiederholten Implementierungen derselben

Stichprobengröße aus der Allgemeinbevölkerung gefundene Schätzungen und 2 ^ ""n,

haben unterschiedliche Bedeutungen. Daher kann die Schätzung ^" als angenommen werden

Zufallsvariable und +17 zwei, 3 ~ "n - als mögliche Werte. Wie Zufallswert, es ist durch eine bestimmte Wgekennzeichnet. Da diese Funktion durch das Ergebnis einer selektiven Beobachtung (Experiment) bestimmt wird, heißt sie Stichprobenverteilung. Eine solche Funktion beschreibt die Wahrscheinlichkeitsdichte für jede der Schätzungen unter Verwendung einer bestimmten Anzahl von Stichproben

Beobachtungen. Wenn wir davon ausgehen, dass die statistische Schätzung ^ " eine algebraische Funktion eines bestimmten Datensatzes ist und ein solcher Satz durch Durchführung einer Stichprobenbeobachtung erhalten wird, dann in

Im Allgemeinen erhält die Schätzung den Ausdruck: ® n = f (Xl.X2, ^ 3, ... X t).

Am Ende der Stichprobenbefragung diese Funktion ist keine allgemeine Einschätzung mehr, sondern nimmt eine spezifische Bedeutung an, das heißt, sie wird Quantifizierung(in Zahlen). Mit anderen Worten, aus dem obigen Ausdruck der Funktion folgt, dass jeder der Indikatoren, die die Ergebnisse einer Stichprobenbeobachtung charakterisieren, als Schätzung betrachtet werden kann. Der Stichprobenmittelwert ist eine Schätzung des Populationsmittelwerts. Die aus der Stichprobe berechnete Varianz bzw. der daraus berechnete Wert der Standardabweichung sind Schätzungen der entsprechenden Merkmale der Gesamtbevölkerung usw.

Wie bereits erwähnt, garantiert die Berechnung statistischer Schätzungen nicht die Beseitigung von Fehlern. Der Punkt ist, dass Letzteres nicht systematisch sein sollte. Ihre Anwesenheit muss zufällig sein. Betrachten wir die methodische Seite dieser Position.

Angenommen, die Schätzung ^ "gibt einen ungenauen Wert der Schätzung ^ der Bevölkerung mit einem Nachteil an. In diesem Fall ist jeder berechnete Wert = 1,2,3, ..., n) kleiner als der tatsächliche Wert des Wertes $.

Aus diesem Grund ist der mathematische Erwartungswert (Durchschnittswert) der Zufallsvariablen b kleiner als b, d

random ^" wird größer als $.

Daraus folgt, dass die Verwendung einer statistischen Schätzung, deren mathematische Erwartung nicht dem geschätzten Parameter entspricht, zu systematischen Fehlern führt, also zu nicht zufälligen Fehlern, die die Messergebnisse in eine Richtung verbiegen.

Es entsteht eine natürliche Anforderung: Der mathematische Erwartungswert der Schätzung muss gleich dem geschätzten Parameter sein. Die Einhaltung dieser Anforderung schließt Fehler im Allgemeinen nicht aus, da Stichprobenwerte der Schätzung größer oder kleiner als der tatsächliche Wert sein können die Schätzung der Allgemeinbevölkerung. Aber Fehler in die eine oder andere Richtung von den Werten von ^ werden (gemäß der Wahrscheinlichkeitstheorie) mit der gleichen Häufigkeit auftreten. Daher muss die Einhaltung dieser Anforderung die mathematische Erwartung einer Stichprobenschätzung sein gleich dem geschätzten Parameter sein, schließt also das Auftreten systematischer (nicht zufälliger) Fehler aus

M (V) = 6.

Die Auswahl eines statistischen Schätzers, der die beste Näherung für den zu schätzenden Parameter liefert, ist ein wichtiges Problem in der Schätztheorie. Wenn bekannt ist, dass die Verteilung der untersuchten Zufallsvariablen in der Grundgesamtheit dem Gesetz der Normalverteilung entspricht, müssen anhand von Stichprobendaten der mathematische Erwartungswert und die Standardabweichung geschätzt werden. Dies erklärt sich aus der Tatsache, dass diese beiden Merkmale vollständig die Grundlage bestimmen, auf der die Normalverteilung aufgebaut ist. Wenn die untersuchte Zufallsvariable nach dem Poissonschen Gesetz verteilt ist, wird der Parameter ^ geschätzt, da er diese Verteilung bestimmt.

Die mathematische Statistik unterscheidet zwischen folgenden Methoden zur Gewinnung statistischer Schätzungen aus Stichprobendaten: der Momentenmethode und der Maximum-Likelihood-Methode.

Bei der Gewinnung von Schätzungen mit der Momentenmethode werden Momente der Gesamtpopulation durch Momente der Stichprobenpopulation ersetzt (anstelle von Wahrscheinlichkeiten werden Häufigkeiten zur Gewichtung verwendet).

Damit eine statistische Schätzung die „beste Annäherung“ an ein allgemeines Merkmal liefert, muss es eine Reihe von Eigenschaften aufweisen. Sie werden weiter unten besprochen.

Die Fähigkeit, die beste Bewertung auszuwählen, beruht auf der Kenntnis ihrer grundlegenden Eigenschaften und der Fähigkeit, Bewertungen nach diesen Eigenschaften zu klassifizieren. In der mathematischen Literatur werden „Eigenschaften von Bewertungen“ manchmal als „Anforderungen an Bewertungen“ oder „Kriterien für Bewertungen“ bezeichnet. Zu den Haupteigenschaften statistischer Bewertungen gehören: Unvoreingenommenheit, Effizienz, Fähigkeit, Suffizienz.

Wenn wir davon ausgehen, dass der Stichprobenmittelwert (~) und die Stichprobenvarianz vorliegen

(STV) sind Schätzungen der entsprechenden allgemeinen Merkmale (^), also deren mathematische Erwartung, die wir berücksichtigen, wenn große Mengen

Stichprobeneinheiten mit dem Namen „Characteristics“ (~) werden ihren mathematischen Erwartungen nahe kommen. Wenn die Anzahl der Stichprobeneinheiten gering ist, können diese Merkmale erheblich von den entsprechenden mathematischen Erwartungen abweichen.

Wenn der Mittelwert der als Schätzung gewählten Stichprobenmerkmale mit dem Wert des allgemeinen Merkmals übereinstimmt, wird die Schätzung als erwartungstreu bezeichnet. Der Beweis, dass die mathematische Erwartung des Stichprobenmittelwerts gleich dem allgemeinen Mittelwert (m (x) = x) ist, zeigt an, dass der Wert ~ ein erwartungstreuer allgemeiner Wert ist

Durchschnitt Anders verhält es sich bei der selektiven Dispersion (o). ihr

M (ST 2) = - o-2. .

mathematische Erwartung n, nicht gleich dem Allgemeinen

Abweichungen. a h ist also eine verzerrte Schätzung von a ". Um die Verzerrung zu beseitigen und eine unvoreingenommene Schätzung zu erhalten, nehmen Sie eine Stichprobe

die Dispersion wird mit der Korrektur n - 1 multipliziert (dies ergibt sich aus der Bildung).

in 2 _ 2 S P -1 "n -1

obige Gleichung: n).

Bei einer kleinen Stichprobe beträgt die Varianz also:

2 Tx, - ~) 2 P E (x und - ~) 2

sg rein= x - = -.

p p - 1 S. -1

Fraktion (P- 1) wird als Bessel-Korrektur bezeichnet. Der Mathematiker Bessel stellte als erster fest, dass die Stichprobenvarianz eine voreingenommene Schätzung der allgemeinen Varianz ist, und wendete zur Korrektur die angegebene Korrektur an

Bewertungen. Bei kleinen Stichproben weicht die Korrektur (n - 1) deutlich von 1 ab. Mit zunehmender Anzahl der Beobachtungseinheiten nähert sie sich schnell 1. Für n<>50 Der Unterschied zwischen den Schätzungen verschwindet also

° ~ "- .Aus all dem oben Gesagten ergeben sich die folgenden Definitionen der Unvoreingenommenheitsanforderungen.

Unvoreingenommen ist eine statistische Schätzung, deren mathematische Erwartung für jede Stichprobengröße dem Wert entspricht

Populationsparameter, d. h. m (^) = 9; m(x) = x.

Die Kategorie „mathematische Erwartung“ wird im Kurs Wahrscheinlichkeitstheorie untersucht. Dies ist ein numerisches Merkmal einer Zufallsvariablen. Der mathematische Erwartungswert entspricht ungefähr dem Durchschnittswert der Zufallsvariablen. Mathematischer Erwartungswert einer diskreten Zufallsvariablen ist die Summe der Produkte aller seiner möglichen Werte und ihrer Wahrscheinlichkeiten. Angenommen, es wurden n Studien durchgeführt, in denen die Zufallsvariable X nahm w 1 mal den Wert von w 2 mal den Wert von Sh und mal den Wert von X k. In diesem Fall ist Sh 1 + Sh 2 + Sh 3 + ... + Sh k = n. Dann ist die Summe aller Werte ​​akzeptiert x, gleich

x 1 w 1 + x 2 w 2 + x 3 w 3 + ... + x k w k

Das arithmetische Mittel dieser Werte beträgt:

X 1 w 1 + x 2 w 2 + x 3 w 3 + ... + x k w k - w 1^ w 2 ^ w 3 ^ ^ w k

P oder 1 S. 2 S. 3 S. 1 S.

Da n der relative Häufigkeitswert ^ ist X ^ P- relative Häufigkeit des Wertes x 2 usw., die obige Gleichung hat die Form:

X = X 1 Nr. 1 + X 2 Nr. 2 + X 3 Nr. 3 + ... + X bis H> bis

Bei einer großen Anzahl von Stichprobenbeobachtungen entspricht die relative Häufigkeit ungefähr der Eintrittswahrscheinlichkeit des Ereignisses, d. h

u>1 = L; ^ 2 = Ш = ™ к = Рк und daher x 2 x 1 r 1 + x 2 r 2 + X 3 g. 3 + ... + X KRK. Dann

x~ M(x) Die probabilistische Bedeutung des erhaltenen Berechnungsergebnisses besteht darin, dass die mathematische Erwartung ungefähr gleich ist (je genauer, je größer die Stichprobe) dem arithmetischen Mittel der beobachteten Werte der Zufallsvariablen [M (x -) = ~ 1.

Das erwartungstreue Kriterium garantiert die Abwesenheit systematischer Fehler bei der Schätzung von Populationsparametern.

Beachten Sie, dass es sich bei der Stichprobenschätzung (^) um eine Zufallsvariable handelt, deren Wert von Stichprobe zu Stichprobe variieren kann. Im Ausmaß seiner Variation (Streuung) um mathematische Erwartung Der Populationsparameter # wird durch die Streuung st2 (^) charakterisiert.

Lassen in undIN -- zwei unvoreingenommene Schätzungen des Parameters ^, das heißt Mindest") = 6 und M (d,) = v. Ihre Varianzen V 1 (V -) Und VGF -). Geben Sie bei zwei 0 diesen Nok in Artaud demjenigen den Vorzug, der eine geringere Streuung um den geschätzten Parameter aufweist. Wenn die Varianz der Schätzung ^" kleiner ist als die Varianz

schätzt Cn, dann wird die erste Schätzung, also ^ ", als Schätzung & verwendet.

Der erwartungstreue Schätzer ^, der unter allen möglichen erwartungstreuen Schätzern des aus Stichproben gleicher Größe berechneten Parameters ^ die geringste Varianz aufweist, wird als effektiver Schätzer bezeichnet. Dies ist die zweite Eigenschaft (Anforderung) statistischer Schätzungen von Bevölkerungsparametern. Es muss daran erinnert werden, dass die effektive Schätzung des Parameters der Gesamtbevölkerung, die einem bestimmten Verteilungsgesetz unterliegt, nicht mit der effektiven Schätzung des Parameters des zweiten Abschnitts übereinstimmt.

Bei der Betrachtung großer Stichproben müssen statistische Schätzungen die Fähigkeitseigenschaft aufweisen. Eine Schätzung ist fähig (auch als „fit“ oder „konsistent“ bezeichnet), was bedeutet, dass die Wahrscheinlichkeit, dass der Schätzfehler einen beliebig kleinen positiven Wert nicht überschreitet, umso größer ist, je größer die Stichprobengröße ist

Zahl E. Eine Schätzung des 6. Parameters ^ heißt konsistent, wenn sie dem Gesetz gehorcht große Zahlen, das heißt, es gilt folgende Gleichheit:

/ shg | G rein-in <Е} = 1.

Wie wir sehen können, wird eine statistische Schätzung als fähig bezeichnet, wenn sie sich für n der Wahrscheinlichkeit des geschätzten Parameters annähert. Mit anderen Worten ist dies der Wert des Indikators, der aus der Stichprobe gewonnen wird und sich aufgrund des Gesetzes der großen Zahlen mit zunehmender Stichprobengröße seinem mathematischen Erwartungswert nähert (in der Wahrscheinlichkeit übereinstimmt). Wenn beispielsweise die Varianz einer unverzerrten Schätzung bei n gegen Null tendiert, erweist sich eine solche Schätzung als konsistent, da sie die kleinstmögliche Varianz aufweist (für eine gegebene Stichprobengröße).

Zuständige Gutachter sind:

1) der Anteil des Attributs in der Stichprobenpopulation, d. h. die Häufigkeit als Schätzung des Anteils des Attributs in der Gesamtpopulation;

2) Stichprobendurchschnitt als Schätzung des allgemeinen Durchschnitts;

3) Stichprobenvarianz als Schätzung der allgemeinen Varianz;

4) Stichprobenkoeffizienten für Asymmetrie und Kurtosis als Schätzung allgemeiner Koeffizienten.

Aus irgendeinem Grund ist es in der Literatur zur mathematischen Statistik nicht immer möglich, eine Beschreibung der vierten Eigenschaft statistischer Schätzungen – der Suffizienz – zu finden. Grad ausreichend(oder erschöpfend) ist eine Schätzung, die die Vollständigkeit der Abdeckung aller Stichprobeninformationen über einen unbekannten Parameter der Allgemeinbevölkerung gewährleistet (sicherstellt). Somit umfasst eine ausreichende Schätzung alle in der Stichprobe enthaltenen Informationen zu den statistischen Merkmalen der untersuchten Bevölkerung. Keine der drei zuvor betrachteten Schätzungen kann als ausreichende statistische Schätzung die notwendigen zusätzlichen Informationen über den untersuchten Parameter liefern.

Daher ist der arithmetische Stichprobenmittelwert ~ eine unverzerrte Schätzung des arithmetischen Grundgesamtheitsmittelwerts x. Der unverzerrte Faktor dieser Schätzung zeigt: Wenn man viele Zufallsstichproben aus der Allgemeinbevölkerung zieht, dann sind deren Durchschnittswerte *<отличались бы от генеральной средней в большую и меньшую сторону одинаково, то есть, свойство несмещенности хорошей оценки также показывает, что среднее значение бесконечно большого числа выборочных средних равно значению генеральной средней.

Bei einer symmetrischen Reihenverteilung ist der Median eine unverzerrte Schätzung des allgemeinen Mittelwerts. Und vorausgesetzt, dass sich die Größe der Stichprobenpopulation der Gesamtbevölkerung annähert (P ~ * N), kann der Median in solchen Reihen eine konsistente Schätzung des allgemeinen Durchschnitts sein. Was das Effizienzkriterium im Verhältnis zum Median als Schätzung betrifft Mit dem arithmetischen Mittel der Allgemeinbevölkerung lässt sich beweisen, dass in Stichproben mit großem Volumen der quadratische Mittelwertfehler des Medians (Sme) gleich 1,2533 des quadratischen Mittelwertfehlers des Stichprobenmittelwerts ist

). Das heißt, Stme *. Daher kann der Median keine effektive Schätzung des arithmetischen Mittels der Grundgesamtheit sein, da sein mittlerer quadratischer Fehler größer ist als der mittlere quadratische Fehler des arithmetischen Mittels der Stichprobe. Darüber hinaus erfüllt das arithmetische Mittel die Bedingungen der Unvoreingenommenheit und Fähigkeit und ist daher die beste Schätzung.

Auch eine solche Einstellung ist möglich. Kann das arithmetische Mittel einer Stichprobe eine unvoreingenommene Schätzung des Medians in symmetrischen Bevölkerungsverteilungen sein, bei denen Mittelwert und Median gleich sind? Und wird der Stichprobenmittelwert eine konsistente Schätzung des Bevölkerungsmedians sein? In beiden Fällen lautet die Antwort „Ja“. Für einen Populationsmedian (mit einer symmetrischen Verteilung) ist das arithmetische Mittel der Stichprobe ein unverzerrter und konsistenter Schätzer.

Wenn wir uns daran erinnern, dass Sme ~ 1,2533 ist, kommen wir zu dem Schluss: Das arithmetische Mittel der Stichprobe anstelle des Medians ist eine effektivere Schätzung des Medians der untersuchten Bevölkerung.

Jedes Stichprobenmerkmal ist nicht unbedingt die beste Schätzung des entsprechenden Populationsmerkmals. Die Kenntnis der Eigenschaften von Schätzungen ermöglicht es uns, das Problem zu lösen, Schätzungen nicht nur auszuwählen, sondern auch zu verbessern. Als Beispiel können wir den Fall betrachten, dass Berechnungen zeigen, dass die Werte der Standardabweichungen mehrerer Stichproben aus derselben Grundgesamtheit in allen Fällen kleiner sind als die Standardabweichung der Gesamtbevölkerung, und die Größe der Differenz bestimmt wird nach der Stichprobengröße. Durch Multiplikation der Stichprobenstandardabweichung mit dem Korrekturfaktor erhalten wir eine verbesserte Schätzung der Populationsstandardabweichung. Für einen solchen Korrekturfaktor wird die Bessel-Korrektur verwendet

P ein Ich P

(P - 1), das heißt, um die Verzerrung zu beseitigen, werden Schätzungen erhalten "P- 1. Dieser numerische Ausdruck zeigt, dass die als Schätzung verwendete Standardabweichung der Stichprobe einen unterschätzten Wert des Populationsparameters ergibt.

Bekanntlich handelt es sich bei den statistischen Merkmalen einer Stichprobenpopulation um ungefähre Schätzungen der unbekannten Parameter der Gesamtbevölkerung. Die Punktzahl selbst kann in Form einer einzelnen Zahl oder eines bestimmten Punktes vorliegen. Eine Schätzung, die durch eine einzelne Zahl bestimmt wird, wird als Punktschätzung bezeichnet. Somit ist der Stichprobenmittelwert (~) eine unverzerrte und leistungsstärkste Punktschätzung des allgemeinen Mittelwerts (x), und die Stichprobenvarianz ist eine verzerrte Punktschätzung des allgemeinen Mittelwerts (x).

Varianz (). Wenn wir den durchschnittlichen Fehler des Stichprobenmittelwerts bezeichnen T <>dann kann die Punktschätzung des allgemeinen Durchschnitts als x ± m ° geschrieben werden. Dies bedeutet, dass ~ eine Schätzung des allgemeinen Mittelwerts x mit einem Fehler von m ist. Es ist klar, dass punktstatistische Schätzungen von x und o keinen systematischen Fehler aufweisen sollten

ooo~~o<в 2

Seite der Überschätzung oder Unterschätzung der geschätzten Parameter x und. Wie bereits erwähnt, werden Schätzungen aufgerufen, die eine solche Bedingung erfüllen

unverdrängt. Was ist ein Parameterfehler? Er ist der Durchschnitt vieler spezifischer Fehler:

Die Punktschätzung eines Populationsparameters besteht darin, dass aus verschiedenen möglichen Stichprobenschätzungen zunächst diejenige ausgewählt wird, die optimale Eigenschaften aufweist, und dann der Wert dieser Schätzung berechnet wird. Der resultierende berechnete Wert des letzteren wird als beste Annäherung an den unbekannten wahren Wert des Populationsparameters betrachtet. Zusätzliche Berechnungen zur Ermittlung eines möglichen Schätzfehlers sind (je nach konkreter Bewertungsaufgabe) nicht immer zwingend erforderlich, werden aber in der Regel fast immer durchgeführt.

Betrachten wir Beispiele für die Ermittlung einer Punktschätzung für den Durchschnitt der untersuchten Merkmale und für deren Anteil an der Grundgesamtheit.

Beispiel. Der Getreideanbau der Region umfasst 20.000 Hektar. Bei einer 10 %-Stichprobenerhebung der Felder wurden folgende Stichprobenmerkmale ermittelt: Durchschnittsertrag – 30 Zentner pro Hektar, Ertragsstreuung – 4, Anbaufläche mit ertragreichen Kulturpflanzen – 1200 Hektar.

Was Sie über den Wert des durchschnittlichen Ertrags von Getreidekulturen in der Region wissen sollten und wie hoch der Zahlenwert des Indikators für den Anteil (spezifisches Gewicht) ertragreicher Kulturpflanzen an der Gesamtfläche der untersuchten Getreidekulturen ist

Region? Das heißt, es ist notwendig, die genannten Parameter (x, z) in der Gesamtbevölkerung zu bewerten. Um Schätzungen zu berechnen, haben wir:

N = 20000; - = 20000 x 0,1 = 2000; ~ = 30;<т = л / 4; № 2000,

Bekanntlich ist das selektive arithmetische Mittel eine effektive Schätzung

allgemeines arithmetisches Mittel. Somit kann man das akzeptieren

Die beste Schätzung des allgemeinen Parameters (^) ist 30. Um den Grad zu bestimmen

Genauigkeit der Schätzung ist es notwendig, ihren durchschnittlichen (Standard-)Fehler zu ermitteln:

u.a. p ~ I April 2000 h PPL

t = L - (1--) = - (1--) = 0,04

v n N i2000 2000 ^

Der resultierende Fehlerwert weist auf eine hohe Genauigkeit der Schätzung hin. Der Wert von m bedeutet hier, dass der Parameterschätzfehler bei mehrfacher Wiederholung solcher Proben durchschnittlich 0,04 betragen würde. Das heißt, es geht über den Punkt hinaus

Es wird geschätzt, dass der durchschnittliche Ertrag der landwirtschaftlichen Betriebe in der Region x = 30 - 0,04 c/1 Hektar beträgt.

Um eine Punktschätzung des Anteils ertragreicher Getreidekulturen an der Gesamtgetreidefläche zu erhalten, kann als bester Schätzwert der Anteil in der Stichprobe ¥ = 0,6 angenommen werden. Somit können wir sagen, dass basierend auf den Beobachtungsergebnissen die beste Schätzung des gewünschten Strukturindikators die Zahl 0,6 sein wird. Um die Berechnungen zu verdeutlichen, sollten Sie den durchschnittlichen Fehler dieser Schätzung berechnen: T Und (1 _ p) und 0,6 (1 - 0.b) (1 = 0,01

v P Nv 2000 2000 A

Wie wir sehen können, beträgt der durchschnittliche Fehler bei der Schätzung der allgemeinen Merkmale 0,01.

Das erhaltene Ergebnis bedeutet, dass, wenn die Probe mit einem Volumen von 2000 Hektar Getreide viele Male wiederholt wurde, der durchschnittliche Fehler der akzeptierten Schätzung des Anteils (spezifisches Gewicht) ertragreicher Kulturpflanzen im Bereich der Getreidekulturen von Unternehmen in der Region würde ± 0,01 betragen. In diesem Fall ist P = 0,6 ± 0,01. Prozentual wird der Anteil der Hochertragskulturen an der gesamten Getreidefläche der Region durchschnittlich 60 ± I betragen.

Berechnungen zeigen, dass für einen bestimmten Fall die beste Schätzung des gewünschten Strukturindikators die Zahl 0,6 ist und der durchschnittliche Schätzfehler in die eine oder andere Richtung ungefähr 0,01 beträgt. Wie wir sehen können, ist die Schätzung ziemlich genau.

Es gibt mehrere bekannte Methoden zur Punktschätzung der Standardabweichung in Fällen, in denen die Stichprobe aus einer Grundgesamtheit von Einheiten mit Normalverteilung entnommen wird und der Parameter b unbekannt ist. Eine einfache (am einfachsten zu berechnende) Schätzung ist der Variationsbereich (und °) der Stichprobe, multipliziert mit einem Korrekturfaktor aus Standardtabellen, der von der Stichprobengröße abhängt (bei kleinen Stichproben). Der Populatkann anhand der berechneten Stichprobenvarianz unter Berücksichtigung der Anzahl der Freiheitsgrade geschätzt werden. Die Quadratwurzel dieser Varianz ergibt den Wert, der als Schätzung der allgemeinen Standardabweichung verwendet wird.

Verwenden Sie den Parameterwert in „Berechnen Sie den durchschnittlichen Fehler bei der Schätzung des allgemeinen Mittelwerts (x“) auf die oben beschriebene Weise.

Wie bereits erwähnt, steigt je nach Fähigkeitsanforderung das Vertrauen in die Genauigkeit einer Punktschätzung mit zunehmender Stichprobengröße. Es ist etwas schwierig, diese theoretische Position am Beispiel einer Punktschätzung zu demonstrieren. Der Einfluss der Stichprobengröße auf die Genauigkeit der Schätzung ist bei der Berechnung von Intervallschätzungen offensichtlich. Sie werden weiter unten besprochen.

Tabelle 39 zeigt die am häufigsten verwendeten Punktschätzungen von Populationsparametern.

Tabelle 39

Grundlegende Punktschätzungen _

Schätzwerte, die mit unterschiedlichen Methoden berechnet wurden, sind möglicherweise nicht gleich groß. In diesem Zusammenhang sollte man sich in praktischen Berechnungen nicht auf eine sequentielle Berechnung möglicher Optionen einlassen, sondern anhand der Eigenschaften verschiedener Schätzungen eine davon auswählen.

Bei einer kleinen Anzahl von Beobachtungseinheiten ist die Punktschätzung weitgehend zufällig und daher nicht sehr zuverlässig. Daher kann es in kleinen Stichproben stark von den geschätzten Merkmalen der Allgemeinbevölkerung abweichen. Diese Situation führt zu groben Fehlern in den Schlussfolgerungen, die auf der Grundlage der Stichprobenergebnisse auf die Gesamtbevölkerung übergehen. Aus diesem Grund werden für kleine Stichproben Intervallschätzungen verwendet.

Im Gegensatz zu einer Punktschätzung gibt eine Intervallschätzung einen Bereich von Punkten an, in dem der Populationsparameter liegen sollte. Darüber hinaus gibt die Intervallschätzung die Wahrscheinlichkeit an und ist daher für die statistische Analyse wichtig.

Intervall ist eine Schätzung, die durch zwei Zahlen gekennzeichnet ist – die Grenzen des Intervalls, das den geschätzten Parameter abdeckt (abdeckt). Eine solche Schätzung stellt ein bestimmtes Intervall dar, in dem sich der gewünschte Parameter mit einer gegebenen Wahrscheinlichkeit befindet. Die Mitte des Intervalls wird als Stichprobenpunktschätzung angenommen.

Daher sind Intervallschätzungen eine Weiterentwicklung der Punktschätzung, wenn eine solche Schätzung bei einer kleinen Stichprobengröße unwirksam ist.

Das Problem der Intervallschätzung im Allgemeinen lässt sich wie folgt formulieren: Basierend auf Stichprobenbeobachtungsdaten ist es notwendig, ein numerisches Intervall zu konstruieren, in Bezug auf das unter Verwendung eines zuvor ausgewählten Wahrscheinlichkeitsniveaus angegeben werden kann, dass der geschätzte Parameter darin liegt dieses Intervall.

Wenn wir eine ausreichend große Anzahl von Stichprobeneinheiten verwenden, können wir mithilfe des Lyapunov-Theorems die Wahrscheinlichkeit beweisen, dass der Stichprobenfehler einen bestimmten angegebenen Wert a nicht überschreitet

Und ~ „*!“ A oder I Nein. „YA.

Dieser Satz ermöglicht insbesondere die Abschätzung der Fehler von Näherungsgleichungen:

- "R (p und - Frequenz) x" x. p

Wenn ^ * 2X3..., x ~ unabhängige Zufallsvariablen und n sind, dann liegt die Wahrscheinlichkeit ihres Durchschnitts (x) im Bereich von a bis 6 und kann durch die Gleichungen bestimmt werden:

p(a(X (F) 1 und 2 diese,

_A- Ex); _ in - E (x) DE ° a

Die Wahrscheinlichkeit P wird Konfidenzwahrscheinlichkeit genannt.

Somit ist die Konfidenzwahrscheinlichkeit (Zuverlässigkeit) der Schätzung eines allgemeinen Parameters basierend auf einer Stichprobenschätzung die Wahrscheinlichkeit, mit der die Ungleichungen realisiert werden:

| ~ X | <а; | и, ориентир | <д

wobei a der maximale Schätzfehler je nach Durchschnitt und Anteil ist.

Die Grenzen, innerhalb derer das allgemeine Merkmal mit dieser gegebenen Wahrscheinlichkeit lokalisiert werden kann, werden als Konfidenzintervalle (Konfidenzgrenzen) bezeichnet. Und die Grenzen dieses Intervalls werden Vertrauensgrenzen genannt.

Konfidenzgrenzen (oder Toleranzgrenzen) sind Grenzen, jenseits derer ein bestimmtes Merkmal aufgrund zufälliger Schwankungen eine unbedeutende Wahrscheinlichkeit aufweist (A ^ 0,5; p 2).<0,01; Л <0,001). Понятие "доверительный интервал" введено Дж.Нейман и К.Пирсоном (1950 г.). Это установленный по выборочным данным интервал, который с заданной вероятностью (доверительной вероятностью) охватывает (покрывает) настоящее, но неизвестно для нас значение параметра. Если уровня доверительной вероятности принять значения 0,95, то эта вероятность свидетельствует о том, что при частых приложениях данного способа (метода) вычислений доверительный интервал примерно в 95% случаев будет покрывать параметр. Доверительный интервал генеральной средней и генеральной доли определяется на основе приведенных выше неравенств, из которых

Daraus folgt, dass ~ _A - x - ~ + A; Nr. _A - g. - Nr. + A.

In der mathematischen Statistik wird die Zuverlässigkeit eines bestimmten Parameters anhand des Werts der folgenden drei Wahrscheinlichkeitsniveaus (manchmal auch „Wahrscheinlichkeitsschwellen“ genannt) bewertet: A = 0,95; ^2 = 0,99; P 3 = 0,999. Wahrscheinlichkeiten, die festgelegt werden vernachlässigt, das heißt A 1 = 0,05;; ein 2 = 0,01; „3 = 0,001 werden als Signifikanzniveaus oder Wesentlichkeitsniveaus bezeichnet. Aus den gegebenen Niveaus werden zuverlässige Schlussfolgerungen durch die Wahrscheinlichkeit P sichergestellt 3 = 0,999. Jedem Koentspricht ein bestimmter Wert der normalisierten Abweichung (siehe Tabelle 27). Wenn keine Standardtabellen für Wverfügbar sind, kann diese Wahrscheinlichkeit mit einem gewissen Näherungsgrad anhand der Formel berechnet werden:

R (<) = - = ^ = 1 e "~ yi.

In Abbildung 11 sind die Teile der Gesamtfläche, die durch die Normalenkurve und die x-Achse begrenzt werden und dem Wert entsprechen, schattiert <= ± 1;<= ± 2; <= и 3 и для которых вероятности равны 0,6287, 0,9545; 0,9973. При точечном оценке рассчитывается, как уже известно, средняя ошибка выборки, при интервальном - предельная.

Abhängig von den Prinzipien der Auswahl der Einheiten (wiederholt oder ohne Wiederholung) werden Strukturformeln zur Berechnung von Stichprobenfehlern erstellt

unterscheiden sich in der Größe der Korrektur (N).

Reis. 11. Normale Wahrscheinlichkeitsverteilungskurve

Tabelle 40 zeigt Formeln zur Berechnung von Fehlern bei der Schätzung des allgemeinen Parameters.

Betrachten wir den speziellen Fall der Intervallschätzung der Parameter der Allgemeinbevölkerung auf der Grundlage von Stichprobenbeobachtungsdaten.

Beispiel. Bei einer Stichprobenbefragung von Betrieben in der Region wurde festgestellt, dass die durchschnittliche tägliche Milchleistung der Kühe (x) 10 kg beträgt. Der Anteil reinrassiger Rinder am Gesamtviehbestand beträgt 80 %. Der Stichprobenfehler mit einer Konfidenzwahrscheinlichkeit von P = 0,954 betrug 0,2 kg; für private reinrassige Nutztiere 1 %.

Somit sind die Grenzen, innerhalb derer der allgemeine Durchschnitt liegen kann

Die Leistung beträgt 9,8<х <10,2; для генеральной доли скота -79 <Р <81.

Fazit: Mit einer Wahrscheinlichkeit von 0,954 lässt sich sagen, dass der Unterschied zwischen der selektiven Durchschnittsproduktivität der Kühe und der Gesamtproduktivität 0,2 kg beträgt. Die durchschnittliche tägliche Milchleistungsgrenze liegt bei 9,8 und 10,2 kg. Der Anteil (spezifisches Gewicht) von reinrassigen Rindern in den Betrieben der Region liegt zwischen 79 und 81 %, der Schätzfehler beträgt nicht mehr als 1 %.

Tabelle 40

Berechnung von Punkt- und Intervall-Stichprobenfehlern

Bei der Organisation einer Stichprobe ist es wichtig, die erforderliche Stichprobengröße (n) zu bestimmen. Letzteres hängt von der Variation der befragten Bevölkerungseinheiten ab. Je größer die Diversität, desto größer sollte die Stichprobengröße sein. Inverse Beziehung zwischen Stichprobengröße und ihrem Grenzfehler. Der Wunsch, einen kleineren Fehler zu erzielen, erfordert eine Vergrößerung der Stichprobenpopulation.

Der erforderliche Stichprobenumfang wird anhand der Formeln für den maximalen Stichprobenfehler (d) bei einem gegebenen Wahrscheinlichkeitsgrad (P) bestimmt. Durch mathematische Transformationen werden Formeln zur Berechnung der Stichprobengröße erhalten (Tabelle 41).

Tabelle 41

Berechnung der erforderlichen Stichprobengröße _

Es ist zu beachten, dass alle Angaben zu statistischen Schätzungen auf der Annahme basieren, dass die Stichprobenpopulation, deren Parameter bei der Bewertung verwendet werden, mithilfe einer Auswahlmethode (Methode) ermittelt wird, die Stichprobenwahrscheinlichkeiten liefert.

Gleichzeitig sollte man sich bei der Wahl der Konfidenzwahrscheinlichkeit einer Schätzung an dem Grundsatz orientieren, dass die Wahl ihres Niveaus keine mathematische Aufgabe ist, sondern konkret durch das zu lösende Problem bestimmt wird. Um dies zu bestätigen, schauen wir uns ein Beispiel an.

Beispiel. Angenommen, in zwei Unternehmen beträgt die Wahrscheinlichkeit, fertige (hochwertige) Produkte herzustellen, P = 0,999, d. h. die Wahrscheinlichkeit, fehlerhafte Produkte zu erhalten, beträgt a = 0,001. Ist es möglich, im Rahmen mathematischer Überlegungen, ohne sich für die Art des Produkts zu interessieren, die Frage zu klären, ob eine hohe Wahrscheinlichkeit einer Verknappung a = 0,001 vorlag? Nehmen wir an, ein Unternehmen produziert Sämaschinen und das zweite Flugzeuge für die Verarbeitung von Pflanzen. Wenn von 1000 Sämaschinen eine defekt ist, kann dies toleriert werden, da das Einschmelzen von 0,1 % der Sämaschinen kostengünstiger ist als die Umstrukturierung des technologischen Prozesses. Wenn unter 1000 Flugzeugen ein einziges defektes Flugzeug ist, wird dies mit Sicherheit schwerwiegende Folgen für den Betrieb haben. Also im ersten Fall die Wahrscheinlichkeit einer Heirat A = 0,001 kann akzeptiert werden, im zweiten Fall nicht. Aus diesem Grund sollte die Wahl der Konfidenzwahrscheinlichkeit bei Berechnungen im Allgemeinen und bei der Berechnung von Schätzungen im Besonderen auf der Grundlage der spezifischen Bedingungen des Problems erfolgen.

Abhängig von den Zielen der Studie kann es notwendig sein, ein oder zwei Vertrauensgrenzen zu berechnen. Wenn die Merkmale des zu lösenden Problems die Festlegung nur einer der oberen oder unteren Grenzen erfordern, können Sie sicherstellen, dass die Wahrscheinlichkeit, mit der diese Grenze festgelegt wird, höher ist, als wenn beide Grenzen für denselben Wert des Konfidenzkoeffizienten 1 angegeben werden

Die Konfidenzgrenzen seien mit der Wahrscheinlichkeit P = 0,95 festgelegt, d. h.

in 95 % der Fälle wird der allgemeine Durchschnitt (x) nicht kleiner als der untere sein

Konfidenzintervall x ™ - x "m und nicht mehr als das obere Konfidenzintervall

Intervall Xup - = x + In diesem Fall kann der allgemeine Durchschnitt nur mit der Wahrscheinlichkeit a = 0,05 (oder 5 %) über die angegebenen Grenzen hinausgehen. Da die Verteilung von X symmetrisch ist, beträgt die Hälfte dieses Niveaus

Wahrscheinlichkeit, d oberer Wert

Hveis Konfidenzgrenze „- ist gleich 0,975 (also 0,95 + 0,025). Folglich werden Bedingungen geschaffen, wenn wir mit zwei Konfidenzgrenzen vernachlässigen

Der Wert von x ist sowohl kleiner als x "" *. als auch größer oder Heerx. Benennung

Wenn es nur eine Konfidenzgrenze gibt, zum Beispiel Xup., vernachlässigen wir nur diejenigen, die diese Grenze überschreiten. Bei gleichem Wert des Konfidenzkoeffizienten X fällt das Signifikanzniveau a hier doppelt so niedrig aus.

Wenn nur die Kennwerte überschritten werden

(oder umgekehrt) den Wert des gewünschten Parameters x nicht überschreiten, wird das Konfidenzintervall als einseitig bezeichnet. Wenn die betrachteten Werte auf beiden Seiten begrenzt sind, wird das Konfidenzintervall als zweiseitig bezeichnet. Daraus folgt, dass Hypothesen und eine Reihe von Kriterien, insbesondere der X-Student-Test, als einseitig und zweiseitig zu betrachten sind. Daher ist bei einer zweiseitigen Hypothese das Signifikanzniveau für denselben Wert von X doppelt so groß wie bei einer einseitigen. Wenn wir wollen, dass das Signifikanzniveau (und das Konfidenzniveau) bei einer einseitigen Hypothese das gleiche bleibt wie bei einer zweiseitigen Hypothese, dann sollte der Wert von X niedriger angesetzt werden. Diese Funktion wurde bei der Erstellung der Standardtabellen der X-Student-Kriterien (Anhang 1) berücksichtigt.

Es ist bekannt, dass aus praktischer Sicht oft nicht so sehr die Konfidenzintervalle des möglichen Wertes des allgemeinen Durchschnitts von Interesse sind, sondern vielmehr jene Maximal- und Minimalwerte, die der allgemeine Durchschnitt nicht überschreiten oder unterschreiten kann als mit einer gegebenen (Konfidenz-)Wahrscheinlichkeit. In der mathematischen Statistik werden sie als garantiertes Maximum und garantiertes Minimum des Durchschnitts bezeichnet. Nachdem Sie die genannten Parameter angegeben haben

jeweils durch und x ™ können wir schreiben: ХШ ™ = x +; xship = x ~.

Bei der Berechnung der garantierten Maximal- und Minimalwerte des allgemeinen Durchschnitts gelten als Grenzen des einseitigen Konfidenzintervalls in den obigen Formeln der Wert 1 wird als einseitiges Kriterium angesehen.

Beispiel. Für 20 Probeflächen betrug der durchschnittliche Zuckerrübenertrag 300 n/ha. Dieser Stichprobenmittelwert charakterisiert das entsprechende

Populationsparameter (x) mit einem Fehler von 10 n/ha. Je nach Selektivität der Schätzungen kann der allgemeine Durchschnittsertrag entweder größer oder kleiner als der Stichprobendurchschnitt x = 300 sein. Mit der Wahrscheinlichkeit P = 0,95 kann angegeben werden, dass der gewünschte Parameter nicht größer als XIII "= 300 + 1,73 sein wird x10 = 317,3 kg/ha.

Für die Anzahl der Freiheitsgrade ^ = 20-1 mit einseitigem kritischen Bereich und Signifikanzniveau wird der Wert 1 angenommen A = 0,05 (Anhang 1). Mit einer Wahrscheinlichkeit von P = 0,95 wird der garantiert maximal mögliche allgemeine Durchschnittsertrag also auf 317 n/ha geschätzt, d. h. unter günstigen Bedingungen überschreitet der durchschnittliche Zuckerrübenertrag den angegebenen Wert nicht.

In einigen Wissenszweigen (z. B. in den Naturwissenschaften) ist die Schätztheorie der Theorie der Prüfung statistischer Hypothesen unterlegen. In den Wirtschaftswissenschaften spielen statistische Auswertungsmethoden eine sehr wichtige Rolle bei der Überprüfung der Verlässlichkeit von Forschungsergebnissen sowie bei verschiedenen Arten praktischer Berechnungen. Dies betrifft zunächst die Verwendung einer Punktschätzung der untersuchten statistischen Grundgesamtheiten. Die Auswahl der bestmöglichen Schätzung ist das Hauptproblem der Punktschätzung. Die Möglichkeit einer solchen Wahl wird durch die Kenntnis der grundlegenden Eigenschaften (Anforderungen) statistischer Schätzungen bestimmt.

Die Verteilung einer Zufallsvariablen (Verteilung der Grundgesamtheit) wird üblicherweise durch eine Reihe numerischer Merkmale charakterisiert:

  • für eine Normalverteilung ist N(a, σ) der mathematische Erwartungswert a und die Standardabweichung σ;
  • Für eine gleichmäßige Verteilung ist R(a,b) die Grenzen des Intervalls, in dem die Werte dieser Zufallsvariablen beobachtet werden.
Solche numerischen Merkmale, die normalerweise unbekannt sind, werden aufgerufen Populationsparameter . Parameter Schätzung - das entsprechende numerische Merkmal, das aus der Stichprobe berechnet wurde. Bevölkerungsparameterschätzungen lassen sich in zwei Klassen einteilen: Punkt Und Intervall.

Wenn eine Punktzahl durch eine einzelne Zahl bestimmt wird, wird sie aufgerufen Punktschätzung. Die Punktschätzung als Funktion der Stichprobe ist eine Zufallsvariable und variiert bei wiederholten Experimenten von Stichprobe zu Stichprobe.
Punktschätzungen stellen Anforderungen, die sie erfüllen müssen, um in irgendeiner Hinsicht „gutartig“ zu sein. Das unverdrängt, Effizienz Und Reichtum.

Intervallschätzungen werden durch zwei Zahlen bestimmt – die Enden des Intervalls, das den geschätzten Parameter abdeckt. Im Gegensatz zu Punktschätzungen, die keine Vorstellung davon geben, wie weit der geschätzte Parameter von ihnen entfernt sein könnte, ermöglichen uns Intervallschätzungen, die Genauigkeit und Zuverlässigkeit der Schätzungen festzustellen.

Als Punktschätzungen des mathematischen Erwartungswerts, der Streuung und der Standardabweichung werden die Stichprobeneigenschaften bzw. der Stichprobenmittelwert, die Stichprobenstreuung und die Stichprobenstandardabweichung verwendet.

Eigenschaft der unvoreingenommenen Schätzung.
Eine wünschenswerte Voraussetzung für die Beurteilung ist die Abwesenheit systematischer Fehler, d. h. Wenn anstelle des Parameters θ wiederholt dessen Schätzung verwendet wird, ist der Durchschnittswert des Approximationsfehlers Null – das ist Eigenschaft der unvoreingenommenen Schätzung.

Definition. Eine Schätzung wird als erwartungstreu bezeichnet, wenn ihr mathematischer Erwartungswert dem wahren Wert des geschätzten Parameters entspricht:

Das arithmetische Mittel der Stichprobe ist eine unvoreingenommene Schätzung der mathematischen Erwartung und der Stichprobenvarianz - voreingenommene Schätzung der allgemeinen Varianz D. Eine unverzerrte Schätzung der allgemeinen Varianz ist die Schätzung

Eigenschaft der Bewertungskonsistenz.
Die zweite Anforderung an eine Schätzung – ihre Konsistenz – bedeutet, dass sich die Schätzung mit zunehmender Stichprobengröße verbessert.

Definition. Grad heißt konsistent, wenn die Wahrscheinlichkeit für n→∞ gegen den geschätzten Parameter θ konvergiert.


Wahrscheinlichkeitskonvergenz bedeutet, dass bei einer großen Stichprobengröße die Wahrscheinlichkeit großer Abweichungen der Schätzung vom wahren Wert gering ist.

Effektive Schätzungseigenschaft.
Mit der dritten Anforderung können Sie aus mehreren Schätzungen desselben Parameters die beste Schätzung auswählen.

Definition. Ein erwartungstreuer Schätzer ist effizient, wenn er unter allen erwartungstreuen Schätzern die geringste Varianz aufweist.

Dies bedeutet, dass die effektive Schätzung eine minimale Streuung relativ zum wahren Wert des Parameters aufweist. Beachten Sie, dass es nicht immer eine effektive Schätzung gibt, aber aus zwei Schätzungen ist es normalerweise möglich, die effektivere auszuwählen, d. h. mit weniger Varianz. Beispielsweise können für einen unbekannten Parameter a einer Normalpopulation N(a,σ) sowohl das arithmetische Mittel der Stichprobe als auch der Median der Stichprobe als erwartungstreue Schätzung verwendet werden. Die Varianz des Stichprobenmedians ist jedoch etwa 1,6-mal größer als die Varianz des arithmetischen Mittels. Eine effektivere Schätzung ist daher das arithmetische Stichprobenmittel.

Beispiel Nr. 1. Finden Sie eine unvoreingenommene Schätzung der Varianz von Messungen einer Zufallsvariablen mit einem Gerät (ohne systematische Fehler), dessen Messergebnisse (in mm) 13,15,17 sind.
Lösung. Tabelle zur Berechnung von Indikatoren.

X|x - x av |(x - x Durchschnitt) 2
13 2 4
15 0 0
17 2 4
45 4 8

Einfacher arithmetischer Durchschnitt(unvoreingenommene Schätzung der mathematischen Erwartung)


Streuung- charakterisiert das Maß der Streuung um seinen Durchschnittswert (ein Maß für die Streuung, d. h. Abweichung vom Durchschnitt – voreingenommene Schätzung).


Unvoreingenommener Varianzschätzer- konsistente Varianzschätzung (korrigierte Varianz).

Beispiel Nr. 2. Finden Sie eine unvoreingenommene Schätzung der mathematischen Erwartung von Messungen einer bestimmten Zufallsvariablen durch ein Gerät (ohne systematische Fehler), dessen Messergebnisse (in mm) 4,5,8,9,11 sind.
Lösung. m = (4+5+8+9+11)/5 = 7,4

Beispiel Nr. 3. Finden Sie die korrigierte Varianz S2 für eine Stichprobengröße von n=10, wenn die Stichprobenvarianz D = 180 beträgt.
Lösung. S 2 = n*D/(n-1) = 10*180/(10-1) = 200

Angenommen, Sie möchten beispielsweise ein quantitatives Merkmal einer allgemeinen Bevölkerung untersuchen. Gehen wir davon aus, dass wir aus theoretischen Überlegungen herausgefunden haben, welche Verteilung das Merkmal genau hat. Es stellt sich natürlich das Problem, die Parameter abzuschätzen, die diese Verteilung bestimmen. Wenn beispielsweise im Voraus bekannt ist, dass das untersuchte Merkmal in der Grundgesamtheit normalverteilt ist, müssen der mathematische Erwartungswert a und die Standardabweichung s geschätzt (ungefähr ermittelt) werden, da diese beiden Parameter die Normalverteilung vollständig bestimmen .

Normalerweise stehen dem Forscher nur Beispieldaten zur Verfügung, beispielsweise die Werte des quantitativen Merkmals x 1, x 2, ..., x n, die als Ergebnis von n Beobachtungen erhalten wurden. Der geschätzte Parameter wird durch diese Daten ausgedrückt.

Sei q * eine statistische Schätzung des unbekannten Parameters q der theoretischen Verteilung. Unterscheiden unvoreingenommen Und versetzt Einschätzungen.

Unvoreingenommen Rufen Sie eine statistische Schätzung q * auf, deren mathematische Erwartung für jede Stichprobengröße gleich dem geschätzten Parameter q ist

Andernfalls, das heißt, wenn M(q *) ¹ q, wird die Schätzung aufgerufen versetzt.

Die erwartungstreue Anforderung bedeutet, dass es keine systematische Abweichung in die gleiche Richtung der beobachteten Werte von q geben sollte.

Darüber hinaus ist eine statistische Auswertung erforderlich Effizienz, was (für eine gegebene Stichprobengröße) die kleinstmögliche Varianz und im Fall einer großen Stichprobengröße die Anforderung impliziert Zahlungsfähigkeit, also die praktische Übereinstimmung der beobachteten Werte der Zufallsvariablen mit dem geschätzten Parameter.

Wird das statistische Material in Form einer Variationsreihe dargestellt, erfolgt die anschließende Analyse in der Regel mit Hilfe einiger konstanter Werte, die die inhärenten Muster der untersuchten Population recht vollständig widerspiegeln.

Zu diesen Konstanten gehören Durchschnittswerte, von denen der bedeutendste ist arithmetisches Mittel- Es ist einfacher als andere in Bezug auf Bedeutung, Eigenschaften und Herstellungsweise.

Da bei der Untersuchung der Allgemeinbevölkerung eine Stichprobe entnommen wird, nennt man den konstanten Wert, der die Stichprobe charakterisiert Stichprobenmittelwert und wird bezeichnet.

Es kann gezeigt werden, dass dies der Fall ist unvoreingenommene Schätzung arithmetischer Mittelwert des Merkmals der Allgemeinbevölkerung, das heißt

Lassen Sie eine Menge in Teile zerlegen - Gruppen, nicht unbedingt das gleiche Volumen. Dann nennt man die arithmetischen Mittelverteilungen der Gruppenmitglieder Gruppendurchschnitte und das arithmetische Mittel der Verteilung für dasselbe Merkmal der gesamten Bevölkerung - allgemeiner Durchschnitt. Die Gruppen werden aufgerufen disjunkt, wenn jedes Mitglied der Bevölkerung nur einer Gruppe angehört.

Der Gesamtmittelwert ist gleich dem arithmetischen Mittel der Gruppenmittelwerte aller disjunkten Gruppen.

Beispiel. Berechnen Sie das Durchschnittsgehalt der Unternehmensmitarbeiter anhand der Tabellendaten

Lösung. Per Definition ist der Gesamtdurchschnitt

. (*)

n 1 = 40, n 2 = 50, n 3 = 60

Das durchschnittliche Gehalt der Arbeiter in Werkstatt Nr. 1. Um es zu finden, haben wir das arithmetische Durchschnittsgehalt für die gesamte Werkstatt zusammengestellt: 75, 85, 95 und 105 (cu). Der Einfachheit halber können diese Werte um das Fünffache reduziert werden (das ist ihr größter gemeinsamer Teiler): 15, 17, 19, 21. Der Rest ergibt sich aus der Formel.

Nachdem wir ähnliche Operationen durchgeführt haben, finden wir , .

Wenn wir die erhaltenen Werte durch (*) ersetzen, erhalten wir

Durchschnittswerte sind konstante Werte, die Verteilungen auf eine bestimmte Weise charakterisieren. Einige Verteilungen werden nur nach Mittelwerten beurteilt. Um beispielsweise das Lohnniveau in verschiedenen Branchen zu vergleichen, reicht es aus, die Durchschnittslöhne in diesen Branchen zu vergleichen. Anhand der Durchschnittswerte lässt sich jedoch weder beurteilen, welche Unterschiede zwischen den Lohnniveaus der am höchsten und am niedrigsten bezahlten Arbeitnehmer bestehen, noch welche Abweichungen vom Durchschnittslohn auftreten.

In der Statistik ist die Streuung von Attributwerten um ihr arithmetisches Mittel von größtem Interesse. In der Praxis und in theoretischen Studien wird die Streuung eines Merkmals häufiger durch Streuung und Standardabweichung charakterisiert.

Stichprobenvarianz D B ist das arithmetische Mittel der Quadrate der Abweichung der beobachteten Werte eines Merkmals von ihrem Mittelwert.

Wenn alle Werte x 1, x 2, ... x n der Charakteristik einer Probe des Volumens n unterschiedlich sind, dann

. (3)

Wenn die Werte des Attributs x 1, x 2, ... x k die Häufigkeiten n 1, n 2, ... n k bzw. n 1 + n 2 + ... + n k = n haben, dann

. (4)

Wenn der Streuungsindikator in denselben Einheiten wie die Attributwerte ausgedrückt werden muss, können Sie das zusammenfassende Merkmal verwenden: Standardabweichung

Zur Berechnung der Varianz wird üblicherweise die Formel verwendet

Wenn die Bevölkerung in nicht überlappende Gruppen unterteilt ist, können zu ihrer Charakterisierung die Konzepte der Gruppe, der Intragruppe, der Intergruppe und der Gesamtdispersion eingeführt werden.

Gruppe Dispersion ist die Streuung der Verteilung der Mitglieder der j-ten Gruppe relativ zu ihrem Durchschnitt – dem Gruppendurchschnitt

wobei n i die Häufigkeit des Wertes x i und das Volumen der Gruppe j ist.

Gruppenintern Dispersion ist das arithmetische Mittel der Gruppendispersionen

wobei N j (j = 1, 2, …, m) die Volumina disjunkter Gruppen sind.

Intergruppe Dispersion ist das arithmetische Mittel der quadrierten Abweichungen der Gruppenmittelwerte aller disjunkten Gruppen vom Gesamtmittelwert

.

Allgemein Streuung ist die Streuung der Werte eines Merkmals der Gesamtbevölkerung im Verhältnis zum Gesamtdurchschnitt

,

wobei n i die Häufigkeit des Wertes x i ist; - Gesamtdurchschnitt; n ist das Volumen der Gesamtbevölkerung.

Es kann gezeigt werden, dass die Gesamtvarianz von D gleich der Summe ist, d. h.

Beispiel. Ermitteln Sie die Gesamtvarianz einer Grundgesamtheit, die aus den folgenden zwei Gruppen besteht

Erste Gruppe Zweite Gruppe
x i n ich x i n ich

Lösung. Lassen Sie uns Gruppendurchschnitte ermitteln

Lassen Sie uns Gruppenvarianzen finden

Lassen Sie uns den allgemeinen Durchschnitt ermitteln

Erforderliche Gesamtvarianz

Die oben betrachteten Schätzungen werden üblicherweise aufgerufen Punkt, da diese Schätzungen ermittelt werden eine Nummer. Im Fall von kleines Volumen Stichproben wird eine Intervallschätzung verwendet, ermittelt zwei Zahlen, genannt die Enden des Intervalls.

Intervallschätzungen ermöglichen uns die Feststellung Genauigkeit und Zuverlässigkeit Bewertungen. Lassen Sie uns die Bedeutung dieser Konzepte erklären. Das aus den Stichprobendaten ermittelte statistische Merkmal q* soll als Schätzung des unbekannten Parameters q dienen. Es ist klar, dass q * je genauer der Parameter q bestimmt wird, desto kleiner ist der Absolutwert. Mit anderen Worten: Wenn d > 0 und gilt, ist die Schätzung umso genauer, je kleiner d ist.

Somit ist die Zahl d > 0 charakterisiert Genauigkeit Einschätzungen. Andererseits erlauben uns statistische Methoden jedoch keine kategorische Aussage, dass die Schätzung q * die Ungleichung erfüllt. Hier können wir nur darüber reden Wahrscheinlichkeit g, womit diese Ungleichung realisiert wird. Diese Wahrscheinlichkeit heißt g Zuverlässigkeit (Konfidenzwahrscheinlichkeit) schätzt q mal q * .

Aus dem Gesagten ergibt sich also Folgendes

Die Beziehung (*) ist wie folgt zu verstehen: Die Wahrscheinlichkeit, dass das Intervall (q * - d, q * + d) den unbekannten Parameter q enthält (abdeckt), ist gleich g. Das Intervall (q * - d, q * + d), das den unbekannten Parameter mit einer gegebenen Zuverlässigkeit g abdeckt, wird als Konfidenz bezeichnet.

Beispiel. Die Zufallsvariable .

Lösung. Beachten Sie, dass, wenn die Zufallsvariable

Wir verlangen, dass die Beziehung erfüllt ist

.

Wenn wir Formel (**) (siehe Seite 43) verwenden und X durch und s durch ersetzen, erhalten wir