Erkennung von Emotionen durch verschiedene Gruppen des Pearson-Chi-Quadrats. Chi-Quadrat-Verteilung. Verteilungen der mathematischen Statistik in MS EXCEL

In diesem Artikel werden wir über die Untersuchung der Abhängigkeit zwischen Zeichen oder, wie Sie es bevorzugen, Zufallswerten und Variablen sprechen. Insbesondere werden wir uns damit befassen, wie man mithilfe des Chi-Quadrat-Tests ein Maß für die Abhängigkeit zwischen Merkmalen einführt und es mit dem Korrelationskoeffizienten vergleicht.

Warum könnte das nötig sein? Zum Beispiel, um zu verstehen, welche Merkmale bei der Erstellung eines Kreditscorings stärker von der Zielvariablen abhängig sind – Bestimmung der Wahrscheinlichkeit eines Kundenausfalls. Oder, wie in meinem Fall, verstehen, welche Indikatoren zum Programmieren eines Handelsroboters verwendet werden müssen.

Unabhängig davon stelle ich fest, dass ich die Sprache C# für die Datenanalyse verwende. Vielleicht ist das alles schon in R oder Python umgesetzt, aber die Verwendung von C# ermöglicht es mir, das Thema im Detail zu verstehen, außerdem ist es meine Lieblingsprogrammiersprache.

Beginnen wir mit absolut einfaches Beispiel Erstellen Sie mit einem Zufallszahlengenerator vier Spalten in Excel:
X=RANDBETWEEN(-100,100)
Y =X*10+20
Z =X*X
T=RANDBETWEEN(-100,100)

Wie Sie sehen können, ist die Variable Y linear abhängig von X; Variable Z quadratisch abhängig von X; Variablen X Und T unabhängig. Ich habe diese Wahl mit Absicht getroffen, weil wir unser Abhängigkeitsmaß mit dem Korrelationskoeffizienten vergleichen werden. Wie bekannt ist, ist zwischen zwei Zufallsvariablen Modulo 1 gleich, wenn die „härteste“ Art der Abhängigkeit zwischen ihnen linear ist. Es gibt jedoch keine Korrelation zwischen zwei unabhängigen Zufallsvariablen Die Gleichheit des Korrelationskoeffizienten mit Null impliziert keine Unabhängigkeit. Als nächstes werden wir dies am Beispiel von Variablen sehen X Und Z.

Speichern Sie die Datei als data.csv und beginnen Sie mit den ersten Schätzungen. Berechnen wir zunächst den Korrelationskoeffizienten zwischen Werten. Ich habe den Code nicht in den Artikel eingefügt; er befindet sich auf meinem Github. Wir erhalten die Korrelation für alle möglichen Paare:

Es ist ersichtlich, dass die Abhängigkeit linear ist X Und Y der Korrelationskoeffizient ist 1. Aber X Und Z es ist gleich 0,01, obwohl wir die Abhängigkeit explizit festlegen Z=X*X. Wir brauchen eindeutig eine Maßnahme, die Sucht besser „spürt“. Aber bevor wir zum Chi-Quadrat-Test übergehen, schauen wir uns an, was eine Kontingenzmatrix ist.

Um eine Kontingenzmatrix zu erstellen, unterteilen wir den Bereich der Variablenwerte in Intervalle (oder kategorisieren). Es gibt viele Möglichkeiten, dies zu tun, aber es gibt keinen universellen Weg. Einige davon sind in Intervalle unterteilt, sodass sie die gleiche Anzahl an Variablen enthalten, andere sind in Intervalle gleicher Länge unterteilt. Ich persönlich kombiniere diese Ansätze gerne. Ich habe mich für diese Methode entschieden: Ich subtrahiere den Mattenwert von der Variablen. Erwartungen, dividieren Sie dann das Ergebnis durch die Schätzung der Standardabweichung. Mit anderen Worten: Ich zentriere und normalisiere die Zufallsvariable. Der resultierende Wert wird mit einem Koeffizienten multipliziert (in diesem Beispiel ist er 1) und anschließend wird alles auf die nächste ganze Zahl gerundet. Die Ausgabe ist eine Variable vom Typ int, die die Klassenkennung darstellt.

Nehmen wir also unsere Zeichen X Und Z, kategorisieren wir auf die oben beschriebene Weise und berechnen anschließend die Anzahl und Wahrscheinlichkeiten des Auftretens jeder Klasse sowie die Wahrscheinlichkeiten des Auftretens von Merkmalspaaren:

Dies ist eine Matrix nach Menge. Hier in den Zeilen - die Häufigkeit des Vorkommens der Variablenklassen X, in Spalten – die Anzahl des Vorkommens von Klassen der Variablen Z, in Zellen - die Anzahl des gleichzeitigen Auftretens von Klassenpaaren. Beispielsweise kam die Klasse 0 für die Variable 865 Mal vor X, 823 Mal für eine Variable Z und es gab nie ein Paar (0,0). Kommen wir zu den Wahrscheinlichkeiten, indem wir alle Werte durch 3000 dividieren ( Gesamtzahl Beobachtungen):

Wir haben eine Kontingenzmatrix erhalten, die wir nach der Kategorisierung der Merkmale erhalten haben. Jetzt ist es an der Zeit, über das Kriterium nachzudenken. Per Definition sind Zufallsvariablen unabhängig, wenn die von diesen Zufallsvariablen erzeugten Sigma-Algebren unabhängig sind. Die Unabhängigkeit von Sigma-Algebren impliziert die paarweise Unabhängigkeit von Ereignissen von ihnen. Zwei Ereignisse heißen unabhängig, wenn die Wahrscheinlichkeit ihres gemeinsamen Eintretens gleich dem Produkt der Wahrscheinlichkeiten dieser Ereignisse ist: Pij = Pi*Pj. Mit dieser Formel erstellen wir das Kriterium.

Nullhypothese: kategorisierte Zeichen X Und Z unabhängig. Äquivalent dazu: Die Verteilung der Kontingenzmatrix wird allein durch die Wahrscheinlichkeiten des Auftretens von Klassen von Variablen (Wahrscheinlichkeiten von Zeilen und Spalten) angegeben. Oder so: Die Matrixzellen werden durch das Produkt der entsprechenden Wahrscheinlichkeiten der Zeilen und Spalten gefunden. Wir werden diese Formulierung der Nullhypothese zur Konstruktion verwenden entscheidende Regel: erhebliche Diskrepanz zwischen Pij Und Pi*Pj wird die Grundlage für die Ablehnung der Nullhypothese sein.

Sei die Wahrscheinlichkeit, dass Klasse 0 in einer Variablen auftritt X. Unsere Summe N Klassen bei X Und M Klassen bei Z. Es stellt sich heraus, dass wir diese kennen müssen, um die Matrixverteilung zu spezifizieren N Und M Wahrscheinlichkeiten. Aber tatsächlich, wenn wir es wissen n-1 Wahrscheinlichkeit für X, dann wird Letzteres durch Subtrahieren der Summe der anderen von 1 ermittelt. Um die Verteilung der Kontingenzmatrix zu finden, müssen wir sie kennen l=(n-1)+(m-1) Werte. Oder haben wir das? l-dimensionaler parametrischer Raum, dessen Vektor uns unsere gewünschte Verteilung liefert. Die Chi-Quadrat-Statistik sieht folgendermaßen aus:

und haben nach dem Satz von Fisher eine Chi-Quadrat-Verteilung mit n*m-l-1=(n-1)(m-1) Freiheitsgrade.

Stellen wir das Signifikanzniveau auf 0,95 ein (oder die Wahrscheinlichkeit eines Fehlers vom Typ I beträgt 0,05). Finden wir das Quantil der Chi-Quadrat-Verteilung für dieses Niveau Bedeutung und Freiheitsgrade aus dem Beispiel (n-1)(m-1)=4*3=12: 21.02606982. Die Chi-Quadrat-Statistik selbst für die Variablen X Und Z entspricht 4088,006631. Es ist klar, dass die Hypothese der Unabhängigkeit nicht akzeptiert wird. Es ist zweckmäßig, das Verhältnis der Chi-Quadrat-Statistik zum Schwellenwert zu berücksichtigen in diesem Fall es ist gleich Chi2Coeff=194,4256186. Wenn dieses Verhältnis kleiner als 1 ist, wird die Hypothese der Unabhängigkeit akzeptiert; wenn es größer ist, dann nicht. Lassen Sie uns dieses Verhältnis für alle Merkmalspaare ermitteln:

Hier Faktor1 Und Faktor2- Feature-Namen
src_cnt1 Und src_cnt2– Anzahl der eindeutigen Werte der Anfangsmerkmale
mod_cnt1 Und mod_cnt2– Anzahl eindeutiger Merkmalswerte nach der Kategorisierung
chi2- Chi-Quadrat-Statistik
chi2max- Schwellenwert der Chi-Quadrat-Statistik für ein Signifikanzniveau von 0,95
chi2Coeff- Verhältnis der Chi-Quadrat-Statistik zum Schwellenwert
korr- Korrelationskoeffizient

Es ist ersichtlich, dass sie unabhängig sind (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) Und ( Z,T), was logisch ist, da die Variable T wird zufällig generiert. Variablen X Und Z abhängig, aber weniger als linear abhängig X Und Y, was auch logisch ist.

Ich habe den Code des Dienstprogramms, das diese Indikatoren berechnet, auf Github gepostet, wo sich auch die Datei data.csv befindet. Das Dienstprogramm verwendet eine CSV-Datei als Eingabe und berechnet die Abhängigkeiten zwischen allen Spaltenpaaren: PtProject.Dependency.exe data.csv

Beschreibung des Kriteriums

Zweck des Kriteriums

Chi-Quadrat-Test nach Pearson

Vorlesungsmaterialien

Thema 6. Identifizieren von Unterschieden in der Verteilung eines Merkmals

Pearson-Kriterium: Zweck des Kriteriums, seine Beschreibung, Anwendungsbereich, Berechnungsalgorithmus.

Kolmogorov-Smirnov-Kriterium zum Vergleich der Ergebnisse quantitativer Messungen: Zweck des Kriteriums, seine Beschreibung, Anwendungsbereich, Berechnungsalgorithmus.

Bei der Untersuchung dieses Themas muss berücksichtigt werden, dass beide Kriterien nichtparametrisch sind und mit Häufigkeiten arbeiten. Achten Sie besonders auf die Entscheidungsregeln für die betrachteten Kriterien: Diese Regeln können gegensätzlich sein. Bitte prüfen Sie sorgfältig die Einschränkungen bei der Anwendung der Kriterien.

Beantworten Sie nach dem Studium des Vorlesungsmaterials die Testfragen und notieren Sie die Antworten in Ihren Notizen.

Der Pearson-Chi-Quadrat-Test kann mehrere Probleme lösen, einschließlich des Vergleichs von Verteilungen.

Der χ 2 -Test wird für zwei Zwecke verwendet;

1) zum Vergleich empirisch Verteilung des Merkmals mit theoretisch - einheitlich, normal oder anders;

2) zum Vergleich zwei, drei oder mehr empirische Verteilungen des gleichen Merkmals, das heißt, um ihre Homogenität zu überprüfen;

3) zur Beurteilung der stochastischen (probabilistischen) Unabhängigkeit in einem System zufälliger Ereignisse usw.

Das χ 2-Kriterium beantwortet die Frage, ob unterschiedliche Werte eines Merkmals in empirischen und theoretischen Verteilungen oder in zwei oder mehr empirischen Verteilungen gleich häufig vorkommen.

Der Vorteil der Methode besteht darin, dass sie es ermöglicht, die Verteilungen der dargestellten Merkmale auf jeder Skala, beginnend mit der Namensskala, zu vergleichen. Im einfachsten Fall einer alternativen Verteilung („ja – nein“, „Fehler zugelassen – Fehler nicht zugelassen“, „Problem gelöst – Problem nicht gelöst“ usw.) können wir bereits das χ 2 anwenden Kriterium.

1. Die Stichprobengröße sollte groß genug sein: N>30. Als N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Die theoretische Häufigkeit für jede Tabellenzelle sollte nicht weniger als 5 betragen: f ≥ 5 . Das heißt, wenn die Anzahl der Stellen vorgegeben ist und nicht geändert werden kann, können wir die χ 2 -Methode nicht anwenden , ohne eine bestimmte Mindestanzahl an Beobachtungen anzusammeln. Wenn wir beispielsweise unsere Annahmen überprüfen möchten, dass die Häufigkeit der Anrufe beim Trust-Telefondienst ungleichmäßig über 7 Tage der Woche verteilt ist, benötigen wir 5-7 = 35 Anrufe. Also, wenn die Anzahl der Ziffern (k) Im Voraus angegeben, wie in diesem Fall, wird die Mindestanzahl von Beobachtungen (N min) durch die Formel bestimmt: .



3. Die ausgewählten Kategorien müssen die gesamte Verteilung „ausschöpfen“, also die gesamte Bandbreite der Merkmalsvariabilität abdecken. In diesem Fall muss die Einteilung in Kategorien in allen verglichenen Verteilungen gleich sein.

4. Beim Vergleich von Verteilungen von Merkmalen, die nur zwei Werte annehmen, ist eine „Kontinuitätskorrektur“ erforderlich. Bei einer Korrektur verringert sich der Wert von χ 2 (siehe Beispiel mit Kontinuitätskorrektur).

5. Die Kategorien dürfen sich nicht überschneiden: Wird eine Beobachtung einer Kategorie zugeordnet, kann sie keiner anderen Kategorie mehr zugeordnet werden. Die Summe der Beobachtungen nach Rang muss immer gleich der Gesamtzahl der Beobachtungen sein.

Algorithmus zur Berechnung des χ 2 -Kriteriums

1. Erstellen Sie eine Tabelle der gegenseitigen Konjugation von Merkmalswerten des folgenden Typs (im Wesentlichen handelt es sich hierbei um eine zweidimensionale Variationsreihe, in der die Häufigkeit des Auftretens gemeinsamer Merkmalswerte angegeben ist) – Tabelle 19. Die Tabelle enthält bedingte Häufigkeiten, die wir allgemein als f ij bezeichnen werden. Beispielsweise die Anzahl der Abstufungen eines Merkmals X gleich 3 (k=3), die Anzahl der Abstufungen des Merkmals bei gleich 4 (m=4); Dann ich variiert von 1 bis k, und J variiert von 1 bis m.

Tabelle 19

x i y j x 1 x 2 x 3
um 1 f 11 f 21 f 31 f –1
um 2 f 12 f 22 f 32 f –2
um 3 f 13 f 23 f 33 f –3
um 4 f 14 f 24 f 34 f –4
f 1– f 2– f 3– N

2. Als nächstes wandeln wir zur Vereinfachung der Berechnungen die ursprüngliche Tabelle der gegenseitigen Kontingenz in eine Tabelle der folgenden Form um (Tabelle 20), indem wir die Spalten mit bedingten Häufigkeiten untereinander platzieren: Tragen Sie in die Tabelle die Namen der Kategorien ein (Spalten 1 und 2) und die entsprechenden empirischen Häufigkeiten (3. Spalte).

Tabelle 20

x i y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 um 1 f 11 f 11*
x 1 um 2 f 12 f 12*
x 1 um 3 f 13 f 13*
x 1 um 4 f 14 f 14*
x 2 um 1 f 21 f 21 *
x 2 um 2 f 22 f 22 *
x 2 um 3 f 23 f 23 *
x 2 um 4 f 24 f 24 *
x 3 um 1 f 31 f 31 *
x 3 um 2 f 32 f 32 *
x 3 um 3 f 33 f 33 *
x 3 um 4 f 34 f 34*
∑=………….

3. Notieren Sie neben jeder empirischen Häufigkeit die theoretische Häufigkeit (4. Spalte), die mit der folgenden Formel berechnet wird (die Gesamthäufigkeiten in der entsprechenden Zeile werden mit der Gesamthäufigkeit in der entsprechenden Spalte multipliziert und durch die Gesamtzahl dividiert). Beobachtungen):

5. Bestimmen Sie die Anzahl der Freiheitsgrade mit der Formel: ν=(k-1)(m-1) , Wo k- Anzahl der Attributziffern X, m - Anzahl der Ziffern des Zeichens bei.

Wenn ν=1, nehmen Sie eine Korrektur für „Kontinuität“ vor und schreiben Sie diese in Spalte 5a.

Die Kontinuitätskorrektur besteht darin, von der Differenz zwischen der bedingten und der theoretischen Häufigkeit weitere 0,5 abzuziehen. Dann sehen die Spaltenüberschriften in unserer Tabelle so aus (Tabelle 21):

Tabelle 21

X bei f ij f ij * f ij – f ij * f ij – f ij * – 0,5 (f ij – f ij * – 0,5) 2 (f ij – f ij * – 0,5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. Quadrieren Sie die resultierenden Differenzen und tragen Sie diese in die 6. Spalte ein.

7. Teilen Sie die resultierenden quadrierten Differenzen durch die theoretische Häufigkeit und schreiben Sie die Ergebnisse in die 7. Spalte.

8. Summieren Sie die Werte der 7. Spalte. Der resultierende Betrag wird mit χ 2 em bezeichnet.

9. Entscheidungsregel:

Der berechnete Wert des Kriteriums muss mit dem kritischen (oder tabellarischen) Wert verglichen werden. Der kritische Wert hängt von der Anzahl der Freiheitsgrade gemäß der Tabelle der kritischen Werte des Pearson χ 2-Kriteriums ab (siehe Anhang 1.6).

Wenn χ 2 calc ≥ χ 2 table, dann sind die Abweichungen zwischen den Verteilungen statistisch signifikant, oder die Merkmale ändern sich konsistent, oder die Beziehung zwischen den Merkmalen ist statistisch signifikant.

Wenn χ 2 berechnet< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

Betrachten Sie die Chi-Quadrat-Verteilung. Verwendung der MS-EXCEL-FunktionCH2.DIST() Lassen Sie uns die Verteilungsfunktion und die Wahrscheinlichkeitsdichte grafisch darstellen und die Verwendung dieser Verteilung für Zwecke der mathematischen Statistik erläutern.

Chi-Quadrat-Verteilung (X 2, XI2, EnglischChi- kariertVerteilung) Wird in verschiedenen Methoden der mathematischen Statistik verwendet:

  • während der Konstruktion;
  • bei ;
  • at (stimmen die empirischen Daten mit unserer Annahme über die theoretische Verteilungsfunktion überein oder nicht, englisch Goodness-of-fit)
  • at (wird verwendet, um die Beziehung zwischen zwei kategorialen Variablen zu bestimmen, englischer Chi-Quadrat-Assoziationstest).

Definition: Wenn x 1 , x 2 , …, x n unabhängige Zufallsvariablen sind, die über N(0;1) verteilt sind, dann hat die Verteilung der Zufallsvariablen Y=x 1 2 + x 2 2 +…+ x n 2 Verteilung X 2 mit n Freiheitsgraden.

Verteilung X 2 hängt von einem aufgerufenen Parameter ab Freiheitsgrad (df, GradvonFreiheit). Zum Beispiel beim Bauen Anzahl der Freiheitsgrade entspricht df=n-1, wobei n die Größe ist Proben.

Verteilungsdichte X 2 ausgedrückt durch die Formel:

Funktionsgraphen

Verteilung X 2 hat eine asymmetrische Form, gleich n, gleich 2n.

IN Beispieldatei auf dem Diagrammblatt gegeben Verteilungsdichtediagramme Wahrscheinlichkeiten und Verteilungsfunktion.

Nützliches Eigentum CH2-Verteilungen

Seien x 1 , x 2 , …, x n unabhängige, verteilte Zufallsvariablen normales Gesetz mit den gleichen Parametern μ und σ, und X av Ist arithmetisches Mittel diese x-Werte.
Dann Zufallswert j gleich

Es hat X 2 -Verteilung mit n-1 Freiheitsgraden. Mit der Definition kann der obige Ausdruck wie folgt umgeschrieben werden:

Somit, Stichprobenverteilung Statistik y, bei Probe aus Normalverteilung, Es hat X 2 -Verteilung mit n-1 Freiheitsgraden.

Wir werden diese Eigenschaft benötigen, wenn . Weil Streuung kann nur eine positive Zahl sein, und X 2 -Verteilung wird dann zur Auswertung herangezogen j d.b. >0, wie in der Definition angegeben.

CH2-Verteilung in MS EXCEL

In MS Excel, ab Version 2010, z X 2 -Verteilungen Es gibt eine spezielle Funktion CHI2.DIST(), englischer Name– CHISQ.DIST(), mit dem Sie berechnen können Wahrscheinlichkeitsdichte(siehe Formel oben) und (die Wahrscheinlichkeit, dass eine Zufallsvariable X hat CI2-Verteilung, nimmt einen Wert an, der kleiner oder gleich x ist, P(X<= x}).

Notiz: Weil CH2-Verteilung ein Sonderfall ist, dann ist die Formel =GAMMA.VERT(x;n/2;2;TRUE) für eine positive ganze Zahl n liefert das gleiche Ergebnis wie die Formel =CHI2.DIST(x;n; TRUE) oder =1-CHI2.DIST.PH(x;n) . Und die Formel =GAMMA.DIST(x;n/2;2;FALSE) gibt das gleiche Ergebnis wie die Formel zurück =CHI2.DIST(x;n; FALSE), d.h. Wahrscheinlichkeitsdichte CH2-Verteilungen.

Die Funktion HI2.DIST.PH() gibt zurück Verteilungsfunktion, genauer gesagt, rechtsseitige Wahrscheinlichkeit, d.h. P(X > x). Es ist offensichtlich, dass die Gleichheit wahr ist
=CHI2.DIST.PH(x;n)+CHI2.DIST(x;n;TRUE)=1
Weil Der erste Term berechnet die Wahrscheinlichkeit P(X > x) und der zweite P(X<= x}.

Vor MS EXCEL 2010 verfügte Excel nur über die Funktion CHIDIST(), mit der Sie die rechtsseitige Wahrscheinlichkeit berechnen können, d. h. P(X > x). Die Fähigkeiten der neuen MS EXCEL 2010-Funktionen XI2.DIST() und XI2.DIST.PH() decken die Fähigkeiten dieser Funktion ab. Die Funktion CH2DIST() bleibt aus Kompatibilitätsgründen in MS EXCEL 2010 erhalten.

CHI2.DIST() ist die einzige Funktion, die zurückgibt Wahrscheinlichkeitsdichte der chi2-Verteilung(Drittes Argument muss FALSE sein). Die restlichen Funktionen kehren zurück Verteilungsfunktion, d.h. Wahrscheinlichkeit, dass die Zufallsvariable einen Wert aus dem angegebenen Bereich annimmt: P(X<= x}.

Die oben genannten MS-EXCEL-Funktionen sind in angegeben.

Beispiele

Lassen Sie uns die Wahrscheinlichkeit ermitteln, dass die Zufallsvariable X einen Wert annimmt, der kleiner oder gleich dem angegebenen Wert ist X: P(X<= x}. Это можно сделать несколькими функциями:

CHI2.DIST(x; n; TRUE)
=1-HI2.DIST.PH(x; n)
=1-CHI2DIST(x; n)

Die Funktion CH2.DIST.PH() gibt die Wahrscheinlichkeit P(X > x) zurück, die sogenannte rechte Wahrscheinlichkeit, um also P(X) zu finden<= x}, необходимо вычесть ее результат от 1.

Lassen Sie uns die Wahrscheinlichkeit ermitteln, dass die Zufallsvariable X einen Wert annimmt, der größer als ein gegebener Wert ist X: P(X > x). Dies kann mit mehreren Funktionen erfolgen:

1-CHI2.DIST(x; n; TRUE)
=HI2.DIST.PH(x; n)
=CHI2DIST(x; n)

Inverse Chi2-Verteilungsfunktion

Zur Berechnung wird die Umkehrfunktion verwendet Alpha- , d.h. Werte berechnen X für eine gegebene Wahrscheinlichkeit Alpha, Und X muss den Ausdruck P(X) erfüllen<= x}=Alpha.

Zur Berechnung wird die Funktion CH2.INV() verwendet Konfidenzintervalle der Varianz der Normalverteilung.

Zur Berechnung wird die Funktion CHI2.OBR.PH() verwendet, d.h. Wenn ein Signifikanzniveau als Argument für die Funktion angegeben wird, beispielsweise 0,05, dann gibt die Funktion einen Wert der Zufallsvariablen x zurück, für den P(X>x)=0,05 gilt. Zum Vergleich: Die Funktion XI2.INR() gibt einen Wert der Zufallsvariablen x zurück, für die P(X<=x}=0,05.

In MS EXCEL 2007 und früher wurde anstelle von HI2.OBR.PH() die Funktion HI2OBR() verwendet.

Die oben genannten Funktionen können ausgetauscht werden, weil Die folgenden Formeln liefern das gleiche Ergebnis:
=CHI.OBR(alpha;n)
=HI2.OBR.PH(1-alpha;n)
=CHI2INV(1- alpha;n)

Einige Beispiele für Berechnungen finden Sie in Beispieldatei auf dem Funktionsblatt.

MS EXCEL funktioniert mit der CH2-Verteilung

Nachfolgend finden Sie die Entsprechung zwischen russischen und englischen Funktionsnamen:
CH2.DIST.PH() – Englisch. Namen CHISQ.DIST.RT, d.h. CHI-Quadrat-VERTEILUNG Right Tail, die rechtsseitige Chi-Quadrat(d)-Verteilung
CH2.OBR() – Englisch. Name CHISQ.INV, d.h. CHI-Quadrat-Verteilung INVerse
CH2.PH.OBR() – Englisch. Name CHISQ.INV.RT, d.h. CHI-Quadrat-Verteilung INVerse Right Tail
CH2DIST() – Englisch. Name CHIDIST, Funktion äquivalent zu CHISQ.DIST.RT
CH2OBR() – Englisch. Name CHIINV, d.h. CHI-Quadrat-Verteilung INVerse

Schätzung von Verteilungsparametern

Weil gewöhnlich CH2-Verteilung Wird für Zwecke der mathematischen Statistik (Berechnung) verwendet Vertrauensintervalle, Testen von Hypothesen usw.), und fast nie für die Konstruktion von Modellen realer Werte, daher wird für diese Verteilung die Diskussion der Schätzung der Verteilungsparameter hier nicht durchgeführt.

Annäherung der CI2-Verteilung an die Normalverteilung

Mit der Anzahl der Freiheitsgrade n>30 Verteilung X 2 gut angenähert Normalverteilung mit Durchschnittswertμ=n und Varianz σ=2*n (siehe Beispiel-Blattdatei-Annäherung).


Statistische Tests für Kontingenztabellen – Chi-Quadrat-Test

Um statistische Tests für Kreuztabellen zu erhalten, klicken Sie im Dialogfeld „Kreuztabellen“ auf die Schaltfläche „Statistiken...“. Das Dialogfeld „Kreuztabellen: Statistiken“ wird geöffnet (siehe Abbildung 11.9).

Reis. 11.9:

Mit den Kontrollkästchen in diesem Dialogfeld können Sie ein oder mehrere Kriterien auswählen.

    Chi-Quadrat-Test ( X 2)

    Korrelationen

    Konnektivitätsmaße für Variablen auf einer nominalen Skala

    Maße der Verwandtschaft für Variablen, die sich auf eine Ordinalskala beziehen

    Konnektivitätsmaße für Intervallskalenvariablen

    Kappa-Koeffizient ( Zu)

    Risikomaß

    McNemar-Test

    Cochrane- und Mantel-Haenszel-Statistiken

Diese Kriterien werden in den nächsten beiden Abschnitten besprochen. Da der Chi-Quadrat-Test für statistische Berechnungen von großer Bedeutung ist, wird ihm ein eigener Abschnitt gewidmet.

Chi-Quadrat-Test ( X 2)

Bei der Durchführung eines Chi-Quadrat-Tests wird die gegenseitige Unabhängigkeit zweier Variablen in der Kontingenztabelle überprüft und dadurch indirekt die Abhängigkeit beider Variablen wird verdeutlicht. Zwei Variablen gelten als voneinander unabhängig, wenn die beobachteten Häufigkeiten (f o) in den Zellen mit den erwarteten Häufigkeiten (f e) übereinstimmen.

Um einen Chi-Quadrat-Test mit SPSS durchzuführen, gehen Sie folgendermaßen vor:

    Wählen Sie im Befehlsmenü die Option „Deskriptive Statistik-Kreuztabellen analysieren...“ aus

    Verwenden Sie die Schaltfläche „Zurücksetzen“, um alle möglichen Einstellungen zu löschen.

    Verschieben Sie die Variable Sex zu einer Liste von Zeichenfolgen und einer Variablen Psyche- zur Spaltenliste.

    Drück den Knopf Zellen...(Zellen). Aktivieren Sie im Dialogfeld zusätzlich zum standardmäßigen Kontrollkästchen „Beobachtet“ die Kontrollkästchen „Erwartet“ und „Standardisiert“. Bestätigen Sie Ihre Auswahl mit der Schaltfläche Weiter.

    Drück den Knopf Statistiken...(Statistiken). Das oben beschriebene Dialogfeld „Kreuztabellen: Statistiken“ wird geöffnet.

    Aktivieren Sie das Chi-Quadrat-Kontrollkästchen. Klicken Sie auf die Schaltfläche „Weiter“ und im Hauptdialogfeld auf „OK“.

Sie erhalten die folgende Kontingenztabelle.

Geschlecht * Geisteszustand Kontingenztabelle

Mentale Kondition Gesamt
Extrem instabil Instabil Nachhaltig Sehr stabil
Boden Weiblich Zählen 16 18 9 1 44
Erwartete Anzahl 7,9 16,6 17,0 2,5 44,0
Std. Restwert 2,9 ,3 -1,9 -.9
Männlich Zählen 3 22 32 5 62
Erwartete Anzahl 11,1 23,4 24,0 3,5 62,0
Std. Restwert -2,4 -,3 1,6 ,8
Gesamt Zählen 19 40 41 6 106
Erwartete Anzahl 19,0 40,0 41,0 6,0 106,0

Darüber hinaus werden im Vorschaufenster die Ergebnisse des Chi-Quadrat-Tests angezeigt:

Chi-Quadrat-Tests

Wert df Asymp. Sig. (2-seitig)
(Asymptotische Signifikanz (zweiseitig))
Pearson Chi-Quadrat
(Pearson Chi-Quadrat)
22.455 (a) 3 ,000
Wahrscheinlichkeitsverhältnis
(Wahrscheinlichkeitsverhältnis)
23,688 3 ,000
Linear-für-Linear-Assoziation
(Linear-lineare Beziehung)
20,391 1 ,000
N gültiger Fälle
(Anzahl gültiger Fälle)
106

A. 2 Zellen (25,0 %) haben eine erwartete Anzahl von weniger als 5. Die erwartete Mindesthäufigkeit beträgt 2,49 (2 Zellen (25 %) haben eine erwartete Häufigkeit von weniger als 5. Die erwartete Mindesthäufigkeit beträgt 2,49.)

Zur Berechnung des Chi-Quadrat-Tests werden drei verschiedene Ansätze verwendet:

  • Pearson-Formel;
  • Wahrscheinlichkeitskorrektur;
  • Mantel-Haenszel-Test.
  • Wenn die Kontingenztabelle vier Felder hat (2 x 2-Tabelle) und die erwartete Wahrscheinlichkeit zusätzlich kleiner als 5 ist Fishers genauer Test.

Typischerweise wird zur Berechnung des Chi-Quadrat-Tests die Pearson-Formel verwendet:

Hier wird die Quadratsumme der standardisierten Residuen für alle Felder der Kontingenztabelle berechnet. Daher leisten Felder mit einem höheren standardisierten Residuum einen signifikanteren Beitrag zum numerischen Wert des Chi-Quadrat-Tests und damit zu einem signifikanten Ergebnis. Gemäß der in Abschnitt 8.9 angegebenen Regel weist ein standardisiertes Residuum von 2 (1,96) oder mehr auf einen signifikanten Unterschied zwischen den beobachteten und den erwarteten Häufigkeiten in einer Zelle der Tabelle hin.

Im betrachteten Beispiel liefert die Pearson-Formel den maximalen signifikanten Wert des Chi-Quadrat-Tests (S<0,0001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная Psyche hat die Bedeutung „extrem instabil“. Bei Frauen ist dieser Wert stark erhöht, bei Männern erniedrigt.

Korrektheit der Ausführung Der Chi-Quadrat-Test wird durch zwei Bedingungen bestimmt:

  • erwartete Häufigkeiten< 5 должны встречаться не более чем в 20% полей таблицы;
  • Zeilen- und Spaltensummen müssen immer größer als Null sein.

Im betrachteten Beispiel ist diese Bedingung jedoch nicht vollständig erfüllt. Wie aus dem Hinweis nach der Chi-Quadrat-Testtabelle hervorgeht, haben 25 % der Felder eine erwartete Häufigkeit von weniger als 5. Da die akzeptable Grenze von 20 % jedoch nur geringfügig überschritten wird und diese Felder aufgrund ihres sehr kleinen standardisierten Residuums einen sehr geringen Anteil zum Wert des Chi-Test-Quadrats beitragen, kann diese Verletzung als unbedeutend angesehen werden.

Eine Alternative zur Pearson-Formel zur Berechnung des Chi-Quadrat-Tests ist die Likelihood-Korrektur:

Bei einer großen Stichprobengröße liefern die Pearson-Formel und die angepasste Formel sehr ähnliche Ergebnisse. In unserem Beispiel beträgt der wahrscheinlichkeitskorrigierte Chi-Quadrat-Test 23,688.

Dieser Beitrag beantwortet nicht die grundsätzliche Berechnung des Chi-Quadrat-Kriteriums, sondern soll zeigen, wie man automatisiert Chi-Quadrat-Berechnung in Excel, welche Funktionen zur Berechnung des Chi-Quadrat-Kriteriums es gibt. Denn nicht immer hat man SPSS oder das R-Programm zur Hand.
In gewisser Weise ist dies eine Erinnerung und ein Hinweis für die Teilnehmer des Analytics for HR-Seminars. Ich hoffe, dass Sie diese Methoden in Ihrer Arbeit verwenden. Dieser Beitrag wird ein weiterer Hinweis sein.
Ich stelle der Datei keinen Download-Link zur Verfügung, aber Sie können einfach die von mir bereitgestellten Beispieltabellen kopieren und den von mir bereitgestellten Daten und Formeln folgen

Einleitend

Beispielsweise möchten wir die Unabhängigkeit (Zufälligkeit/Nicht-Zufälligkeit) der Verteilung der Ergebnisse einer Unternehmensumfrage überprüfen, wobei in den Zeilen Antworten auf jede Frage im Fragebogen und in den Spalten die Verteilung nach Länge angegeben sind Service.

Sie berechnen das Chi-Quadrat mithilfe einer Pivot-Tabelle, wenn Ihre Daten in einer Konjugationstabelle zusammengefasst sind, beispielsweise in dieser Form
Tabelle Nr. 1

weniger als 1 Jahr

Summe nach Zeilen

Summe nach Spalten

Um das Chi-Quadrat in Excel zu berechnen, gibt es die folgenden Formeln

CHI2.TEST

Die Formel CH2.TEST berechnet die Wahrscheinlichkeit der Unabhängigkeit (Zufälligkeit/Nichtzufälligkeit) der Verteilung

Die Syntax ist so

CHI2.TEST(aktuelles_Intervall, erwartetes_Intervall)

In unserem Fall ist das eigentliche Intervall der Inhalt der Tabelle, d.h.

Diese. Nachdem wir zwei Tabellen erhalten haben – die empirische und die erwartete (oder theoretische) Häufigkeit –, entlasten wir uns tatsächlich von der Arbeit, die Differenz zu ermitteln, zu quadrieren und andere Berechnungen durchzuführen sowie die Tabelle der kritischen Werte zu überprüfen.

In unserem Fall ist CHI2.DIST.PH = 0,000466219908895455, wie im Beispiel mit CHI2.TEST

Notiz

Diese Formel zur Berechnung des Chi-Quadrats in Excel eignet sich für die Berechnung von Tabellen mit 2X2-Dimensionen, da Sie das Chi-Quadrat selbst als empirisch betrachten und eine Kontinuitätskorrektur in die Berechnungen einführen können

Anmerkung 2

Es gibt auch eine Formel CHI2.DIST (Sie werden sie unweigerlich in Excel sehen) – sie berechnet die linksseitige Wahrscheinlichkeit (vereinfacht ausgedrückt wird die linksseitige Wahrscheinlichkeit als 1 betrachtet – die rechtsseitige, d. h. wir drehen uns einfach um Die Formel ist vorbei, deshalb gebe ich in den Berechnungen kein Chi-Quadrat an, in unserem Beispiel CHI2.DIST = 0,999533780091105.
Gesamt CH2.DIST + CH2.DIST.PH = 1.

CH2.OBR.PH

Gibt den Kehrwert der rechtsseitigen Wahrscheinlichkeit einer Chi-Quadrat-Verteilung zurück (oder einfach den Chi-Quadrat-Wert für ein bestimmtes Wahrscheinlichkeitsniveau und eine bestimmte Anzahl von Freiheitsgraden).

Synaxis

CH2.OBR.PH(Wahrscheinlichkeit;Freiheitsgrade)

Abschluss

Ehrlich gesagt habe ich keine genauen Informationen darüber, inwieweit die Ergebnisse erzielt wurden Chi-Quadrat-Berechnungen in Excel weichen von den Chi-Quadrat-Ergebnissen in SPSS ab. Ich verstehe genau. dass sie sich unterscheiden, schon allein deshalb, weil bei der unabhängigen Berechnung des Chi-Quadrats die Werte gerundet werden und eine gewisse Anzahl von Dezimalstellen verloren geht. Aber ich glaube nicht, dass das kritisch ist. Eine Versicherung empfehle ich nur dann, wenn die Wahrscheinlichkeit der Chi-Quadrat-Verteilung nahe am Schwellenwert (p-Wert) von 0,05 liegt.

Es ist nicht sehr cool, dass die Kontinuitätskorrektur nicht berücksichtigt wird – wir berechnen viel in 2X2-Tabellen. Daher erzielen wir bei der Berechnung von 2X2-Tabellen nahezu keine Optimierung

Nun gut, ich denke dennoch, dass die gegebenen Kenntnisse ausreichen, um die Berechnung des Chi-Quadrats in Excel etwas schneller zu machen, um Zeit für wichtigere Dinge zu sparen