Klasikiniai statistikos metodai: chi kvadrato testas. Dviejų dažnių skirstinių palyginimas

Atliekant chi kvadrato testą, patikrinama dviejų nenumatytų atvejų lentelės kintamųjų tarpusavio nepriklausomybė ir dėl to netiesiogiai atskleidžiama abiejų kintamųjų priklausomybė. Sakoma, kad du kintamieji yra vienas nuo kito nepriklausomi, jei stebimi dažniai (f 0) ląstelėse sutampa su numatomais dažniais (fe).

Norėdami atlikti chi kvadrato testą su SPSS, atlikite šiuos veiksmus:

  • Meniu pasirinkite komandas Analizuoti(Analizė) > Aprašomoji statistika(Aprašomoji statistika) › Kryžminiai taškai…(Nenumatytų atvejų lentelės)
  • mygtuką nustatyti iš naujo(Atstatyti) išvalykite galimus nustatymus.
  • Perkelkite kintamąjį lytį į eilučių sąrašą, o kintamąjį psichiką - į stulpelių sąrašą.
  • Spustelėkite mygtuką Ląstelės…(ląstelės). Dialogo lange pažymėkite ne tik numatytąjį žymimąjį laukelį Pastebėjus, daugiau žymimųjų laukelių tikimasi ir standartizuotas. Patvirtinkite savo pasirinkimą mygtuku Tęsti.
  • Spustelėkite mygtuką Statistika…(Statistika).

Atsidarys aukščiau aprašytas dialogo langas. Kryžminiai taškai: statistika.

  • Žymimasis langelis Chi kvadratas(Chi kvadratas). Spustelėkite mygtuką Tęsti, o pagrindiniame dialogo lange - į Gerai.

Gausite šią nenumatytų atvejų lentelę.

Lytis * Psichinė būsena. Nenumatytų atvejų lentelė.

Psichinė būklė Iš viso
Itin nestabilus nestabilus tvarus Labai stabilus
Grindys Moteris Suskaičiuoti 16 18 9 1 44
Numatomas skaičius 7.9 16.6 17.0 2.5 44.0
Std. Likutis 2.9 0.3 -1.9 -0.9
Patinas Suskaičiuoti 3 22 32 5 62
Numatomas skaičius 11.1 23.4 24.0 3.5 62.0
Std. Likutis -2.4 -0.3 1.6 0.8
Iš viso Suskaičiuoti 19 40 41 6 106
Numatomas skaičius 19.0 40.0 41.0 6.0 106.0

Be to, peržiūros lange bus rodomi chi kvadrato testo rezultatai:

Chi kvadrato testai

  • a. 2 langelių (25,0 %) numatomas skaičius yra mažesnis nei 5. Mažiausias numatomas skaičius yra 2,49

Chi kvadrato testui apskaičiuoti naudojami trys skirtingi metodai: Pirsono formulė, tikimybės koregavimas ir Mantel-Haenszel testas. Jei kryžminė lentelė turi keturis laukus ir numatoma tikimybė yra mažesnė nei 5, papildomai atliekamas Fišerio tikslus testas.

Pirsono chi kvadrato testas

Paprastai chi kvadrato testui apskaičiuoti naudojama Pirsono formulė:

Čia apskaičiuojama visų nenumatytų atvejų lentelės laukų standartizuotų likučių kvadratų suma. Todėl laukai su didesniu standartizuotu likučiu labiau prisideda prie chi kvadrato vertės, taigi ir prasmingo rezultato. Pagal 8.7.2 skirsnyje pateiktą taisyklę standartizuotas likutis 2 ar daugiau rodo reikšmingą stebimo ir numatomo dažnio neatitikimą.

Mūsų nagrinėjamame pavyzdyje Pearsono formulė suteikia reikšmingiausią chi kvadrato testo reikšmę (p<0.001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин - понижено.

Chi kvadrato testo teisingumą lemia dvi sąlygos: pirma, numatomi dažniai< 5 должны встречаться не более чем в 20% полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

Tačiau nagrinėjamame pavyzdyje ši sąlyga nėra visiškai įvykdyta. Kaip nurodyta pastaboje po chi kvadrato bandymo lentelės, 25 % laukų numatomas dažnis yra mažesnis nei 5. Tačiau kadangi leistina 20 % riba viršijama tik nežymiai, o šie laukai dėl labai mažo standartizuoti likutinis, labai maža dalis prisideda prie chi kvadrato testo vertės.kvadratas, šis pažeidimas gali būti laikomas nereikšmingu.

Tikimybe pakoreguotas chi kvadrato testas

Alternatyva Pearsono formulei chi kvadrato testui apskaičiuoti yra tikimybės koregavimas:

Esant dideliam imties dydžiui, Pearsono formulė ir pataisyta formulė duoda labai panašius rezultatus. Mūsų pavyzdyje pagal tikimybę pakoreguotas chi kvadrato testas yra 23,688.

Mantel-Haensel testas

Be to, nenumatytų atvejų lentelėje po pavadinimu tiesinis po linijinio("tiesinis-tiesinis") rodoma Mantel-Haenszel testo reikšmė (20.391). Ši Mantel-Haenszel chi kvadrato testo forma yra dar vienas kryžminės lentelės eilučių ir stulpelių tiesinio ryšio matas. Jis apibrėžiamas kaip Pirsono koreliacijos koeficiento sandauga iš stebėjimų skaičiaus atėmus vieną:

Taip gautas kriterijus turi vieną laisvės laipsnį. Mantel-Haenszel metodas visada naudojamas dialogo lange Kryžminiai taškai: statistika patikrinta Chi kvadratas. Tačiau su vardine skale susijusiems duomenims šis kriterijus netaikomas.

Nepriklausomybės chi kvadrato testas naudojamas dviejų kategorinių kintamųjų ryšiui nustatyti. Kategorinių kintamųjų porų pavyzdžiai: šeimyninė padėtis vs. Atsakovo užimtumo lygis; Šunų veislė vs. Priimančiojo profesija, atlyginimo lygis vs. Inžinieriaus specializacija ir kt. Skaičiuojant nepriklausomumo kriterijų, patikrinama hipotezė, kad tarp kintamųjų nėra ryšio. Atliksime skaičiavimus naudodami MS EXCEL 2010 XI2.TEST () funkciją ir įprastas formules.

Tarkime, kad turime mėginys duomenys, atspindintys 500 žmonių apklausos rezultatą. Žmonėms buvo pateikti 2 klausimai: apie jų šeimyninę padėtį (santuokoje, civilinėje santuokoje, nesusituokę) ir užimtumo lygį (visą darbo dieną, ne visą darbo dieną, laikinai nedirbantis, namuose, pensininkas, studijuojantis). Visi atsakymai buvo sudėti į lentelę:

Ši lentelė vadinama nenumatytų ženklų lentelė(arba faktorinė lentelė, angl. Contingency table). Elementai, esantys lentelės eilučių ir stulpelių sankirtoje, dažniausiai žymi O ij (iš anglų kalbos. Stebimi, t. y. stebimi, faktiniai dažniai).

Mus domina klausimas „Ar šeiminė padėtis turi įtakos užimtumui?“, t.y. ar yra ryšys tarp dviejų klasifikavimo metodų pavyzdžiai?

At hipotezių tikrinimas tokio pobūdžio, paprastai manoma, kad nulinė hipotezė teigia, kad nėra klasifikavimo metodų priklausomybės.

Panagrinėkime ribinius atvejus. Dviejų kategorinių kintamųjų visiškos priklausomybės pavyzdys yra toks tyrimo rezultatas:

Šiuo atveju šeiminė padėtis vienareikšmiškai lemia užimtumą (plg. pavyzdinis failo lapas Paaiškinimas). Ir atvirkščiai, kitas tyrimo rezultatas yra visiškos nepriklausomybės pavyzdys:

Atkreipkite dėmesį, kad užimtumo procentas šiuo atveju nepriklauso nuo šeimyninės padėties (tas pats ir susituokusiems, ir nesusituokusiems). Tai lygiai tokia pati kaip formuluotė nulinė hipotezė. Jeigu nulinė hipotezė tiesa, tuomet apklausos rezultatai lentelėje turėjo būti pasiskirstę taip, kad dirbančiųjų procentas būtų vienodas nepriklausomai nuo šeiminės padėties. Naudodami tai apskaičiuojame atitinkančius apklausos rezultatus nulinė hipotezė(cm. pavyzdys failo lapas Pavyzdys).

Pirmiausia apskaičiuojame elemento tikimybės įvertinimą pavyzdžiai turės tam tikrą darbą (žr. u i stulpelį):

kur Su- stulpelių (stulpelių) skaičius, lygus kintamojo „Šeimyninė padėtis“ lygių skaičiui.

Tada apskaičiuojame tikimybę, kad elementas pavyzdžiai turės tam tikrą šeimyninę padėtį (žr. v j eilutę).

kur r– eilučių (eilučių) skaičius, lygus kintamojo „Užimtumas“ lygių skaičiui.

Teorinis kiekvieno langelio E ij dažnis (iš anglų kalbos Expected, t. y. numatomas dažnis) nepriklausomų kintamųjų atveju apskaičiuojamas pagal formulę:
E ij =n* u i * v j

Yra žinoma, kad statistiniai duomenys X 2 0 dideliems n turi apytiksliai (r-1) (c-1) laisvės laipsnius (df - laisvės laipsniai):

Jei skaičiuojama remiantis pavyzdžiai tada šios statistikos reikšmė yra „per didelė“ (didesnė už slenkstį). nulinė hipotezė Atstumtas. Slenkstinė reikšmė apskaičiuojama remiantis , pavyzdžiui, naudojant formulę =XI2.INV.RT(0.05; df) .

Pastaba: Reikšmingumo lygis paprastai imamas lygus 0,1; 0,05; 0,01.

At hipotezių tikrinimas taip pat patogu skaičiuoti , su kuriuo lyginame reikšmingumo lygis. p-prasmė apskaičiuojamas naudojant c (r-1)*(c-1)=df laisvės laipsnius.

Jei tikimybė, kad atsitiktinis dydis turi c (r-1) (c-1) laisvės laipsniaiįgauna reikšmę, didesnę už apskaičiuotą statistiką X 2 0, t.y. P(X 2 (r-1)*(c-1) >X 2 0 ), mažiau reikšmingumo lygis, tada nulinė hipotezė yra atmetamas.

programoje MS EXCEL p reikšmė galima apskaičiuoti naudojant formulę =XI2.PASTYS.PX(X 2 0 ;df), žinoma, prieš pat apskaičiavus X 2 0 statistikos reikšmę (tai daroma pavyzdiniame faile). Tačiau patogiausia naudoti funkciją XI2.TEST(). Kaip šios funkcijos argumentai, nurodomos nuorodos į diapazonus, kuriuose yra faktiniai (stebimi) ir apskaičiuoti teoriniai dažniai (tikėtinas).

Jeigu reikšmingumo lygis > p- vertybes, tai yra faktinis ir teorinis dažnis, apskaičiuotas remiantis teisingumo prielaida nulinė hipotezė, labai skiriasi. Štai kodėl, nulinė hipotezė turi būti atmestas.

Funkcijos CH2.TEST() naudojimas leidžia pagreitinti procedūrą hipotezių tikrinimas, nes nereikia skaičiuoti vertės statistika. Dabar užtenka funkcijos XI2.TEST () rezultatą palyginti su duotu reikšmingumo lygis.

Pastaba: Funkcija CHISQ.TEST() , angliškas pavadinimas CHISQ.TEST, pasirodė MS EXCEL 2010. Ankstesnė versija CHI2TEST() , pasiekiama MS EXCEL 2007, turi tokias pačias funkcijas. Tačiau, kaip ir CHI2.TEST() , teoriniai dažniai turi būti skaičiuojami atskirai.

Šiame įraše neatsakoma, kaip iš esmės apskaičiuoti Chi kvadrato kriterijų, jo tikslas yra parodyti, kaip galite automatizuoti chi kvadrato skaičiavimas programoje excel, kokios yra Chi kvadrato kriterijaus skaičiavimo funkcijos. SPSS ar R programa ne visada yra po ranka.
Tam tikra prasme tai priminimas ir užuomina seminaro „Analytics for HR“ dalyviams, tikiuosi šiuos metodus naudosite savo darbe, šis įrašas bus dar viena užuomina.
Aš nesuteikiu failui atsisiuntimo nuorodos, bet galite lengvai nukopijuoti mano pateiktas lenteles ir paleisti duomenis bei formules, kurias pateikiau

įvadinis

Pavyzdžiui, norime patikrinti įmonių apklausos rezultatų paskirstymo nepriklausomumą (atsitiktinumą / neatsitiktiškumą), kur eilutėse yra atsakymai į bet kurį anketos klausimą, o stulpeliuose - pasiskirstymas pagal ilgį. paslaugų.

Chi kvadrato skaičiavimą įvedate per suvestinę lentelę, kai jūsų duomenys apibendrinami konjugacijos lentelėje, pavyzdžiui, šioje formoje
1 lentelė

mažiau nei 1 metai

Suma eilutėmis

Stulpelių suma

Norėdami apskaičiuoti Chi kvadratą "Excel", yra šios formulės

HI2.TESTAS

CHI2.TEST formulė apskaičiuoja pasiskirstymo nepriklausomumo (atsitiktinumo / neatsitiktiškumo) tikimybę

Sintaksė yra

CHI2.TESTAS(faktinis_intervalas, numatomas_intervalas)

Mūsų atveju tikrasis intervalas yra lentelės turinys, t.y.

Tie. gavę dvi lenteles – empirinę ir laukiamąją (arba teorinius dažnius) – iš tikrųjų atleidžiame nuo skirtumo gavimo, kvadratūros ir kitų skaičiavimų, taip pat suderinimo su kritinių verčių lentele.

Mūsų atveju CH2.DIST.RT = 0,000466219908895455, kaip pavyzdyje CH2.TEST

Pastaba

Ši „Chi kvadrato“ skaičiavimo formulė „Excel“ tinka 2X2 lentelėms apskaičiuoti, nes jūs pats laikote Chi kvadratą empiriniu ir galite atlikti skaičiavimų tęstinumo pataisą.

Užrašas 2

Taip pat yra formulė HI2.DIS (neišvengiamai pamatysite ją excele) - ji apskaičiuoja kairiarankio tikimybę (jei ji paprasta, tada kairiarankis laikomas 1 - dešiniarankis, t. y. mes tiesiog apverčiame formulė, todėl aš jos nepateikiu skaičiuojant Chi kvadratą, mūsų pavyzdyje CHI2.DIST = 0,999533780091105.
Iš viso CH2.PASKYRIUS + CH2.SKYRIUS.RT = 1.

chi2.ex.ph

Grąžina chi kvadrato skirstinio dešiniosios tikimybės atvirkštinę vertę (arba tik chi kvadrato reikšmę tam tikram tikimybės lygiui ir laisvės laipsnių skaičiui)

Sinaksija

XI2.INV.RT(tikimybė,_laisvės_laipsniai)

Išvada

Tiesą sakant, aš tiksliai nežinau, kaip gauti rezultatai Chi kvadrato skaičiavimai Excel skiriasi nuo Chi kvadrato apskaičiavimo SPSS rezultatų. Suprantu tiksliai. kurios skiriasi, jei tik todėl, kad skaičiuojant Chi nepriklausomai, kvadratinės reikšmės suapvalinamos ir prarandamas tam tikras skaičius po kablelio. Bet nemanau, kad tai kritiška. Rekomenduoju draustis tik tuo atveju, kai Chi kvadrato skirstinio tikimybė yra artima 0,05 slenksčiui (p-reikšmei).

Nėra puiku, kad neatsižvelgiama į tęstinumo pataisą – daug skaičiuojame 2X2 lentelėse. Todėl skaičiuodami 2X2 lenteles optimizavimo beveik nepasiekiame

Na, bet vis dėlto manau, kad minėtų žinių pakanka, kad Chi kvadrato skaičiavimas excele būtų šiek tiek greitesnis, kad sutaupytumėte laiko svarbesniems dalykams.

Biologinių tyrimų praktikoje dažnai tenka patikrinti konkrečią hipotezę, t.y., išsiaiškinti, kiek eksperimentuotojo gauta faktinė medžiaga patvirtina teorinę prielaidą, kiek analizuojami duomenys sutampa su teoriškai numatomais. Problema iškyla statistiškai vertinant skirtumą tarp faktinių duomenų ir teorinių lūkesčių, nustatant, kokiais atvejais ir su kokia tikimybės laipsniu šis skirtumas gali būti laikomas patikimu, o atvirkščiai – kada laikytinas nereikšmingu, nereikšmingu, neperžengiant galimybė. Pastaruoju atveju išlaikoma hipotezė, kuria remiantis apskaičiuojami teoriškai tikėtini duomenys ar rodikliai. Metodas chi kvadratas (χ 2). Ši metrika dažnai vadinama Pearsono „tinkamumo testu“ arba „tinkamumo testu“. Jo pagalba galima su skirtinga tikimybe spręsti apie empiriškai gautų duomenų ir teoriškai laukiamų duomenų atitikimo laipsnį.

Formaliu požiūriu lyginamos dvi variacijų eilutės, dvi populiacijos: viena yra empirinis skirstinys, kita – imtis su tais pačiais parametrais ( n, M, S ir kiti), kuris yra empirinis, tačiau jo dažnių pasiskirstymas sudarytas griežtai laikantis pasirinkto teorinio dėsnio (normalusis, Puasono, binominis ir kt.), kuris, tikėtina, paklūsta tiriamojo atsitiktinio dydžio elgsenai.

Apskritai, atitikties kriterijaus formulę galima parašyti taip:

kur a - faktinis stebėjimo dažnis,

A- teoriškai numatomas tam tikros klasės dažnis.

Nulinėje hipotezėje daroma prielaida, kad tarp lyginamų skirstinių nėra reikšmingų skirtumų. Norint įvertinti šių skirtumų svarbą, reikėtų remtis specialia kritinių chi kvadrato verčių lentele (9 lentelė P) ir lyginant apskaičiuotą vertę χ 2 su lentele, nuspręskite, ar empirinis skirstinys labai skiriasi nuo teorinio, ar ne. Taigi hipotezė, kad šių skirtumų nėra, bus paneigta arba patvirtinta. Jei apskaičiuota vertė χ 2 yra lygus arba viršija lentelę χ ² ( α , df), nuspręskite, kad empirinis skirstinys labai skiriasi nuo teorinio. Taigi hipotezė, kad šių skirtumų nėra, bus paneigta. Jeigu χ ² < χ ² ( α , df), nulinė hipotezė lieka galioti. Visuotinai priimta laikyti priimtiną reikšmingumo lygį α = 0,05, nes šiuo atveju yra tik 5% tikimybė, kad nulinė hipotezė yra teisinga, todėl yra pakankamai priežasčių (95%) ją atmesti.


Tam tikra problema yra teisingas laisvės laipsnių skaičiaus nustatymas ( df), kurioms kriterijaus reikšmės paimtos iš lentelės. Nustatyti laisvės laipsnių skaičių iš bendro klasių skaičiaus k reikia atimti apribojimų skaičių (t. y. parametrų, naudojamų teoriniams dažniams apskaičiuoti, skaičių).

Priklausomai nuo tiriamo požymio pasiskirstymo tipo, keisis laisvės laipsnių skaičiaus skaičiavimo formulė. Dėl alternatyva paskirstymai ( k= 2) skaičiavimuose dalyvauja tik vienas parametras (imties dydis), todėl laisvės laipsnių skaičius yra df= k−1=2−1=1. Dėl daugianario paskirstymo formulė yra panaši: df= k-1. Patikrinti variacijų eilučių atitiktį skirstiniui nuodai jau naudojami du parametrai – imties dydis ir vidutinė reikšmė (skaitmeniškai sutampanti su dispersija); laisvės laipsnių skaičius df= k−2. Tikrinant empirinio skirstinio atitiktį, variantas normalus arba dvinario Pagal įstatymą laisvės laipsnių skaičius laikomas faktinių klasių skaičiumi, atėmus tris serijų sudarymo sąlygas – imties dydį, vidurkį ir dispersiją, df= k−3. Iš karto reikia pažymėti, kad χ² kriterijus tinka tik pavyzdžiams ne mažiau kaip 25 variantų apimtis, o atskirų klasių dažniai turėtų būti bent 4.

Pirma, mes iliustruojame chi kvadrato testo taikymą naudodami analizės pavyzdį alternatyvus kintamumas. Viename iš pomidorų paveldimumo tyrimo eksperimentų buvo rasti 3629 raudoni ir 1176 geltoni vaisiai. Teorinis dažnių santykis dalijant požymius antroje hibrido kartoje turėtų būti 3:1 (75% iki 25%). Ar jis įgyvendinamas? Kitaip tariant, ar šis mėginys paimtas iš tos pačios bendrosios populiacijos, kurioje dažnio santykis yra 3:1 arba 0,75:0,25?

Suformuokime lentelę (4 lentelė), užpildydami ją empirinių dažnių reikšmėmis ir teorinių dažnių skaičiavimo rezultatais pagal formulę:

A = n∙p,

kur p– teoriniai dažniai (tam tikro tipo varianto dalys),

n- imties dydis.

Pavyzdžiui, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

Kriterijaus χ 2 paskirtis – Pirsono kriterijus Kriterijus χ 2 naudojamas dviem tikslais: 1) lyginti empirinį požymio pasiskirstymą su teoriniu – vienodu, normaliu ar kitokiu; 2) palyginti du, tris ar daugiau to paties požymio empirinius skirstinius. Kriterijaus aprašymas χ 2 kriterijus atsako į klausimą, ar skirtingos ypatybės reikšmės atsiranda tuo pačiu dažnumu empiriniame ir teoriniame skirstiniuose, ar dviejuose ar daugiau empirinių skirstinių. Metodo privalumas yra tas, kad jis leidžia palyginti bet kokio mastelio ypatybių pasiskirstymą, pradedant nuo pavadinimų skalės. Paprasčiausiu alternatyvaus skirstinio „taip – ​​ne“, „vedęs – neleido tuoktis“, „išsprendė problemą – neišsprendė problemos“ ir pan. atveju, jau galime taikyti kriterijų χ 2 . Kuo didesnis neatitikimas tarp dviejų palyginamų skirstinių, tuo didesnė χ 2 empirinė reikšmė. Automatinis χ 2 apskaičiavimas – Pirsono kriterijus Norint automatiškai apskaičiuoti χ 2 – Pirsono kriterijų, reikia atlikti du veiksmus: 1 žingsnis. Nurodykite empirinių skirstinių skaičių (nuo 1 iki 10); 2 žingsnis. Lentelėje įveskite empirinius dažnius; 3 veiksmas. Gaukite atsakymą.

Pirsono kriterijaus pranašumas yra jo universalumas: juo galima patikrinti hipotezes apie įvairius pasiskirstymo dėsnius.

1. Normaliojo skirstinio hipotezės tikrinimas.

Tegul gaunamas pakankamai didelio dydžio mėginys P su daugybe skirtingų variantų verčių. Apdorojimo patogumui intervalą nuo mažiausios iki didžiausios varianto reikšmių padalijame iš s lygiomis dalimis ir darysime prielaidą, kad parinkčių, patenkančių į kiekvieną intervalą, reikšmės yra maždaug lygios skaičiui, kuris nurodo intervalo vidurį. Suskaičiavę parinkčių, kurios pateko į kiekvieną intervalą, skaičių, sudarysime taip vadinamą sugrupuotą pavyzdį:

galimybės……….. X 1 X 2 … x s

dažniai…………. P 1 P 2 … n s ,

kur x i yra intervalų vidurio taškų reikšmės ir n i yra įtrauktų parinkčių skaičius i intervalas (empiriniai dažniai).



Remiantis gautais duomenimis, galima apskaičiuoti imties vidurkį ir imties standartinį nuokrypį σ B. Patikrinkime prielaidą, kad bendroji visuma pasiskirsto pagal normalųjį dėsnį su parametrais M(X) = , D(X) = . Tada tūrio pavyzdyje galite rasti skaičių skaičių P, kuris turėtų būti kiekviename intervale pagal šią prielaidą (ty teorinius dažnius). Norėdami tai padaryti, naudodamiesi Laplaso funkcijos verčių lentele, randame pataikymo tikimybę i- intervalas:

,

kur a i ir b i- sienos i-asis intervalas. Gautas tikimybes padauginę iš imties dydžio n, gauname teorinius dažnius: p i =n p i.Mūsų tikslas – palyginti empirinius ir teorinius dažnius, kurie, be abejo, skiriasi vienas nuo kito, ir išsiaiškinti, ar šie skirtumai yra nereikšmingi, nepaneigia tiriamo atsitiktinio dydžio normaliojo pasiskirstymo hipotezės, ar jie tokie dideli, kad jie prieštarauja šiai hipotezei. Tam naudojamas kriterijus atsitiktinio dydžio forma

. (20.1)

Jo reikšmė akivaizdi: sumuojamos dalys, kurios yra empirinių dažnių nuokrypių nuo teorinių nuo atitinkamų teorinių dažnių kvadratai. Galima įrodyti, kad, nepaisant tikrojo bendrosios visumos pasiskirstymo dėsnio, atsitiktinio dydžio (20.1) paskirstymo dėsnis yra linkęs į pasiskirstymo dėsnį (žr. 12 paskaitą) su laisvės laipsnių skaičiumi. k = s - 1 – r, kur r yra įvertinto skirstinio parametrų skaičius, įvertintas pagal imties duomenis. Normalus skirstinys apibūdinamas dviem parametrais, taigi k = s - 3. Pasirinktam kriterijui sukonstruojama dešinės pusės kritinė sritis, kurią lemia sąlyga

(20.2)

kur α - reikšmingumo lygis. Todėl kritinę sritį suteikia nelygybė o hipotezės priėmimo sritis yra .

Taigi, norėdami patikrinti nulinę hipotezę H 0: populiacija pasiskirsto normaliai – iš imties reikia apskaičiuoti pastebėtą kriterijaus reikšmę:

, (20.1`)

ir pagal skirstinio χ 2 kritinių taškų lentelę raskite kritinį tašką naudodami žinomas α ir k = s - 3. Jei - nulinė hipotezė priimta, jei atmetama.

2. Tolygaus pasiskirstymo hipotezės tikrinimas.

Kai naudojate Pearsono testą, kad patikrintumėte hipotezę apie tolygų bendrosios populiacijos pasiskirstymą su numanomu tikimybių tankiu

būtina, apskaičiavus reikšmę iš turimos imties, įvertinti parametrus a ir b pagal formules:

kur a* ir b*– sąmatos a ir b. Iš tiesų, vienodam paskirstymui M(X) = , , iš kur galite gauti nustatymo sistemą a* ir b*: , kurio sprendimas yra išraiškos (20.3).

Tada, darant prielaidą, kad , teorinius dažnius galite rasti naudodami formules

čia s yra intervalų, į kuriuos padalyta imtis, skaičius.

Pastebėta Pirsono kriterijaus reikšmė apskaičiuojama pagal formulę (20,1`), o kritinė vertė apskaičiuojama iš lentelės, atsižvelgiant į tai, kad laisvės laipsnių skaičius k = s - 3. Po to kritinės srities ribos nustatomos taip pat, kaip ir tikrinant normaliojo skirstinio hipotezę.

3. Hipotezės apie eksponentinį skirstinį tikrinimas.

Šiuo atveju, padalijant esamą imtį į vienodo ilgio intervalus, mes laikome parinkčių seką vienodu atstumu viena nuo kitos (manome, kad visi variantai patenka į i-tąjį intervalą, paimkite reikšmę, sutampančią su jos viduriu), ir atitinkamus jų dažnius n i(įtrauktų pavyzdžių parinkčių skaičius i– intervalas). Mes apskaičiuojame pagal šiuos duomenis ir laikome parametro įvertinimu λ vertė . Tada pagal formulę apskaičiuojami teoriniai dažniai

Tada palyginamos pastebėtos ir kritinės Pearsono kriterijaus reikšmės, atsižvelgiant į tai, kad laisvės laipsnių skaičius k = s - 2.