Test dla proporcji
Z Wikipedii
Testy dla proporcji — to testy parametryczne służące do weryfikacji hipotez dotyczących wartości proporcji w populacji generalnej lub też do porównania wartości proporcji w kilku populacjach – na podstawie znajomości wartości tej proporcji w losowej próbie (czy też dwóch lub kilku próbach) pobranych z populacji.
Proporcją w statystyce nazywamy liczbę (ułamek, procent) wyrażający, jaka część elementów pewnego zbioru spełnia określony warunek. Inne równoważnie stosowane określenia to: frakcja, wskaźnik struktury. Na przykład, jeśli w grupie \n osób jest \m palących, to proporcja osób palących w tej grupie jest równa .
Spis treści |
[edytuj] Struktura i podział testów
Hipotezy dotyczące proporcji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności α – dopuszczalną wartość błędu pierwszego rodzaju, następnie na podstawie danych z próby wyznaczamy wartość statystyki testowej, po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego. Postać stosowanej statystyki testowej zależy od następujących czynników:
- czy badamy hipotezę dotyczącą jednej, dwóch, czy wielu proporcji
- jaka jest liczebność próby (prób) występujących w danym zagadnieniu
- w przypadku dwu lub więcej prób – czy próby są niezależne, czy zależne (powiązane).
Poniżej przedstawiono w skrócie kilka testów najczęściej wykorzystywanych w poszczególnych sytuacjach.
[edytuj] Testy dla jednej proporcji (test dla prób dużych)
W próbie losowej o liczebności \n jest \m elementów spełniających pewien warunek. Wówczas proporcja w próbie . Chcemy sprawdzić, czy taki wynik losowania pozwala przyjąć, że w całej populacji proporcja ta ma zadaną z góry wartość po. Hipotezy mają postać:
H0: p = p0
H1: postać hipotezy alternatywnej zależy od sformułowania zagadnienia: (a) p > po albo (b) p < po albo też (c) p = po.
Założenia: próba musi być dostatecznie duża, to znaczy jej liczebność musi spełniać warunek n > 50, a otrzymana wartość proporcji z próby powinna spełniać warunek: 0,2 < p < 0,8. Można wtedy zastosować statystykę o rozkładzie normalnym. Obliczamy:
, gdzie qo = 1 − po
Wartość tak obliczonej statystyki porównujemy z wartością krytyczną (lub dwiema wartościami krytycznymi) wyznaczonymi na podstawie poziomu istotności α dla zmiennej losowej o rozkładzie normalnym. Wartości krytyczne znajdujemy z tablic dystrybuanty rozkładu normalnego. Jeżeli Fn(z) jest dystrybuantą standardowego rozkładu normalnego, a - funkcją odwrotną do dystrybuanty, natomiast α - założonym poziomem istotności – to odczytujemy: dla przypadku (a) , w przypadku (b) , zaś w przypadku (c) mamy 2 wartości graniczne: oraz zkryt2 = − zkryt1. Przedział krytyczny – w przypadku (a) jest prawostronny, czyli gdy z > zkryt – odrzucamy H0, w przypadku przeciwnym – nie ma podstaw do jej odrzucenia. W przypadku (b) – przedział krytyczny jest lewostronny (dla z < zkryt odrzucamy H0), a w przypadku (c) – przedział krytyczny jest obustronny.
[edytuj] Testy dla dwóch proporcji
[edytuj] Dwie próby niezależne
Poniżej omówiono dwa testy – jeden dla dużych liczebności prób, oparty na statystyce z o rozkładzie normalnym, analogiczny do omówionego powyżej dla jednej próby, drugi, możliwy do zastosowania przy nieco mniejszych liczebnościach prób, oparty na statystyce o rozkładzie chi-kwadrat.
[edytuj] Test dla dwóch prób dużych
Liczebności prób powinny spełniać relacje: n1 > 50 i n2 > 50. Jeżeli spośród n1 elementów pierwszej próby m1 spełnia określony warunek, to proporcja z próby jest równa . Analogicznie dla drugiej próby .
Wyznaczamy proporcję dla „próby połączonej”:
oraz
a następnie wyznaczamy wartość statystyki z:
Statystyka ta ma rozkład normalny i wartości krytyczne oraz obszary krytyczne wyznaczamy dla tego testu tak samo, jak to opisano wcześniej w teście dla jednej proporcji.
[edytuj] Test dla dwóch prób o mniejszych liczebnościach (oparty na statystyce chi-kwadrat)
Tutaj liczebności muszą spełniać warunek n = n1 + n2 > 20
Liczby elementów spełniających lub nie spełniających zadanego warunku w poszczególnych populacjach można zapisać w tabeli 2x2:
Liczba elementów: | Próba 1 | Próba 2 | Suma: |
---|---|---|---|
spełniających warunek (TAK) | a | b | a + b |
nie spełniających warunku (NIE) | c | d | c + d |
Suma: | n1=a+b | n2=b+d | n=a+b+c+d |
Na podstawie tabeli obliczamy wartość statystyki
gdzie
Jeżeli liczebności prób są na tyle duże, że n1 + n2 > 40 - można wówczas pominąć w liczniku składnik w nawiasie. Wartości krytyczne wyznacza się z tablic rozkładu chi-kwadrat o 1 stopniu swobody.
[edytuj] Dwie próby zależne
Ten przypadek występuje na przykład wtedy, gdy te same obiekty czy osoby stanowiące próbę są badane dwukrotnie w różnych warunkach. Wtedy zwykle liczebności obu prób są jednakowe: n1 = n2 = n . Wynikiem takiego eksperymentu są 4 liczby, stwierdzające, ile obiektów w każdej z prób spełnia lub nie spełnia warunku. Wyniki takie można zestawić w tabelce 2x2:
Liczebności | Próba 2: TAK | Próba 2: NIE |
---|---|---|
Próba 1:TAK | a | b |
Próba 1: NIE | c | d |
Te same wyniki można też zaprezentować w postaci tabelki proporcji zamiast liczebności (gdzie np. itd.)
Proporcje: | Próba 2: TAK | Próba 2: NIE |
---|---|---|
Próba 1:TAK | p11 | p10 |
Próba 1: NIE | p01 | p00 |
W zależności od liczebności prób możliwe są różne odmiany testu.
[edytuj] Liczebność duża
Jeżeli , to wyznaczamy statystykę z o rozkładzie normalnym z jednego ze wzorów:
lub
albo lub też
(stosujemy dowolny z powyższych wzorów, zależnie od dostępnych danych). Wartość statystyki z porównujemy z wartością zkryt wyznaczoną z tablic rozkładu normalnego, przy czym postępowanie jest takie samo, jak opisane powyżej dla testu dla jednej proporcji.
[edytuj] Liczebność mała (test McNemara)
W tym przypadku hipotezy mają postać:
H0: p11 = p10 (proporcje w obu doświadczeniach są równe)
H1: (proporcje w obu przypadkach różnią się istotnie)
Jeżeli b + c > 10 oraz zarówno b > 5 jak i c > 5 to można wykorzystać statystykę
Jeżeli natomiast liczebności są jeszcze mniejsze, tak, że b + c > 10, ale b < 5 lub c < 5, należy wykorzystać nieco zmodyfikowany wzór:
Wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla danego poziomu istotności α i v = 1 stopnia swobody. Obszar krytyczny testu jest prawostronny (odrzucamy H0, gdy ).
[edytuj] Testy dla wielu proporcji
Mamy tuk prób o liczebnościach . W i-tej próbie mi elementów spełnia zadany warunek, zatem proporcja w i-tej próbie jest równa .
Testujemy hipotezy:
H0: (wszystkie proporcje w populacjach są jednakowe)
H1: nie H0 (proporcje w poszczególnych populacjach różnią się)
[edytuj] Próby niezależne
[edytuj] Test Fishera-Snedecora
Jeżeli wszystkie liczebności to można wyznaczyć statystykę o rozkładzie Fishera –Snedecora. Obliczamy najpierw „średnią proporcję”
oraz
Otrzymaną wartość statystyki F porównujemy z wartością krytyczną odczytaną z tablic rozkładu Fishera-Snedecora dla założonego poziomu istotności α oraz liczby stopni swobody v1 = k − 1 i . Obszar krytyczny jest prawostronny, czyli gdy F > Fkryt — odrzucamy hipotezę H0.
[edytuj] Próby zależne
Jeżeli mamy do czynienia z k zależnymi próbami (seriami wyników) o jednakowej liczebności n każda (np. n osób jest poddawanych k razy badaniu, którego wynik klasyfikujemy w kategoriach: tak, nie), przy czym liczebności są , możemy wykorzystać test Cochrana do stwierdzenia, czy wyniki w poszczególnych doświadczeniach różnią się istotnie:
H0: wyniki poszczególnych serii nie różnią się istotnie
H1: wyniki różnią się (zmiana warunków eksperymentu wpływa na wyniki)
Niech mi oznacza, jak poprzednio, ilość obiektów w i-tej próbie, które spełniają warunek (wynik Tak), to znaczy , zaś , natomiast wj oznacza liczbę prób, w których j-ty obiekt uzyskał wynik Tak - to znaczy oraz .
Obliczamy statystykę
którą porównujemy z wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat dla poziomu istotności α i v = k − 1 stopni swobody. Obszar krytyczny testu jest prawostronny.
[edytuj] Bibliografia
Tablice statystyczne
- Fisher R.A., Yates F., Statistical tables for biological, agricultural and medical research, Oliver and Boyd, Edinburgh 1963
- Zieliński R., Tablice statystyczne, PWN, Warszawa 1972
Linki zewnętrzne
- Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładów: normalnego, Studenta, chi-kwadrat oraz F (Fishera-Snedeccora)