Fakulta informatiky Masarykovy univerzity v Brně
Jan
Pešl
V teorii pravděpodobnosti předpokládáme, že známe zákon rozdělení náhodné veličiny , tj. známe její distribuční funkci, resp. rozdělovací funkci. V technických aplikacích se často stává, že jsme v situaci, že rozdělení náhodné veličiny neznáme, ale pouze se domníváme, že by náhodná veličina mohla mít určité rozdělení (např. normální), nebo dokonce nemáme žádnou konkrétní představu o rozdělení náhodné veličiny .
Představu o rozdělení náhodné veličiny můžeme získat např. z histogramu relativních četností. Podle jeho tvaru lze usuzovat na tvar rozdělovací funkce náhodné veličiny . K tomu je zapotřebí jednak sestrojit histogram, jednak porovnat tento histogram s grafy vhodných rozdělovacích funkcí.
Je-li vytvořena hypotéza (domněnka) o tvaru rozdělení náhodné veličiny , přejdeme k některému z testů, kterým tuto hypotézu nezamítneme, resp. zamítneme s dostatečně malým rizikem omylu. Tyto testy nazýváme testy shody. My se zde budeme zabývat pouze jedním testem shody - a to Pearsonovým. Je zapotřebí si uvědomit, že hypotézu vytvořenou z určité realizace náhodného výběru z bychom správně měli ještě ověřit na jiné realizaci náhodného výběru z .
Domníváme se, že náhodná veličina má rozdělovací funkci , kde jsou neznámé parametry. Připouštíme i , tj. že rozdělovací funkce je a nejsou v ní obsaženy žádné neznámé parametry. Je-li , použijeme realizaci náhodného výběru z pro výpočet realizací odhadů parametrů - označme je . Realizace odhadů dosadíme za parametry do rozdělovací funkce , dostaneme rozdělovací funkci , která již neobsahuje neznámé parametry. Pearsonův test shody je pak test hypotézy : má rozdělovací funkci proti hypotéze : nemá rozdělovací funkci pro žádný z možných parametrů na hladině významnosti .
Postup při samotném testu je následující:
Předpokládáme, že platí hypotéza , tj. že náhodná veličina má rozdělovací funkci .
Obor hodnot náhodné veličiny rozdělíme do disjunktních tříd . Přitom dodržujeme stejná pravidla jako při konstrukci histogramu nebo se snažíme roztřídit realizaci do tříd o přibližně stejné četnosti. Pro označení absolutních četností ponecháme označení .
Označme dále pravděpodobnost, že náhodná veličina nabude hodnoty
ze třídy
za podmínky, že platí hypotéza , tj.
(1) |
(2) |
(3) |
Místo kritického oboru pro test hypotézy proti hypotéze na hladině významnosti použijeme výpočet tzv. -hodnoty, kdy vyjádříme pravděpodobnost počítanou za platnosti nulové hypotézy, že dostaneme právě naši realizaci testovacího kritéria nebo realizaci ještě více odporující nulové hypotéze. Potom hypotézu zamítneme s rizikem maximálně 100 procent. Chceme-li tedy testovat hypotézu na hladině významnosti 0.05 a dostaneme, že , nezamítáme hypotézu na hladině významnosti 0.05. Jestliže dostaneme , hypotézu na hladině významnosti 0.05 zamítáme. Hrubě řečeno, čím větší je spočtená -hodnota, tím je zamítnutí nulové hypotézy méně oprávněné. Zbývá určit, které hodnoty testovacího kritéria odporují nulové hypotéze.
Kdyby platila hypotéza , pak by pravděpodobnost, že výsledek pokusu nabude hodnoty ze třídy , byla (viz vztah (1)). Odhad pravděpodobnosti, že výsledek pokusu padne do třídy , je zřejmě počet příznivých výsledků ku celkovému počtu možných výsledků - tedy náhodná veličina . Takže v prospěch hypotézy svědčí ty realizace veličiny , které jsou dostatečně blízké číslu , tj. pro které , tj. pro které pro každé . Číslo se někdy v této souvislosti nazývá empirická četnost třídy a číslo pak teoretická četnost třídy . V prospěch hypotézy svědčí tedy ty realizace testovacího kritéria , které jsou blízké číslu nula. Nulové hypotéze potom odporují ty realizace testovacího kritéria , které jsou větší než nějaká kladná konstanta.
Víme, že testovací
kritérium Pearsonova testu má asymptoticky rozdělení .
Označme tedy distribuční funkci tohoto rozdělení, potom pro -hodnotu
dostaneme:
V případě
spojité náhodné veličiny je třída interval.
Označme jeho krajní body jako . Potom pro
platí
Použití Pearsonova testu
shody lze procvičit v následujících
příkladech,
které jsou zpracovány v systému Maple.
potom
V případě
diskrétní náhodné veličiny je třída bod nebo
množina obsahující body oboru hodnot náhodné veličiny .
Je-li jeden bod, potom
Je-li vícebodová množina bodů, potom