Testy shody


Fakulta stavební Vysokého učení technického v Brně

Fakulta informatiky Masarykovy univerzity v Brně

Helena Koutková

Jan Pešl


 

 

 

 

 




Brno 2001
 
 

 
 
Testy shody
   

    V teorii pravděpodobnosti předpokládáme, že známe zákon rozdělení náhodné veličiny $X$, tj. známe její distribuční funkci, resp. rozdělovací funkci. V technických aplikacích se často stává, že jsme v situaci, že rozdělení náhodné veličiny $X$ neznáme, ale pouze se domníváme, že by náhodná veličina $X$ mohla mít určité rozdělení (např. normální), nebo dokonce nemáme žádnou konkrétní představu o rozdělení náhodné veličiny $X$.       

    Představu o rozdělení náhodné veličiny $X$ můžeme získat např. z histogramu relativních četností. Podle jeho tvaru lze usuzovat na tvar rozdělovací funkce náhodné veličiny $X$. K tomu je zapotřebí jednak sestrojit histogram, jednak porovnat tento histogram s grafy vhodných rozdělovacích funkcí.

    Je-li vytvořena hypotéza (domněnka) o tvaru rozdělení náhodné veličiny $X$, přejdeme k některému z testů, kterým tuto hypotézu nezamítneme, resp. zamítneme s dostatečně malým rizikem omylu. Tyto testy nazýváme testy shody. My se zde budeme zabývat pouze jedním testem shody - a to Pearsonovým. Je zapotřebí si uvědomit, že hypotézu vytvořenou z určité realizace náhodného výběru z $X$ bychom správně měli ještě ověřit na jiné realizaci náhodného výběru z $X$.


Pearsonův test shody

    Domníváme se, že náhodná veličina $X$ má rozdělovací funkci $g(x;\Theta_1,\dots,\Theta_u)$, kde $\Theta_1,\dots,\Theta_u$ jsou neznámé parametry. Připouštíme i $u=0$, tj. že rozdělovací funkce je $g(x)$ a nejsou v ní obsaženy žádné neznámé parametry. Je-li $u\geq 1$, použijeme realizaci $(x_1,x_2, \dots, x_n)$ náhodného výběru $(X_1,X_2, \dots, X_n)$$X$ pro výpočet realizací odhadů parametrů $\Theta_1,\Theta_2,\dots,\Theta_u$ - označme je $\widehat{\Theta}_1, \widehat{\Theta}_2,\dots,\widehat{\Theta}_u$. Realizace odhadů dosadíme za parametry do rozdělovací funkce $g$, dostaneme rozdělovací funkci $g(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)$, která již neobsahuje neznámé parametry. Pearsonův test shody je pak test hypotézy $H_0$: $X$ má rozdělovací funkci $g(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)$ proti hypotéze $H$: $X$ nemá rozdělovací funkci $g(x;\Theta_1,\Theta_2,\dots,\Theta_u)$ pro žádný z možných parametrů $\Theta_1,\Theta_2,\dots,\Theta_u$ na hladině významnosti $\alpha$.

    Postup při samotném testu je následující:

    Předpokládáme, že platí hypotéza $H_0$, tj. že náhodná veličina $X$ má rozdělovací funkci $g(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)$.

    Obor hodnot $\Omega$ náhodné veličiny $X$ rozdělíme do $k$ disjunktních tříd $T_j\, (j=1,2,\dots,k)$. Přitom dodržujeme stejná pravidla jako při konstrukci histogramu nebo se snažíme roztřídit realizaci do tříd o přibližně stejné četnosti. Pro označení absolutních četností ponecháme označení $N_j$.

    Označme dále $p_j$ pravděpodobnost, že náhodná veličina $X$ nabude hodnoty ze třídy $T_j$ $(j=1,2,\dots, k)$ za podmínky, že platí hypotéza $H_0$, tj.

(1)
 
Protože

\begin{displaymath}T_1\cup T_2\cup\dots\cup T_k=\Omega,\end{displaymath}

platí

\begin{displaymath}p_1+p_2+\dots+p_k=1.\end{displaymath}

Za testovací kritérium zvolil K. Pearson statistiku
(2)
 
která má za platnosti hypotézy $H_0$ při dostatečně velkém rozsahu výběru $n$ přibližně Pearsonovo rozdělení s $k-u-1$ stupni volnosti, tj. rozdělení $\chi^2(k-u-1)$. Dostatečná velikost rozsahu $n$ je zaručena tím, že lze realizaci náhodného výběru z $X$ roztřídit do tříd $T_j$ tak, že
(3)
 
Pearsonův test dobré shody by se měl tedy používat v případě splnění podmínek (3).

    Místo kritického oboru pro test hypotézy $H_0$ proti hypotéze $H$ na hladině významnosti $\alpha$ použijeme výpočet tzv. $P$-hodnoty, kdy vyjádříme pravděpodobnost počítanou za platnosti nulové hypotézy, že dostaneme právě naši realizaci $r$ testovacího kritéria $R$ nebo realizaci ještě více odporující nulové hypotéze. Potom hypotézu $H_0$ zamítneme s rizikem maximálně 100$P$ procent. Chceme-li tedy testovat hypotézu $H_0$ na hladině významnosti 0.05 a dostaneme, že $P>0.05$, nezamítáme hypotézu $H_0$ na hladině významnosti 0.05. Jestliže dostaneme $P\leq 0.05$, hypotézu $H_0$ na hladině významnosti 0.05 zamítáme. Hrubě řečeno, čím větší je spočtená $P$-hodnota, tím je zamítnutí nulové hypotézy méně oprávněné. Zbývá určit, které hodnoty $r$ testovacího kritéria $R$ odporují nulové hypotéze.

    Kdyby platila hypotéza $H_0$, pak by pravděpodobnost, že výsledek pokusu $X$ nabude hodnoty ze třídy $T_j$, byla $p_j$ (viz vztah (1)). Odhad pravděpodobnosti, že výsledek pokusu padne do třídy $T_j$, je zřejmě počet příznivých výsledků ku celkovému počtu možných výsledků - tedy náhodná veličina $N_j/n$. Takže v prospěch hypotézy $H_0$ svědčí ty realizace $n_j/n$ veličiny $N_j/n$, které jsou dostatečně blízké číslu $p_j$, tj. pro které $n_j/n\doteq p_j$, tj. pro které $n_j \doteq np_j$ pro každé $j=1,\dots,k$. Číslo $n_j$ se někdy v této souvislosti nazývá empirická četnost třídy $T_j$ a číslo $np_j$ pak teoretická četnost třídy $T_j$. V prospěch hypotézy $H_0$ svědčí tedy ty realizace $r$ testovacího kritéria $R$, které jsou blízké číslu nula. Nulové hypotéze potom odporují ty realizace $r$ testovacího kritéria $R$, které jsou větší než nějaká kladná konstanta.

    Víme, že testovací kritérium $R$ Pearsonova testu má asymptoticky rozdělení $\chi^2(k-u-1)$. Označme tedy $V$ distribuční funkci tohoto rozdělení, potom pro $P$-hodnotu dostaneme:

\begin{displaymath}P=P(R\geq r/H_0)=1-P(R<r/H_0)=1-V(r).\end{displaymath}

    Vraťme se nyní k výpočtu pravděpodobností $p_j\ (j=1,2,\dots,k).$

    V případě spojité náhodné veličiny $X$ je třída $T_j$ interval. Označme jeho krajní body jako $t_{j-1},\;t_j$. Potom pro $j=1,\dots,k$ platí

\begin{displaymath}
p_j = P\bigl(X\in T_j/H_0\bigr)=P\bigl(
t_{j-1}<X<t_j/H_0\bi...
...hat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)\,dx.\end{displaymath}
V některých případech je výhodnější pro výpočty vyjádřit nejprve v hypotéze $H_0$ z hustoty $g$ distribuční funkci $G$ náhodné veličiny $X$ a pak teprve počítat $p_j$. Zřejmě

\begin{displaymath}
G(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\T...
...hat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)\,dt,\end{displaymath}

potom

\begin{displaymath}
p_j = P\bigl(X\in T_j/H_0\bigr)=P\bigl(
t_{j-1}<X<t_j/H_0\bigr) = \end{displaymath}



\begin{displaymath}= G(t_j;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{...
...ots,\widehat{\Theta}_u)
\quad \mathrm{pro}\;\;j=1,2,\dots,k.
\end{displaymath}

    V případě diskrétní náhodné veličiny $X$ je třída $T_j$ bod nebo množina obsahující body oboru hodnot náhodné veličiny $X$. Je-li $T_j$ jeden bod, potom

\begin{displaymath}
p_j=P\bigl(X= T_j/H_0\bigr)=g(T_j;
\widehat{\Theta}_1,\wid...
...ots,\widehat{\Theta}_u)
\quad \mathrm{pro}\;\;j=1,2,\dots,k.
\end{displaymath}

Je-li $T_j$ vícebodová množina bodů, potom

\begin{displaymath}
p_j = P\bigl(X\in T_j/H_0\bigr)\\
= \sum\limits_{x\in T_...
...ots,\widehat{\Theta}_u)
\quad \mathrm{pro}\;\;j=1,2,\dots,k.
\end{displaymath}

 

 

Testy shody v systému Maple

    Použití Pearsonova testu shody lze procvičit v následujících příkladech, které jsou zpracovány v systému Maple.

 

Děkuji RNDr. I. Mollovi, CSc. za přečtení textu a cenné připomínky.

 

Helena Koutková