SHODA

Testy shody

Fakulta stavební Vysokého učení technického v Brně

Fakulta informatiky Masarykovy univerzity v Brně

Helena Koutková

Jan Pešl

Brno 2001

V teorii pravděpodobnosti předpokládáme, že známe zákon rozdělení náhodné veličiny

, tj. známe její distribuční funkci, resp. rozdělovací funkci. V technických aplikacích se často stává, že jsme v situaci, že rozdělení náhodné veličiny

neznáme, ale pouze se domníváme, že by náhodná veličina

mohla mít určité rozdělení (např. normální), nebo dokonce nemáme žádnou konkrétní představu o rozdělení náhodné veličiny

Představu o rozdělení náhodné veličiny

můžeme získat např. z histogramu relativních četností. Podle jeho tvaru lze usuzovat na tvar rozdělovací funkce náhodné veličiny

. K tomu je zapotřebí jednak sestrojit histogram, jednak porovnat tento histogram s grafy vhodných rozdělovacích funkcí.

Je-li vytvořena hypotéza (domněnka) o tvaru rozdělení náhodné veličiny

, přejdeme k některému z testů, kterým tuto hypotézu nezamítneme, resp. zamítneme s dostatečně malým rizikem omylu. Tyto testy nazýváme testy shody. My se zde budeme zabývat pouze jedním testem shody - a to Pearsonovým. Je zapotřebí si uvědomit, že hypotézu vytvořenou z určité realizace náhodného výběru z

bychom správně měli ještě ověřit na jiné realizaci náhodného výběru z

Domníváme se, že náhodná veličina

má rozdělovací funkci $g(x;\Theta_1,\dots,\Theta_u)$ , kde $\Theta_1,\dots,\Theta_u$ jsou neznámé parametry. Připouštíme i

, tj. že rozdělovací funkce je

a nejsou v ní obsaženy žádné neznámé parametry. Je-li $u\geq 1$ , použijeme realizaci $(x_1,x_2, \dots, x_n)$ náhodného výběru $(X_1,X_2, \dots, X_n)$ z

pro výpočet realizací odhadů parametrů $\Theta_1,\Theta_2,\dots,\Theta_u$ - označme je $\widehat{\Theta}_1, \widehat{\Theta}_2,\dots,\widehat{\Theta}_u$ . Realizace odhadů dosadíme za parametry do rozdělovací funkce

, dostaneme rozdělovací funkci $g(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)$ , která již neobsahuje neznámé parametry. Pearsonův test shody je pak test hypotézy

má rozdělovací funkci $g(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)$ proti hypotéze

nemá rozdělovací funkci $g(x;\Theta_1,\Theta_2,\dots,\Theta_u)$ pro žádný z možných parametrů $\Theta_1,\Theta_2,\dots,\Theta_u$ na hladině významnosti $\alpha$ .

Předpokládáme, že platí hypotéza

, tj. že náhodná veličina

má rozdělovací funkci $g(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)$ .

Obor hodnot $\Omega$ náhodné veličiny

rozdělíme do

disjunktních tříd $T_j\, (j=1,2,\dots,k)$ . Přitom dodržujeme stejná pravidla jako při konstrukci histogramu nebo se snažíme roztřídit realizaci do tříd o přibližně stejné četnosti. Pro označení absolutních četností ponecháme označení

Označme dále

pravděpodobnost, že náhodná veličina

nabude hodnoty ze třídy

$(j=1,2,\dots, k)$ za podmínky, že platí hypotéza

, tj.

Místo kritického oboru pro test hypotézy

proti hypotéze

na hladině významnosti $\alpha$ použijeme výpočet tzv.

-hodnoty, kdy vyjádříme pravděpodobnost počítanou za platnosti nulové hypotézy, že dostaneme právě naši realizaci

testovacího kritéria

nebo realizaci ještě více odporující nulové hypotéze. Potom hypotézu

zamítneme s rizikem maximálně 100

procent. Chceme-li tedy testovat hypotézu

na hladině významnosti 0.05 a dostaneme, že

, nezamítáme hypotézu

na hladině významnosti 0.05. Jestliže dostaneme $P\leq 0.05$ , hypotézu

na hladině významnosti 0.05 zamítáme. Hrubě řečeno, čím větší je spočtená

-hodnota, tím je zamítnutí nulové hypotézy méně oprávněné. Zbývá určit, které hodnoty

testovacího kritéria

odporují nulové hypotéze.

Kdyby platila hypotéza

, pak by pravděpodobnost, že výsledek pokusu

nabude hodnoty ze třídy

, byla

(viz vztah (1)). Odhad pravděpodobnosti, že výsledek pokusu padne do třídy

, je zřejmě počet příznivých výsledků ku celkovému počtu možných výsledků - tedy náhodná veličina

. Takže v prospěch hypotézy

svědčí ty realizace

veličiny

, které jsou dostatečně blízké číslu

, tj. pro které $n_j/n\doteq p_j$ , tj. pro které $n_j \doteq np_j$ pro každé $j=1,\dots,k$ . Číslo

se někdy v této souvislosti nazývá empirická četnost třídy

a číslo

pak teoretická četnost třídy

. V prospěch hypotézy

svědčí tedy ty realizace

testovacího kritéria

, které jsou blízké číslu nula. Nulové hypotéze potom odporují ty realizace

testovacího kritéria

, které jsou větší než nějaká kladná konstanta.

Víme, že testovací kritérium

Pearsonova testu má asymptoticky rozdělení $\chi^2(k-u-1)$ . Označme tedy

distribuční funkci tohoto rozdělení, potom pro

-hodnotu dostaneme:

V případě spojité náhodné veličiny

je třída

interval. Označme jeho krajní body jako $t_{j-1},\;t_j$ . Potom pro $j=1,\dots,k$ platí

$\begin{displaymath} p_j = P\bigl(X\in T_j/H_0\bigr)=P\bigl( t_{j-1}<X<t_j/H_0\bi... ...hat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)\,dx.\end{displaymath}$

$\begin{displaymath} G(x;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\T... ...hat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{\Theta}_u)\,dt,\end{displaymath}$

$\begin{displaymath} p_j = P\bigl(X\in T_j/H_0\bigr)=P\bigl( t_{j-1}<X<t_j/H_0\bigr) = \end{displaymath}$

$\begin{displaymath}= G(t_j;\widehat{\Theta}_1,\widehat{\Theta}_2,\dots,\widehat{... ...ots,\widehat{\Theta}_u) \quad \mathrm{pro}\;\;j=1,2,\dots,k. \end{displaymath}$

$\begin{displaymath} p_j=P\bigl(X= T_j/H_0\bigr)=g(T_j; \widehat{\Theta}_1,\wid... ...ots,\widehat{\Theta}_u) \quad \mathrm{pro}\;\;j=1,2,\dots,k. \end{displaymath}$

$\begin{displaymath} p_j = P\bigl(X\in T_j/H_0\bigr)\\ = \sum\limits_{x\in T_... ...ots,\widehat{\Theta}_u) \quad \mathrm{pro}\;\;j=1,2,\dots,k. \end{displaymath}$