Weryfikacja hipotez statystycznych


Weryfikacja hipotez statystycznych w encyklopedii

Z Wikipedii, wolnej encyklopedii Przejdź do nawigacji Przejdź do wyszukiwania

Weryfikacja hipotez statystycznych – sprawdzanie sądów o populacji przez badanie jej wycinka (próby statystycznej). Wyróżnia się kilka podejść do problemu weryfikacji hipotez, między innymi:

  • wnioskowanie częstościowe, z użyciem P-wartości – służące kontroli błędów decyzyjnych (w szczególności: błędu I i błędu II rodzaju), tak aby w długim horyzoncie czasowym spodziewać się, że nie popełnimy ich częściej, niż założyliśmy (według przyjętego poziomu istotności, np. w 5% przypadków),
  • iloraz wiarygodności – służące do rozstrzygnięcia, w jakiej proporcji dane świadczą na rzecz dwóch porównywanych hipotez,
  • wnioskowanie bayesowskie, z użyciem czynnika Bayesa – służące do wyrażenia subiektywnej pewności, jaką można, na podstawie danych i wcześniejszych oczekiwań, przypisać danej hipotezie.

Ze względów historycznych w naukach empirycznych najczęściej spotyka się obecnie metody częstościowe[1]. Wiążą się one z szeregiem specyficznych problemów interpretacyjnych[2], jednak każde z podejść charakteryzują swoiste problemy i ryzyko niezrozumienia oraz nadużyć.

Spis treści

Podejście częstościowe | edytuj kod

Definicje | edytuj kod

Niech

P = { P θ : θ Θ } . {\displaystyle {\mathcal {P}}=\{P_{\theta }\colon \theta \in \Theta \}.}

będzie rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X , {\displaystyle {\mathcal {X}},} indeksowaną parametrem θ {\displaystyle \theta } (w szczególności może to być wektor parametrów rzeczywistych). P θ {\displaystyle P_{\theta }} opisuje wielowymiarowy łączny rozkład wszystkich obserwacji w próbie X . {\displaystyle X.}

Hipotezą statystyczną H {\displaystyle H} jest zdanie postaci θ Θ 0 {\displaystyle \theta \in \Theta _{0}} gdzie Θ 0 Θ {\displaystyle \Theta _{0}\subset \Theta } koduje własność rozkładu, którą chcemy testować.

Problem weryfikacji hipotezy statystycznej polega na takim podziale przestrzeni próby X {\displaystyle {\mathcal {X}}} na rozłączne zbiory K {\displaystyle \mathbf {K} } i A , {\displaystyle \mathbf {A} ,} żeby prawdopodobieństwo warunkowe hipotezy P { θ Θ 0 } {\displaystyle P\{\theta \in \Theta _{0}\}} było możliwie małe (w pewnym ustalonym sensie) dla X K {\displaystyle X\in \mathbf {K} } i możliwie duże dla X A . {\displaystyle X\in \mathbf {A} .}

Zwykle wybiera się pewną statystykę T {\displaystyle T} i buduje zbiór

K = { X X : T ( X ) K T } , {\displaystyle \mathbf {K} =\{X\in {\mathcal {X}}\colon T(X)\in \mathbf {K} _{T}\},}

gdzie:

K T {\displaystyle \mathbf {K} _{T}} jest tzw. obszarem krytycznym testu, wybranym tak, aby P { T ( X ) K T | H } α {\displaystyle P\{T(X)\in \mathbf {K} _{T}|H\}\leqslant \alpha } α {\displaystyle \alpha } jest wybranym prawdopodobieństwem, tzw. poziomem istotności testu, zwykle 0,05 lub 0,01.

Jednostronny obszar krytyczny to obszar postaci K T = { t : t t α } , {\displaystyle \mathbf {K} _{T}=\{t\colon t\leqslant t_{\alpha }\},} gdzie

t α {\displaystyle t_{\alpha }} jest tzw. wartością krytyczną testu. Jest to największa liczba, dla której P { T ( X ) t α | H } α {\displaystyle P\{T(X)\leqslant t_{\alpha }|H\}\leqslant \alpha }

Dwustronny obszar krytyczny to obszar postaci K T = { t : t t α 1 t t α 2 } {\displaystyle \mathbf {K} _{T}=\{t\colon t\leqslant t_{\alpha 1}\vee t\geqslant t_{\alpha 2}\}} gdzie

t α 1 {\displaystyle t_{\alpha 1}} jest największą liczbą dla której P { T ( X ) t α 1 | H } α 2 {\displaystyle P\{T(X)\leqslant t_{\alpha 1}|H\}\leqslant {\tfrac {\alpha }{2}}} t α 2 {\displaystyle t_{\alpha 2}} jest najmniejszą liczbą dla której P { T ( X ) t α 2 | H } α 2 {\displaystyle P\{T(X)\geqslant t_{\alpha 2}|H\}\leqslant {\tfrac {\alpha }{2}}}

Standardowy przebieg procedury weryfikacyjnej | edytuj kod

Sformułowanie hipotezy zerowej i alternatywnej | edytuj kod

Hipoteza zerowa ( H 0 ) {\displaystyle (H_{0})} – jest to hipoteza poddana procedurze weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero. Przykładowo wnioskując o parametrach hipotezę zerową zapiszemy jako:

H 0 : θ 1 = θ 2 . {\displaystyle H_{0}\colon \theta _{1}=\theta _{2}.}

Hipoteza alternatywna ( H 1 ) {\displaystyle (H_{1})} – hipoteza przeciwstawna do weryfikowanej. Możemy ją zapisać na trzy sposoby w zależności od sformułowania badanego problemu:

H 1 : θ 1 θ 2 , {\displaystyle H_{1}\colon \theta _{1}\neq \theta _{2},} H 1 : θ 1 > θ 2 , {\displaystyle H_{1}\colon \theta _{1}>\theta _{2},} H 1 : θ 1 < θ 2 . {\displaystyle H_{1}\colon \theta _{1}<\theta _{2}.}

Wybór statystyki testowej | edytuj kod

Budujemy pewną statystykę W, która jest funkcją wyników z próby losowej W = f ( x 1 , x 2 , , x n ) {\displaystyle W=f(x_{1},x_{2},\dots ,x_{n})} i wyznaczamy jej rozkład przy założeniu, że hipoteza zerowa jest prawdziwa. Funkcję W nazywa się statystyką testową lub funkcją testową.

Określenie poziomu istotności α {\displaystyle \alpha } | edytuj kod

Na tym etapie procedury weryfikacyjnej przyjmujemy maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju, który polega na odrzuceniu hipotezy zerowej wtedy, gdy jest ona prawdziwa. Prawdopodobieństwo to jest oznaczane symbolem α {\displaystyle \alpha } i nazywane poziomem istotności. Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, ponieważ chcemy, aby ryzyko popełnienia błędu było jak najmniejsze. Najczęściej zakładamy poziom istotności α = 0 , 05 , {\displaystyle \alpha =0{,}05,} czasem przyjmuje się np. α = 0 , 01 ,   α = 0 , 1. {\displaystyle \alpha =0{,}01,\ \alpha =0{,}1.}

Wyznaczenie obszaru krytycznego testu | edytuj kod

Obszar krytyczny – obszar znajdujący się zawsze na krańcach rozkładu. Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze, to weryfikowaną przez nas hipotezę H 0 {\displaystyle H_{0}} odrzucamy. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności α , {\displaystyle \alpha ,} natomiast jego położenie określane jest przez hipotezę alternatywną.

Obszar krytyczny od pozostałej części rozkładu statystyki oddzielony jest przez tzw. wartości krytyczne testu ( w α ) {\displaystyle (w_{\alpha })} , czyli wartości odczytane z rozkładu statystyki przy danym α , {\displaystyle \alpha ,} tak aby spełniona była relacja zależna od sposobu sformułowania H 1 . {\displaystyle H_{1}.}

Obliczenie statystyki na podstawie próby | edytuj kod

Wyniki próby opracowujemy w odpowiedni sposób, zgodnie z procedurą wybranego testu i są one podstawą do obliczenia statystyki testowej. Większość statystyk testowych, mających dokładny rozkład normalny, t {\displaystyle t} -Studenta lub graniczny rozkład normalny, obliczamy w następujący sposób:

W = a b c , {\displaystyle W={\frac {a-b}{c}},}

gdzie:

W {\displaystyle W} – Statystyka testowa, a {\displaystyle a} – Statystyka obliczona z próby, b {\displaystyle b} – Hipotetyczna wartość parametru(ów), c {\displaystyle c} – Odchylenie standardowe rozkładu statystyki.

Podjęcie decyzji | edytuj kod

Wyznaczoną na podstawie próby wartość statystyki (P-wartość) porównujemy z wartością krytyczną testu.

  • Jeżeli wartość ta znajdzie się w obszarze krytycznym, to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna.
  • Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, oznacza to, że brak jest podstaw do odrzucenia hipotezy zerowej. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa, a postępowanie nie dało żadnych dodatkowych informacji uprawniających do podjęcia decyzji o przyjęciu lub odrzuceniu hipotezy zerowej.

Reguły postępowania przy weryfikacji hipotez są określane mianem testów statystycznych.

Interpretacja wyniku istotnego lub nieistotnego statystycznie | edytuj kod

Zgodnie ze stanowiskiem Amerykańskiego Towarzystwa Statystycznego z 2016 r. P-wartość badania sama w sobie nie niesie informacji o prawdziwości hipotezy badawczej, wartości dowodowej danych czy znaczenia oraz wielkości efektu i nie powinna być traktowana jako samodzielne kryterium poznawcze[3]. Statystycy rekomendują, aby w interpretacji wyników badań uwzględniać ich kontekst i transparentność. Wynik pojedynczego badania ani nawet grupy badań nie uprawniają same przez siebie do uznania żadnej hipotezy, stanowią jedynie słabsze lub mocniejsze ku temu dowody. Dopiero badanie, które jest intersubiektywnie i systematycznie powtarzalne, daje prawo do silniejszych wniosków[4].

Alternatywne podejścia | edytuj kod

Powyższa standardowa procedura wymaga przyjęcia arbitralnego poziomu istotności α {\displaystyle \alpha } a wynikiem weryfikacji jest odpowiedź binarna – albo statystyka testowa mieści się w przedziale ufności, albo nie.

Alternatywnym i nowocześniejszym, choć mniej popularnym podejściem jest obliczenie zamiast tego surowej p-wartości (prawdopodobieństwa popełnienia błędu I rodzaju) i podawanie jej jako wyników weryfikacji. Dzięki temu nie ma potrzeby przyjmowania a priori żadnych wartości α , {\displaystyle \alpha ,} pozwala to również na porównywanie istotności różnych konkurencyjnych hipotez statystycznych.

Związane pojęcia | edytuj kod

Zobacz też | edytuj kod

Przypisy | edytuj kod

  1. E.T.E.T. Jaynes E.T.E.T., Probability theory. The logic of science, Cambridge University Press, 2003, rozdział 18, ISBN 978-1-280-41722-1, OCLC 57254076 .1 stycznia
  2. Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 1, 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-09]  (ang.).
  3. Ronald L.R.L. Wasserstein Ronald L.R.L., Nicole A.N.A. Lazar Nicole A.N.A., The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 2, 2016, s. 129–133, DOI10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-09] .
  4. FisherF. R.A. FisherF., The design of experiments., Hafner Press, 1974, s. 14, ISBN 978-0-02-844690-5, OCLC 471778573 .1 stycznia

Bibliografia | edytuj kod

Na podstawie artykułu: "Weryfikacja hipotez statystycznych" pochodzącego z Wikipedii
OryginałEdytujHistoria i autorzy