Ranga (statystyka)


Ranga (statystyka) w encyklopedii

Z Wikipedii, wolnej encyklopedii Przejdź do nawigacji Przejdź do wyszukiwania

Ranga – numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.

Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.

Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Spis treści

Rangi wiązane | edytuj kod

W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.

Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.

  • przez przypisanie im największego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia średnią wyniku),
  • przez przypisanie numerów kolejnych bez zważania na rangi wiązane (wówczas wyniki rangowania zależą nie tylko od wartości rangowanej zmiennej, ale i od kolejności obserwacji w tabeli).

Przykład | edytuj kod

W pięcioelementowej próbie[1] znajdują się następujące obserwacje zmiennej x : {\displaystyle x{:}}

x 1 = 0 , 96 ;   x 2 = 2 , 43 ;   x 3 = 0 , 96 ;   x 4 = 0 , 2 ;   x 5 = 3 , 5. {\displaystyle x_{1}=0{,}96;\ x_{2}=2{,}43;\ x_{3}=0{,}96;\ x_{4}=0{,}2;\ x_{5}=3{,}5.}

Po posortowaniu według wartości x, uzyskujemy kolejność:

x 4 = 0 , 2 ;   x 1 = 0 , 96 ;   x 3 = 0 , 96 ;   x 2 = 2 , 43 ;   x 5 = 3 , 5. {\displaystyle x_{4}=0{,}2;\ x_{1}=0{,}96;\ x_{3}=0{,}96;\ x_{2}=2{,}43;\ x_{5}=3{,}5.}

Jak widać obserwacje x 1 {\displaystyle x_{1}} i x 3 {\displaystyle x_{3}} mają tę samą wartość zmiennej x . {\displaystyle x.} Rangi zmiennej x : {\displaystyle x{:}}

r 4 = 1 ;   r 1 = 2 , 5 ;   r 3 = 2 , 5 ;   r 2 = 4 ;   r 5 = 5. {\displaystyle r_{4}=1;\ r_{1}=2{,}5;\ r_{3}=2{,}5;\ r_{2}=4;\ r_{5}=5.}

Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:

r 1 = 2 , 5 ;   r 2 = 4 ;   r 3 = 2 , 5 ;   r 4 = 1 ;   r 5 = 5. {\displaystyle r_{1}=2{,}5;\ r_{2}=4;\ r_{3}=2{,}5;\ r_{4}=1;\ r_{5}=5.}

Rozkład rang | edytuj kod

Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:

r ¯ = n + 1 2 . {\displaystyle {\overline {r}}={\frac {n+1}{2}}.}

Wariancja rang wynosi:

var   r = n ( n + 1 ) 12 T n 1 , {\displaystyle \operatorname {var} \ \operatorname {r} ={\frac {n(n+1)}{12}}-{\frac {T'}{n-1}},}

gdzie:

T = 1 12 j ( t j 3 t j ) , {\displaystyle T'={\frac {1}{12}}\sum _{j}(t_{j}^{3}-t_{j}),} t j {\displaystyle t_{j}} jest liczbą obserwacji w próbie posiadających tę samą j {\displaystyle j} -tą wartość rangi zmiennej X , {\displaystyle X,} a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych t j 3 t j = 1 3 1 = 0. {\displaystyle t_{j}^{3}-t_{j}=1^{3}-1=0.}

Gdy nie ma rang wiązanych, T {\displaystyle T'} jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangoweodporne na obserwacje odstające.

Rangi regularne, ułamkowe i procentowe | edytuj kod

Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe, czyli rangi ułamkowe wyrażone w procentach.

Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).

Przekształcanie rang | edytuj kod

Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.

Dla rozkładu normalnego stosowane są wzory:

  • Bloma[2] (najdokładniejsze z wymienionych):
y i = Φ 1 ( r i 3 8 n + 1 4 ) , {\displaystyle y_{i}=\Phi ^{-1}\left({\frac {r_{i}-{\tfrac {3}{8}}}{n+{\tfrac {1}{4}}}}\right),} y i = Φ 1 ( r i 1 3 n + 1 3 ) {\displaystyle y_{i}=\Phi ^{-1}\left({\frac {r_{i}-{\tfrac {1}{3}}}{n+{\tfrac {1}{3}}}}\right)}
  • Van der Waerdena (używane do nieparametrycznych testów położenia):
y i = Φ 1 ( r i n + 1 ) , {\displaystyle y_{i}=\Phi ^{-1}\left({\frac {r_{i}}{n+1}}\right),}

gdzie:

  • Φ 1 {\displaystyle \Phi ^{-1}} odwrotna dystrybuanta rozkładu normalnego,
  • r i {\displaystyle r_{i}} – ranga i {\displaystyle i} -tej obserwacji,
  • n {\displaystyle n} – liczba niepustych obserwacji w danej zmiennej.

W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.

Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych itp.).

Aby otrzymać rozkład wykładniczy stosuje się wzór Savage’a:

y i = j = 1 r i 1 n j + 1 1. {\displaystyle y_{i}=\sum \limits _{j=1}{r_{i}}{\frac {1}{n-j+1}}-1.}

Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[4].

Dla testów skali stosowane są też inne przekształcenia rang:

  • Klotza:
y i = ( Φ 1 ( r i n + 1 ) ) 2 {\displaystyle y_{i}=\left(\Phi ^{-1}\left({\frac {r_{i}}{n+1}}\right)\right)^{2}}
  • Siegela-Tukeya, obliczane według schematu:
y i = 1 {\displaystyle y_{i}=1} dla r i = 1 {\displaystyle r_{i}=1} y i = 2 {\displaystyle y_{i}=2} dla r i = n {\displaystyle r_{i}=n} y i = 3 {\displaystyle y_{i}=3} dla r i = n 1 {\displaystyle r_{i}=n-1} y i = 4 {\displaystyle y_{i}=4} dla r i = 2 {\displaystyle r_{i}=2} y i = 5 {\displaystyle y_{i}=5} dla r i = 3 {\displaystyle r_{i}=3} y i = 6 {\displaystyle y_{i}=6} dla r i = n 2 {\displaystyle r_{i}=n-2} y i = 7 {\displaystyle y_{i}=7} dla r i = n 3 {\displaystyle r_{i}=n-3} y i = 8 {\displaystyle y_{i}=8} dla r i = 4 {\displaystyle r_{i}=4} itd.
  • Ansari-Bradleya:
y i = n + 1 2 | r i n + 1 2 | {\displaystyle y_{i}={\frac {n+1}{2}}-\left|r_{i}-{\frac {n+1}{2}}\right|}
  • Mooda:
y i = ( r i n + 1 2 ) 2 {\displaystyle y_{i}=\left(r_{i}-{\frac {n+1}{2}}\right)^{2}}

Zobacz też | edytuj kod

Przypisy | edytuj kod

  1. Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.
  2. G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958.
  3. John W. Tukey. The Future of Data Analysis. „Annals of Mathematical Statistics”. 33, 22, 1962. 
  4. J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83.

Bibliografia | edytuj kod

  • Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948.
  • Pomoc do programu SAS
Na podstawie artykułu: "Ranga (statystyka)" pochodzącego z Wikipedii
OryginałEdytujHistoria i autorzy