Regresja liniowa


Regresja liniowa w encyklopedii

Z Wikipedii, wolnej encyklopedii Przejdź do nawigacji Przejdź do wyszukiwania Przykład danych z modelem liniowym dopasowanym metodą najmniejszych kwadratów.

Regresja liniowa – w modelowaniu statystycznym, metody oparte o liniowe kombinacje zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej y {\displaystyle y} przy konkretnych wartościach innej zmiennej lub zmiennych x . {\displaystyle x.} W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, np.

y = β 0 + β 1 x {\displaystyle y=\beta _{0}+\beta _{1}x} .

Zmienna y {\displaystyle y} jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne x {\displaystyle x} nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Model regresji liniowej | edytuj kod

Niech dany będzie zbiór danych zaobserwowanych { y i , x i 1 , , x i p } i = 1 n . {\displaystyle \{y_{i},\,x_{i1},\dots ,x_{ip}\}_{i=1}^{n}.} Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną y i {\displaystyle y_{i}} a wektorem p × 1 {\displaystyle p\times 1} regresorów x i . {\displaystyle \mathbf {x} _{i}.} Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) ε i , {\displaystyle \varepsilon _{i},} który jest zmienną losową. Dokładniej, model ten jest postaci

y i = β 0 1 + β 1 x i 1 + + β p x i p + ε i = x i β + ε i , i = 1 , , n , {\displaystyle y_{i}=\beta _{0}1+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\dots ,n,}

gdzie {\displaystyle ^{\top }} oznacza transpozycję, tj. x i β {\displaystyle \mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}} jest iloczynem skalarnym wektorów x i {\displaystyle \mathbf {x} _{i}} oraz β . {\displaystyle {\boldsymbol {\beta }}.}

Powyższe n {\displaystyle n} równań można zapisać w sposób macierzowy:

y = X β + ε , {\displaystyle \mathbf {y} =X{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},}

gdzie:

y = ( y 1 y 2 y n ) , X = ( x 1 x 2 x n ) = ( 1 x 11 x 1 p 1 x 21 x 2 p 1 x n 1 x n p ) , β = ( β 0 β 1 β 2 β p ) , ε = ( ε 1 ε 2 ε n ) . {\displaystyle \mathbf {y} ={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\qquad X={\begin{pmatrix}\mathbf {x} _{1}^{\top }\\\mathbf {x} _{2}^{\top }\\\vdots \\\mathbf {x} _{n}^{\top }\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{pmatrix}},\qquad {\boldsymbol {\beta }}={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{pmatrix}},\qquad {\boldsymbol {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.}

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do których należy m.in. regresja medianowa, i algorytmy z regularyzacją.

Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.

Testy oparte o model liniowy | edytuj kod

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji r {\displaystyle r} Pearsona, ANOVA czy test t {\displaystyle t} Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].

Poniższa tabela – oparta o pracę Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie D {\displaystyle D} reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, r a n g a ( ) {\displaystyle ranga()} to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a ϵ {\displaystyle \epsilon } to wyraz błędu.

Przypisy | edytuj kod

  1. W.J.W.J. Conover W.J.W.J., Ronald L.R.L. Iman Ronald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI10.2307/2683975, ISSN 0003-1305, JSTOR2683975 [dostęp 2019-03-29] .
  2. a b William W.W.W. Rozeboom William W.W.W., The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29]  (ang.).
  3. a b GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2019-03-29]  (ang.).
  4. AndrewA. Gelman AndrewA., Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29]  (ang.).
  5. 5: Fitting models to data, [w:] Russell A.R.A. Poldrack Russell A.R.A., Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] .
  6. William W.W.W. Rozeboom William W.W.W., Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L.L.L. Harlow, Stanley A.S.A. Mulaik, James H.J.H. Steiger (red.), What If There Were No Significance Tests?, 1997 .
  7. Jonas KristofferJ.K. Lindeløv Jonas KristofferJ.K., Common statistical tests are linear models (or: how to teach stats), Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29] .
Kontrola autorytatywna (Regresja):
Na podstawie artykułu: "Regresja liniowa" pochodzącego z Wikipedii
OryginałEdytujHistoria i autorzy