Rozkład prawdopodobieństwa


Rozkład prawdopodobieństwa w encyklopedii

Z Wikipedii, wolnej encyklopedii Przejdź do nawigacji Przejdź do wyszukiwania

Rozkład prawdopodobieństwamiara probabilistyczna określona na zbiorze wartości pewnej zmiennej losowej (wektora losowego), przypisująca prawdopodobieństwa wartościom tej zmiennej. Formalnie rozkład prawdopodobieństwa można rozpatrywać bez odwołania się do zmiennych losowych.

Spis treści

Definicja formalna | edytuj kod

Rozkład prawdopodobieństwa – to miara probabilistyczna P {\displaystyle P} określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni polskiej Y . {\displaystyle Y.} Dla rozkładów ciągłych jako przestrzeń polską wybiera się:

  • zbiór liczb rzeczywistych R {\displaystyle \mathbb {R} } (dla 1-wymiarowej zmiennej losowej),
  • przestrzeń euklidesowa R n {\displaystyle \mathbb {R} ^{n}} (dla n-wymiarowej zmiennej losowej).

Rozkład prawdopodobieństwa nazywamy jednowymiarowym, jeżeli zmienna losowa jest 1-wymiarowa, a wielowymiarowym, jeżeli zmienna losowa jest n-wymiarowa.

Zastosowanie zmiennych losowych | edytuj kod

Przestrzenią probabilistyczną nazywa się trójkę uporządkowaną, złożoną z: a) przestrzeni zdarzeń elementarnych Ω , {\displaystyle \Omega ,} b) określonego na niej σ-ciała F , {\displaystyle {\mathcal {F}},} którego elementy są nazywane zdarzeniami losowymi, c) miary probabilistycznej P , {\displaystyle P,} przyporządkowującej zdarzeniom liczby zwane prawdopodobieństwami.

Tak określone prawdopodobieństwo jest jednak niewygodne do badania, gdy Ω {\displaystyle \Omega } jest zbiorem bez zadanych jakichkolwiek relacji między jego elementami. Dlatego definiuje się funkcję zwaną zmienną losową, która przyporządkowuje elementom przestrzeni Ω {\displaystyle \Omega } elementy jakiejś przestrzeni mierzalnej Y {\displaystyle Y} o pożądanych właściwościach[1]. Najczęściej jako przestrzeń mierzalną wykorzystuje się przestrzeń euklidesową, tj. Y = R n , n N + . {\displaystyle Y=\mathbb {R} ^{n},n\in \mathbb {N} _{+}.} Wtedy zmienną losową nazywa się wektorem losowym.

Przeciwobraz każdego zbioru mierzalnego w Y {\displaystyle Y} jest zdarzeniem losowym. Podzbiory mierzalne przestrzeni Y {\displaystyle Y} tworzą σ-ciało, które oznaczać będziemy symbolem B ( Y ) . {\displaystyle {\mathcal {B}}(Y).} Ponieważ zmienna losowa nie musi być funkcją różnowartościową, więc ten sam zbiór mierzalny A B ( Y ) {\displaystyle A\in {\mathcal {B}}(Y)} można w ogólnym przypadku otrzymać z wielu różnych zdarzeń o różnych prawdopodobieństwach. Aksjomaty σ-ciała zapewniają, że wśród tych zdarzeń jest także ich suma i do niej jest przypisane największe prawdopodobieństwo. Suma ta jest równa przeciwobrazowi zbioru A , {\displaystyle A,} czyli X 1 ( A ) . {\displaystyle X^{-1}(A).}

Rozkład zmiennej losowej X {\displaystyle X} – to funkcja P X {\displaystyle P_{X}} określona na sigma ciele B ( Y ) {\displaystyle {\mathcal {B}}(Y)} taka że prawdopodobieństwo zdarzenia A B ( Y ) {\displaystyle A\in {\mathcal {B}}(Y)} jest równe prawdopodobieństwu przypisanemu przeciwobrazowi X 1 ( A ) {\displaystyle X^{-1}(A)} zdarzenia A : {\displaystyle A{:}}

P X ( A ) = P ( X 1 ( A ) ) . {\displaystyle P_{X}(A)=P(X^{-1}(A)).}

Rozkład P X {\displaystyle P_{X}} jest nową miarą probabilistyczną. Jest on w przestrzeni stanów Y {\displaystyle Y} odpowiednikiem miary probabilistycznej P . {\displaystyle P.}

Uwaga 1:

Zapis P X {\displaystyle P_{X}} gdzie X {\displaystyle X} jest zdarzeniem, a nie zmienną losową jest stosowany na oznaczenie prawdopodobieństwa warunkowego.

Uwaga 2:

Niżej omówiono rozkłady ciągłe i dyskretne. Oprócz nich istnieją także rozkłady nie mieszczące się w żadnej z tych kategorii – na przykład rozkład o dystrybuancie Cantora.

Rozkład ciągły | edytuj kod

 Osobne artykuły: ciągły rozkład prawdopodobieństwafunkcja gęstości prawdopodobieństwa.

Jeżeli istnieje funkcja f : Y 0 , ) , {\displaystyle f\colon Y\to [0,\infty ),} taka że

P ( A ) = A   f ( x ) d x {\displaystyle P(A)=\int \limits _{A}~f(x)dx}

(całka Lebesgue’a) dla dowolnego zbioru borelowskiego A B ( Y ) , {\displaystyle A\in {\mathcal {B}}(Y),} to funkcję tę nazywa się gęstością rozkładu prawdopodobieństwa (funkcją gęstości prawdopodobieństwa).

Nazwa pochodzi od intuicji fizycznych (zob. gęstość masy). O rozkładzie P {\displaystyle P} mającym gęstość mówi się, że jest ciągły (lub typu ciągłego).

Powyższa definicja jest poprawna dla dowolnych rozkładów prawdopodobieństwa, także wielowymiarowych – wówczas x {\displaystyle x} jest wektorem.

Rozkład P X {\displaystyle P_{X}} zmiennej losowej X {\displaystyle X} spełniający powyższe warunki definiuje się analogicznie. O zmiennej losowej również mówi się wówczas, iż jest ciągła (lub typu ciągłego).

Rozkład dyskretny | edytuj kod

 Osobne artykuły: dyskretny rozkład prawdopodobieństwafunkcja masy prawdopodobieństwa.

Rozkład P {\displaystyle P} nazywa się dyskretnym, jeśli jest skupiony na zbiorze przeliczalnym, tzn. istnieje zbiór (co najwyżej) przeliczalny S Y {\displaystyle S\subseteq Y} dla którego P ( S ) = 1. {\displaystyle P(S)=1.} Jeżeli

S = { s i : i I } {\displaystyle S=\{s_{i}\colon i\in I\}} oraz p i = P ( { s i } ) {\displaystyle p_{i}=P(\{s_{i}\})} dla każdego i I , {\displaystyle i\in I,}

to dla dowolnego zbioru borelowskiego A {\displaystyle A}

P ( A ) = P ( A S ) = i I   p i 1 A ( s i ) , {\displaystyle P(A)=P(A\cap S)=\sum _{i\in I}~p_{i}{\boldsymbol {1}}_{A}(s_{i}),}

gdzie 1 A {\displaystyle {\boldsymbol {1}}_{A}} to indykator (funkcja charakterystyczna) zbioru A . {\displaystyle A.}

Zatem zbiór par { ( s i , p i ) : i I } {\displaystyle \{(s_{i},p_{i})\colon i\in I\}} jednoznacznie wyznacza rozkład P . {\displaystyle P.} Stąd dowolny zbiór tej postaci, gdzie p i > 0 {\displaystyle p_{i}>0} oraz p i = 1 {\displaystyle \sum p_{i}=1} (co wynika z własności rozkładu), nazywa się czasami rozkładem (dyskretnym). Odwzorowanie s i p i , {\displaystyle s_{i}\mapsto p_{i},} oznaczane pmf ( s i ) = p i , {\displaystyle \operatorname {pmf} (s_{i})=p_{i},} nosi nazwę funkcji masy prawdopodobieństwa i jest ono dyskretnym odpowiednikiem gęstości prawdopodobieństwa.

Dyskretna zmienna losowa X {\displaystyle X} to zmienna losowa o rozkładzie dyskretnym. Wówczas można go zdefiniować podobnie jak wyżej równością

P X ( { x i } ) = P ( X 1 ( A ) ) , {\displaystyle P_{X}(\{x_{i}\})=P(X^{-1}(A)),}

jednakże w tym wypadku zachodzi dodatkowo

P ( X 1 ( A ) ) = P ( { ω Ω : X ( ω ) = x i } ) =   o z n P ( X = x i ) =   o z n pmf X ( x i ) , {\displaystyle P(X^{-1}(A))=P(\{\omega \in \Omega \colon X(\omega )=x_{i}\}){\overset {\underset {\mathrm {ozn} }{\ }}{=}}P(X=x_{i}){\overset {\underset {\mathrm {ozn} }{\ }}{=}}\operatorname {pmf} _{X}(x_{i}),}

gdzie { x i } i I {\displaystyle \left\{x_{i}\right\}_{i\in I}} jest zbiorem wszystkich wartości przyjmowanych przez zmienną X . {\displaystyle X.}

Dystrybuanta rozkładu jednowymiarowego | edytuj kod

 Osobny artykuł: dystrybuanta.

Dystrybuantą jednowymiarowego rozkładu prawdopodobieństwa P {\displaystyle P} nazywa się funkcję F P : R R , {\displaystyle F_{P}\colon \mathbb {R} \to \mathbb {R} ,} zdefiniowana wzorem:

F P ( t ) = P ( ( , t ) . {\displaystyle F_{P}(t)=P((-\infty ,t]).}

Dystrybuanta rozkładu zmiennej losowej X , {\displaystyle X,} to dystrybuanta F P X , {\displaystyle F_{P_{X}},} oznaczana zwykle symbolem F X , {\displaystyle F_{X},} otrzymana z rozkładu tej zmiennej losowej:

F X ( t ) = P X ( { x : x t } ) {\displaystyle F_{X}(t)=P_{X}(\{x\colon x\leqslant t\})}

Jeśli rozkład P {\displaystyle P} ma gęstość f , {\displaystyle f,} jego dystrubuanta F P {\displaystyle F_{P}} wyraża się wzorem:

F P ( t ) = t   f ( x ) d x . {\displaystyle F_{P}(t)=\int \limits _{-\infty }^{t}~f(x)dx.}

Dystrybuanta w pełni wyznacza rozkład, tzn. dwie zmienne o tej samej dystrybuancie muszą mieć ten sam rozkład; obrazuje to poniższy przykład.

Przykłady | edytuj kod

1) Niech Ω 1 = { O , R } {\displaystyle \Omega _{1}=\{\mathrm {O} ,\mathrm {R} \}} będzie przestrzenią zdarzeń elementarnych doświadczenia polegającego na rzucie monetą, które może z jednakowym prawdopodobieństwem dać dwa wyniki: orła i reszkę, tj.

P ( O ) = 1 2 {\displaystyle P(\mathrm {O} )={\tfrac {1}{2}}} oraz P ( R ) = 1 2 . {\displaystyle P(\mathrm {R} )={\tfrac {1}{2}}.}

Jeżeli zmienna X : Ω 1 R {\displaystyle X\colon \Omega _{1}\to \mathbb {R} } jest określona równościami

X ( O ) = 1 {\displaystyle X(\mathrm {O} )=-1} oraz X ( R ) = 1 , {\displaystyle X(\mathrm {R} )=1,}

to jej rozkład P X {\displaystyle P_{X}} jest określony następująco:

P ( X A ) = { 0 , dla  A = R { 1 , 1 } , 1 2 , dla  A = { 1 }  lub  A = { 1 } , 1 , dla  A = { 1 , 1 } , {\displaystyle P(X\in A)={\begin{cases}0,&{\mbox{dla }}A=\mathbb {R} \setminus \{-1,1\},\\{\tfrac {1}{2}},&{\mbox{dla }}A=\{-1\}{\mbox{ lub }}A=\{1\},\\1,&{\mbox{dla }}A=\{-1,1\},\end{cases}}}

a funkcja masy prawdopodobieństwa ma postać:

P ( X = x ) = { 0 , dla  x 1    i      x 1 , 1 2 , dla  x = 1  lub  x = 1. {\displaystyle P(X=x)={\begin{cases}0,&{\mbox{dla }}x\neq -1\ {\mbox{ i }}\ \ x\neq 1,\\{\tfrac {1}{2}},&{\mbox{dla }}x=-1{\mbox{ lub }}x=1.\end{cases}}}

Oznacza to, że zmienna losowa X {\displaystyle X} odwzorowuje zdarzenia

Ω 1 O 1 R X ( O ) = 1 , {\displaystyle \Omega _{1}\ni \mathrm {O} \mapsto -1\in \mathbb {R} \iff X(\mathrm {O} )=-1,} Ω 1 R     1 R X ( R ) =     1 {\displaystyle \Omega _{1}\ni \mathrm {R} \mapsto \,\ \ 1\in \mathbb {R} \iff X(\mathrm {R} )=\,\ \ 1}

oraz zachowuje prawdopodobieństwo określone na ( Ω 1 , F ) {\displaystyle (\Omega _{1},{\mathcal {F}})} przekształcając je w rozkład określony na ( R , B ( R ) ) . {\displaystyle (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} )).}

Z definicji dystrybuanty wynika, iż prawdopodobieństwo zdarzenia

A = { ω Ω : a < X ( ω ) b } =   o z n { a < X b } {\displaystyle A=\{\omega \in \Omega \colon a<X(\omega )\leqslant b\}{\overset {\underset {\mathrm {ozn} }{\ }}{=}}\{a<X\leqslant b\}}

dane jest wzorem

P ( X A ) = P ( a < X b ) = F X ( b ) F X ( a ) . {\displaystyle P(X\in A)=P(a<X\leqslant b)=F_{X}(b)-F_{X}(a).}

Dystrybuanta zmiennej X {\displaystyle X} to funkcja F X : R 0 , 1 {\displaystyle F_{X}\colon \mathbb {R} \to [0,1]} określona wzorem

F X ( t ) = { 0 , dla  t 1 , 1 2 , dla  1 < t 1 , 1 , dla  t > 1. {\displaystyle F_{X}(t)={\begin{cases}0,&{\mbox{dla }}t\leqslant -1,\\{\tfrac {1}{2}},&{\mbox{dla }}-1<t\leqslant 1,\\1,&{\mbox{dla }}t>1.\end{cases}}}

2) Niech Ω 2 = { O , R , K } {\displaystyle \Omega _{2}=\{\mathrm {O} ,\mathrm {R} ,\mathrm {K} \}} będzie przestrzenią zdarzeń elementarnych rzutu monetą, wyżej opisanego, przy czym dodatkowo uwzględnimy upadek na kant, który prawie na pewno się nie zdarzy. Jeżeli

P ( O ) = P ( R ) = 1 2 {\displaystyle P(\mathrm {O} )=P(\mathrm {R} )={\tfrac {1}{2}}} oraz P ( K ) = 0 , {\displaystyle P(\mathrm {K} )=0,}

to zmienna losowa Y : Ω 2 R {\displaystyle Y\colon \Omega _{2}\to \mathbb {R} } określona równościami

Y ( O ) = 1 , Y ( R ) = 1 {\displaystyle Y(\mathrm {O} )=-1,Y(\mathrm {R} )=1} oraz Y ( K ) = 7 , {\displaystyle Y(\mathrm {K} )=7,}

ma taki sam rozkład P Y {\displaystyle P_{Y}} (oraz funkcję masy) co zmienna X {\displaystyle X} określona wyżej, mimo iż są one różne.

Także dystrybuanta F Y {\displaystyle F_{Y}} zmiennej Y {\displaystyle Y} dana jest tym samym wzorem co dystrybuanta F X {\displaystyle F_{X}} zmiennej X . {\displaystyle X.}

Dystrybuanta rozkładu wielowymiarowego | edytuj kod

 Osobny artykuł: dystrybuanta.

Jeśli X {\displaystyle X} jest wektorem losowym, tzn. X : Ω R n , {\displaystyle X\colon \Omega \to \mathbb {R} ^{n},} to rozważa się wówczas przedziały wielowymiarowe, tzn. zbiory będące iloczynami kartezjańskimi przedziałów, mające postać

( , t 1 × ( , t 2 × × ( , t n . {\displaystyle (-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \dots \times (-\infty ,t_{n}].}

Dystrybuanta F P : R n R {\displaystyle F_{P}\colon \mathbb {R} ^{n}\to \mathbb {R} } ma postać

F P ( t 1 , t 2 , , t n ) = P ( ( , t 1 × ( , t 2 × × ( , t n ) . {\displaystyle F_{P}(t_{1},t_{2},\dots ,t_{n})=P((-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \dots \times (-\infty ,t_{n}]).}

Stosuje się następujący zapis dystrybuanty rozkładu zmiennej losowej:

F X ( t 1 , t 2 , , t n ) = P ( { X : X 1 t 1 X 2 t 2 X n t n } ) , {\displaystyle F_{X}(t_{1},t_{2},\dots ,t_{n})=P(\{X\colon X_{1}\leqslant t_{1}\wedge X_{2}\leqslant t_{2}\wedge \dots \wedge X_{n}\leqslant t_{n}\}),}

gdzie X = ( X 1 , X 2 , , X n ) . {\displaystyle X=(X_{1},X_{2},\dots ,X_{n}).}

Oznaczając t = ( t 1 , t 2 , , t n ) {\displaystyle t=(t_{1},t_{2},\dots ,t_{n})} powyższy wzór można zapisać w skrócie

F X ( t ) = P ( X t ) . {\displaystyle F_{X}(t)=P(X\leqslant t).}

Jeśli rozkład wielowymiarowy P {\displaystyle P} ma gęstość f , {\displaystyle f,} jego dystrybuanta F P {\displaystyle F_{P}} wyraża się za pomocą całki Lebesgue’a:

F P ( t ) = ( , t 1 × ( , t 2 × × ( , t n f ( t ) d t , {\displaystyle F_{P}(t)\qquad \,=\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\int \limits _{(-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \dots \times (-\infty ,t_{n}]}\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!f(t)dt,}

co można zapisać w prostszej wersji (ale tylko wtedy, gdy całkę Lebesgue’a da się rozbić w poniższy sposób):

F P ( t ) = t 1 t 2 t n f ( t 1 , t 2 , , t n ) d t n d t 2 d t 1 . {\displaystyle F_{P}(t)=\int \limits _{-\infty }^{t_{1}}\int \limits _{-\infty }^{t_{2}}\cdots \int \limits _{-\infty }^{t_{n}}f(t_{1},t_{2},\dots ,t_{n})dt_{n}\dots dt_{2}dt_{1}.}

Rozkład osobliwy | edytuj kod

Df. Zmienna losowa X {\displaystyle X} ma rozkład osobliwy (singularny), jeśli ma ciągłą dystrybuantę oraz istnieje zbiór A R , {\displaystyle A\subseteq \mathbb {R} ,} taki że ma on zerową miarę Lebesgue’a λ ( A ) {\displaystyle \lambda (A)} i jednostkowy rozkład prawdopodobieństwa P ( A ) , {\displaystyle P(A),} tzn.

λ ( A ) = 0 {\displaystyle \lambda (A)=0} oraz P ( A ) = 1. {\displaystyle P(A)=1.}

Rozkład arytmetyczny | edytuj kod

Df. Rozkładami arytmetycznymi nazywa się rozkłady skoncentrowane na zbiorze punktów postaci k c , {\displaystyle kc,} gdzie k Z . {\displaystyle k\in \mathbb {Z} .}

Tw. To, iż rozkład P {\displaystyle P} jest skupiony na zbiorze { 2 π k t : k Z } {\displaystyle \left\{{\tfrac {2\pi k}{t}}\colon k\in \mathbb {Z} \right\}} jest równoważne temu, iż jego funkcja charakterystyczna φ {\displaystyle \varphi } ma okres równy t {\displaystyle t} bądź φ ( t ) = 1 {\displaystyle \varphi (t)=1} dla pewnego t 0. {\displaystyle t\neq 0.}

Analizując funkcje charakterystyczne można stwierdzić, że arytmetyczne są rozkłady:

geometryczny, Bernoulliego i Poissona.

Rozkłady jedno- i dwupunktowe są przesuniętymi rozkładami arytmetycznymi.

Popularne rozkłady | edytuj kod

Rozkłady ciągłe | edytuj kod

Wybrane rozkłady gęstości prawdopodobieństwa:
f N ( x ) {\displaystyle f_{N}(x)} rozkład normalny,
f E ( x ) {\displaystyle f_{E}(x)} rozkład wykładniczy,
f R ( x ) {\displaystyle f_{R}(x)} rozkład jednostajny,
f T ( x ) {\displaystyle f_{T}(x)} rozkład trójkątny,
f D ( x ) {\displaystyle f_{D}(x)} – rozkład delty Diraca dla zmiennej pewnej.  Osobny artykuł: ciągły rozkład prawdopodobieństwa.

Rozkłady dyskretne | edytuj kod

 Osobny artykuł: dyskretny rozkład prawdopodobieństwa.

Pozostałe | edytuj kod

Statystyka | edytuj kod

Jeśli mamy na myśli rzeczywiste prawdopodobieństwa wystąpienia danej wartości cechy w populacji, to mówimy o rozkładzie w populacji. Jeśli mamy na myśli prawdopodobieństwa wystąpienia danej cechy wyznaczone podczas badania statystycznego, to mówimy o rozkładzie empirycznym.

Zobacz też | edytuj kod

Przypisy | edytuj kod

  1. Ściślej musi to być funkcja F / B ( Y ) {\displaystyle {\mathcal {F}}/{\mathcal {B}}(Y)} -mierzalna, gdzie B ( Y ) {\displaystyle {\mathcal {B}}(Y)} jest rodziną podzbiorów borelowskich przestrzeni Y . {\displaystyle Y.} Jako Y {\displaystyle Y} zwykle wybiera się jedną z tzw. przestrzeni polskich, do których zaliczają się w szczególności przestrzenie euklidesowe.
Kontrola autorytatywna (model statystyczny):
Na podstawie artykułu: "Rozkład prawdopodobieństwa" pochodzącego z Wikipedii
OryginałEdytujHistoria i autorzy