Rachunek Prawdopodobieństwa I

Wykład z Rachunku Prawdopodobieństwa I Adam Osękowski

Wprowadzenie

Wprowadzenie

Celem niniejszego wstępu jest przedstawienie krótkiego rysu historycznego oraz naszkicowanie intuicji związanych z formalną definicją prawdopodobieństwa; Czytelnik, który od razu chce przejść do ścisłych rozważań, może opuścić ten fragment tekstu i przejść do Rozdziału 1.

Rachunek prawdopodobieństwa jest dziedziną, która towarzyszy ludzkości już od czasów starożytnych (pojęcie szansy, czy też ryzyka, pojawia się w sposób naturalny w kontekście gier hazardowych). Historia związana z rozwojem tej dziedziny zasługuje na osobną monografię, ograniczymy się więc tylko do podania bardzo podstawowych informacji na ten temat. Pierwsze próby formalnego, matematycznego podejścia do tej dziedziny datuje się na XV wiek: w 1494 roku pojawił się podręcznik L. Paccioli Summa de arithmetica, geometria, proportioni e proportionalita, którego fragmenty dotyczą rachunku prawdopodobieństwa. W XVI wieku G. Cardano, zainspirowany tym dziełem, napisał książkę pt. Liber de Ludo Aleae, poświęconą grom losowym. Dalszy rozwój dziedziny nastąpił w związku z ożywioną korespondencją P. Fermata i B. Pascala dotyczącą tzw. sprawiedliwego podziału stawki (połowa XVII wieku). Wśród wielu znakomitych matemayków, którzy kontynuowali badania nad rachunkiem prawdopodobieństwa i jego zastosowaniami, należy wymienić m.in. J. Bernoulliego (Ars Conjectandi, 1713 rok), A. de Moivre'a (The Doctrine of Changes, 1718 rok), Laplace'a (Th\'eorie analytique des probabilit\'es, 1812 rok), wspomnieć należy także o pracach L. Boltzmanna oraz J. W. Gibbsa poświęconych mechanice statystycznej (koniec XIX wieku). Co ciekawe, aż do połowy XX wieku pojęcie prawdopodobieństwa nie było do końca sprecyzowane. Prowadziło to do wielu niewygodnych i nieoczekiwanych paradoksów (m.in. paradoksu J. Bertranda z końca XIX wieku, por. Rozdział 1 poniżej), które podważały sensowność traktowania rachunku prawdopodobieństwa jako dziedziny matematyki. Problemy te zniknęły w momencie podania ścisłej aksjomatyki przez A. Kolmogorowa w 1933 roku; rok ten można uznać za początek nowoczesnego podejścia do dziedziny. Warto tu zaznaczyć, iż aksjomaty Kołmogorowa definiują prawdopodobieństwo jako miarę unormowaną na przestrzeni mierzalnej; w związku z tym, w latach czterdziestych i pięćdziesiątych przeważało przeświadczenie, iż teoria prawdopodobieństwa jest w gruncie rzeczy szczególnym przypadkiem teorii miary tudzież statystyki. Dopiero prace J. L. Dooba z tego okresu, wprowadzające innowacyjny aparat pojęć i argumentów, pozwoliły na ukonstytuowanie rachunku prawdopodobieństwa jako odrębnego i niezależnego działu matematyki.

Na tym kończymy krótki rys historyczny i przechodzimy do zilustrowania podstawowych problemów, które pojawiają się przy analizie nawet najprostszych zagadnień. Podane tu rozważania będą miały charakter nieprecyzyjny, formalne definicje pojawią się w następnym rozdziale. Rozpocznijmy od następującego prostego zadania. Załóżmy, że rzucamy raz monetą i interesuje nas szansa uzyskania orła. Analizę rozpoczynamy od wypisania wszystkich możliwych wyników, które możemy otrzymać. W naszym przypadku wyniki są dwa: możemy wyrzucić orła (,,O'') lub wyrzucić reszkę (,,R''); zbiór tych wyników oznaczmy literą $ \Omega $. Wynikom tym odpowiadają szanse ich uzyskania, $ p_{O} $ oraz $ p_{R} $, które są liczbami z przedziału $ [0,1] $ spełniającymi warunek $ p_O+p_R=1 $. W jaki sposób wyznaczyć te liczby? Jasne jest, że musimy coś więcej wiedzieć na temat monety, którą wykonujemy rzut. Łatwo sobie wyobrazić sytuację, że moneta jest tak wyważona, że zawsze wypada orłem do góry; wówczas wypadnięcie orła jest zdarzeniem pewnym, a wypadnięcie reszki - zdarzenieniem niemożliwym. W takiej specjalnej sytuacji kładziemy $ p_O=1 $, $ p_R=0 $. Podobnie, jeśli moneta zawsze wypada reszką do góry, wówczas musimy przyjąć $ p_O=0 $, $ p_R=1 $; tak więc bez dodatkowych informacji dotyczących ,,fizycznych'' własności monety nie możemy nic powiedzieć o szansach $ p_O $ i $ p_R $. W wielu typowych przykładach przyjmuje się, że moneta jest ,,prawidłowa'' (czasami używa się też terminu ,,symetryczna''), tzn. zarówno orzeł jak i reszka mają tę samą szansę na wypadnięcie. Wówczas $ p_O=p_R $ i warunek $ p_O+p_R=1 $ oznacza, iż każdy z tych wyników ma prawdopodobieństwo $ 1/2 $.

Odpowiedź, którą właśnie uzyskaliśmy (w przypadku symetrycznym) posiada bardzo wygodną interpretację w kontekście ,,częstościowym''. Mianowicie, w celu wyznaczenia prawdopodobieństwa uzyskania orła, mogliśmy postępować inaczej. Rzućmy ustaloną monetą wielokrotnie, powiedzmy, 10000 razy, i policzmy, ile razy uzyskaliśmy orła. Naturalnie jest przyjąć, że prawdopodobieństwo uzyskania orła powinno być zbliżone do ilorazu

$$ \frac{\mbox{liczba rzutów w których uzyskaliśmy orła}}{10000}.$$

W praktyce okazuje się, że liczba otrzymanych orłów (uzyskiwanych w seriach rzutów po 10000 razy) oscyluje wokół $ 5000 $, a więc powyższy iloraz jest zbliżony do $ 1/2 $. Jak już zaznaczyliśmy wcześniej, jest to związane z częstościową interpretacją prawdopodobieństwa (a także tzw. prawami wielkich liczb); będziemy to ściślej badać w dalszej części skryptu.

Rozważmy teraz nieco bardziej złożony przykład. Załóżmy, że rzucamy raz kostką do gry i interesuje nas prawdopodobieństwo uzyskania dokładnie trzech oczek na wierzchniej ściance. Tak jak w poprzednim przykładzie, zaczynamy od wypisania wszystkich możliwych wyników doświadczenia; możemy otrzymać jedno, dwa, trzy, cztery, pięć lub sześć oczek, a więc przyjmujemy $ \Omega=\{1,2,3,4,5,6\} $. Każdemu wynikowi $ j\in \Omega $ odpowiada jego szansa $ p_j $; liczby $ p_1 $, $ p_2 $, $ \ldots $, $ p_6 $ są nieujemne i dają w sumie $ 1 $. Jest oczywiste, iż nie możemy powiedzieć nic więcej na temat tych liczb, jeśli nie wiemy nic o fizycznych własnościach kostki (przykładowo, może być ona tak wyważona, że zawsze wypada sześć oczek; wówczas $ p_1=p_2=\ldots=p_5=0 $, $ p_6=1 $). W wielu konkretnych zagadnieniach przyjmuje się, że kostka jest prawidłowa, tzn. $ p_1=p_2=\ldots=p_6 $. Wówczas warunek $ p_1+p_2+\ldots+p_6=1 $ wymusza równość $ p_1=p_2=\ldots=p_6=1/6 $. Warto jeszcze zaznaczyć, iż rozważane tu doświadczenie dopuszcza szereg innych naturalnych pytań. Przykładowo, możemy się zastanawiać, jaka jest szansa uzyskania liczby oczek podzielnej przez trzy; uzyskania liczby oczek niemniejszej od czterech; itp.. W pierwszym z tych pytań interesuje nas prawdopodobieństwo tego, że wynik będzie należał do zbioru $ \{3,6\} $; w drugim, do zbioru $ \{4,5,6\} $; w ogólności, każde pytanie wiąże się z pewnym podzbiorem zbioru $ \Omega $ (takie podzbiory będziemy nazywać zdarzeniami). Aby podać odpowiedzi, sumujemy prawdopodobieństwa odpowiadające ,,pojedynczym'' wynikom należącym do tych zbiorów. Tak więc w pierwszym przypadku otrzymujemy szansę $ 1/6+1/6=1/3 $, a w drugim $ 1/6+1/6+1/6=1/2 $.

W kolejnym przykładzie komplikujemy nieco doświadczenie i rozważamy dwukrotny rzut kostką. Przypuśćmy, iż chcemy wyznaczyć prawdopodobieństwo tego, że w obu rzutach uzyskamy tę samą liczbę oczek. Tym razem pojedynczym wynikiem doświadczenia jest para liczb $ (i,j) $, $ i,\,j\in \{1,2,3,4,5,6\} $ (pierwszym elementem pary jest liczba oczek uzyskana w pierwszym rzucie monetą, a drugim elementem pary - liczba oczek w drugim rzucie). Zbiór $ \Omega $ złożony ze wszystkich takich par jest więc zbiorem $ 36 $-elementowym i jeśli tylko kostka jest prawidłowa, to każdy wynik ma to samo prawdopodobieństwo $ 1/36 $. W rozważanym przykładzie interesuje nas prawdopodobieństwo tego, że uzyskana para liczb będzie należała do zbioru $ \{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)\} $. Zdarzenie to ma sześć elementów, z których każdy ma szansę $ 1/36 $; wobec tego, odpowiedź brzmi $ 6\cdot 1/36=1/6 $.

Przejdźmy teraz do kolejnego przykładu. Rozważmy urnę zawierającą jedną białą kulę, dwie czarne i trzy zielone. Jaka jest szansa, że losując kulę jedną kulę z urny, wyciągniemy kulę zieloną? Przedstawimy dwa rozumowania prowadzące do odpowiedzi. Jak wcześniej, zacznijmy od ,,technicznego'' założenia dotyczącego kul: zakładamy, że mają one ten sam rozmiar i są dokładnie wymieszane (chodzi o to, żeby każda z nich miała tę samą szansę na wyciągnięcie). Mamy trzy możliwe wyniki: wyciągnięcie kuli białej (,,B''), czarnej (,,C'') lub zielonej (,,Z''), tak więc przyjmujemy $ \Omega=\{B,C,Z\} $. Zwróćmy teraz uwagę na to, iż w przeciwieństwie do poprzednich przykładów, prawdopodobieństwa $ p_B $, $ p_C $, $ p_Z $ odpowiadające tym wynikom nie są równe. Ponieważ kul czarnych jest dwa razy więcej niż białych, spodziewamy się, iż szansa na wyciągnięcie kuli czarnej będzie dwa razy większa niż wyciągnięcie kuli białej: $ p_C=2p_B $. Podobnie otrzymujemy tożsamość $ p_Z=3p_B $, co w połączeniu z równością $ p_B+p_C+p_Z=1 $ daje $ p_B=1/6 $, $ p_C=1/3 $ oraz $ p_Z=1/2 $. Tak więc odpowiedź brzmi: $ 1/2 $.

Drugi sposób rozwiązania powyższego zagadnienia polega na wprowadzeniu odcieni kolorów; innymi słowy, umawiamy się, iż w obrębie ustalonego koloru kule różnią się nieco barwą. W tym momencie, jeśli losujemy jedną kulę z urny, mamy sześć możliwych wyników: $ \Omega=\{B,C_1,C_2,Z_1,Z_2,Z_3\} $. Teraz jednak każdy z nich odpowiada dokładnie jednej kuli, a więc pojedyncze wyniki są równoprawdopodobne. Stąd $ p_B=p_{C_1}=p_{C_2}=p_{Z_1}=p_{Z_2}=p_{Z_3}=1/6 $; interesuje nas szansa tego, że wynik będzie należał do zbioru $ \{Z_1,Z_2,Z_3\} $, a więc odpowiedź to $ 3\cdot 1/6=1/2 $.

W kolejnym przykładzie zbiór potencjalnych wyników doświadczenia będzie nieskończony (lecz przeliczalny). Mianowicie, załóżmy, że rzucamy prawidłową monetą aż do momentu wypadnięcia orła. Jaka jest szansa, że rzucimy co najwyżej pięć razy? Jak wyżej, rozpoczynamy od wypisania wszystkich możliwych wyników doświadczenia. Nasz eksperyment losowy polega na rzucaniu monetą aż do chwili uzyskania orła, a więc pojedynczy wynik to ciąg reszek zakończony orłem; przykładowo, ciąg $ (R,R,R,R,R,O) $ oznacza, że pięć razy wyrzuciliśmy reszkę, a za szóstym wypadł orzeł. Tak więc

$$ \Omega=\{(O),(R,O),(R,R,O),(R,R,R,O),\ldots\}$$

i zbiór ten jest nieskończony. Spróbujmy teraz wyznaczyć szansę $ p_{(R,R,\ldots,R,O)} $ wyniku $ (R,R,\ldots,R,O) $, gdzie w ciągu jest dokładnie $ k $ reszek ($ k $ jest ustaloną liczbą całkowitą nieujemną). Jest raczej oczywiste, że w przeciwieństwie do trzech pierwszych przykładów, różne wyniki mają różne prawdopodobieństwa: np. liczba $ p_{(O)} $ jest większa niż $ p_{(R,R,R,O)} $. Aby obliczyć $ p_{(R,R,\ldots,R,O)} $, spójrzmy na nieco inne doświadczenie: rozważmy $ k+1 $-krotny rzut monetą i zastanówmy się, jaka jest szansa, że pierwszego orła otrzymamy w ostatnim rzucie. Jest w miarę jasne, iż prawdopodobieństwo to jest równe szukanej liczbie $ p_{(R,R,\ldots,R,O)} $. Przewaga tego zmodyfikowanego eksperymentu tkwi w tym, że posiada on skończoną liczbę wyników: rzucamy $ k+1 $ razy, a więc

$$ \overline{\Omega}=\big\{(a_1,a_2,\ldots,a_{k+1}):a_i\in \{O,R\},\,i=1,\,2,\,\,\ldots,\,k+1\big\},$$

i każdy ciąg ma tę samą szansę. Skoro $ \overline{\Omega} $ ma $ 2^{k+1} $ elementów, to wnosimy stąd, że szukane prawdopodobieństwo w wyjściowym doświadczeniu wynosi

$$ p_{(R,R,\ldots,R,O)}=\frac{1}{2^k}.$$

W zadaniu interesuje nas prawdopodobieństwo tego, że rzucimy co najwyżej pięć razy, czyli szansa zdarzenia

$$ \{(O),(R,O),(R,R,O),(R,R,R,O),(R,R,R,R,O)\}.$$

Prawdopodobieństwo wynosi więc

$$p_{(O)}+p_{(R,O)}+p_{(R,R,O)}+p_{(R,R,R,O)}+p_{(R,R,R,R,O)}=\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\frac{1}{16}+\frac{1}{32}=\frac{31}{32}.$$

Ostatni przykład będzie miał nieco bardziej złożony charakter. Załóżmy, że losujemy liczbę z przedziału $ [-1,2] $ i chcemy wyznaczyć prawdopodobieństwo tego, że wyciągniemy liczbę większą niż $ 1 $. Jak wcześniej, rozpoczynamy analizę od podania zbioru wszystkich możliwych wyników doświadczenia: $ \Omega=[-1,2] $. Zwróćmy uwagę, iż zbiór $ \Omega $ jest nieskończony, a nawet nieprzeliczalny (jest to źródłem pewnych technicznych komplikacji, patrz Rozdział 1 poniżej). Interesujące nas zdarzenie - wylosowanie liczby większej niż $ 1 $ - odpowiada przedziałowi $ [1,2] $. W jaki sposób wyznaczyć prawdopodobieństwo tego zdarzenia?

Tak jak w poprzednich przykładach, nie można udzielić odpowiedzi bez dodatkowej wiedzy w jaki sposób przeprowadzone jest losowanie (odpowiedź może być niejednoznaczna). Przykładowo, losowanie może odbywać się następująco: wykonujemy najpierw rzut prawidłową monetą, a następnie wybieramy $ 0 $ jeśli wypadł orzeł, i $ 1 $ jeśli wypadła reszka. Inny przykład: rzucamy prawidłową kostką, a następnie uzyskaną liczbę oczek dzielimy przez $ 3 $. Jak łatwo widać, w obu tych przykładach losujemy liczbę z odcinka $ [-1,2] $ (można nawet powiedzieć więcej: w pierwszym przypadku losujemy liczbę ze zbioru $ \{0,1\} $, a w drugim - ze zbioru $ \{1/3,2/3,\ldots,2\} $). Czytelnik z łatwością ułoży inne, bardziej skomplikowane doświadczenia, których wyniki należą do zbioru $ [-1,2] $.

Musimy więc doprecyzować badane zagadnienie. Pisząc ,,losujemy punkt z odcinka $ [-1,2] $'' (bez żadnej dodatkowej informacji), najczęściej mamy z grubsza na myśli, iż wylosowana liczba ,,ma tę samą szansę na pojawienie się w każdej części odcinka''. Ściślej, oznacza to, iż prawdopodobieństwo uzyskania wyniku należącego do ustalonego podzbioru $ A\subset \Omega $ jest proporcjonalne do miary Lebesgue'a tego podzbioru: prawdopodobieństwo $ A $ wynosi $ c|A| $ dla pewnej stałej $ c $ zależącej tylko od $ \Omega $. Aby wyznaczyć tę stałą, podstawiamy $ A=\Omega $. Jest to zdarzenie pewne (każdy wylosowany punkt, rzecz jasna, należy do $ \Omega $), a więc posiada prawdopodobieństwo $ 1 $. Otrzymujemy stąd $ 1=\mbox{prawdopodobieństwo }\Omega=c|\Omega| $, czyli $ c=1/|\Omega| $ i

$$ \mbox{prawdopodobieństwo }A=\frac{|A|}{|\Omega|}.$$

Wobec tego, wracając do naszego konkretnego przykładu, otrzymujemy odpowiedź $ |[1,2]|/|[-1,2]|=1/3 $.

Aksjomatyka Rachunku Prawdopodobieństwa

Aksjomatyka Rachunku Prawdopodobieństwa

Celem tego rozdziału jest formalne wprowadzenie podstawowych pojęć z teorii prawdopodobieństwa i zbadanie ich podstawowych własności. Przypuśćmy, że wykonujemy pewien eksperyment losowy. Powstaje natychmiast pytanie: w jaki sposób opisać go matematycznie?

Jak to czyniliśmy we wstępie, na pewno możemy mówić o jego potencjalnych ,,najdrobniejszych'' wynikach, które będziemy nazywać zdarzeniami elementarnymi. Zbiór wszystkich zdarzeń elementarnych oznaczamy literą $ \Omega $, a do oznaczenia zdarzeń elementarnych będziemy zazwyczaj używać litery $ \omega $.

Przykłady:

1. Rzut monetą: możliwe dwa wyniki: $ \Omega=\{O,R\}. $

2. Rzut kostką: możliwe sześć wyników: $ \Omega=\{1,2,3,4,5,6\} $.

Jak widzieliśmy w poprzednim rozdziale, często nie interesuje nas tyle konkretny wynik $ \omega $, ale raczej to, czy należy on do wcześniej ustalonego podzbioru zbioru $ \Omega $. Takie podzbiory nazywamy zdarzeniami i oznaczamy literami $ A $, $ B $, $ C $, $ \ldots $.

Przykłady, c.d.:

3. Rzucamy dwa razy kostką, $ A $ - suma oczek wynosi $ 4 $. Wówczas

$$\Omega=\big\{(i,j): i,\,j\in \{1,2,3,4,5,6\}\big\}\quad \mbox{ i }\quad A=\{(1,3),(2,2), (3,1)\}.$$

4. Rzucamy monetą aż do wypadnięcia orła, $ A $ - wykonano co najwyżej trzy rzuty. Pojedyncze doświadczenie sprowadza się do ciągu rzutów monetą, zakończonego w momencie uzyskania orła. Jako pojedynczy wynik możemy więc wziąć ciąg wyników uzyskanych w kolejnych rzutach:

$$ \Omega=\big\{(O),(R,O),(R,R,O),(R,R,R,O),\ldots\big\}.$$

Wówczas interesujące nas zdarzenie odpowiada podzbiorowi

$$ A=\big\{(O),(R,O),(R,R,O)\big\}.$$

5. Obrót tarczy w ruletce, $ A $ - strzałka zatrzymuje się w drugiej ćwiartce. Wówczas $ \Omega=[0,2\pi) $ i $ A=[\pi/2,\pi]. $

Szczególne zdarzenia, interpretacje działań i relacji na zdarzeniach:

  • $ \Omega $ - zdarzenie pewne,
  • $ \emptyset $ - zdarzenie niemożliwe,
  • $ A \cap B $ - zaszły oba zdarzenia $ A $, $ B $,
  • $ A \cap B=\emptyset $ - zdarzenia się wykluczają (są rozłączne),
  • $ A \cup B $ - zaszło $ A $ lub $ B $,
  • $ A' $ - nie zaszło $ A $ ($ A' $ nazywamy zdarzeniem przeciwnym do $ A $, bądź dopełnieniem zbioru $ A $),
  • $ A \setminus B=A \cap B' $ - zaszło $ A $ i nie zaszło $ B $,
  • $ A \subseteq B $ - $ A $ pociąga za sobą $ B $.\\

Przejdźmy teraz do kolejnego ważnego zagadnienia. Załóżmy, że $ \Omega $ jest ustalonym zbiorem i spróbujmy się zastanowić, jakie podzbiory $ \Omega $ będą/mogą nas interesować w dalszych rozważaniach; klasę tych ,,dopuszczalnych'' podzbiorów oznaczmy przez $ \F $. Na pierwszy rzut oka problem ten wydaje się nie mieć sensu: dlaczego nie możemy po prostu mieć możliwości badania wszystkich możliwych podzbiorów, tzn. dlaczego nie położymy $ \F=2^\Omega $? Otóż okazuje się, iż wybór ten dobrze się sprawdza w sytuacji gdy $ \Omega $ jest zbiorem co najwyżej przeliczalnym. Z drugiej strony, dla $ |\Omega|>\aleph_0 $ klasa $ 2^\Omega $ jest na ogół zbyt duża - w wielu naturalnych kontekstach pojawiają się kłopoty z określeniem na niej prawdopodobieństwa. To w konsekwencji wymusza wybór pewnej właściwej jej podrodziny. Jak wybrać taką podrodzinę? Sensowna klasa $ \F $ powinna być zamknięta na branie przeliczalnych sum, iloczynów i zdarzenia przeciwnego, tak, by móc wykonywać podstawowe operacje (por. lista działań powyżej). To zaś prowadzi do postulatu, iż $ \mathcal{F} $ jest pewnym wyróżnionym $ \sigma $-ciałem podzbiorów $ \Omega $. Przypomnijmy odpowiednią definicję.

Definicja Rodzinę $ \F $ podzbiorów $ \Omega $ nazywamy $ \sigma $-ciałem, jeśli

\[  \begin{split} \mbox{(i)} & \,\quad\emptyset \in \F,\\ (ii) & \quad\, A \in \F \Rightarrow A'\in \F,\\ (iii) &\quad A_1,\,A_2,\,\ldots \in \F \Rightarrow \bigcup_{n=1}^\infty A_n \in \F. \end{split}  \]

Parę $ (\Omega,\F) $ nazywamy przestrzenią mierzalną.

Przechodzimy teraz do określenia prawdopodobieństwa: obiekt ten będzie zadany przez szereg własności i postulatów. Aby zyskać nieco intuicji dotyczącej tego pojęcia, jak również zrozumieć, skąd biorą się odpowiednie założenia, wygodnie najpierw rozważyć tzw. częstość zdarzeń (por. poprzedni rozdział). Załóżmy, iż w pewnym doświadczeniu interesuje nas prawdopodobieństwo zajścia pewnego zdarzenia $ A $. Powtórzmy to doświadczenie $ n $ razy i zdefiniujmy

$$ \rho_n(A)=\frac{\mbox{liczba doświadczeń w których zaszło $A$}}{n}.$$

Jest to częstość względna zajścia zdarzenia $ A $ w serii $ n $ doświadczeń; spodziewamy się, iż dla dużych $ n $ liczba $ \rho_n(A) $ powinna być bliska szansie zajścia zdarzenia $ A $ w pojedynczym doświadczeniu. Jak łatwo sprawdzić, $ \rho_n $ przyjmuje wartości w przedziale $ [0,1] $ oraz posiada następujące własności:

\[  \begin{split} \mbox{(i)} &\quad \rho_n (\Omega)=1,\\ \mbox{(ii)} & \mbox{ jeśli }A_1,\,A_2,\ldots \mbox{ są parami rozłączne, to }\rho_n\left(\bigcup_{k=1}^\infty A_k\right)=\sum_{k=1}^\infty \rho_n(A_k). \end{split}  \]

Prowadzi to do następującej definicji.

Definicja [Aksjomatyka Kołmogorowa] Niech $ (\Omega,\F) $ będzie ustaloną przestrzenią mierzalną. Funkcję $ \P:\F \to [0,1] $ nazywamy prawdopodobieństwem, jeśli

\[  \begin{split} \mbox{(i)} &\quad \P(\Omega)=1,\\ \mbox{(ii)} & \text{ dla dowolnych parami rozłącznych }A_1,\,A_2,\,\ldots \in \F \text{ zachodzi }\\ &\qquad \qquad \qquad  \P\left(\bigcup_{k=1}^\infty A_k\right)=\sum_{k=1}^\infty \P(A_k). \end{split}  \]

Trójkę $ (\Omega,\F,\P) $ nazywamy przestrzenią probabilistyczną.

Uwagi:

1. Prawdopodobieństwo jest więc miarą unormowaną na $ (\Omega,\F) $. Czasami będziemy mówić, że $ \mathbb{P} $ jest miarą probabilistyczną.

2. Należy pamiętać, iż przy modelowaniu konkretnego doświadczenia losowego wybór przestrzeni probabilistycznej zależy tylko od nas. W wielu sytuacjach z warunków doświadczenia wynikają pewne postulaty, które w mniej czy bardziej jednoznaczny sposób zadają trójkę $ (\Omega,\F,\P) $; czasami jednak tak nie jest (por. paradoks Bertranda poniżej).

Twierdzenie [Własności prawdopodobieństwa] Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ A,\,B, $ $ A_1,\,A_2 $, $ \ldots $ $ \in \F $. Wówczas

\[  \begin{split} \mbox{(i)} & \,\, \P(\emptyset)=0.\\ \mbox{(ii)} & \,\, \text{Jeśli $A_1,\,A_2,\,\ldots, A_n$ są parami rozłączne, to } \P\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^n \P(A_i).\\ \mbox{(iii)} &\,\, \P(A')=1-\P(A).\\ \mbox{(iv)} & \,\,\text{Jeśli }A \subseteq B,\text{ to }\P(B\setminus A)=\P(B)-\P(A)\mbox{ oraz }\P(A)\leq \P(B).\\ \mbox{(v)} & \,\, \P(A \cup B)=\P(A)+\P(B)-\P(A\cap B).\\ \mbox{(vi)} & \,\, \P\left(\bigcup_{i=1}^\infty A_i\right) \leq \sum_{i=1}^\infty \P(A_i). \end{split}  \]

Własność (v) z powyższego twierdzenia można uogólnić na przypadek skończonej liczby zbiorów. Zachodzi następujący fakt.

Twierdzenie [Wzór właczeń i wyłączeń] Jeśli $ A_1,\,A_2,\,\ldots,\,A_n\in \F $, to

\[  \begin{split}  \P(A_1\cup A_2\cup \ldots \cup A_n)=&\sum_{i=1}^n \P(A_i)-\sum_{i< j} \P(A_i\cap A_j)+\sum_{i< j<k} \P(A_i\cap A_j\cap A_k)-\ldots\\ & +(-1)^{n+1}\P(A_1\cap A_2\cap \ldots \cap A_n). \end{split}  \]

Dowody powyższych dwóch twierdzeń są bardzo proste i opieraja się na wykorzystaniu aksjomatyki Kołmogorowa. Szczegóły pozostawiamy czytelnikowi.

Twierdzenie [Twierdzenie o ciągłości] Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ (A_n)_{n=1}^\infty $ jest ciągiem zdarzeń.

(i) Jeśli ciąg ten jest wstępujący (tzn. $ A_1\subseteq A_2\subseteq \ldots $), to

$$ \P\left( \bigcup_{n=1}^\infty A_n\right)=\lim_{n\to \infty} \P(A_n).$$

(ii) Jeśli ciąg ten jest zstępujący (tzn. $ A_1\supseteq A_2\supseteq \ldots $), to

$$ \P\left( \bigcap_{n=1}^\infty A_n\right)=\lim_{n \to \infty} \P(A_n).$$
Dowód:[Dowód:] (i) Rozważmy ciąg $ (B_n)_{n\geq 1} $ zdarzeń, zadany przez

$$ B_1=A_1,\,\,\,B_2=A_2\setminus A_1,\,\,\,B_3=A_3\setminus A_2,\,\,\,\ldots.$$

Jak łatwo sprawdzić, zdarzenia $ B_1,\,B_2,\,\ldots $ są parami rozłączne, $ \bigcup_{n=1}^k B_n=A_k $ dla dowolnego $ k\geq 1 $ oraz $ \bigcup_{n=1}^\infty B_n=\bigcup_{n=1}^\infty A_n $. Zatem \begin{align*} \P\left( \bigcup_{n=1}^\infty A_n\right)&=\P\left( \bigcup_{n=1}^\infty B_n\right)\\ &=\sum_{n=1}^\infty \mathbb{P}(B_n)=\lim_{k\to \infty}\sum_{n=1}^k \mathbb{P}(B_n)=\lim_{k\to \infty}\mathbb{P}\left(\bigcup_{n=1}^k B_n\right)=\lim_{k\to\infty}\mathbb{P}(A_k), \end{align*} gdzie w drugim przejściu korzystaliśmy z przeliczalnej addytywności miary $ \mathbb{P} $, a w czwartym skorzystaliśmy z Twierdzenia 1 (ii).

(ii) Ciąg dopełnień $ (A_n')_{n\geq 1} $ jest wstępujący, a zatem, korzystając z (i) oraz z praw de Morgana, mamy \begin{align*} \P\left( \bigcap_{n=1}^\infty A_n\right)&=1-\P\left(\left( \bigcap_{n=1}^\infty A_n\right)'\right)\\ &=1-\P\left( \bigcup_{n=1}^\infty A_n'\right)=1-\lim_{n\to\infty}\mathbb{P}(A_n')=\lim_{n\to\infty}\mathbb{P}(A_n).\qedhere \end{align*} □

Omówimy teraz kilka podstawowych przykładów, pojawiających się w wielu naturalnych i typowych zagadnieniach.

Przykłady:

1. (Schemat klasyczny, prawdopodobieństwo klasyczne). Załóżmy, że $ \Omega $ jest zbiorem skończonym, $ \F=2^\Omega $ i wszystkie zdarzenia jednoelementowe są jednakowo prawdopodobne. Wówczas, jak łatwo sprawdzić, dla dowolnego $ A \in \F $,

$$ \P(A)=\frac{|A|}{|\Omega|}. $$

2. Załóżmy, że $ \Omega=\{\omega_1,\omega_2,\ldots\} $ jest zbiorem co najwyżej przeliczalnym oraz $ p_1,\,p_2,\,\ldots $ - liczby nieujemne o sumie $ 1 $. Wówczas wybór $ \F=2^\Omega $ oraz $  \P(\{\omega_i\})=p_i $, $ i=1,\,2,\,\ldots $, jednoznacznie zadaje przestrzeń probabilistyczną $ (\Omega,\F,\mathbb{P}) $: dla każdego $ A \in \F $ mamy

$$ \P(A)=\sum_{i} 1_{A}(\omega_i)p_i,$$

gdzie $ 1_A $ to funkcja wskaźnikowa (charakterystyczna) bądź indykator zbioru $ A $:

$$ 1_A(\omega)=\begin{cases} 1 & \text{jeśli }\omega \in A,\\ 0 & \text{jeśli }\omega \notin A. \end{cases}$$

3. (Prawdopodobieństwo geometryczne). Załóżmy, że $ \Omega\in \mathcal{B}(\R^d) $, tzn. $ \Omega $ jest podzbiorem borelowskim $ \R^d $, przy czym $ 0<|\Omega|<\infty $ (tu $ |\cdot| $ oznacza miarę Lebesgue'a w $ \R^d $). Niech $ \mathcal{F}=\mathcal{B}(\Omega) $ będzie $ \sigma $-ciałem podzbiorów borelowskich $ \Omega $, a miara probabilistyczna $ \mathbb{P} $ będzie zadana przez

$$ \mathbb{P}(A)=\frac{|A|}{|\Omega|}.$$

Wówczas trójka $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną. Przestrzeń tę wykorzystujemy do modelowania doświadczenia polegającego na losowaniu punktu ze zbioru $ \Omega $.

4. (Paradoks Bertranda) Z okręgu o promieniu $ 1 $ wylosowano cięciwę $ AB $. Jakie jest prawdopodobieństwo tego, że będzie ona dłuższa niż bok trójkąta równobocznego wpisanego w ten okrąg?

Przedstawimy trzy rozwiązania.

I) Ze względu na niezmienniczość okręgu na obroty, wylosowanie cięciwy $ AB $ możemy utożsamić z wylosowaniem miary kąta środkowego $ \alpha=\angle AOB \in [0,2\pi) $. Tak więc $ \Omega=[0,2\pi) $, $ \F=\mathcal{B}(\Omega) $ oraz $ \P $ jest prawdopodobieństwem geometrycznym. Cięciwa spełnia warunki zadania wtedy i tylko wtedy, gdy $ \alpha \in (2\pi/3,4\pi/3) $, a zatem szukane prawdopodobieństwo wynosi

$$ \mathbb{P}((2\pi/3,4\pi/3))=\frac{|(2\pi/3,4\pi/3)|}{|[0,2\pi)|}=\frac{1}{3}.$$

II) Wylosowanie cięciwy można utożsamić z wylosowaniem jej środka. Mamy więc $ \Omega=B(0,1) $, $ \F=\mathcal{B}(\Omega) $ i $ \P $ jest prawdopodobieństwem geometrycznym. Cięciwa będzie spełniała żądane warunki wtedy i tylko wtedy, gdy jej środek będzie leżał wewnątrz koła o promieniu $ 1/2 $ współśrodkowego z danym okręgiem, zatem szukane prawdopodobieństwo wynosi

$$ \P([0,1/2))=\frac{|B(0,1/2)|}{B(0,1)}=\frac{1}{4}.$$

III) Tak jak w poprzednim rozwiązaniu, bierzemy pod uwagę położenie środka cięciwy, lecz tym razem patrzymy na jego odległość od środka okręgu. Tak więc $ \Omega=[0,1] $, $ \F=\mathcal{B}(\Omega) $ i $ \P $ jest prawdopodobieństwem geometrycznym. Cięciwa będzie spełniała warunki zadania jeśli jej środek będzie odległy od środka okręgu o mniej niż $ 1/2 $. Zatem szukane prawdopodobieństwo wynosi

$$ \mathbb{P}([0,1/2))=\frac{|[0,1/2)|}{|[0,1]|}=\frac{1}{2}.$$

Tak więc widzimy, iż otrzymaliśmy trzy różne wyniki, stąd wyraz ,,paradoks'' powyżej. Sprzeczności jednak tu nie ma - użyliśmy trzech różnych przestrzeni probabilistycznych do opisu tego samego doświadczenia losowego. Ogólnie rzecz ujmując, teoria prawdopodobieństwa nie rozstrzyga, jaki model doświadczenia należy wybrać; pozwala ona obliczać prawdopodobieństwa zdarzeń dopiero w sytuacji, gdy zadano już konkretną trójkę $ (\Omega,\F,\mathbb{P}) $.

Zadania

1. Na ile sposobów można ustawić w ciąg sześć jedynek, pięć dwójek oraz cztery trójki?

2. Wyznaczyć liczbę rozwiązań równania $  x_1+x_2+x_3+x_4=50 $

  • w liczbach całkowitych nieujemnych $ x_1,\ x_2,\ x_3,\ x_4 $,
  • w liczbach całkowitych dodatnich $ x_1,\ x_2,\ x_3,\ x_4 $.

3. Ile jest takich ,,szóstek'' w Totolotku, że żadne dwie z wylosowanych liczb nie są kolejne?

4. Z talii 52 kart wylosowano 13 kart. Jakie jest prawdopodobieństwo tego, że istnieje kolor, w którym a) dokładnie siedem, b) dokładnie sześć kart jest tego samego koloru?

5. Klasa liczy 15 uczniów. Nauczyciel wybiera na każdej lekcji na chybił trafił jednego ucznia do odpowiedzi. Obliczyć prawdopodobieństwo tego, że w ciągu 16 lekcji każdy uczeń będzie przepytany.

6. W szafie jest $ n $ par butów. Wyjmujemy na chybił trafił $ k $ butów $ (k\leq n) $. Obliczyć prawdopodobieństwo tego, że

  • wśród wyjętych butów jest co najmniej jedna para,
  • wśród wyjętych butów jest dokładnie jedna para.

7. $ (\Omega,\mathcal{F},P) $ jest przestrzenią probabilistyczną, $ A,\ B,\ C\in\mathcal{F} $.

  • Załóżmy, że $ P(A\cup B)=1/2,\ P(A\cap B)=1/4,\ P(A\backslash B)=P(B  \backslash A) $. Obliczyć $ P(A) $ oraz $ P(B \backslash A) $.

  • Załóżmy, że $ A\cup B \cup C=\Omega,\ P(B)=2P(A),\ P(C)=3P(A),\ P(A\cap  B)=P(A\cap C)=P(B \cap C) $. Wykazać, że $ 1/6 \leq P(A) \leq 1/4 $.
  • Załóżmy, że $ P(A)\geq 2/3,\ P(B)\geq 2/3,\ P(C)\geq 2/3,\ P(A\cap B\cap  C)=0 $. Obliczyć $ P(A) $.

8. Rozdano $ 52 $ karty czterem graczom, po $ 13 $ kart każdemu. Jakie jest prawdopodobieństwo, że każdy z graczy ma co najmniej jednego pika?

9. Jest $ N $ listów i $ N $ zaadaresowanych kopert z różnymi adresami. Każdy list odpowiada dokładnie jednemu adresowi i na odwrót. Włożono listy do kopert na chybił trafił, po jednym liście do każdej koperty. Obliczyć prawdopodobieństwo, że żaden list nie trafił do właściwej koperty.

10. Udowodnić, że każde nieskończone $ \sigma $-ciało jest nieprzeliczalne.

11. Kij o długości $ 1 $ złamano losowo w dwóch punktach. Jakie jest prawdopodobieństwo, że z powstałych trzech odcinków można zbudować trójkąt?

12. Na nieskończoną szachownicę o boku 1 rzucono monetę o średnicy $ \frac{2}{3} $. Jakie jest prawdopodobieństwo, że a) moneta znajdzie się całkowicie we wnętrzu jednego z pól; b) przetnie się z dwoma bokami szachownicy?

13. Na płaszczyznę podzieloną na nieskończone pasy o szerokości $ d $ rzucono losowo igłę o długości $ \ell $ ($ \ell<d $). Wyznaczyć prawdopodobieństwo tego, że igła przetnie brzeg któregoś pasa.

Prawdopodobieństwo warunkowe i niezależność zdarzeń

Prawdopodobieństwo warunkowe i niezależność zdarzeń

Prawdopodobieństwo warunkowe

W poprzednim rozdziale przekonaliśmy się, w jaki sposób wyznaczać prawdopodobieństwa zdarzeń w momencie gdy mamy zadaną przestrzeń probabilistyczną. Zajmiemy się teraz następującym zagadnieniem: czasami, przy badaniu prawdopodobieństwa konkretnego zdarzenia, dysponujemy dodatkową informacją, która w istotny sposób zmienia warunki. Najlepiej to zilustrować na przykładzie.

Przykład W urnie jest pięć białych kul ponumerowanych liczbami 1, 2, 3, 4, 5 oraz trzy kule czarne ponumerowane liczbami 1, 2, 3. Losujemy jedną kulę.

a) jakie jest prawdopodobieństwo, że numer na niej jest parzysty?

b) Wiadomo, że wyciągnięta kula jest biała. Jakie jest prawdopodobieństwo, że numer na niej jest parzysty?

W podpunkcie a) odpowiedź brzmi $ 3/8 $: mamy osiem kul, z których trzy są podpisane parzystymi numerami. W podpunkcie b) dołożono dodatkową informację: wyciągnięta kula ma biały kolor. Rzecz jasna, informacja ta zmienia odpowiedź: jest pięć kul białych, wśród nich dwie o parzystych numerach, skąd dostajemy wynik $ 2/5 $. Formalnie, mamy do czynienia ze schematem klasycznym na

$$ \Omega=\{(1,b), (2,b), \ldots, (5,b), (1,c), (2,c), (3,c)\}.$$

Określmy zdarzenia: A - wylosowano kulę o numerze parzystym, B - wylosowano kulę białą; zatem

$$ A=\{(2,b), (4,b), (2,c)\},\qquad B=\{(1,b), (2,b),\ldots,(5,b)\}$$

i mamy

$$ \frac{2}{5}=\frac{|A\cap B|}{|B|}=\frac{|A\cap  B|/|\Omega|}{|B|/|\Omega|}=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}.$$

Powyższe rozważania sugerują następującą definicję.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną oraz $ A,\,B $ są zdarzeniami takimi, że $ \mathbb{P}(B)>0 $. Prawdopodobieństwem warunkowym (zajścia) zdarzenia $ A $ pod warunkiem (zajścia) zdarzenia $ B $ nazywamy liczbę

$$ \mathbb{}P(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}.$$

Uwaga: Jak łatwo sprawdzić, przy ustalonym zdarzeniu $ B $ takim, że $ \mathbb{P}(B)>0 $, prawdopodobieństwo warunkowe $ \mathbb{P}(\cdot|B) $ jest nową miarą probabilistyczną na $ (\Omega,\F) $.

Twierdzenie [Prawdopodobieństwo iloczynu zdarzeń] Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są zdarzeniami spełniającymi warunek $ \mathbb{P}(A_1\cap A_2\cap\ldots\cap A_n)>0 $. Wówczas \begin{align*} &\mathbb{P}(A_1\cap A_2\cap \ldots \cap A_n)\\ &=\mathbb{P}(A_n|A_1\cap A_2\cap \ldots \cap A_{n-1})\mathbb{P}(A_{n-1}|A_1\cap A_2\cap \ldots A_{n-2})\ldots \mathbb{P}(A_2|A_1)\mathbb{P}(A_1). \end{align*}
Dowód:[Dowód] Wystarczy zastosować definicję prawdopodobieństwa warunkowego. □
Przykład W urnie znajduje się $ n-1 $ białych kul oraz jedna czarna. Losujemy po jednej kuli aż do momentu, gdy wylosujemy czarną kulę. jakie jest prawdopodobieństwo tego, że wykonamy $ k $ losowań jeśli a) losujemy bez zwracania b) losujemy ze zwracaniem?

Oznaczmy białe kule przez $ b_1 $, $ b_2 $, $ \ldots $, $ b_{n-1} $, a czarną kulę przez $ c $. Mamy

$$  \Omega=\{(c),(b_1,c),(b_2,c),\ldots,(b_{n-1},c),(b_1,b_1,c),\ldots\},$$

$ \F=2^\Omega $, a prawdopodobieństwo zadane jest poprzez określenie mas poszczególnych zdarzeń jednoelementowych (por. Przykład 2 z poprzedniego wykładu).

Rozważmy zdarzenie $ A_i $ - $ i $-ta kula jest biała, $ i=1,\,2,\,\ldots $. Korzystając z powyższego twierdzenia, mamy \begin{align*} &\mathbb{P}(A_k'\cap A_{k-1}\cap A_{k-2}\cap \ldots \cap A_1)\\ &=\mathbb{P}(A_k'|A_{k-1}\cap \ldots\cap A_1)\mathbb{P}(A_{k-1}|A_{k-2}\cap \ldots \cap A_1)\ldots \mathbb{P}(A_2|A_1)\mathbb{P}(A_1). \end{align*}

a) Z warunków zadania wynika, że

$$\mathbb{P}(A_i|A_{i-1}\cap \ldots\cap  A_1)=\frac{n-i}{n-i+1},\quad \mathbb{P}(A_k'|A_{k-1}\cap\ldots\cap A_1)=\frac{1}{n-k+1},$$

a zatem szukane prawdopodobieństwo wynosi

$$ \frac{1}{n-k+1}\cdot \frac{n-k+1}{n-k+2}\cdot  \frac{n-k+2}{n-k+3}\cdot \ldots \cdot \frac{n-2}{n-1}\cdot  \frac{n-1}{n}=\frac{1}{n}.$$

b) Tym razem mamy

$$ \mathbb{P}(A_i|A_{i-1}\cap A_{i-2}\cap \ldots \cap  A_1)=\frac{n-1}{n},$$

a więc szukane prawdopodobieństwo jest równe

$$ \left(1-\frac{n-1}{n}\right)\cdot\frac{n-1}{n}\cdot  \frac{n-1}{n}\cdot \ldots \cdot  \frac{n-1}{n}=\frac{1}{n}\left(\frac{n-1}{n}\right)^{k-1}.$$

Zajmiemy się teraz analizą doświadczeń ,,wieloetapowych'', w których mamy do czynienia z losowaniem w kilku krokach, a przestrzeń probabilistyczna jest zadana poprzez specyfikację prawdopodobieństw warunkowych związanych z poszczególnymi krokami (por. przykład poniżej). Zacznijmy od definicji.

Definicja Mówimy, że rodzina zdarzeń $ (B_k)_{k=1}^n $ jest rozbiciem (skończonym) zbioru $ \Omega $, jeśli $ B_1\cup B_2\cup \ldots \cup B_n=\Omega $ oraz zdarzenia $ B_1,\,B_2,\,\ldots,\,B_n $ są parami rozłączne. Analogicznie definiujemy rozbicie przeliczalne $ \Omega $.
Twierdzenie [Wzór na prawdopodobieństwo całkowite] Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ A\in \F $ oraz $ (B_k)_k $ jest rozbiciem $ \Omega $ (skończonym lub przeliczalnym), takim, że $ \mathbb{P}(B_k)>0 $ dla wszystkich $ k $. Wówczas

$$ \mathbb{P}(A)=\sum_k \mathbb{P}(A|B_k)\mathbb{P}(B_k).$$
Dowód:[Dowód] Zdarzenia $ A\cap B_1 $, $ A\cap B_2 $, $ \ldots $, są parami rozłączne i dają w sumie $ A $, a zatem

$$ \mathbb{P}(A)=\sum_k \mathbb{P}(A\cap B_k)=\sum_k  \mathbb{P}(A|B_k)\mathbb{P}(B_k). \qedhere$$

Twierdzenie [Wzór Bayesa] Przy założeniach jak wyżej, jeśli $ \mathbb{P}(A)>0 $, to dla każdego $ k $,

$$ \mathbb{P}(B_k|A)=\frac{\mathbb{P}(A|B_k)\mathbb{P}(B_k)}{\sum_n  \mathbb{P}(A|B_n)\mathbb{P}(B_n)}\quad \left(=\frac{\mathbb{P}(A|B_k)\mathbb{P}(B_k)}{\P(A)}\right).$$
Dowód:[Dowód] Wzór wynika natychmiast z definicji prawdopodobieństwa warunkowego oraz wzoru na prawdopodobieństwo całkowite. □
Przykład Dane są urny I oraz II. W urnie I znajduje się $ b_1 $ kul białych oraz $ c_1 $ kul czarnych, zaś w urnie II - $ b_2 $ kul białych i $ c_2 $ kul czarnych. Losujemy urnę, a następnie kulę z tej urny.

a) Jakie jest prawdopodobieństwo, że kula jest biała?

b) Załóżmy, że wyciągnięta kula jest biała. Jakie jest prawdopodobieństwo tego, że losowano z I urny?

Mamy dwa etapy doświadczenia: losowanie urny oraz losowanie kuli z danej urny. Wprowadźmy zdarzenia $ A $ - wyciągnięto białą kulę, $ B_1 $ - wylosowano urnę I, $ B_2 $ - wylosowano urnę II. Mamy $ B_1\cap B_2=\emptyset $, $ B_1\cup B_2=\Omega $, a więc rodzina $ (B_i)_{i=1}^2 $ jest rozbiciem $ \Omega $. Z warunków zadania wynika, że

$$ \mathbb{P}(B_1)=\mathbb{P}(B_2)=\frac{1}{2}>0,\quad  \mathbb{P}(A|B_1)=\frac{b_1}{b_1+c_1},\quad  \mathbb{P}(A|B_2)=\frac{b_2}{b_2+c_2}.$$

a) Korzystając ze wzoru na prawdopodobieństwo całkowite mamy

$$  \mathbb{P}(A)= \mathbb{P}(A|B_1)\mathbb{P}(B_1)+\mathbb{P}(A|B_2)\mathbb{P}(B_2) =\frac{1}{2}\left(\frac{b_1}{b_1+c_1}+\frac{b_2}{b_2+c_2}\right).$$

b) Na mocy wzoru Bayesa,

$$  \mathbb{P}(B_1|A)=\frac{\mathbb{P}(A|B_1)\mathbb{P}(B_1)}{\mathbb{P}(A)} =\frac{b_1/(b_1+c_1)}{b_1/(b_1+c_1)+b_2/(b_2+c_2)}.$$

Niezależność zdarzeń

Zacznijmy od intuicji. Załóżmy, że $ A $, $ B $ są zdarzeniami, przy czym $ \mathbb{P}(B)>0 $. Wówczas zdarzenia $ A $, $ B $ powinny być niezależne, jeśli informacja o tym, że zaszło zdarzenie $ B $ nie wpływa na prawdopodobieństwo zajścia zdarzenia $ A $; tzn. niezależność powinna być równoważna równości $ \mathbb{P}(A|B)=\mathbb{P}(A) $, czyli $ \mathbb{P}(A\cap  B)=\mathbb{P}(A)\mathbb{P}(B). $ Przyjmujemy to jako definicję.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną. Zdarzenia $ A $, $ B $ są niezależne, jeśli

$$ \mathbb{P}(A\cap B)=\mathbb{P}(A)\mathbb{P}(B).$$

Uwaga: Jeśli $ \mathbb{P}(A)=0 $, to dla dowolnego $ B\in \F $ zdarzenia $ A $ oraz $ B $ są niezależne. Ta sama teza zachodzi gdy $ \mathbb{P}(A)=1 $.

Zdefiniujemy teraz niezależność większej liczby zdarzeń. Zacznijmy od przypadku skończonego. Intuicyjnie, zdarzenia $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są niezależne jeśli każdy podukład tych zdarzeń jest niezależny oraz zdarzenia $ A_n $, $ A_1\cap A_2\cap \ldots A_{n-1} $ są niezależne. jak łatwo zauważyć, powyższe warunki wymuszają równość

$$ \mathbb{P}(A_{i_1}\cap A_{i_2}\cap \ldots \cap A_{i_k})= \mathbb{P}(A_{i_1})\mathbb{P}(A_{i_2})\ldots\mathbb{P}(A_{i_k})$$

dla dowolnego $ k=2,\,3,\ldots,\,n $ i dowolnego rosnącego ciągu $ 1\leq i_1<i_2<\ldots<i_k\leq  n $. Przyjmujemy to jako definicję.

Definicja Mówimy, że zdarzenia $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są niezależne, jeśli dla wszystkich $ 2\leq k\leq n $ oraz dowolnego ciągu $ 1\leq  i_1<i_2<\ldots<i_k\leq n $ zachodzi równość

$$ \mathbb{P}(A_{i_1}\cap A_{i_2}\cap \ldots \cap A_{i_k})= \mathbb{P}(A_{i_1})\mathbb{P}(A_{i_2})\ldots\mathbb{P}(A_{i_k}).$$
Definicja Mówimy, że zdarzenia $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są niezależne parami, jeśli dla dowolnych różnych $ i,\,j\in  \{1,\,2,\,\ldots,\,n\} $, zdarzenia $ A_i $ oraz $ A_j $ są niezależne.

Oczywiście niezależność ,,zespołowa'' (czy też ,,łączna'') zdarzeń $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ pociąga za sobą ich niezależność parami. Implikacja w drugą stronę nie jest prawdziwa, co ilustruje następujący przykład.

Przykład Rzucamy dwa razy kostką. Niech $ A $ - za pierwszym razem wypadła parzysta liczba oczek, $ B $ - za drugim razem wypadła parzysta liczba oczek, $ C $ - suma oczek jest parzysta. Bezpośrednio wyliczamy, iż

$$ \mathbb{P}(A)=\mathbb{P}(B)=\mathbb{P}(C)=\frac{1}{2}, \quad  \mathbb{P}(A\cap B)=\mathbb{P}(B\cap C)=\mathbb{P}(C\cap  A)=\frac{1}{4},$$

a więc zdarzenia $ A $, $ B $, $ C $ są niezależne parami. Nie są jednak niezależne zespołowo: mamy $ A\cap B\subset C $, a więc $ \mathbb{P}(A\cap B\cap C)=\P(A\cap B)=1/4\neq \P(A)\P(B)\P(C) $.

W przypadku dowolnej (być może nieskończonej) liczby zdarzeń, niezależność definiujemy następująco.

Definicja Załóżmy, że $ \{A_i\}_{i\in I} $ jest pewną rodziną zdarzeń. Mówimy, iż zdarzenia te są niezależne, jeśli dla każdego $ n $ oraz parami różnych $ i_1 $, $ i_2 $, $ \ldots $, $ i_n \in I $ zdarzenia $ A_{i_1} $, $ A_{i_2} $, $ \ldots $, $ A_{i_n} $ są niezależne.

Zdefiniujemy teraz pojęcie niezależności $ \sigma $-ciał.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną oraz $ \F_1 $, $ \F_2 $, \ldots, $ \F_n $$ \sigma $-ciałami zawartymi w $ \F $. Mówimy, że $ \sigma $-ciała te są niezależne, jeśli dla dowolnych $ A_1\in \F_1 $, $ A_2\in \F_2 $, $ \ldots $, $ A_n\in  \F_n $ zachodzi warunek

$$ \mathbb{P}(A_1\cap A_2\cap \ldots \cap  A_n)=\mathbb{P}(A_1)\mathbb{P}(A_2)\ldots\mathbb{P}(A_n).$$
Twierdzenie Przy założeniach powyższej definicji, $ \sigma $-ciała $ \F_1 $, $ \F_2 $, $ \ldots $, $ \F_n $ są niezależne wtedy i tylko wtedy, gdy dowolne $ A_1\in \F_1 $, $ A_2\in \F_2 $, $ \ldots $, $ A_n\in \F_n $ są niezależne.
Dowód:[Dowód] $ \Leftarrow $ oczywiste.

$ \Rightarrow $ Mamy dowieść, że dla dowolnego $ 2\leq k\leq n $ oraz dowolnego ciągu $ 1\leq i_1<i_2<\ldots<i_k\leq n $ zachodzi równość

$$ \mathbb{P}(A_{i_1}\cap A_{i_2}\cap \ldots \cap A_{i_k})= \mathbb{P}(A_{i_1})\mathbb{P}(A_{i_2})\ldots\mathbb{P}(A_{i_k}).\leqno{(* )}$$

Rozważmy zdarzenia $ B_1 $, $ B_2 $, $ \ldots $, $ B_n $ dane przez

$$ B_i=\begin{cases} A_i & \mbox{jeśli }i=i_\ell \mbox{ dla pewnego }\ell,\\ \Omega & \mbox{w przeciwnym przypadku.} \end{cases}$$

Wówczas $ B_1\in \F_1 $, $ B_2\in \F_2 $, $ \ldots $, $ B_n\in \F_n $, a zatem

$$ \mathbb{P}(B_1\cap B_2\cap \ldots \cap  B_n)=\mathbb{P}(B_1)\mathbb{P}(B_2)\ldots\mathbb{P}(B_n),$$

co jest równoważne (*). □

Przykład Rzucamy dwa razy kostką. Wprowadźmy standardową przestrzeń probabilistyczną opisującą to doświadczenie (por. poprzedni wykład). Rozważmy $ \sigma $-ciała

$$ \F_1=\{A\times \{1,2,3,4,5,6\}: A\subseteq \{1,2,3,4,5,6\}\},$$
$$ \F_2=\{\{1,2,3,4,5,6\}\times B: B\subseteq \{1,2,3,4,5,6\}\}.$$

Wówczas $ \F_1,\,\F_2 \subset \F $ i $ \F_1, $ $ \F_2 $ są niezależne: istotnie, dla dowolnych zdarzeń $ A\times\{1,2,3,4,5,6\}\in \F_1 $, $ B\times \{1,2,3,4,5,6\}\in \F_2 $ mamy

$$ \mathbb{P}(A\times\{1,2,3,4,5,6\})=\frac{|A|\cdot 6}{36}=\frac{|A|}{6},\quad  \mathbb{P}(\{1,2,3,4,5,6\}\times B)=\frac{6\cdot |B|}{36}=\frac{|B|}{6}$$

oraz

$$\mathbb{P}((A\times\{1,2,3,4,5,6\})\cap (\{1,2,3,4,5,6\}\times B))=\mathbb{P}(A\times B)=\frac{|A|\cdot |B|}{36}.$$
Przykład Załóżmy, że $ \sigma(A_1) $, $ \sigma(A_2) $, $ \ldots $, $ \sigma(A_n) $ będą $ \sigma $-ciałami generowanymi przez zdarzenia $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $, odpowiednio (przypomnijmy: $ \sigma(A)=\{A,A',\emptyset  ,\Omega\} $). Wówczas jeśli $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są niezależne, to $ \sigma(A_1) $, $ \sigma(A_2) $, $ \ldots $, $ \sigma(A_n) $ też są niezależne. Aby to wykazać, musimy sprawdzić, że dla dowolnych $ B_i\in \F_i $, $ i=1,\,2,\,\ldots,\,n $, zachodzi

$$ \mathbb{P}(B_1\cap B_2\cap \ldots \cap B_n)=\mathbb{P}(B_1)\mathbb{P}(B_2)\ldots\mathbb{P}(B_n).$$

Jeśli co najmniej jedno ze zdarzeń $ B_i $ jest zbiorem pustym, to powyższa równość jest spełniona: obie strony są równe $ 0 $. Jeśli dla pewnego $ j $ mamy $ B_j=\Omega $, to możemy to zdarzenie pominąć po obu stronach. Zatem, wystarczy dowieść, że dla dowolnego ciągu $ 1\leq i_1<i_2<\ldots<i_k\leq n $ mamy

$$ \mathbb{P}(B_{i_1}\cap B_{i_2}\cap \ldots \cap B_{i_k})=\mathbb{P}(B_{i_1})\mathbb{P}(B_{i_2})\ldots \mathbb{P}(B_{i_k}),$$

gdzie dla każdego $ j $, zdarzenie $ B_{i_j} $ jest równe $ A_{i_j} $ lub $ A_{i_j}' $. Poprzez prostą indukcję, wystarczy wykazać, że

$$ \mathbb{P}(A'_{i_1}\cap A_{i_2}\cap A_{i_3}\cap\ldots \cap A_{i_k})=\mathbb{P}(A_{i_1}')\mathbb{P}(A_{i_2})\mathbb{P}(A_{i_3})\ldots \mathbb{P}(A_{i_k}),$$

co natychmiast wynika z niezależności zdarzeń $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $: istotnie, \begin{align*} & \mathbb{P}(A_{i_1}'\cap A_{i_2}\cap A_{i_3}\cap\ldots \cap A_{i_k})\\ &= \mathbb{P}(A_{i_2}\cap A_{i_3}\cap\ldots \cap A_{i_k})- \mathbb{P}(A_{i_1}\cap A_{i_2}\cap A_{i_3}\cap\ldots \cap A_{i_k})\\ &=\mathbb{P}(A_{i_2})\mathbb{P}(A_{i_3})\ldots \mathbb{P}(A_{i_k})-\mathbb{P}(A_{i_1})\mathbb{P}(A_{i_2})\mathbb{P}(A_{i_3})\ldots \mathbb{P}(A_{i_k})\\ &=\mathbb{P}(A_{i_1}')\mathbb{P}(A_{i_2})\mathbb{P}(A_{i_3})\ldots \mathbb{P}(A_{i_k}). \end{align*}

Rozważmy teraz następujący problem. Załóżmy, że mamy $ N $ doświadczeń, przy czym $ i $-te doświadczenie jest opisywane przez przestrzeń probabilistyczną $ (\Omega_i,\F_i,\mathbb{P}_i) $. W jaki sposób możemy zbudować przestrzeń $ (\Omega,\F,\mathbb{P}) $ dla doświadczenia polegającego na niezależnym przeprowadzeniu tych $ N $ doświadczeń?

Oczywiście, jako zbiór $ \Omega $ bierzemy $ \Omega_1\times \Omega_2\times \ldots \Omega_N $. Aby określić $ \F $, zwróćmy uwagę, iż $ \sigma $-ciało $ \F_i $ jest reprezentowane, w kontekście powyższego zbioru $ \Omega $, przez klasę

$$ \F_i'=\{\Omega_1\times \Omega_2\times \ldots\times \Omega_{i-1}\times A_i \times \Omega_{i+1}\times \ldots\times \Omega_N:A_i\in \F_i\}.$$

Stąd naturalny pomysł, by wziąć $ \F=\sigma(\F_1',\F_2',\ldots,\F_N') $, $ \sigma $-ciało generowane przez $ \F_1',\,\F_2',\,\ldots,\,\F_N' $. Innymi słowy, jako $ \F $ bierzemy $ \sigma $-ciało produktowe $ \F_1\otimes \F_2\otimes \ldots\otimes \F_N $. Przejdźmy do określenia miary probabilistycznej $ \P $. Z powyższych postulatów, $ \sigma $-ciała $ \F_1' $, $ \F_2' $, $ \ldots $, $ \F_N' $ mają być niezależne, a zatem poszukujemy takiego prawdopodobieństwa $ \P $, że dla dowolnych $ A_i\in \F_i $, $ i=1,\,2,\,\ldots,\,N $, \begin{align*} &\mathbb{P}(A_1\times A_2\times \ldots \times A_N)=\\ & \P\big((A_1\times \Omega_2\times \ldots\times \Omega_N)\cap(\Omega_1\times A_2\times \ldots\times \Omega_N)\cap \ldots \cap (\Omega_1\times \ldots\times \Omega_{N-1}\times A_N)\big)\\ &\qquad\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad =\prod_{i=1}^N \P(\Omega_1\times \ldots \times A_i \times \ldots \times \Omega_N). \end{align*} Ponadto, chcemy by $ \P(\Omega_1\times \ldots \times A_i\times \ldots \times \Omega_N)=\P_i(A_i) $ dla każdego $ i $. Podsumowując, poszukujemy takiego $ \P $, by dla dowolnych zdarzeń $ A_1,\,A_2,\,\ldots,\,A_N $ jak wyżej zachodziła równość

$$ \mathbb{P}(A_1\times A_2\times \ldots \times A_N)=\P_1(A_1)\P_2(A_2)\ldots\P_N(A_N).$$

Z teorii miary wiadomo, że istnieje dokładnie jedno takie prawdopodobieństwo $ \P $ na $ \F_1\otimes \F_2\otimes \ldots \otimes \F_N $, i jest ono równe $ \P_1\otimes \P_2\otimes \ldots \otimes \P_N $ - produktowi miar $ \P_1 $, $ \P_2 $, $ \ldots $, $ \P_N $.

Analogiczne rozumowanie można przeprowadzić w przypadku gdy mamy do czyniania z nieskończoną liczbą doświadczeń modelowanych przez przestrzenie probabilistyczne $ (\Omega_i,\F_i,\mathbb{P}_i) $.

Przykład [Schemat Bernoulliego] Załóżmy, iż dla każdego $ i=1,\,2,\,\ldots,\,N $ mamy $ \Omega_i=\{0,1\} $, $ \F^i=2^{\Omega_i} $ oraz $ \mathbb{P}_i(\{1\})=p $, gdzie $ p\in [0,1] $ jest ustalonym parametrem. Widzimy, iż każda pojedyncza przestrzeń $ (\Omega_i,\F_i,\mathbb{P}_i) $ modeluje doświadczenie w którym są dwa możliwe wyniki: $ 0 $ i $ 1 $, interpretowane jako porażka i sukces (podkreślmy: prawdopodobieństwo sukcesu jest równe $ p $ i nie zależy od numeru doświadczenia). Takie pojedyncze doświadczenie nazywamy próbą Bernoulliego. Na mocy powyższej konstrukcji, przestrzeń probabilistyczna

$$(\{0,1\}^N,2^\Omega,\P)=(\Omega_1\times \Omega_2\times \ldots \times \Omega_N,\F_1\otimes \F_2\otimes \ldots\otimes \F_N,\P_1\otimes \P_2\otimes \ldots\otimes \P_N)$$

modeluje ciąg niezależnych $ N $ powtórzeń próby Bernoulliego. Ciąg ten nazywamy schematem Bernoulliego.

Zauważmy, iż dla dowolnego $ \omega=(\omega_1,\,\omega_2,\,\ldots,\,\omega_N)\in \Omega $ mamy $  \mathbb{P}(\{\omega\})=p^k(1-p)^{N-k} $, gdzie $ k $ jest liczbą jedynek w ciągu $ \omega $. Wynika stąd, iż jeśli określimy zdarzenie $ A_k=\{ $liczba sukcesów jest równa $ k\} $, to

$$ \P(A_k)=\sum_{\omega\in A_k} \P(\{\omega\})=|A_k|p^k(1-p)^{N-k}={N \choose k} p^k(1-p)^{N-k}.$$

Załóżmy, że $ A_1 $, $ A_2 $, $ \ldots $ są pewnymi zdarzeniami; wówczas $  \bigcap_{n=1}^\infty \bigcup_{m=n}^\infty A_m $ możemy interpretować jako ,,zaszło nieskończenie wiele spośród zdarzeń $ A_1 $, $ A_2 $, $ \ldots $''. Okazuje się, że przy pewnych założeniach, zdarzenie to ma prawdopodobieństwo $ 0 $ lub $ 1 $. Ściślej, zachodzi następujący fakt.

Lemat [Borela-Cantelli] Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ A_1 $, $ A_2 $, $ \ldots \in \F $.

(i) Jeśli $ \sum_{n=1}^\infty \P(A_n)<\infty $, to

$$\P\Big(\bigcap_{n=1}^\infty\bigcup_{m=n}^\infty A_m\Big)=0$$

(a zatem z prawdopodobieństwem $ 1 $ zachodzi skończenie wiele spośród $ A_i $).

(ii) Jeśli $ A_1 $, $ A_2 $, $ \ldots $ są niezależne i $ \sum_{n=1}^\infty \P(A_n)=\infty $, to

$$\P\Big(\bigcap_{n=1}^\infty\bigcup_{m=n}^\infty A_m\Big)=1.$$
Dowód:[Dowód] (i) Mamy

$$ \P\Big(\bigcap_{n=1}^\infty\bigcup_{m=n}^\infty A_m\Big)\leq \P\Big(\bigcup_{m=n}^\infty A_m\Big)\leq \sum_{m=n}^\infty \P(A_m)\xrightarrow{n\to\infty} 0.$$

(ii) Udowodnimy, że zdarzenie przeciwne $ \bigcup_{n=1}^\infty \bigcap_{m=n}^\infty A_m' $ ma prawdopodobieństwo $ 0 $. Wystarczy wykazać, iż $ \P(\bigcap_{m=n}^\infty A_m')=0 $ dla wszystkich $ n $ (wówczas rozważane zdarzenie przeciwne będzie przeliczalną sumą zbiorów miary $ 0 $, a zatem także będzie miało miarę $ 0 $). Korzystając z twierdzenia o ciągłości, mamy iż dla dowolnego $ n $,

$$ \P\Big(\bigcap_{m=n}^\infty A_m'\Big)=\P\Big(\bigcap_{k=n}^\infty \bigcap_{m=n}^k A_m'\Big)=\lim_{k\to \infty}\P\Big(\bigcap_{m=n}^k A_m'\Big),$$

co na mocy niezależności zdarzeń $ A_1 $, $ A_2 $, $ \ldots $ jest równe

$$ \lim_{k\to \infty} \prod_{m=n}^k \P(A_m')=\lim_{k\to \infty} \prod_{m=n}^k (1-\P(A_m))\leq \limsup_{k\to \infty} e^{-\sum_{m=n}^k \P(A_m)}=0. \qedhere$$

Na zakończenie zaprezentujemy pewien przydatny fakt, tzw. lemat o $ \pi-\lambda $ układach. Aby podać pewną motywację, załóżmy, że $ \mu $, $ \nu $ są miarami probabilistycznymi na pewnej przestrzeni mierzalnej $ (\Omega,\F) $. Przypuśćmy, iż chcemy wykazać, iż te miary są sobie równe: mamy więc sprawdzić, czy dla dowolnego $ A\in \F $ zachodzi równość

$$\mu(A)=\nu(A).$$

Powstaje bardzo naturalne pytanie: czy wystarczy zweryfikować powyższą tożsamość dla pewnej szczególnej klasy zdarzeń $ A $, np. dla generatorów $ \sigma $-ciała $ \F $? Okazuje się że zbiór generatorów nie jest na ogół dobrym wyborem: mianowicie trzeba założyć, że klasa ta jest dodatkowo $ \pi $-układem.

Definicja Załóżmy, że $ \mathcal{K} $ jest niepustą klasą podzbiorów $ \Omega $. Mówimy, że $ \mathcal{K} $ jest $ \pi $-układem, jeśli klasa ta jest zamknięta ze względu na branie skończonych iloczynów: z tego, że $ A $, $ B\in\mathcal{K} $ wynika, że $ A\cap B\in\mathcal{K} $.
Definicja Załóżmy, że $ \mathcal{L} $ jest pewną klasą podzbiorów $ \Omega $. Mówimy, że $ \mathcal{L} $ jest $ \lambda $-układem, jeśli są spełnione następujące warunki:

  • $ \Omega\in\mathcal{L} $,
  • jeśli $ A,\,B\in \mathcal{L} $ i $ A\subseteq B $, to $ B\setminus A\in\mathcal{L} $,
  • jeśli $ A_1,\,A_2,\,\ldots $ jest wstępującym ciągiem elementów $ \mathcal{L} $, to $ \bigcup_{n=1}^\infty A_n\in \mathcal{L} $.
Lemat [o $ \pi-\lambda $ układach] Jeśli $ \mathcal{L} $ jest $ \lambda $-układem zawierającym $ \pi $-układ $ \mathcal{K} $, to $ \mathcal{L} $ zawiera także $ \sigma $-ciało generowane przez $ \mathcal{K} $.
Dowód:[Dowód] Rozumowanie podzielimy na trzy części.

1) Zauważmy, że jeśli $ \mathcal{L} $ jest $ \lambda $-układem oraz $ A,\,B\in\mathcal{L} $ spełniają $ A\cap B=\emptyset $, to

$$ A\cup B=(A'\setminus B)'\in\mathcal{L},$$

korzystając z (i) i (ii).

2) Jeśli $ \mathcal{L} $ jest jednocześnie $ \pi $-układem oraz $ \lambda $-układem, to jest $ \sigma $-ciałem. Aby to wykazać, zauważmy, iż jeśli $ A,\,B\in\mathcal{L} $, to

$$A\cup B=A\cup(B\setminus (A\cap B))\in \mathcal{L},$$

na mocy 1) oraz warunków definiujących $ \pi $-układ i $ \lambda $-układ. Wobec tego, przez prostą indukcję, $ \mathcal{L} $ będzie zamknięte ze względu na branie skończonych sum, a zatem jeśli $ A_1 $, $ A_2 $, $ \ldots $ jest dowolnym ciągiem elementów z $ \mathcal{L} $, to

$$ \bigcup_{n=1}^\infty A_n=\bigcup_{n=1}^\infty \left(\bigcup_{k=1}^n A_k\right)\in\mathcal{L}.$$

W ostatnim kroku skorzystaliśmy z tego, że $ A_1 $, $ A_1\cup A_2 $, $ A_1\cup A_2\cup A_3 $, $ \ldots $ jest wstępującym ciągiem elementów $ \mathcal{L} $.

3) Niech $ \Lambda $ będzie klasą wszystkich $ \lambda $-układów zawierających $ \mathcal{K} $ i połóżmy $  \mathcal{L}_0=\bigcap_{\textbf{L}\in\Lambda} \textbf{L} $. Wówczas $ \mathcal{L}_0\in \Lambda $ oraz $ \mathcal{K}\subseteq \mathcal{L}_0\subseteq \mathcal{L} $. Wystarczy więc udowodnić, że $ \mathcal{L}_0 $ jest $ \sigma $-ciałem: na mocy 2), wystarczy wykazać, że $ \mathcal{L}_0 $ jest $ \pi $-układem. Weźmy dowolne $ A\in \mathcal{K} $ i rozważmy klasę

$$ \mathcal{K}_1=\{B:A\cap B\in \mathcal{L}_0\}.$$

Oczywiście $ \mathcal{K}_1\supseteq \mathcal{K} $, gdyż $ \mathcal{K} $ jest $ \pi $-układem. Ponadto $ \mathcal{K}_1 $ jest $ \lambda $-układem:

  • $ \Omega\in \mathcal{K}_1 $, bo $ A\cap\Omega=A\in \mathcal{K}\subseteq\mathcal{L}_0 $;
  • jeśli $ B_1,\,B_2\in \mathcal{K}_1 $, $ B_1\subseteq B_2 $, to
    $$ A\cap (B_2\setminus B_1)=(A\cap B_2)\setminus (A\cap B_1)\in\mathcal{L}_0,$$

    a więc $ B_2\setminus B_1\in\mathcal{K}_1 $;

  • $ B_1\subseteq B_2\subseteq \ldots \in \mathcal{K}_1 $, to
    $$ A\cap \left(\bigcup_{n=1}^\infty B_n\right)=\bigcup_{n=1}^\infty (A\cap B_n)\in \mathcal{L}_0,$$

    skąd wynika, iż $ \bigcup_{n=1}^\infty B_n\in\mathcal{K}_1 $.

Zatem $ \mathcal{K}_1 $ zawiera $ \mathcal{L}_0 $, gdyż $ \mathcal{L}_0 $ jest najmniejszym $ \lambda $-układem zawierającym $ \mathcal{K} $. Wykazaliśmy więc, że dla dowolnego $ A\in \mathcal{K} $ oraz dowolnego $ B\in\mathcal{L}_0 $, $ A\cap B\in \mathcal{L}_0 $. Następnie powtarzamy rozumowanie: ustalamy $ B\in\mathcal{L}_0 $ i definiujemy $ \mathcal{K}_2=\{A:A\cap B\in\mathcal{L}_0\} $. Mamy $ \mathcal{K}_2\supseteq \mathcal{K} $ oraz $ \mathcal{K}_2 $ jest $ \lambda $-układem, skąd wynika, iż $ \mathcal{K}_2\supseteq \mathcal{L}_0 $, a więc dla dowolnych $ A,\,B\in\mathcal{L}_0 $ zachodzi $ A\cap B\in\mathcal{L}_0 $. Dowód jest zakończony. □

Jako zastosowanie, udowodnimy następujący fakt.

Twierdzenie Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną. Przypuśćmy, iż rodzinę $ \{\mathcal{F}_\gamma\}_{\in \Gamma} $ niezależnych $ \sigma $-ciał podzielono na $ n $ podrodzin $ \{\F_{\gamma^i}\}_{\gamma^i\in \Gamma^i} $, $ i=1,\,2,\,\ldots,\,n $. Wówczas $ \sigma $-ciała

$$ \sigma\left(\{\F_{\gamma^1}\}_{\gamma^1\in \Gamma^1}\right),\,\sigma\left(\{\F_{\gamma^2}\}_{\gamma^2\in \Gamma^2}\right),\ldots,\sigma\left(\{\F_{\gamma^n}\}_{\gamma^n\in \Gamma^n}\right),$$

generowane przez poszczególne podrodziny też są niezależne.

Dowód:[Dowód] Przeprowadzimy dowód dla $ n=2 $; dla większych $ n $ rozumowanie jest analogiczne. Mamy więc dwie rodziny $ \{\F_\gamma\}_{\gamma\in\Gamma} $, $ \{\mathcal{G}_\delta\}_{\delta\in \Delta} $ niezależnych pod-$ \sigma $-ciał $ \F $ i musimy wykazać, że dla dowolnych $ A \in \sigma(\{\F_\gamma\}_{\gamma\in\Gamma}) $, $ B\in \sigma(\{\mathcal{G}_\delta\}_{\delta\in \Delta}) $ zachodzi

$$ \mathbb{P}(A\cap B)=\mathbb{P}(A)\mathbb{P}(B).\leqno{(*)}$$

Na mocy niezależności $ \sigma $-ciał, wzór (*) zachodzi dla zbiorów postaci

$$ A=A_{\gamma^1}\cap A_{\gamma^2}\cap \ldots \cap A_{\gamma^k},\qquad A_{\gamma^i}\in \F_{\gamma^i},\,i=1,\,2,\,\ldots,k,$$
$$ B=B_{\delta^1}\cap B_{\delta^2}\cap \ldots \cap B_{\delta^\ell},\qquad B_{\delta^j}\in \mathcal{G}_{\delta^j},\,j=1,\,2,\,\ldots,\ell.$$

Ustalmy $ A $ jak wyżej i rozważmy klasę $ \mathcal{K}=\{B: $ zachodzi (*)$ \} $. Mamy więc $ \mathcal{K}\supseteq \{B_{\delta^1}\cap B_{\delta^2}\cap\ldots \cap B_{\delta^\ell}: B_{\delta^j}\in\mathcal{G}_{\delta^j}\} $, i ta ostatnia klasa jest, rzecz jasna, $ \pi $-układem generującym $ \sigma(\{\mathcal{G}_\delta\}_{\delta\in \Delta}) $. Ponadto $ \mathcal{K} $ jest $ \lambda $-układem:

  • $ \Omega\in\mathcal{K} $, bo $ \mathbb{P}(A\cap \Omega)=\P(A)\P(\Omega) $.
  • jeśli $ B_1,\,B_2\in \mathcal{K} $ i $ B_1\subseteq B_2 $, to $ B_2\setminus B_1\in \mathcal{K} $: istotnie, \begin{align*} \P(A\cap (B_2\setminus B_1))&=\P\big((A\cap B_2)\setminus (A\cap B_1)\big)\\ &=\P(A\cap B_2)-\P(A\cap B_1)\\ &=\P(A)\big(\P(B_2)-\P(B_1)\big)=\P(A)\P(B_2\setminus B_1). \end{align*}
  • Jeśli $ B_1\subseteq B_2\subseteq \ldots\in \mathcal{K} $, to $ \bigcup_{n=1}^\infty B_n\in\mathcal{K} $, gdyż z twierdzenia o ciągłości, \begin{align*} \P\left(A\cap \left(\bigcup_{n=1}^\infty B_n\right)\right)&=\P\left(\bigcup_{n=1}^\infty(A \cap B_n)\right)\\ &=\lim_{n\to \infty} \P(A\cap B_n)\\ &=\lim_{n\to \infty} \P(A)\P(B_n)=\P(A)\P\left(\bigcup_{n=1}^\infty B_n\right). \end{align*}

Zatem na mocy lematu o $ \pi-\lambda $ układach, $ \mathcal{K} $ zawiera $ \sigma(\{\mathcal{G}_{\delta}\}_{\delta\in \Delta}) $, czyli (*) zachodzi dla dowolnego zbioru $ A $ postaci $ A_{\gamma^1}\cap A_{\gamma^2}\cap\ldots\cap A_{\gamma^k} $ oraz $ B\in \sigma(\{\mathcal{G}_{\delta}\}_{\delta\in \Delta}) $. Następnie, powtarzamy rozumowanie: ustalamy $ B\in \sigma(\{\mathcal{G}_{\delta}\}_{\delta\in \Delta}) $ i definiujemy $ \mathcal{L}=\{A: $ zachodzi (*)$ \} $. Klasa $ \mathcal{L} $ zawiera wszystkie zbiory postaci $ A_{\gamma^1}\cap A_{\gamma^2}\cap \ldots \cap A_{\gamma^k} $, które tworzą $ \pi $-układ generujący $ \sigma(\{\F_{\gamma}\}_{\gamma\in \Gamma}) $. Tak jak wyżej, sprawdzamy, że $ \mathcal{L} $ jest $ \lambda $ układem, a zatem z lematu o $ \pi-\lambda $ układach, $ \mathcal{L}\supseteq \sigma(\{\F_\gamma\}_{\gamma\in\Gamma}) $. Wobec tego (*) zachodzi dla wszystkich $ A\in \sigma(\{\F_\gamma\}_{\gamma\in\Gamma}) $ oraz $ B\in  \sigma(\{\mathcal{G}_\delta\}_{\delta\in \Delta}) $, skąd dostajemy żądaną niezależność $ \sigma $-ciał. □

Zadania

1. Grupa $ n $ osób ($ n\geq 3 $), wśród których są osoby $ X $, $ Y $ i $ Z $, ustawia się losowo w kolejce. Jakie jest prawdopodobieństwo tego, że

a) $ X $ stoi bezpośrednio przed $ Y $, jeśli $ Y $ stoi bezpośrednio przed $ Z $?

b) $ X $ stoi przed $ Y $, jeśli $ Y $ stoi przed $ Z $?

2. Z talii 52 kart losujemy 5 kart bez zwracania. Obliczyć prawdopodobieństwo tego, że mamy dokładnie $ 3 $ asy, jeżeli wiadomo, że

a) mamy co najmniej jednego asa;

b) mamy asa czarnego koloru;

c) mamy asa pik;

d) pierwszą wylosowaną kartą jest as;

e) pierwszą wylosowaną kartą jest czarny as;

f) pierwszą wylosowaną kartą jest as pik.

3. W urnie znajdują się trzy białe i cztery czarne kule. Losujemy kulę, wyrzucamy bez oglądania, a następnie losujemy kolejną kulę z urny.

a) Jakie jest prawdopodobieństwo, że druga kula jest biała?

b) Załóżmy, że za drugim razem wyciągnięto białą kulę. Jakie jest prawdopodobieństwo, że za pierwszym razem wylosowano czarną kulę?

4. W populacji jest 15$ \% $ dyslektyków. Jeśli w teście diagnostycznym uczeń popełni 6 lub więcej błędów, to zostaje uznany za dyslektyka. Każdy dyslektyk na pewno popełni co najmniej 6 błędów w takim teście, ale również nie-dyslektyk może popełnić więcej niż 5 błędów -- dzieje się tak z prawdopodobieńswem 0,1. Jasio popełnił w teście 6 błędów. Jakie jest prawdopodobieństwo, że jest dyslektykiem? Jakie jest prawdopodobieństwo tego, że w kolejnym teście też popełni co najmniej 6 błędów?

5. W pewnej fabryce telewizorów każdy z aparatów może być wadliwy z prawdopodobieństwem $ p $. W fabryce są trzy stanowiska kontroli i wyprodukowany telewizor trafia na każde ze stanowisk z jednakowym prawdopodobieństwem. $ i $-te stanowisko wykrywa wadliwy telewizor z prawdopodobieństwem $ p_i $ $ (i=1,2,3) $. Telewizory nie odrzucone w fabryce trafiają do hurtowni i tam poddawane są dodatkowej kontroli, która wykrywa wadliwy telewizor z prawdopodobieństwem $ p_0 $.

a) Obliczyć prawdopodobieństwo tego, że dany nowowyprodukowany telewizor znajdzie się w sprzedaży (tzn. przejdzie przez obie kontrole).

b) Przypuśćmy, że telewizor jest już w sklepie. Jakie jest prawdopodobieństwo, że jest on wadliwy?

6. Rzucamy dwa razy kostką. Rozważmy zdarzenia: $ A $ -- za pierwszym razem wypadła liczba oczek podzielna przez $ 3 $; $ B $ -- suma wyrzuconych oczek jest parzysta; $ C $ -- za każdym razem uzyskaliśmy tę samą liczbę oczek. Czy zdarzenia $ A $, $ B $ są niezależne? Czy $ A $, $ B $, $ C $ są niezależne?

7. Na $ n $ kartonikach zapisano $ n $ różnych liczb rzeczywistych. Kartoniki włożono do pudełka, starannie wymieszano, a następnie losowano kolejno bez zwracania. Niech $ A_k $ -- $ k $-ta wylosowana liczba jest większa od poprzednich.

a) Udowodnić, że $ \mathbb{P}(A_k)=1/k $, $ k=1,\,2,\,\ldots,\,n $.

b) Udowodnić, że zdarzenia $ A_1,\,A_2,\,\ldots,\,A_n $ są niezależne.

8. Dane są liczby całkowite dodatnie $ m $, $ n $ oraz liczby $ p,\,q\in (0,1) $ spełniające warunek $ p+q=1 $. Dowieść, że

$$ (1-p^n)^m+(1-q^m)^n\geq 1.$$

9. Wyznaczyć najbardziej prawdopodobną liczbę sukcesów w schemacie $ n $ prób Bernoulliego z prawdopodobieństwem sukcesu $ p $.

10. Rzucono 10 razy kostką. Jakie jest prawdopodobieństwo tego, że w pierwszym rzucie otrzymano szóstkę, jeśli wiadomo, że

a) otrzymano trzy szóstki?

b) w następnych dziewięciu rzutach otrzymano same szóstki?

11. Rzucamy kostką aż do momentu gdy wyrzucimy piątkę bądź trzy razy szóstkę (łącznie, niekoniecznie pod rząd). Jakie jest prawdopodobieństwo, że rzucimy dokładnie $ n $ razy?

12. Prawdopodobieństwo tego, że w urnie znajduje się $ k $ kostek, wynosi $ \frac{2^k}{k!}e^{-2} $, $ k=0,1,2,\ldots $. Losujemy kolejno bez zwracania wszystkie kostki z urny i wykonujemy rzuty każdą z nich. Jakie jest prawdopodobieństwo, że uzyskamy $ l $ szóstek?

13. Jakie jest prawdopodobieństwo tego, że liczba sukcesów w schemacie Bernoulliego $ n $ prób z $ p=\frac{1}{2} $ będzie podzielna

a) przez $ 3 $?

b) przez $ 4 $?

14. Niech $ (\Omega,\F,\P) $ będzie przestrzenią probabilistyczną dla schematu $ n $ prób Bernoulliego z prawdopodobieństwem sukcesu $ p $. Dla dowolnego $ 0\leq k\leq n $, niech $ A_k $ oznacza zdarzenie, iż jest dokładnie $ k $ sukcesów. Wykazać, że dla dowolnego $ B\in \F $ oraz każdego $ k $, prawdopodobieństwo warunkowe $ \P(B|A_k) $ nie zależy od $ p $.

15. Rzucamy nieskończenie wiele razy monetą, dla której prawdopodobieństwo wypadnięcia orła wynosi $ p\neq 1/2 $. Dla $ n=2,\,4,\,\ldots $, rozważmy zdarzenie $ A_n $ - do rzutu $ n $ włącznie wypadło tyle samo orłów co reszek. Udowodnić, że z prawdopodobieństwem $ 1 $ zajdzie skończenie wiele spośród zdarzeń $ A_1 $, $ A_2 $, $ \ldots $.

16. Rzucamy nieskończenie wiele razy monetą, dla której prawdopodobieństwo wypadnięcia orła wynosi $ p\in (0,1] $. Udowodnić, że z prawdopodobieństwem $ 1 $ wystąpi nieskończenie wiele serii złożonych ze $ 100 $ orłów pod rząd.

17. Dane są dwie miary probabilistyczne $ \mu $, $ \nu $ na $ (\R,\mathcal{B}(\R)) $.

a) Załóżmy, że dla dowolnej liczby $ t>0 $ mamy $ \nu([-t,t])=\mu([-t,t]) $. Udowodnić, że jeśli $ A\in \mathcal{B}(\R) $ jest symetryczny względem $ 0 $, to $ \mu(A)=\nu(A) $.

b) Przypuśćmy, że $ \mathcal{K} $ jest pewną klasą generującą $ \mathcal{B}(\R) $ (tzn. spełniającą $ \sigma(\mathcal{K})=\mathcal{B}(\R) $). Czy z tego, że $ \mu(A)=\nu(A) $ dla każdego $ A\in \mathcal{K} $, wynika, iż $ \mu=\nu $?

Zmienne losowe i ich rozkłady

Zmienne losowe i ich rozkłady

Przechodzimy do kluczowego pojęcia rachunku prawdopodobieństwa.

Definicja Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną. Zmienną losową $ d $-wymiarową (lub zmienną losową o wartościach w $ \R^d $) nazywamy dowolną mierzalną funkcję $ X:\Omega\to \R^d $ (tzn. spełniającą, dla dowolnego $ B\in\mathcal{B}(\R^d) $, warunek $ \{X\in B\}:=X^{-1}(B)=\{\omega\in\Omega:X(\omega)\in B\}\in \F $). W szczególności, dla $ d=1 $ będziemy mówić po prostu ,,zmienna losowa''.
Twierdzenie Jeśli $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną, $ X $ jest $ d $-wymiarową zmienną losową oraz $ f:\R^d\to \R^k $ jest funkcją borelowską, to $ f(X) $ jest $ k $-wymiarową zmienną losową. W szczególności teza zachodzi więc dla ciągłych funkcji $ f $.

W szczególności, widzimy iż jeśli $ X=(X_1,X_2,\ldots,X_d) $, to $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $ są jednowymiarowymi zmiennymi losowymi.

Kolejnym ważnym pojęciem jest tzw. rozkład zmiennej losowej. Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną, a $ X $ jest $ d $-wymiarową zmienną losową. Dla dowolnego $ B\in \mathcal{B}(\R^d) $ określamy

$$ P_X(B)=\P(X\in B):=\P(\{\omega\in \Omega:X(\omega)\in B\})$$

(czyli $ P_X $ jest obrazem miary $ \P $ przy przekształceniu $ X $). Jak łatwo sprawdzić, $ (\R^d,\mathcal{B}(\R^d),P_X) $ jest nową przestrzenią probabilityczną.

Definicja Miarę $ P_X $ nazywamy rozkładem zmiennej $ X $.
Definicja Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną, a $ X $ jest $ d $-wymiarową zmienną losową. Dystrybuantą tej zmiennej losowej nazywamy funkcję $ F_X:\R^d\to [0,1] $ daną wzorem \begin{align*} F_X(x_1,x_2,\ldots,x_d)&=\P(X_1\leq x_1,X_2\leq x_2,\ldots,X_d\leq x_d)\\ &=P_X((-\infty,x_1]\times (-\infty,x_2]\times \ldots\times (-\infty,x_d]). \end{align*} Dystrybuanta zależy tylko od rozkładu, a więc jest sens mówić o dystrybuancie rozkładu prawdopodobieństwa.

Przykłady:

1. Rzucamy raz symetryczną monetą; $ \Omega=\{O,R\} $. Niech $ X(O)=1 $, $ X(R)=-1 $. Wówczas

$$ F_X(t)=\P(X\leq t)=\begin{cases} 0 & \mbox{jeśli }t<-1,\\ 1/2 & \mbox{jeśli }-1\leq t<1,\\ 1 & \mbox{jeśli }t\geq 1. \end{cases}$$

2. Wybieramy losowo punkt z koła o promieniu $ R $: mamy zatem $ (\Omega,\F,\P)=\left(K(0,R),\mathcal{B}(K(0,R)),\frac{|\cdot|}{\pi R^2}\right) $. Niech $ X(\omega)=\rho(\omega,0) $ będzie odległością wylosowanego punktu od środka. Wówczas

$$ F_X(t)=\P(X\leq t)=\begin{cases} 0 & \mbox{jeśli } t< 0,\\ t^2/R^2 & \mbox{jeśli }0\leq t<R,\\ 1 & \mbox{jeśli }t\geq R. \end{cases}$$
Twierdzenie [Własności dystrybuanty] Załóżmy, że $ X $ jest (jednowymiarową) zmienną losową. Wówczas

a) $ F_X $ jest niemalejąca.

b) $ \lim_{t\to\infty} F_X(t)=1 $, $ \lim_{t\to-\infty} F_X(t)=0 $.

c) $ F $ jest prawostronnie ciągła.

d) dla dowolnego $ t\in \R $ istnieje lewostronna granica $ F_X(t-)=\lim_{s\uparrow t}F_X(s) $ i

$$ F_X(t-)=\P(X<t)=\P(X\in (-\infty,t)).$$

e) $ F_X $ jest nieciągła w punkcie $ t_0 $ wtedy i tylko wtedy, gdy $ \P(X=t_0)>0 $ (taką liczbę $ t_0 $ nazywamy wówczas atomem rozkładu). Ściślej, dla dowolnego $ t_0\in \R $ mamy $ \P(X=t_0)=F_X(t_0)-F_X(t_0-) $.

f) dla dowolnych $ a< b $ mamy  \begin{align*} \P(a\leq X\leq b)&=&\P(X\in [a,b])=F_X(b)-F_X(a-),\\ \P(a<X\leq b)&=&\P(X\in (a,b])=F_X(b)-F_X(a),\\ \P(a\leq X< b)&=&\P(X\in [a,b))=F_X(b-)-F_X(a-),\\ \P(a<X< b)&=&\P(X\in (a,b))=F_X(b-)-F_X(a). \end{align*}

Dowód:[Dowód] a) Jeśli $ t_1<t_2 $, to $ (-\infty,t_1]\subset (-\infty,t_2] $, a więc $ F_X(t_1)=P_X((-\infty,t_1])\leq P_X((-\infty,t_2])=F_X(t_2). $

b) Dla dowolnego ciągu $ (t_n)_{n\geq 1} $ rosnącego do nieskończoności zachodzi równość $ \R=\bigcup_n (-\infty,t_n] $ i przedziały pod sumą są wstępujące. Zatem, korzystając z twierdzenia o ciągłości,

$$ 1=P_X(\R)=\lim_{n\to\infty}P_X((-\infty,t_n])=\lim_{n\to\infty}F_X(t_n).$$

Analogicznie dowodzimy drugą część.

c) Weźmy $ t\in \R $ oraz ciąg $ (t_n)_{n\geq 1} $ malejący do $ t $. Ciąg przedziałów $ (t,t_n] $ jest zstępujący i $ \bigcap_n(t,t_n]=\emptyset $, a więc \begin{align*} 0&=P_X\left(\bigcap_n (t,t_n]\right)=\lim_{n\to\infty}P_X((t,t_n])=\lim_{n\to\infty} P_X((-\infty,t_n]\setminus (-\infty,t])\\ &=\lim_{n\to\infty}\Big[P_X((-\infty,t_n])-P_X((-\infty,t])\Big]=\lim_{n\to \infty}(F_X(t_n)-F_X(t)). \end{align*}

d) Rozumujemy podobnie jak w c).

e) Wynika to wprost z d) oraz równości $ \P(X=t_0)=\P(X\leq t_0)-\P(X<t_0) $.

f) Udowodnimy tylko pierwszą równość, pozostałe wykazuje się analogicznie:

$$ \P(a\leq X\leq b)=P_X([a,b])=P_X((-\infty,b])-P_X((-\infty,a))=F_X(b)-F_X(a-).\qedhere$$

Uwaga: Jeśli funkcja $ F $ spełnia warunki a), b) oraz c) z powyższego twierdzenia, to jest dystrybuantą pewnego rozkładu (dowód pozostawiamy jako ćwiczenie).

Twierdzenie [O jednoznaczności] Dystrybuanta zmiennej losowej $ d $-wymiarowej wyznacza rozkład jednoznacznie.
Dowód:[Dowód:] Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi posiadającymi tę samą dystrybuantę. Chcemy wykazać, że $ P_X=P_Y $, czyli

$$ P_X(B)=P_Y(B) \leqno{(*)}$$

dla dowolnego podzbioru borelowskiego $ \R^d $. Klasa wszystkich zbiorów $ B $ spełniających (*) tworzy $ \lambda $-układ. Z drugiej strony, równość dystrybuant daje, iż \begin{align*} & P_X((-\infty,x_1]\times (-\infty,x_2]\times \ldots\times (-\infty,x_d])=F_X(x)=F_Y(x)\\ &\qquad = P_Y((-\infty,x_1]\times (-\infty,x_2]\times \ldots\times (-\infty,x_d]), \end{align*} a zatem (*) zachodzi dla zbiorów postaci $ (-\infty,x_1]\times  (-\infty,x_2]\times \ldots (-\infty,x_d] $, które tworzą $ \pi $-układ generujący $ \mathcal{B}(\R^d) $. Teza twierdzenia wynika więc natychmiast z lematu o $ \pi-\lambda $ układach. □

Definicja Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ jest $ d $-wymiarową zmienną losową oraz $ 1\leq i_1<i_2<\ldots<i_k\leq d $ ($ k<d $). Wówczas $ (X_{i_1},X_{i_2},\ldots,X_{i_k}) $ też jest zmienną losową i jej rozkład nazywamy $ k $-wymiarowym rozkładem brzegowym rozkładu $ X $.

Uwaga: Rozkłady brzegowe nie wyznaczają na ogół rozkładu łącznego. Rozważmy następujący przykład:

I - rzucamy trzy razy monetą i niech $ X_1 $ będzie liczbą reszek przed pojawieniem się pierwszego orła, a $ X_2 $ oznacza łączną liczbę orłów.

II - rzucamy dwie serie po trzy razy monetą i niech $ X_1' $ będzie liczbą reszek przed pojawieniem się pierwszego orła w pierwszej serii, a $ X_2' $ oznacza łączną liczbę orłów w drugiej serii.

Jest oczywiste, że zmienne $ X_1 $ oraz $ X_1' $ mają ten sam rozkład; tak samo, $ X_2 $ oraz $ X_2' $ mają ten sam rozkład. Z drugiej strony, zmienne $ (X_1,X_2) $ oraz $ (X_1',X_2') $ nie mają tego samego rozkładu: istotnie,

$$ P_{(X_1,X_2)}(\{(3,3)\})=0\quad \mbox{oraz}\quad  P_{(X_1',X_2')}(\{(3,3)\})=2^{-6}.$$

Tak więc rozkłady brzegowe zmiennych $ (X_1,X_2) $ oraz $ (X_1',X_2') $ są identyczne, ale rozkłady łączne są różne.

W dalszej części wykładu będziemy stosować następujące oznaczenie: jeśli $ X $ jest $ d $-wymiarową zmienną losową, to

$$\sigma(X):=\{\{X\in B\}:B\in \mathcal{B}(\R^d)\}$$

jest $ \sigma $-ciałem zdarzeń generowanym przez $ X $.

Definicja Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną, a $ \{X_i\}_{i\in I} $ jest rodziną zmiennych losowych, przy czym $ X_i $ przyjmuje wartości w $ \R^{d_i} $. Mówimy, że zmienne te są niezależne, jeśli $ \sigma $-ciała generowane przez te zmienne są niezależne. Innymi słowy, zmienne $ \{X_i\}_{i\in I} $ są niezależne wtedy i tylko wtedy, gdy dla każdego $ n $, dowolnych parami różnych $ i_1,\,i_2,\,\ldots,\,i_n\in I $ oraz dowolnych $ B_1\in  \mathcal{B}(\R^{d_{i_1}}) $, $ \ldots $, $ B_n\in  \mathcal{B}(\R^{d_{i_n}}) $,

$$ \P(X_{i_1}\in B_1,\,X_{i_2}\in B_2,\ldots,\,X_{i_n}\in B_n)= \P(X_{i_1}\in B_1)\P(X_{i_2}\in B_2)\ldots \P(X_{i_n}\in B_n).$$

Przykłady:

1. Zdarzenia $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są niezależne wtedy i tylko wtedy, gdy $ 1_{A_1} $, $ 1_{A_2} $, $ \ldots $, $ 1_{A_n} $ są niezależne. Istotnie, wynika to natytchmiast z faktu, iż dla dowolnego zdarzenia $ A $ oraz dowolnego podzbioru borelowskiego prostej mamy

$$ \{1_A \in B\}=\begin{cases} A & \mbox{jeśli }0\notin B,\,1\in B,\\ A' & \mbox{jeśli }0\in B,\,1\notin B,\\ \emptyset & \mbox{jeśli }0,\,1\notin B,\\ \Omega & \mbox{jeśli }0,\,1\in B. \end{cases}$$

2. W schemacie $ n $ prób Bernoulliego określmy \begin{align*} X_i(\omega)&=X_i(\omega_1,\omega_2,\ldots,\omega_n)\\ &:=\omega_i=\begin{cases} 1 & \mbox{jeśli w $ i $-tej próbie był sukces},\\ 0 & \mbox{jeśli w $ i $-tej próbie była porażka}. \end{cases} \end{align*} Wówczas $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależnymi zmiennymi losowymi. Wyniknie to łatwo z faktów, które przytoczymy w dalszej części wykładu.

Omówimy teraz pewne warunki które są równoważne niezależności zmiennych losowych. Dla prostoty, skupimy się na przypadku jednowymiarowym, ale poniższe twierdzenie pozostaje w mocy także w sytuacji gdy zmienne przyjmują wartości wektorowe.

Twierdzenie Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są zmiennymi losowymi. Następujące warunki są równoważne.

1) $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależne.

2) Dla dowolnych $ B_1 $, $ B_2 $, $ \ldots $, $ B_n\in\mathcal{B}(\R) $ zdarzenia $ \{X_1\in B_1\} $, $ \{X_2\in B_2\} $, $ \ldots $, $ \{X_n\in  B_n\} $ są niezależne.

3) $ P_{(X_1,X_2,\ldots,X_n)}=P_{X_1}\otimes P_{X_2}\otimes \ldots  \otimes P_{X_n} $,

4) Dla dowolnego $ x=(x_1,x_2,\ldots,x_n)\in \R^n $,

$$F_{(X_1,X_2,\ldots,X_n)}(x_1,x_2,\ldots,x_n)=F_{X_1}(x_1)F_{X_2}(x_2) \ldots F_{X_n}(x_n).$$
Dowód:[Dowód] Wiemy już, iż warunki 1) oraz 2) są równoważne.

2)$ \Rightarrow $4). Mamy \begin{align*} &F_{(X_1,X_2,\ldots,X_n)}(x_1,x_2,\ldots,x_n)=\P(X_1\leq x_1,X_2\leq x_2,\ldots,X_n\leq x_n)\\ &=\P(X_1\leq x_1)\P(X_2\leq x_2)\ldots\P(X_n\leq x_n)=F_{X_1}(x_1)F_{X_2}(x_2) \ldots F_{X_n}(x_n). \end{align*}

4)$ \Rightarrow $3) Niech $ X' $ będzie $ n $-wymiarową zmienną losową o rozkładzie $ P_{X_1}\otimes P_{X_2}\otimes \ldots \otimes P_{X_n} $. Dla dowolnego $ x=(x_1,x_2,\ldots,x_n) $ mamy \begin{align*} &F_{X'}(x_1,x_2,\ldots,x_n)=P_{X_1}\otimes \ldots\otimes P_{X_n}\big((-\infty,x_1]\times (-\infty,x_2]\times \ldots \times (-\infty,x_n]\big)\\ &=F_{X_1}(x_1)F_{X_2}(x_2)\ldots F_{X_n}(x_n)=F_{(X_1,X_2,\ldots,X_n)}(x_1,x_2,\ldots,x_n). \end{align*} Na mocy twierdzenia o jednoznaczności, wynika stąd $ P_{X'}=P_{(X_1,X_2,\ldots,X_n)} $.

3)$ \Rightarrow $1) Dla dowolnych podzbiorów borelowskich $ B_1 $, $ B_2 $, $ \ldots $, $ B_n $ prostej rzeczywstej mamy \begin{align*} & \P(X_1\in B_1,X_2\in B_2,\ldots,X_n\in B_n)=P_{(X_1,X_2,\ldots,X_n)}(B_1\times B_2\times \ldots \times B_n)\\ &=P_{X_1}(B_1)P_{X_2}(B_2)\ldots P_{X_n}(B_n)= \P(X_1\in B_1)\P(X_2\in B_2)\ldots \P(X_n\in B_n). \end{align*} Dowód jest zakończony. □

Przechodzimy teraz do bardziej szczegółowego omówienia typów i przykładów rozkładów prawdopodobieństwa w $ \R^d $.

Definicja Mówimy, że $ d $-wymiarowa zmienna losowa $ X $ ma dyskretny (skokowy, atomowy) rozkład, jeśli $ \P(X\in S_X)=1 $, gdzie

$$ S_X=\{x\in \R^d:\P(X=x)>0\}$$

jest zbiorem atomów rozkładu.

Uwagi:

1) Dla dowolnej zmiennej $ d $-wyiarowej $ X $ zbiór $ S_X $ jest co najwyżej przeliczalny, gdyż

$$ S_X=\bigcup_{n\geq 1} \{x\in \R^d: \P(X=x)>1/n\},$$

i każdy ze zbiorów występujących pod sumą jest skończony.

2) Rozkład dyskretny jest jednoznacznie wyznaczony przez co najwyżej przeliczalny zbiór $ S\subset \R^d $ oraz funkcję $ p:S\to [0,1] $ taką, że $ \sum_{x\in S} p(x)=1 $. Istotnie, wówczas

$$ P(B)=\sum_{x\in S\cap B} p(x).$$

Odnotujmy bardzo prosty fakt.

Twierdzenie Zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ mają rozkład skokowy wtedy i tylko wtedy, gdy zmienna $ (X_1,X_2,\ldots,X_n) $ ma rozkład skokowy.

W przypadku gdy mamy do czynienia ze skończoną rodziną zmiennych dyskretnych, warunek niezależności może być badany za pomocą następującego prostego kryterium.

Twierdzenie (#) Zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ mające rozkłady dyskretne są niezależne wtedy i tylko wtedy, gdy dla dowolnych $ x_1\in S_{X_1} $, $ x_2\in S_{X_2} $, $ \ldots $, $ x_n\in S_{X_n} $ zachodzi

$$  \P(X_1=x_1,X_2=x_2,\ldots,X_n=x_n)=\P(X_1=x_1)\P(X_2=x_2)\ldots\P(X_n=x_ n).$$
Dowód:[Dowód] $ \Rightarrow $ Oczywiste: postulowana równość jest szczególnym przypadkiem warunku występującego w definicji niezależności.

$ \Leftarrow $ Dla ułatwienia zapisu, przeprowadzimy dowód tylko dla $ n=2 $; przypadek $ n\geq 3 $ rozpatruje się analogicznie. Mamy \begin{align*} &\P(X_1\in B_1,X_2\in B_2)=\P(X_1\in S_{X_1}\cap B_1,X_2\in S_{X_2}\cap B_2)\\ &=\sum_{x_1\in S_{X_1}\cap B_1,x_2\in S_{X_2}\cap B_2} \P(X_1=x_1,X_2=x_2)\\ &=\sum_{x_1\in S_{X_1}\cap B_1}\sum_{x_2\in S_{X_2}\cap B_2}\P(X_1=x_1)\P(X_2=x_2)=\P(X_1\in B_1)\P(X_2\in B_2). \qedhere \end{align*} □

Przykłady:

1) Rozkład skupiony w punkcie $ a\in \R^d $, ozn. $ \delta_a $. Zmienna $ X $ ma rozkład skupiony w $ a $, jeśli $ \P(X=a)=1 $; $ S_X=\{a\} $.

2) Rozkład dwupunktowy skupiony w $ a,\,b\in \R^d $, $ a\neq b $. Zmienna $ X $ ma rozkład dwupunktowy skupiony na $ \{a,b\} $ jeśli $ \P(X=a)=p $ oraz $ \P(X=b)=1-p $ dla pewnego $ p\in (0,1) $.

3) Rozkład Bernoulliego (rozkład dwumianowy) z parametrami $ n $, $ p $ ($ n=1 $, $ 2 $, $ \ldots $, $ p\in (0,1) $), ozn. $ B(n,p) $. Zmienna $ X $ ma rozkład $ B(n,p) $, jeśli $ \P(X=k)={n \choose k}p^k(1-p)^{n-k} $, $ k\in S_X=\{0,\,1,\,2,\,\ldots,\,n\} $. Innymi słowy, jeśli mamy dany schemat Bernoulliego składający się z $ n $ prób o prawdopodobieństwie sukcesu $ p $, to łączna liczba sukcesów ma rozkład Bernoulliego $ B(n,p) $.

Dygresja. Załóżmy, że zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ zadane są wzorem

$$ X_i=\begin{cases} 1 & \mbox{jeśli w $i$-tej próbie był sukces},\\ 0 & \mbox{w przeciwnym przypadku}. \end{cases}\leqno{(*)}$$

Wówczas jak łatwo sprawdzić korzystając z Twierdzenia [link], zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależne. Z drugiej strony, $ X_1+X_2+\ldots+X_n $ jest łączną liczbą sukcesów. Otrzymaliśmy więc następujący fakt:

Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależnymi zmiennymi losowymi o tym samym rozkładzie (czasami te dwie własności będziemy w skrócie oznaczać przez i.i.d.) zadanym przez $ \P(X_i=1)=p=1-\P(X_i=0) $. Wówczas zmienna $ X_1+X_2+\ldots+X_n $ ma rozkład $ B(n,p) $.

Skorzystaliśmy tu z następującej prostej obserwacji:

Twierdzenie Jeśli $ d $-wymiarowe zmienne $ X $, $ Y $ mają ten sam rozkład oraz $ f:\R^d\to \R^k $ jest funkcją borelowską, to $ f(X) $ oraz $ f(Y) $ mają ten sam rozkład.

4) Rozkład geometryczny z parametrem $ p $ ($ 0<p<1 $), ozn. Geom($ p $). Zmienna $ X $ ma taki rozkład, jeśli

$$ \P(X=k)=(1-p)^kp,\qquad k\in S_X=\{0,\,1,\,2,\,\ldots\}.$$

Interpretacja: załóżmy, iż dany jest schemat Bernoulliego o nieskończonej liczbie prób i prawdopodobieństwie sukcesu $ p $. Niech $ X $ oznacza liczbę porażek poprzedzających pojawienie się pierwszego sukcesu. Wówczas $ X $ ma rozkład geometryczny z parametrem $ p $. Istotnie, wprowadzając zmienne $ X_1 $, $ X_2 $, $ \ldots $ jak w poprzednim przykładzie, możemy zapisać \begin{align*} \P(X=k)&=\P(X_1=0,\,X_2=0,\,\ldots,\,X_{k}=0,\,X_{k+1}=1)\\ &=\P(X_1=0)\P(X_2=0)\ldots\P(X_{k}=0)\P(X_{k+1}=1)=(1-p)^{k}p. \end{align*}

Czasami w literaturze rozkład geometryczny jest definiowany nieco inaczej: mianowicie, $ Y\sim  $Geom($ p $) jeśli dla dowolnej $ k\in  S_Y=\{1,\,2,\,\ldots\} $, mamy $  \P(Y=k)=(1-p)^{k-1}p. $ Wówczas zmienna ta ma interpretację jako czas oczekiwania na pierwszy sukces w nieskończonym schemacie Bernoulliego o prawdopodobieństwie sukcesu $ p $. Jest ona związana z poprzednią zmienną zależnością $ Y=  X+1 $.

5) Rozkład Poissona z parametrem $ \lambda $ ($ \lambda>0 $), ozn. Pois($ \lambda $). Zmienna $ X $ ma taki rozkład, jeśli

$$ \P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\qquad k\in  S_X=\{0,\,1,\,2,\,\ldots\}.$$

Rozkład Poissona powstaje przez odpowiednie przejście graniczne dla rozkładów Bernoulliego. Ściślej, zachodzi następujący fakt (który pozostawiamy bez dowodu).

Twierdzenie [Poissona] Załóżmy, że $ (p_n)_{n\geq 1} $ jest ciągiem liczb z przedziału $ (0,1) $ spełniającym warunek $ \lim_{n\to\infty}np_n=\lambda>0 $. Wówczas dla dowolnej liczby $ k \in\{0,\,1,\,2,\,\ldots\} $,

$$ \lim_{n\to \infty} {n \choose k}p_n^k(1-p_n)^{n-k}=  \frac{\lambda^k}{k!}e^{-\lambda}.$$

Innymi słowy, jeśli $ X_n $ ma rozkład $ B(n,p) $, $ X $ ma rozkład Pois$ (\lambda) $ i $ np\approx \lambda $, to rozkłady $ X_n $ oraz $ X $ są bliskie.

Przechodzimy do kolejnej ważnej rozdziny rozkładów.

Definicja Mówimy, że zmienna losowa $ d $-wymiarowa $ X $ ma rozkład ciągły, jeśli istnieje funkcja borelowska $ g:\R^d\to [0,\infty) $ taka, że dla dowolnego podzbioru borelowskiego $ B\subseteq \R^d $,

$$ \P(X\in B)=P_X(B)=\int_B g(x)\mbox{d}x.$$

Funkcję $ g $ nazywamy wówczas gęstością rozkładu.

Uwagi:

1. Jeśli $ P_X $ jest ciągły, to $ S_X=\emptyset $, ale nie na odwrót (warunkiem koniecznym i dostatecznym jest równość $ \P(X\in B)=0 $ dla dowolnego $ B\subset\R^d $ o zerowej mierze Lebesgue'a).

2. Jeśli $ g:\R^d\to [0,\infty) $ jest gęstością pewnego rozkładu $ \mu $ oraz $ \tilde{g}:\R^d\to [0,\infty) $ jest funkcją borelowską, to $ \tilde{g} $ jest gęstością $ \mu $ wtedy i tylko wtedy, gdy $ g=\tilde{g} $ p.w.. Istotnie, implikacja $ \Leftarrow $ jest oczywista:

$$ \mu(A)=\int_A g(x)\mbox{d}x=\int_A \tilde{g}(x)\mbox{d}x.$$

Przechodzimy do implikacji $ \Rightarrow $: mamy $ \int_B g=\int_B \tilde{g} $ dla dowolnego zbioru borelowskiego $ B $. Załóżmy, że teza nie zachodzi; wówczas jeden ze zbiorów $ \{g>\tilde{g}\} $, $ \{g<\tilde{g}\} $ ma dodatnią miarę. Bez straty ogólności załóżmy, że jest to pierwszy zbiór, i oznaczmy go przez $ B $. Jest to zbiór borelowski, i $ \int_B g>\int_B \tilde{g} $, sprzeczność.

3. Każda funkcja borelowska $ g:\R^d\to [0,\infty) $ taka, że $ \int_{\R^d}g(x)\mbox{d}x=1 $ jest gęstością pewnego rozkładu, zadanego przez $ \mu(B)=\int_B g(x)\mbox{d}x $ dla $ B\in\mathcal{B}(\R^d) $.

4. Zmienna $ X $ ma rozkład ciągły wtedy i tylko wtedy, gdy istnieje funkcja borelowska $ g:\R^d\to [0,\infty) $ taka, że

$$ F_X(x_1,x_2,\ldots,x_d)=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\ldots  \int_{-\infty}^{x_d}  g(y_1,y_2,\ldots,y_d)\mbox{d}y_d\mbox{d}y_{d-1}\ldots\mbox{d}y_1.$$

Istotnie:

$ \Rightarrow $ Mamy $ F(x_1,\ldots,x_d)=\P((X_1,\ldots,X_d)\in  (-\infty,x_1]\times \ldots \times (-\infty,x_d]) $ i wystarczy skorzystać z definicji gęstości.

$ \Leftarrow $ Zbiegając z $ x_1 $, $ x_2 $, $ \ldots $, $ x_d $ do nieskończoności widzimy, że $ \int_{\R^d}g(x)\mbox{d}x=1 $. Niech $ \mu $ będzie rozkładem prawdopodobieństwa w $ \R^d $, zadanym przez gęstość $ g $ (patrz Uwaga 3 powyżej). Wówczas, na mocy poprzedniej implikacji mamy $ F_X=F_\mu $, a zatem, z twierdzenia o jednoznaczności, $ P_X=\mu $.

5. Jako wniosek z poprzedniej uwagi, otrzymujemy następujący fakt.

Twierdzenie Załóżmy, że $ X $ jest $ d $-wymiarową zmienną losową o dystrybuancie $ F $ i niech

$$ g(x_1,x_2,\ldots,x_d)=\frac{\partial ^d F}{\partial x_1\partial  x_2\ldots \partial x_d}(x_1,x_2,\ldots,x_d)\qquad \mbox{p.w.}.$$

Wówczas jeśli $ \int_{\R^d}g=1 $, to $ X $ ma rozkład ciągły i jego gęstością jest funkcja $ g $.

Przykład Losujemy punkt z koła o promieniu $ R $. Niech $ X $ oznacza odległość punktu od środka koła. Wówczas, jak już wiemy,

$$ F_X(t)=\begin{cases} 0 & \mbox{dla }t<0,\\ t^2/R^2 & \mbox{dla }0\leq t<R,\\ 1 & \mbox{dla }t\geq R. \end{cases}$$

Różniczkując, dostajemy

$$ g(t)=\begin{cases} 0 & \mbox{dla }t<0\mbox{ lub }t\geq R,\\ 2t/R^2 &\mbox{dla }0\leq t<R. \end{cases}$$

Łatwo sprawdzić, że $ \int_\R g=1 $, a więc $ g $ jest gęstością rozkładu zmiennej $ X $.

Twierdzenie Jeśli zmienna $ X=(X_1,X_2,\ldots,X_d) $ ma rozkład ciągły, to jej rozkłady brzegowe też są ciągłe. Ponadto

$$ g_{X_i}(x)=\int_{\R^{d-1}}  g(x_1,x_2,\ldots,x_{i-1},x,x_{i+1},\ldots,x_d)\mbox{d}x_1\ldots  \mbox{d}{x_{i-1}}\mbox{d}x_{i+1}\ldots \mbox{d}x_d.$$

Ogólniej, aby otrzymać gęstość wektora $ (X_{i_1},X_{i_2},\ldots,X_{i_k}) $, musimy odcałkować gęstość $ X $ po wszystkich $ x_i $ dla $ i\notin \{i_1,i_2,\ldots,i_k\} $.

Dowód:[Dowód] Mamy \begin{align*} \P(X_i \in B)&=\P((X_1,X_2,\ldots,X_d)\in \R^{i-1}\times B \times \R^{d-i})=\int_{\R^{i-1}\times B \times \R^{d-i}}g\\ &=\int_B \left(\int_{\R^{i-1}\times \R^{d-i}}g(x)\mbox{d}x_1\ldots \mbox{d}x_{i-1}\mbox{d}x_{i+1}\ldots \mbox{d}x_n\right)\mbox{d}x_i. \end{align*} W przypadku gdy rozkład brzegowy jest wielowymiarowy, rozumowanie jest analogiczne. □

Uwaga: Implikacja w drugą stronę nie zachodzi: wystarczy wziąć dowolną jednowymiarową zmienną losową $ X $ o rozkładzie ciągłym i rozważyć wektor $ (X,X) $ (który rozkładu ciągłego już nie posiada, gdyż jest skoncentrowany na zbiorze $ \{(x,x):x\in \R\} $, który ma zerową miarę Lebesgue'a).

Ważne przykłady rozkładów ciągłych

1) Rozkład jednostajny (równomierny) na zbiorze $ D $, ozn. $ \mathcal{U}(D) $. Załóżmy, że $ D\in  \mathcal{B}(\R^d) $ spełnia warunek $ 0<|D|<\infty $. Zmienna losowa $ X $ ma rozkład jednostajny na $ D $, jeśli ma gęstość

$$ g(x)=\frac{1}{|D|}1_D(x)=\begin{cases} 1/|D| & \mbox{dla }x\in D,\\ 0 & \mbox{dla }x\notin D. \end{cases}$$

Dla dowolnego $ B\in\mathcal{B}(\R^d) $ mamy wówczas $ \P(X\in B)=\int_B  g(x)\mbox{d}x=\frac{|B\cap D|}{|D|}. $

W szczególności, jeśli $ d=1 $ oraz $ D=[a,b] $, dostajemy rozkład o gęstości $ g(x)=\frac{1}{b-a}1_{[a,b]}(x) $ i dystrybuancie

$$ F_X(x)=\int_{-\infty}^xg(s)\mbox{d}s=\begin{cases} 0 & \mbox{dla }x<a,\\ (x-a)/(b-a) & \mbox{dla }a\leq x<b,\\ 1 & \mbox{dla }x\geq b. \end{cases}$$

2) Rozkład wykładniczy z parametrem $ \lambda $ ($ \lambda>0 $), ozn. Exp$ (\lambda) $. Zmienna losowa $ X $ ma taki rozkład, jeśli ma gęstość

$$ g(x)=\lambda e^{-\lambda x}1_{[0,\infty)}(x)=\begin{cases} 0 & \mbox{dla }x<0,\\ \lambda e^{-\lambda x} & \mbox{dla }x\geq 0. \end{cases}$$

Jak łatwo policzyć, wówczas

$$ F_X(x)=\begin{cases} 0 & \mbox{dla }x<0,\\ 1-e^{-\lambda x} & \mbox{dla }x\geq 0. \end{cases}$$

Rozkład wykładniczy służy do modelowania czasu oczekiwania na zjawisko całkowicie losowe. Załóżmy, że nieujemna zmienna losowa $ X $ oznacza taki czas oczekiwania, a całkowitą losowość zapisujemy poprzez własność braku pamięci:

$$ \P(X>t+s|X>s)=\P(X>t)\qquad \mbox{dla wszystkich }s,\,t\geq 0.$$

Oznaczając $ f(t)=\P(X>t) $, widzimy, iż powyższe równanie jest równoważne $ f(t+s)=f(t)f(s) $. Dodatkowo, $ f $ jest nierosnąca, prawostronnie ciągła oraz spełnia $ f(0)=1 $, $ \lim_{t\to\infty}  f(t)=0 $, skąd już wynika, że $ f(t)=e^{-\lambda x} $ dla pewnego $ \lambda>0 $, a zatem $ X $ ma rozkład wykładniczy.

3) Rozkład Gaussa (rozkład normalny). Załóżmy, że $ m $ jest ustalonym wektorem w $ \R^d $, a $ A $ jest symetryczną i dodatnio określoną macierzą $ d\times d $. Zmienna losowa $ X $ ma rozkład normalny (z parametrami $ m $ i $ A $), jeśli jej gęstość wynosi

$$ g(x)=\frac{\sqrt{\mbox{det}A}}{(2\pi)^{d/2}}\exp\left(-\frac{1}{2}\langle  A(x-m),x-m\rangle\right)$$

($ \langle \cdot, \cdot\rangle $ oznacza iloczyn skalarny w $ \R^d $). Sprawdźmy, że funkcja $ g $ istotnie całkuje się do $ 1 $. Z algebry liniowej wiadomo, że istnieje izometria (macierz ortogonalna) $ B:\R^d\to \R^d $ taka, że $ B^t AB $ ma postać diagonalną:

$$ B^tAB=\left[\begin{array}{cccc} a_1 & 0 & \ldots & 0\\ 0 & a_2 &\ldots & 0\\  & & \ldots & \\  0 & 0 & \ldots & a_d  \end{array}\right].$$

Podstawiając $ x-m=By $, dostajemy \begin{align*} \int_{\R^d} g(x)\mbox{d}x& =\frac{\sqrt{\mbox{det}A}}{(2\pi)^{d/2}}\int_{\R^d} \exp\left(-\frac{1}{2} \langle ABy,By\rangle\right)|\mbox{det}B|\mbox{d}y\\ &=\frac{\sqrt{\mbox{det}A}}{(2\pi)^{d/2}}\int_{\R^d} \exp\left(-\frac{1}{2}\langle B^{-1}ABy,y\rangle \right)\mbox{d}y\\ &=\frac{\sqrt{\mbox{det}A}}{(2\pi)^{d/2}}\int_{\R^d}\exp\left(-\frac{1}{2} \sum_{k=1}^d a_ky_k^2\right)\mbox{d}y\\ &=\frac{\sqrt{\mbox{det}A}}{(2\pi)^{d/2}}\prod_{k=1}^d \int_\R e^{-a_ky_k^2/2}\mbox{d}y_k\\ &=\frac{\sqrt{\mbox{det}A}}{\sqrt{a_1a_2\ldots a_d}}\prod_{k=1}^d\left(\frac{1}{\sqrt{2\pi}}\int_\R e^{-z_k^2/2}\mbox{d}z_k\right)=1, \end{align*} gdzie w przedostatnim kroku dokonaliśmy podstawienia $ z_k=\sqrt{a_k}y_k $, a w ostatnim skorzystaliśmy z równości

$$ \mbox{det}A=a_1a_2\ldots a_d\quad \mbox{ oraz }\quad  \frac{1}{\sqrt{2\pi}}\int_\R e^{-x^2/2}\mbox{d}x=1.$$

W szczególnym przypadku $ d=1 $, jeśli $ m\in \R $ i $ \sigma>0 $ (i za macierz $ A $ weźmiemy $ [\sigma^{-2}] $), otrzymujemy gęstość

$$  g(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-m)^2}{2\sigma^2} \right),\qquad x\in \R.$$

Rozkład ten oznaczamy $ \mathcal{N}(m,\sigma^2) $. W szczególności, rozkład $ \mathcal{N}(0,1) $ nazywamy standardowym rozkładem normalnym (standardowym rozkładem Gaussa).

W przypadku zmiennych o rozkładzie ciągłym, mamy następujące kryterium niezależności.

Twierdzenie Załóżmy, że $ g_1 $, $ g_2 $, $ \ldots $, $ g_n $ są gęstościami. Wówczas zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ o rozkładach z gęstościami $ g_1 $, $ g_2 $, $ \ldots $, $ g_n $ są niezależne wtedy i tylko wtedy, gdy zmienna $ (X_1,X_2,\ldots,X_n) $ ma gęstość $ g(x_1,x_2,\ldots,x_n)=g_1(x_1)g_2(x_2)\ldots g_n(x_n). $
Dowód:[Dowód] $ \Rightarrow $ Mamy, na mocy niezależności zmiennych, \begin{align*} F_{(X_1,X_2,\ldots,X_n)}&(x_1,x_2,\ldots,x_n)\\ &=F_{X_1}(x_1)F_{X_2}(x_2) \ldots F_{X_n}(x_n)\\ &=\int_{-\infty}^{x_1} g_1(y_1)\mbox{d}y_1\int_{-\infty}^{x_2}g_2(y_2)\mbox{d}y_2\ldots \int_{-\infty}^{x_n}g_n(y_n)\mbox{d}y_n\\ &=\int_{(-\infty,x_1]\times \ldots \times(-\infty,x_n]}g_1(y_1)g_2(y_2)\ldots g_n(y_n)\mbox{d}y_1\mbox{d}y_2\ldots \mbox{d}y_n, \end{align*} skąd natychmiast wynika teza.

$ \Leftarrow $ Piszemy ten sam ciąg równości, zaczynając od końca. □

Przykład Zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ o rozkładach jednostajnych na $ D_1 $, $ D_2 $, $ \ldots $, $ D_n $ są niezależne wtedy i tylko wtedy, gdy $ (X_1,X_2,\ldots,X_n) $ ma rozkład jednostajny na $ D_1\times D_2\times \ldots \times D_n $. Wynika to natychmiast z tego, że gęstość rozkładu jednostajnego na $ D_1\times D_2\times \ldots  \times D_n $ wynosi

$$ \frac{1_{D_1\times D_2\times \ldots \times D_n}(x_1,x_2,\ldots,x_n)} {|D_1\times D_2\times \ldots \times D_n|}= \frac{1_{D_1}(x_1)}{|D_1|}\cdot \frac{1_{D_2}(x_2)}{|D_2|}\cdot \ldots  \cdot \frac{1_{D_n}(x_n)}{|D_n|},$$

a czynniki po prawej stronie to gęstości rozkładów jednostajnych na $ D_1 $, $ D_2 $, $ \ldots $, $ D_n $, odpowiednio.

W przypadku gdy zmienne losowe są niezależne i mają rozkłady ciągłe, istnieje efektywna metoda liczenia rozkładu ich sumy. Zachodzi następujący fakt.

Twierdzenie Załóżmy, że $ X_1 $, $ X_2 $ są niezależnymi, jednowymiarowymi zmiennymi losowymi o rozkładach z gęstościami $ g_1 $ oraz $ g_2 $, odpowiednio. Wówczas zmienna $ X_1+X_2 $ ma rozkład z gęstością

$$ g_1*g_2(x)=\int_\R g_1(x-y)g_2(y)\mbox{d}y.$$

Widzimy więc, że $ g_1*g_2 $ to splot gęstości $ g_1 $ i $ g_2 $.

Dowód:[Dowód] Dla dowolnego $ B\in \mathcal{B}(\R) $ mamy \begin{align*} \mathbb{P}(X_1+X_2\in B)&=P_{(X_1,X_2)}(\{(x,y):x+y\in B\})\\ &=\iint_{\{(x,y):x+y\in B\}} g_{(X_1,X_2)}(x,y)\mbox{d}x\mbox{d}y\\ &=\iint_{\{(x,y):x+y\in B\}} g_1(x)g_2(y)\mbox{d}x\mbox{d}y\\ &=\iint_{\R^2} 1_B(x+y)g_1(x)g_2(y)\mbox{d}x\mbox{d}y\\ &=\int_\R\left(\int_\R 1_B(x+y)g_1(x)\mbox{d}x\right)g_2(y)\mbox{d}y\\ &=\int_\R\left(\int_\R 1_B(z)g_1(z-y)\mbox{d}z\right)g_2(y)\mbox{d}y\\ &=\int_B\left(\int_\R g_1(z-y)g_2(y)\mbox{d}y\right)\mbox{d}z\\ &=\int_B g_1*g_2(z)\mbox{d}z.\qedhere \end{align*} □

Przykłady:

1) Jeśli $ X_1 $, $ X_2 $ są niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na $ [0,1] $, to $ g_1(x)=g_2(x)=1_{[0,1]}(x) $, a więc $ X_1+X_2 $ ma gęstość \begin{align*} g_1*g_2(x)&=\int_\R 1_{[0,1]}(x-y)1_{[0,1]}(y)\mbox{d}y\\ & =\int_\R 1_{[x-1,x]}(y)1_{[0,1]}(y)\mbox{d}y\\ &=\big|[x-1,x]\cap [0,1]\big|=\begin{cases} 0 & \mbox{dla }x<0,\\ x & \mbox{dla }0\leq x<1,\\ 2-x & \mbox{dla }1 \leq x<2,\\ 0 & \mbox{dla }x\geq 2. \end{cases} \end{align*}

2) Załóżmy, że $ X_1 $, $ X_2 $ są niezależnymi zmiennymi losowymi o rozkładach $ N(m_1,\sigma_1^2) $, $ N(m_2,\sigma_2^2) $: zatem

$$  g_i(x)=\frac{1}{\sqrt{2\pi}\sigma_i}\exp\left(-\frac{(x-m_i)^2}{2\sigma_ i^2}\right),\qquad i=1,\,2.$$

Wówczas $ X_1+X_2 $ ma gęstość \begin{align*} g_1*g_2(x)&=\frac{1}{2\pi \sigma_1\sigma_2}\int_\R \exp\left(-\frac{(x-y-m_1)^2}{2\sigma_1^2} -\frac{(y-m_2)^2}{2\sigma_2^2}\right)\mbox{d}y\\ &=\frac{1}{\sqrt{2\pi(\sigma_1^2+\sigma_2^2)}}\exp\left(-\frac{ (x-m_1-m_2)^2}{2(\sigma_1^2+\sigma_2^2)}\right) \end{align*} (dowód ostatniej równości pozostawiamy jako ćwiczenie). Zatem $ X_1+X_2\sim N(m_1+m_2,\sigma_1^2+\sigma_2^2) $. I ogólniej, przez indukcję: jeśli $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależnymi zmiennymi losowymi o rozkładach $ N(m_1,\sigma_1^2) $, $ N(m_2,\sigma_2^2) $, $ \ldots $, $ N(m_n,\sigma_n^2) $, to $ X_1+X_2+\ldots+X_n $ ma rozkład $ N(m_1+m_2+\ldots+m_n,\sigma_1^2+\sigma_2^2+\ldots+\sigma_n^2) $.

Zadania

1. Rzucamy monetą, dla której prawdopodobieństwo wypadnięcia orła wynosi $ p\in (0,1] $, aż do momentu wyrzucenia $ k $ orłów (łącznie, niekoniecznie pod rząd). Niech $ X $ oznacza liczbę rzutów. Wyznaczyć rozkład zmiennej $ X $.

2. Rzucamy dwa razy kostką. Niech $ X $, $ Y $ oznaczają minimum oraz maksimum z uzyskanych liczb oczek, odpowiednio. Wyznaczyć rozkłady zmiennych $ X $, $ Y $ oraz sprawdzić, że zmienne $ X $ i $ 7-Y $ mają ten sam rozkład.

3. Na skrzyżowaniu ulic na pewnym kierunku światło czerwone świeci się minutę, a światło zielone - pół minuty (zakładamy, że nie ma żółtego światła). Samochód dojeżdża do skrzyżowania (w danym kierunku) w losowym momencie czasowym. Niech $ X $ oznacza czas spędzony na skrzyżowaniu; zakładamy, że nie ma korka.

a) Wyznaczyć rozkład zmiennej $ X $.

b) Załóżmy, że po 20 sekundach samochód wciąż nie przejechał skrzyżowania; jakie jest prawdopodobieństwo, że opuści je w przeciągu najbliższych $ 10 $ sekund?

4. Dystrybuanta zmiennej losowej $ X $ dana jest wzorem

$$ F_X(t)= \begin{cases} 0 & \text{dla }t<-1,\\ \frac{1}{2}(t+1) & \text{dla } -1\leq t <0,\\ \frac{3}{4} & \text{dla } 0\leq t <4,\\ 1 & \text{dla }t\geq 4. \end{cases}$$

Obliczyć $ \mathbb{P}(X=-5) $, $ \mathbb{P}(2<X\leq 5) $, $ \mathbb{P}(X=4) $, $ \mathbb{P}(-1<X<0) $.

5. Zmienna losowa $ X $ ma rozkład o dystrybuancie

$$F(t)=\begin{cases} 0 & \mbox{dla }t< 0,\\ t/2 & \mbox{dla }0\leq t<2,\\ 1 & \mbox{dla }t\geq 2. \end{cases}.$$

Wyznaczyć dystrybuantę zmiennych $ Y=\max(X,1) $ oraz $ Z=\min(X,X^2) $.

6. Niech $ F:\R\to [0,1] $ będzie funkcją prawostronnie ciągłą, niemalejącą, taką że $ \lim_{t\to\infty}F(t)=1 $ oraz $ \lim_{t\to-\infty}F(t)=0 $. Wykazać, że $ F $ jest dystrybuantą pewnej zmiennej losowej w pewnej przestrzeni probabilistycznej.

7. Z talii $ 52 $ kart losujemy ze zwracaniem pięć razy po jednej karcie. Niech $ X $ oznacza liczbę wyciągniętych pików, $ Y $ - liczbę wyciągniętych kierów, a $ Z $ - liczbę wyciągniętych waletów. Czy zmienne $ X $, $ Y $ są niezależne? Czy zmienne $ X $, $ Z $ są niezależne?

8. Zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ $ (n\geq 6) $ są niezależne i mają ten sam rozkład, zadany wzorem $ \mathbb{P}(X_i=-1)=\mathbb{P}(X_i=1)=1/2 $, $ i=1,\,2,\,\ldots,\,n $.

a) Czy zmienne $ X_1+X_2 $, $ X_1X_2 $ są niezależne?

b) Czy zmienne $ X_1+X_2 $, $ X_3 $, $ X_4+X_5X_6 $ są niezależne?

c) Czy zmienne $ X_1 $, $ X_1X_2 $, $ \ldots $, $ X_1X_2\ldots X_n $ są niezależne?

9. Zmienne losowe $ X $, $ Y $ są niezależne, przy czym dla $ n=1,\,2,\,\ldots $ mamy $  \mathbb{P}(X=n)=(1-p)^{n-1}p $ oraz $ \mathbb{P}(Y=n)=(1-q)^{n-1}q. $ Obliczyć $ \mathbb{P}(X\leq Y) $.

10. Dla dowolnej liczby $ \omega\in [0,1] $, niech $ X_n(\omega) $ oznacza $ n $-tą cyfrę rozwinięcia dwójkowego $ \omega $, $ n=1,\,2,\,\ldots $ (jeśli $ \omega $ posiada dwa różne rozwinięcia, to bierzemy to, które zawiera skończoną liczbę jedynek). Wykazać, że $ X_1 $, $ X_2 $, $ \ldots $ są niezależnymi zmiennymi losowymi na przestrzeni probabilistycznej $ ([0,1],\mathcal{B}([0,1]),|\cdot|) $.

11. Zmienne $ X $, $ Y $ są niezależne, przy czym $ X $ nie ma atomów. Udowodnić, że $ \mathbb{P}(X=Y)=0 $.

12. Zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależne i mają rozkłady Poissona z parametrami $ \lambda_1 $, $ \lambda_2 $, $ \ldots $, $ \lambda_n $. Udowodnić, że $ X_1+X_2+\ldots+X_n $ ma rozkład Poissona z parametrem $ \lambda_1+\lambda_2+\ldots+\lambda_n $.

13. Zmienna losowa $ X $ jest niezależna od siebie samej. Udowodnić, że istnieje $ c $ takie, że $ \mathbb{P}(X=c)=1 $.

14. Zmienna losowa $ X $ ma rozkład wykładniczy z parametrem $ 1 $.

a) Wyznaczyć rozkłady zmiennych $ [X] $ oraz $ \{X\} $.

b) Czy zmienne te są niezależne?\\ Uwaga: $ [x] $, $ \{x\} $ oznaczają część całkowitą i część ułamkową liczby $ x\in \R $, odpowiednio.

15. Zmienna losowa $ X $ ma rozkład jednostajny na przedziale $ [0,1] $. Wyznaczyć rozkład zmiennej $ Y=-\ln X $.

16. Zmienna losowa $ X $ ma rozkład normalny $ \mathcal{N}(0,1) $. Wyznaczyć gęstości zmiennych $ Y=e^X $, $ Z=X^2 $.

17. Tekst broszury zawiera $ n=100000 $ znaków. W trakcie pisania (na komputerze) każdy znak może zostać błędnie wprowadzony z prawdopodobieństwem $ 0,001 $. Z kolei redaktor znajduje każdy z błędów z prawdopodobieństwem $ 0,9 $, po czym tekst wraca do autora, który znajduje każdy z pozostałych błędów z prawdopodobieństwem $ 0,5 $. Oszacować prawdopodobieństwo tego, że po obu korektach broszura będzie zawierała nie więcej niż $ 3 $ błędy.

18. Zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależne i mają rozkłady wykładnicze z parametrami $ \lambda_1 $, $ \lambda_2 $, $ \ldots $, $ \lambda_n $, odpowiednio. Wyznaczyć rozkład zmiennej $ Y=\max(X_1,X_2,\ldots,X_n) $.

19. Zmienna losowa $ (X,Y) $ ma rozkład z gęstością

$$ g(x,y)=Cxy1_{\{0\leq x\leq y\leq 1\}}.$$

a) Wyznaczyć $ C $.

b) Obliczyć $ \mathbb{P}(X+Y\leq 1) $.

c) Wyznaczyć rozkład zmiennej $ X/Y $.

d) Czy $ X $, $ Y $ są niezależne?

e) Czy $ X/Y $, $ Y $ są niezależne?

20. Zmienne $ X $, $ Y $ są niezależne i mają rozkład jednostajny na przedziale $ [-1,1] $. Obliczyć $ \P(X^2+Y^2\leq 1) $.

21. Zmienna losowa $ X $ ma rozkład Cauchy'ego, tzn. z gęstością

$$ g(x)=\frac{1}{\pi}\frac{1}{1+x^2}.$$

Udowodnić, że zmienne $ X $, $ 1/X $ mają ten sam rozkład.

22. Niech $ \Gamma(r)=\int_0^\infty x^{r-1}e^{-x}dx $, $ r>0 $. Mówimy, że zmienna $ X $ ma rozkład gamma z parametrami $ \lambda,\,r $ (ozn. $ \Gamma(\lambda,r) $), jeśli ma gęstość

$$ g_{\lambda,r}(x)=\frac{1}{\Gamma(r)}\lambda^rx^{r-1}e^{-\lambda  x}1_{[0,\infty)}(x).$$

a) Udowodnić, że jeśli $ X $, $ Y $ są niezależnymi zmiennymi losowymi, $ X \sim \Gamma(\lambda,r), $ $ Y\sim \Gamma(\lambda,s) $, to $ X+Y \sim \Gamma(\lambda,r+s) $.

b) Udowodnić, że jeśli $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależnymi zmiennymi losowymi o rozkładzie Exp$ (\lambda) $, to $ X_1+X_2+\ldots+X_n $ ma rozkład $ \Gamma(\lambda,n) $.

c) Udowodnić, że jeśli $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależnymi zmiennymi losowymi o rozkładzie $ \mathcal{N}(0,1) $, to $ X_1^2+X_2^2+\ldots+X_n^2 $ ma rozkład $ \Gamma(1/2,n/2) $ (jest to tzw. rozkład chi kwadrat o $ n $ stopniach swobody.

23. Zmienne losowe $ X $, $ Y $ są niezależne i mają rozkład wykładniczy z parametrem $ 1 $. Udowodnić, że zmienne $ X/Y $ oraz $ X+Y $ są niezależne.

Parametry rozkładu zmiennej losowej (wartość oczekiwana i wariancja)

Parametry rozkładu zmiennej losowej (wartość oczekiwana i wariancja)

Definicja (i) Załóżmy, że $ X $ jest jednowymiarową zmienną losową na przestrzeni probabilistycznej $ (\Omega,\F,\mathbb{P}) $. Mówimy, że $ X $ ma wartość oczekiwaną, jeśli istnieje całka $ \int_\Omega  X(\omega)\mbox{d}\mathbb{P}(\omega) $. Całkę tę nazywamy wartością oczekiwaną (średnią) zmiennej $ X $ i oznaczamy symbolem $ \E X $.

(ii) Jeśli $ \E |X|<\infty $, to mówimy, że $ X $ jest całkowalna i oznaczamy to przez $ X\in L^1(\Omega,\F,\P) $.

(iii) Analogicznie, załóżmy, że $ p $ jest pewną dodatnią liczbą. Jeśli $ \E |X|^p<\infty $, to mówimy że $ X $ jest całkowalna z $ p $-tą potęgą i oznaczamy to przez $ X\in L^p(\Omega,\F,\P) $.

(iv) Mówimy, że zmienna losowa $ X $ jest ograniczona, jeśli istnieje liczba $ u $ taka, że $ \mathbb{P}(|X|\geq u)=0 $. Oznaczenie: $ X\in L^\infty(\Omega,\F,\P) $.

Uwaga: Powyższe definicje mają także sens gdy $ X $ jest zmienną wielowymiarową: będzie o tym mowa w dalszej części wykładu. \def\eeee{ $ X=(X_1,X_2,\ldots,X_d) $. Wówczas wartość oczekiwaną $ X $ definiujemy jako wektor

$$ \left(\int_\Omega  X_1(\omega)\mbox{d}\mathbb{P}(\omega),\int_\Omega  X_2(\omega)\mbox{d}\mathbb{P}(\omega),\ldots,\int_\Omega  X_n(\omega)\mbox{d}\mathbb{P}(\omega) \right),$$

o ile całki istnieją. Ponadto, wprowadzamy klasy $ L^p(\Omega,\F,\P) $, $ 1\leq p\leq \infty $ tak jak wyżej, przy czym $ |\cdot| $ rozumiemy jako normę euklidesową w $ \R^d $.}

Odnotujmy dwie ważne nierówności:

1) Nierówność Minkowskiego. Jeśli $ X $, $ Y $ są zmiennymi losowymi oraz $ 1\leq p<\infty $, to

$$ (\E|X+Y|^p)^{1/p}\leq (\E |X|^p)^{1/p}+(\E |Y|^p)^{1/p}.$$

Istnieje wersja tej nierówności dla $ p=\infty $: mianowicie,

$$ \mbox{ess\,sup}\,|X+Y|\leq  \mbox{ess\,sup\,}|X|+\mbox{ess\,sup\,}|Y|,$$

gdzie ess\,sup\,$ \xi=\inf\{u:\P(\xi\geq u)=0\} $ to tzw. istotne supremum zmiennej $ \xi $.

2) Nierówność H\óldera. Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi oraz $ p,q\in (1,\infty) $ są liczbami harmonicznie sprzężonymi, tzn. spełniającymi równość $ \frac{1}{p}+\frac{1}{q}=1 $. Wówczas

$$ \E |XY|\leq (\E |X|^p)^{1/p}(\E |Y|^q)^{1/q}.$$

Uwaga: Bezpośrednio z definicji widzimy, że wartość oczekiwana jest operatorem liniowym: ściślej, jeśli $ X_1 $, $ X_2 $, \ldots, $ X_n $ są całkowalnymi zmiennymi losowymi oraz $ a_1,\,a_2,\,\ldots,\,a_n\in \R $, to zmienna $ a_1X_1+a_2X_2+\ldots+a_nX_n $ jest całkowalna oraz

$$ \E (a_1X_1+a_2X_2+\ldots+a_nX_n)=a_1\E X_1+a_2\E X_2+\ldots+a_n\E  X_n.$$

Z analizy znamy następujące trzy twierdzenia o przechodzeniu do granicy pod znakiem całki.

Twierdzenie [Lebesgue'a o monotonicznym przechodzeniu do granicy] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są nieujemnymi i całkowalnymi zmiennymi losowymi, przy czym $ X_n(\omega)\leq X_{n+1}(\omega) $, $ n=1,\,2,\,\ldots $. Wówczas

$$ \E\big(\lim_{n\to\infty}X_n\big)=\lim_{n\to \infty}\E X_n.$$

W szczególności, zmienna $ \lim_{n\to\infty} X_n $ jest całkowalna wtedy i tylko wtedy, gdy $ \lim_{n\to\infty}\E X_n<\infty. $

Twierdzenie [Lebesgue'a o zbieżności zmajoryzowanej] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są zmiennymi losowymi majoryzowanymi przez pewną zmienną całkowalną $ \eta $: $ |X_n|\leq \eta $ dla $ n=1,\,2,\,\ldots $. Jeśli istnieje granica $ X(\omega)=\lim_{n\to  \infty}X_n(\omega) $ dla prawie wszystkich $ \omega $ (prawie wszystkich w sensie miary $ \P $), to $ \lim_{n\to\infty}\E X_n=\E X $.
Twierdzenie [Lemat Fatou] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są nieujemnymi zmiennymi losowymi. Wówczas $ \E \lim\inf_{n\to\infty}X_n\leq \lim\inf_{n\to  \infty}\E X_n $.

Dygresja: Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi. Mówimy, że $ X $ i $ Y $ są równe prawie na pewno, jeśli zachodzi równość $ \P(X\neq Y)=0 $. Załóżmy, że $ p\in [1,\infty] $ i określmy

$$||X||_p=\begin{cases}(\E |X|^p)^{1/p} & \mbox{dla }1\leq p<\infty,\\ \mbox{ess\,sup\,}|X| & \mbox{dla }p=\infty. \end{cases}$$

Jeśli utożsamimy zmienne losowe równe p.n., to $ ||\cdot||_p $ jest normą na $ L^p(\Omega,\F,\P) $. Co więcej, przestrzeń $ L^p(\Omega,\F,\P) $ wraz z tą normą jest liniowa i zupełna (czyli jest przestrzenią Banacha).

Uwaga: Na mocy nierówności H\óldera, mamy $ ||X||_p\leq  ||X||_{p'} $ jeśli $ p<p' $. Dostajemy stąd inkluzję $ L^{p'}(\Omega,\F,\mathbb{P})\subset L^p(\Omega,\F,\P) $.

Definicja Dla $ p\in (0,\infty) $, liczbę $ \E |X|^p $ nazywamy $ p $-tym momentem zmiennej $ X $.
Twierdzenie [Nierówność Czebyszewa] Załóżmy, że $ X $ jest zmienną losową oraz $ f:[0,\infty)\to[0,\infty) $ jest funkcją niemalejącą taką, że $ f(x)>0 $ dla $ x>0 $. Wówczas dla dowolnej liczby $ \lambda>0 $,

$$ \P(|X|\geq \lambda)\leq \frac{\E f(|X|)}{f(\lambda)}.$$

W szczególności, biorąc $ f(x)=x^p $, $ p>0 $, dostajemy

$$ \P(|X|\geq \lambda)\leq \frac{\E |X|^p}{\lambda^p}.$$
Dowód:[Dowód] Mamy

$$ \E f(|X|)\geq \E f(|X|)1_{\{|X|\geq \lambda\}}\geq \E  f(\lambda)1_{\{|X|\geq \lambda\}}=f(\lambda)\P(|X|\geq  \lambda).\qedhere$$

Definicja Załóżmy, że $ X $ jest jednowymiarową zmienną losową całkowalną z kwadratem (tzn. $ X\in L^2 $). Liczbę Var$ X=\E(X-\E X)^2 $ nazywamy wariancją zmiennej $ X $.

Jak łatwo sprawdzić, wariancja posiada następujące własności. Przy założeniu, że $ X\in L^2 $, mamy:

  • Var$ X=\E X^2-(\E X)^2 $,
  • Var$ X\geq 0 $, przy czym Var$ X=0 $ wtedy i tylko wtedy, gdy $ X $ ma rozkład jednopunktowy.
  • Var$ (aX+b)=a^2\, $Var$ X $ dla dowolnych liczb rzeczywistych $ a,\,b $.
  • Z nierówności Czebyszewa, dla dowolnej liczby $ \lambda>0 $,
    $$ \P(|X-\E X|\geq \lambda)\leq \frac{\mbox{Var}\,X}{\lambda^2}.$$

Odnotujmy kolejny ogólny fakt.

Twierdzenie [O zamianie zmiennych] Załóżmy, że $ X $ jest $ d $-wymiarową zmienną losową na $ (\Omega,\F,\P) $, a $ f:\R^d\to \R $ jest funkcją borelowską. Wówczas

$$ \E f(X)=\int_{\R^d} f(x)P_X(\mbox{d}x),$$

o ile jedna z tych całek istnieje.

Dowód:[Dowód] Stosujemy metodę komplikacji funkcji.

(i) Najpierw załóżmy, że $ f $ jest funkcją charakterystyczną pewnego zbioru $ B $: $ f=1_B $. Wówczas dowodzona tożsamość przyjmuje postać $ \P(X\in B)=P_X(B) $, która oczywiście jest prawdziwa.

(ii) Jeśli $ f $ jest funkcją prostą, tzn. kombinacją liniową funkcji charakterystycznych, to badana równość zachodzi, gdyż jej obie strony zależą od $ f $ w sposób liniowy.

(iii) Załóżmy, że $ f\geq 0 $. Wówczas $ f $ jest granicą punktową pewnego niemalejącego ciągu $ (f_n)_{n\geq 0} $ nieujemnych funkcji prostych. Na mocy (ii), mamy

$$ \E f_n(X)=\int_{\R^d} f_n(x)P_X(\mbox{d}x),\qquad n=1,\,2,\,\ldots,$$

a więc wystarczy zbiec z $ n\to \infty $ oraz skorzystać z twierdzenia Lebesgue'a o monotonicznym przejściu do granicy.

(iv) Jeśli $ f $ jest dowolna, to rozbijamy ją na różnicę dwóch nieujemnych funkcji borelowskich: $ f=f_+-f_-=f1_{\{f\geq  0\}}+f1_{\{f<0\}} $, stosujemy (iii) do funkcji $ f_+ $ i $ f_- $, a następnie odejmujemy stronami uzyskane dwie tożsamości. Stąd teza. □

Z powyższego faktu wynikają następujące

Wnioski:

1) Jeśli $ X $ jest zmienną losową, to $ \E X=\int_\R xP_X(\mbox{d}x) $ oraz

$$ \mbox{Var}\,X=\int_\R(x-\E X)^2 P_X(\mbox{d}x)=\int_\R  x^2P_X(\mbox{d}x)-(\E X)^2$$

(o ile te wielkości istnieją).

2) Wartość oczekiwana i wariancja zależą tylko od rozkładu.

Jak łatwo widać z powyższego twierdzenia, jeśli $ X $ jest $ d $-wymiarową zmienną o rozkładzie dyskretnym, a $ f:\R^d\to \R $ jest funkcją borelowską, to

$$ \E f(X)=\int_{\R^d}f(x)P_X(\mbox{d}x)=\sum_{x\in S_X}  f(x)P_X(\{x\})=\sum_{x\in S_X} f(x)\P(X=x),$$

o ile wartość oczekiwana istnieje. Tak więc, w szczególności, dla $ d=1 $ mamy

$$ \E X=\sum_{x\in S_X} xP_X(\{x\})=\sum_{x\in S_X}x\P(X=x),$$
$$ \mbox{Var}\,X=\E X^2-(\E X)^2=\sum_{x\in S_X} x^2P_X(\{x\})-(\E  X)^2=\sum_{x\in S_X}x^2\P(X=x)-(\E X)^2.$$

W przypadku gdy zmienna ma rozkład ciągły, jej parametry wyznaczamy przy użyciu następującego faktu.

Twierdzenie Załóżmy, że $ d $-wymiarowa zmienna losowa $ X $ ma rozkład z gęstością $ g $. Wówczas dla dowolnej funkcji borelowskiej $ f:\R^d\to  \R $ mamy

$$ \E f(X)=\int_{\R^d}  f(x)P_X(\mbox{d}x)=\int_{\R^d}f(x)g(x)\mbox{d}x,$$

o ile wartość oczekiwana istnieje.

Dowód:[Dowód] Tak jak wyżej, stosujemy metodę komplikacji funkcji. □

Wobec tego, jeśli $ X $ jest jednowymiarową zmienną losową o rozkładzie z gęstością $ g $, to

$$ \E X=\int_\R x g(x)\mbox{d}x,\quad \mbox{Var}\,X=\int_\R  x^2g(x)\mbox{d}x-(\E X)^2.$$

Przykłady:

1) Załóżmy, że $ P_X=\delta_a $, $ a\in \R $. Wówczas $ \E X=a\cdot 1=a $, Var$ \,X=\E  X^2-(\E X)^2=a^2-a^2=0 $.

2) Przypuśćmy, że $ P_X $ to rozkład dwupunktowy, skupiony w $ \{a,b\} $, taki że $ P_X(\{a\})=p $, $ P_X(\{b\})=1-p $, $ 0<p<1 $. Wówczas

$$ \E X=a\cdot p+b\cdot (1-p),$$
$$ \mbox{Var}\,X=a^2\cdot p+b^2\cdot  (1-p)-(ap+b(1-p))^2=(a-b)^2p(1-p).$$

3) Załóżmy teraz, że $ P_X=B(n,p) $: $ P_X(\{k\})={n \choose  k}p^k(1-p)^{n-k} $, $ k=0,\,1,\,\ldots,\,n $. Wówczas, jak za chwilę policzymy,

$$ \E X=np\quad \mbox{ oraz } \mbox{Var}\,X=np(1-p).$$

Podejście wprost z definicji jest niewygodne: na przykład, mamy

$$ \E X=\sum_{k=0}^n k{n \choose k}p^k(1-p)^{n-k}$$

i trzeba ,,zwinąć'' tę sumę. Aby uniknąć rachunków, rozważmy niezależne zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ o tym samym rozkładzie dwupunktowym zadanym przez $ \P(X_i=1)=p=1-\P(X_i=0) $. Wówczas, jak już wiemy, $ X_1+X_2+\ldots+X_n $ ma rozkład $ B(n,p) $, a zatem, z liniowości wartości oczekiwanej,

$$ \E X=\E(X_1+X_2+\ldots+X_n)=\E X_1+\E X_2+\ldots+\E X_n=np.$$

Ponadto,

$$ \E X^2=\E(X_1+X_2+\ldots+X_n)^2=\sum_{k=1}^n \E X_k^2+2\sum_{k<\ell}  \E X_kX_\ell.$$

Dla dowolnych różnych $ k,\,\ell $, zmienna $ X_kX_\ell $ ma rozkład dwupunktowy skoncentrowany na $ \{0,1\} $, przy czym

$$\P(X_kX_\ell=1)=\P(X_k=1,X_\ell=1)=\P(X_k=1)\P(X_\ell=1)=p^2,$$

na mocy niezależności $ X_k $ oraz $ X_\ell $. Zatem

$$ \E X^2=n \cdot p+2{n \choose 2}p^2=np+n(n-1)p^2$$

i w konsekwencji,

$$ \mbox{Var}\,X=\E X^2-(\E X)^2=np-np^2=np(1-p).$$

4) Załóżmy następnie, że zmienna $ X $ ma rozkład Poissona z parametrem $ \lambda>0 $: $ P_X(\{k\})=e^{-\lambda}\frac{\lambda^k}{k!} $, $ k=0,\,1,\,2,\,\ldots $. Wówczas

$$ \E X=\sum_{k=0}^\infty k\cdot e^{-\lambda}\frac{\lambda^k}{k!} =\lambda e^{-\lambda}\sum_{k=1}^\infty  \frac{\lambda^{k-1}}{(k-1)!}=\lambda.$$

Podobnie obliczamy, iż

$$ \mbox{Var}\,X=\sum_{k=0}^\infty k^2\cdot  e^{-\lambda}\frac{\lambda^k}{k!}-(\E X)^2=\lambda.$$

5) Załóżmy, że $ P_X=\mathcal{U}([a,b]) $: $ g(x)=\frac{1}{b-a}1_{[a,b]}(x) $. Wtedy

$$ \E X=\int_\R xg(x)\mbox{d}x=\frac{1}{b-a}\int_a^b  x\mbox{d}x=\frac{a+b}{2}$$

oraz

$$ \mbox{Var}\,X=\frac{1}{b-a}\int_a^b  x^2\mbox{d}x-\left(\frac{a+b}{2}\right)^2=\frac{(b-a)^2}{12}.$$

6) Dalej, przypuśćmy, że $ X\sim \, $Exp$ (\lambda) $, $ \lambda>0 $, tzn. $ X $ ma rozkład z gęstością $ g(x)=\lambda e^{-\lambda  x}1_{[0,\infty)}(x) $. Całkując przez części, dostajemy

$$ \E X=\int_0^\infty x\cdot \lambda e^{-\lambda x}\mbox{d}x= -xe^{-\lambda x}\Big|_0^\infty+\int_0^\infty e^{-\lambda  x}\mbox{d}x=\frac{1}{\lambda}$$

oraz, wykonując analogiczne obliczenia, otrzymujemy Var$ \,X=\frac{1}{\lambda^2}. $

7) Wreszcie, przypuśćmy, że $ P_X=N(m,\sigma^2) $, gdzie $ m\in \R $ oraz $ \sigma>0 $. Wówczas gęstość $ X $ dana jest wzorem

$$  g(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-m)^2}{2\sigma^2} \right].$$

Dokonując podstawienia $ y=(x-m)/\sigma $, obliczamy, iż \begin{align*} \E X&=\frac{1}{\sqrt{2\pi}\sigma}\int_\R x\cdot \exp\left[-\frac{(x-m)^2}{2\sigma^2} \right]\mbox{d}x\\ &=\frac{1}{\sqrt{2\pi}}\int_\R (\sigma y+m)e^{-y^2/2}\mbox{d}y\\ &=\frac{\sigma}{\sqrt{2\pi}}\int_\R ye^{-y^2/2}\mbox{d}y+ \frac{m}{\sqrt{2\pi}}\int_\R e^{-y^2/2}\mbox{d}y=m. \end{align*} Ponadto, ponownie stosując powyższe podstawienie, otrzymujemy \begin{align*} \mbox{Var}\,X&=\frac{1}{\sqrt{2\pi}\sigma}\int_\R (x-m)^2 e^{-(x-m)^2/(2\sigma^2)}\mbox{d}x\\ &=\frac{\sigma^2}{\sqrt{2\pi}}\int_\R y^2e^{-y^2/2}\mbox{d}y\\ &=\frac{\sigma^2}{\sqrt{2\pi}}\big(-ye^{-y^2/2}\big)\Big|_{-\infty} ^\infty +\frac{\sigma^2}{\sqrt{2\pi}}\int_\R e^{-y^2/2}\mbox{d}y=\sigma^2. \end{align*} Podkreślmy: zatem parametry $ m $ i $ \sigma^2 $ pojawiające się w oznaczeniu rozkładu normalnego, to odpowiednio jego średnia i wariancja.

8) Warto tu jeszcze podać jeden przykład. Załóżmy, że $ X $ ma rozkład Cauchy'ego, tzn. rozkład z gęstością

$$ g(x)=\frac{1}{\pi}\frac{1}{1+x^2},\qquad x\in \R.$$

Wówczas zmienna $ X $ nie jest całkowalna: mamy

$$ \E |X|=\int_\R |x|\cdot \frac{1}{\pi}\frac{1}{1+x^2}\mbox{d}x=\infty.$$

Co więcej, wartość oczekiwana $ X $ nie istnieje: mamy

$$ \E X^+=\int_\R x^+g(x)\mbox{d}x=\int_0^\infty \frac{1}{\pi}\frac{x}{1+x^2}\mbox{d}x=\infty$$

i podobnie $ \E X^-=\infty $.

Przechodzimy teraz do związków wartości oczekiwanej i wariancji z niezależnością zmiennych.

Twierdzenie Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ to całkowalne i niezależne zmienne losowe. Wówczas zmienna $ X_1X_2\ldots X_n $ jest całkowalna i zachodzi równość

$$\E X_1X_2\ldots X_n=\E X_1\E X_2\ldots \E X_n.$$
Dowód:[Dowód] Wiemy, że $ P_{(X_1,X_2,\ldots,X_n)}=P_{X_1}\otimes P_{X_2}\otimes \ldots \otimes  P_{X_n}. $ Wobec tego, korzystając z twierdzenia o zamianie zmiennych, \begin{align*} \E|X_1X_2\ldots X_n|&= \int_{\R^n}|x_1x_2\ldots x_n|P_{(X_1,\ldots,X_n)}(\mbox{d}x_1\ldots\mbox{d}x_n)\\ &=\prod_{i=1}^n \int_\R |x_i|P_{X_i}(\mbox{d}x_i)<\infty, \end{align*} a więc $ X_1X_2\ldots X_n\in L^1(\Omega,\F,\P) $. Wystarczy teraz powtórzyć powyższy ciąg równości bez modułów (który ma sens, gdyż, jak właśnie udowodniliśmy, wszystkie wartości oczekiwane istnieją). □

Uwaga: Twierdzenie odwrotne nie zachodzi. Przykładowo, weźmy zmienne $ \eta_1 $, $ \eta_2 $ o tym samym rozkładzie całkowalnym z kwadratem i połóżmy $ X_1=\eta_1+\eta_2 $, $ X_2=\eta_1-\eta_2 $. Wówczas $ \E X_2=0 $, a więc $ \E X_1\E X_2=0 $; ponadto, $  \E X_1X_2=\E \eta_1^2-\E \eta_2^2=0 $, na mocy równości rozkładów. Na ogół zmienne $ X_1 $ oraz $ X_2 $ nie są jednak niezależne: przykładowo, rozważmy dwukrotny rzut kostką i niech $ \eta_i $ oznacza liczbę oczek w $ i $-tym rzucie, $ i=1,\,2 $. Wówczas $ X_1 $, $ X_2 $ są zależne - mają tę samą parzystość.

Przechodzimy do sytuacji wielowymiarowej.

Definicja Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ jest $ d $-wymiarową zmienną losową o całkowalnych współrzędnych (tzn. $ \E|X_i|<\infty $ dla $ i=1,\,2,\,\ldots,\,n $). Wartością oczekiwaną $ X $ nazywamy wektor $ (\E X_1,\,\E X_2,\,\ldots,\,\E X_d) $.

Uwagi:

1) Jeśli $ X $, $ Y $$ d $-wymiarowymi zmiennymi losowymi mającymi wartość oczekiwaną oraz $ \alpha,\,\beta\in \R $, to $ \alpha X+\beta  Y $ także posiada wartość oczekiwaną.

2) Zmienna $ d $-wymiarowa $ X $ ma wartość oczekiwaną wtedy i tylko wtedy, gdy $ \E |X|<\infty $ (gdzie $ |\cdot| $ oznacza tu normę euklidesową). Wynika to natychmiast z oszacowania

$$ |X_j|\leq |X|\leq \sum_{i=1}^d |X_i|,\qquad j=1,\,2,\,\ldots,\,d.$$

3) Jeśli $ d $-wymiarowa zmienna $ X $ ma skończoną wartość oczekiwaną, to $ |\E X|\leq \E |X| $. Istotnie, dla dowolnego wektora $ a\in \R^d $ o długości $ 1 $ mamy

$$ \langle \E X,a\rangle=\sum_{j=1}^d \E X_j \cdot a_j=\E \langle  X,a\rangle \leq \E |X||a|=\E |X|$$

i biorąc supremum po $ a $ (bądź, alternatywnie, kładąc $ a=\E X/|\E  X| $), dostajemy żądaną nierówność.

Definicja Załóżmy, że $ X_1 $, $ X_2 $ są zmiennymi losowymi całkowalnymi z kwadratem. Liczbę

$$ \mbox{Cov}\,(X,Y)=\E\big[(X-\E X)(Y-\E Y)\big]$$

nazywamy kowariancją zmiennych $ X $ i $ Y $. W przypadku gdy Cov$ \,(X,Y)=0 $, mówimy, że zmienne $ X $, $ Y $nieskorelowane.

Jak łatwo sprawdzić, kowariancja posiada następujące własności:

(a) Przede wszystkim, jest ona dobrze określona, na mocy nierówności Schwarza.

(b) Zachodzi równość Cov$ \,(X,Y)=\E XY-\E X\E Y $.

(c) Dla dowolnej zmiennej $ X\in L^2 $, Cov$ \,(X,X)=\, $Var$ \,X $.

(d) Zachodzi równość Cov$ \,(X,Y)=\, $Cov$ \,(Y,X). $

(e) Kowariancja jest operatorem dwuliniowym: jeśli $ X $, $ Y,\,Z\in L^2 $, to

$$\mbox{Cov}\,(X+Y,Z)=\mbox{Cov}\,(X,Z)+\mbox{Cov}\,(Y,Z).$$

Ponadto, jeśli $ X\in L^2 $ oraz $ a\in \R $, to Cov$ \,(X,a)=0 $.

Uwaga: Powyższe rozważania pokazują, że jeśli $ X $, $ Y\in L^2 $ są niezależne, to są nieskorelowane, ale nie na odwrót.

Twierdzenie Zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są całkowalne z kwadratem. Wówczas

$$ \mbox{Var}\,(X_1+X_2+\ldots+X_n)=\sum_{k=1}^n  \mbox{Var}\,X_k+2\sum_{k<\ell} \mbox{Cov}\,(X_k,X_\ell).$$

W szczególności, jeśli zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są nieskorelowane, to

$$  \mbox{Var}\,(X_1+X_2+\ldots+X_n)=\,\mbox{Var}\,X_1+\,\mbox{Var}\,X_2+ \ldots+\,\mbox{Var}\,X_n.$$
Dowód:[Dowód] Przekształcamy: \begin{align*} \mbox{Var}\,(X_1+X_2+\ldots+X_n)&=\E\left[\sum_{j=1}^n X_j-\E\left(\sum_{j=1}^n X_j\right)\right]^2\\ &=\E\left[\sum_{j=1}^n (X_j-\E X_j)\right]^2\\ &=\sum_{j=1}^n \E (X_j-\E X_j)^2+2\sum_{i

Porównując przypadek jedno- i wielowymiarowy widzimy, iż wartość oczekiwana jednowymiarowej zmiennej losowej jest liczbą, a wartością oczekiwaną wielowymiarowej zmiennej jest wektor. Powstaje naturalne pytanie dotyczące uogólnienia wariancji na przypadek wielowymiarowy. Okazuje się, iż tym uogólnieniem jest tzw. macierz kowariancji.

Definicja Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ jest $ d $-wymiarową zmienną losową o współrzędnych całkowalnych z kwadratem. Macierz

$$ \Lambda=\left [\begin{array}{cccc} \mbox{Cov}\,(X_1,X_1) & \mbox{Cov}\,(X_1,X_2) & \ldots & \mbox{Cov}\,(X_1,X_d)\\ \mbox{Cov}\,(X_2,X_1) & \mbox{Cov}\,(X_2,X_2) & \ldots & \mbox{Cov}\,(X_2,X_d)\\  & \ldots & &\\ \mbox{Cov}\,(X_d,X_1) & \mbox{Cov}\,(X_d,X_2) & \ldots & \mbox{Cov}\,(X_d,X_d) \end{array}\right]$$

nazywamy macierzą kowariancji zmiennej $ X $.

Uwaga: Wartość oczekiwana i macierz kowariancji zmiennej losowej $ d $-wymiarowej zależą tylko od rozkładu.

Twierdzenie [Własności macierzy kowariancji] Macierz kowariancji zmiennej $ X=(X_1,X_2,\ldots,X_d) $ jest symetryczna i nieujemnie określona.
Dowód:[Dowód] Symetryczność wynika wprost z własności (d) kowariancji. Aby udowodnić nieujemną określoność, niech $ m_i=\E X_i $ oraz weźmy dowolny ciąg liczb rzeczywistych $ t_1 $, $ t_2 $, $ \ldots $, $ t_d $. Rozważmy jednowymiarową zmienną losową $ \eta=t_1X_1+t_2X_2+\ldots+t_dX_d $, która jest całkowalna z kwadratem (gdyż własność tę mają też zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $). Mamy \begin{align*} 0&\leq \mbox{Var}\,\eta\\ &=\E \left(\sum_{j=1}^dt_j(X_j-\E X_j)\right)^2\\ &=\sum_{i,j=1}^d \E \big[t_i(X_i-\E X_i)\cdot t_j(X_j-\E X_j)\big]\\ &=\sum_{i,j=1}^d t_it_j\mbox{Cov}\,(X_i,X_j), \end{align*} co oznacza tezę.

Poczyńmy jeszcze jedną przydatną obserwację. Przypuśćmy, iż macierz kowariancji nie jest dodatnio określona, tzn. dla pewnych $ t_1 $, $ t_2 $, $ \ldots $, $ t_d $ mamy

$$\sum_{i,j} t_it_j\,\mbox{Cov}\,(X_i,X_j)=0.$$

Oznacza to, iż $ \eta=t_1X_1+t_2X_2+\ldots+t_dX_d $ ma rozkład jednopunktowy, tzn. istnieje $ c\in \R $ takie, że

$$ \P\left(t_1X_1+t_2X_2+\ldots+t_dX_d=c\right)=1,$$

a zatem z prawdopodobieństwem $ 1 $ zmienna $ X $ przyjmuje wartości w pewnej $ d-1 $-wymiarowej podprzestrzeni afinicznej. □

Odnotujmy pożyteczny

Wniosek: Zmienna $ X=(X_1,X_2,\ldots,X_d) $ ma parami nieskorelowane współrzędne wtedy i tylko wtedy, gdy macierz kowariancji jest diagonalna. W szczególności, jeśli współrzędne $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $ są niezależne, to $ X $ ma diagonalną macierz kowariancji (ale nie na odwrót!).

Przykład Rozważmy wielowymiarowy rozkład normalny. Niech $ m\in \R^d $, niech $ A $ będzie symetryczną, dodatnio określoną macierzą $ d\times d $ oraz załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ ma rozkład z gęstością

$$ g(x)=\frac{\sqrt{\mbox{det}\,A}}{(2\pi)^{d/2}}\exp\left[-\frac{1}{2}\langle A(x-m),(x-m)\rangle \right].$$
Twierdzenie Mamy $ \E X=m $, a macierz kowariancji $ X $ jest równa $ A^{-1} $.

Pozostawiamy dowód tego twierdzenia jako ćwiczenie.

Twierdzenie Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ ma $ d $-wymiarowy rozkład normalny. Wówczas zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $ są niezależne wtedy i tylko wtedy, gdy są nieskorelowane.
Dowód:[Dowód] $ \Rightarrow $ W tę stronę implikacja zachodzi dla dowolnych zmiennych losowych.

$ \Leftarrow $ Jeśli współrzędne są nieskorelowane, to, jak wiemy, macierz kowariancji jest przekątniowa:

$$ \Lambda=\left[\begin{array}{cccc} \sigma_1^2 & 0 & \ldots & 0\\ 0 & \sigma_2^2 & \ldots & 0\\ &\ldots & &\\ 0 & 0 & \ldots & \sigma_d^2 \end{array}\right].$$

Zatem $ A=\Lambda^{-1} $ także jest diagonalna i jej wyrazy na głównej przekątnej to $ 1/\sigma_1^2 $, $ 1/\sigma_2^2 $, $ \ldots $, $ 1/\sigma_d^2 $. Wobec tego \begin{align*} g(x)&=\frac{\sqrt{\sigma_1^{-2}\sigma_2^{-2}\ldots\sigma_d^{-2}}}{(2\pi)^{d/2}}\exp\left[-\frac{1}{2}\sum_{j=1}^d (x_j-m_j)\cdot \sigma_j^{-2}\right]\\ &=\prod_{j=1}^d \left(\frac{1}{\sqrt{2\pi}\sigma_j} e^{-(x_j-m_j)^2/(2\sigma_j^2)}\right)\\ &=g_1(x_1)g_2(x_2)\ldots g_d(x_d), \end{align*} gdzie $ g_j $ to gęstość rozkładu $ \mathcal{N}(m_j,\sigma_j^2) $. Stąd niezależność. □

Rozważymy teraz tzw. zagadnienie regresji liniowej, grające ważną rolę w statystyce. Problem możermy sformułować następująco. Załóżmy, że mamy zmienne losowe $ X $, $ Y $ całkowalne z kwadratem i znamy ich łączny rozkład. Ponadto, przypuśćmy, iż obserwujemy wartości zmiennej $ X $, a zmienna $ Y $ jest trudniejsza - bądź niemożliwa - do zmierzenia. Powstaje więc interesujące zagadnienie optymalnego przybliżania zmiennej $ Y $ za pomocą zmiennej $ X $. Oczywiście, musimy odpowiednio postawić ten problem; będziemy szukać optymalnego przybliżenia liniowego, tzn. postaci $ aX+b $, $ a,\,b \in \R $, a błąd będziemy mierzyć w sensie średniokwadratowym. Innymi słowy, szukamy stałych $ a,\,b \in \R $, dla których wielkość $  f(a,b)=\E (Y-aX-b)^2 $ jest najmniejsza.

Aby rozwiązać ten problem, zauważmy, iż przy ustalonym $ a $, funkcja $ b \mapsto f(a,b) $ jest trójmianem kwadratowym, który przyjmuje swoją najmniejszą wartość w punkcie $ \E (Y-aX) $. Wystarczy więc wyznaczyć najmniejszą wartość funkcji

$$ h(a)=f(a,\E(Y-aX))=\E (Y-\E Y-a(X-\E X))^2=a^2\text{Var}X-2a\text{Cov}(X,Y)+\text{Var}Y. $$

Jeśli zmienna $ X $ jest stała p.n. (czyli Var$ X $=0), to wówczas $ h $ jest funkcją stałą i widać, że optymalnym liniowym estymatorem zmiennej $ Y $ jest jej średnia: $ aX+b=aX+(\E Y-a\E X)=\E Y $. Jeśli zaś Var$ X\neq 0 $, to $ h $ jest trójmianem kwadratowym zmiennej $ a $, przyjmującym swoją najmniejszą wartość w punkcie

$$ a=\frac{\text{Cov}(X,Y)}{\text{Var}X}$$

i wówczas

$$ b=\E Y-\E X \cdot \frac{\text{Cov}(X,Y)}{\text{Var}X}.$$

Uwagi:

1) Widać, że do powyższych obliczeń nie potrzebowaliśmy całej wiedzy o rozkładzie łącznym zmiennych $ (X,Y) $. Wystarczy nam znajomość średnich i wariancji zmiennych $ X $, $ Y $ oraz ich kowariancji.

2) Załóżmy, że wariancje $ X $ oraz $ Y $ są niezerowe. Dla powyższych (optymalnych) $ a $, $ b $ obliczamy, iż

$$ f(a,b)=\mbox{Var}\,X (1-\rho^2(X,Y)),$$

gdzie

$$ \rho(X,Y)=\frac{\mbox{Cov}\,(X,Y)}{\sqrt{\mbox{Var}\,X\,\mbox{Var}Y}}$$

to tzw. współczynnik korelacji. Współczynnik ten posiada następujące własności:

(a) Zachodzi nierówność $ -1 \leq \rho(X,Y)\leq 1 $,

(b) Mamy $ \rho(X,Y)=\rho(Y,X) $ oraz, dla dowolnych $ a,\,b\in \R $, $ \rho(aX+b,Y)=\rho(X,Y) $.

(c) Jeśli $ |\rho(X,Y)|=1 $, to $ X=\alpha Y+\beta $ dla pewnych $ \alpha $, $ \beta\in \R $; innymi słowy, między $ X $ a $ Y $ jest zależność liniowa.

(d) Równość $ \rho(X,Y)=0 $ zachodzi wtedy i tylko wtedy, gdy $ X $, $ Y $ są nieskorelowane. Wówczas najlepszym przybliżeniem $ Y $ jest $ \E X $.

Zadania

1. Dana jest zmienna losowa $ X $ taka, że $ \mathbb{P}(X=0)=\mathbb{P}(X=1)=\frac{1}{4} $, $ \mathbb{P}(X=-3)=\frac{1}{2} $. Obliczyć $ \mathbb{E}X $, $ \mathbb{E}\frac{1}{X+2} $, $ \mathbb{E} \cos(\pi X) $ oraz Var$ \,X $.

2. Zmienna losowa $ X $ ma rozkład Poissona z parametrem $ 2 $. Obliczyć $ \mathbb{E} 6^X $.

3. Zmienna losowa $ X $ ma rozkład z gęstością

$$ g(x)=\frac{3}{8}x^21_{[0,2]}. $$

Obliczyć $ \mathbb{E} X $, $ \mathbb{E} \frac{1}{1+x^3} $ oraz Var$ \,X^2 $.

4. Zmienna losowa $ X $ ma rozkład z dystrybuantą

$$ F(t)=\begin{cases} 0 & \text{jeśli }t<0,\\ t/2 & \text{jeśli }0\leq t<1,\\ 3/4 & \text{jeśli }1\leq t<5,\\ 1 & \text{jeśli }t\geq 5. \end{cases}$$

Wyznaczyć $ \mathbb{E} (2X+1) $.

5. W urnie znajduje się 50 białych kul. Losujemy ze zwracaniem po jednej kuli, przy czym wyciągniętą kulę malujemy na czerwono, jeśli jest biała. Niech $ X $ oznacza liczbę czerwonych kul w urnie po 20 losowaniach. Wyznaczyć $ \mathbb{E}X $ oraz Var$ \,X $.

6. Każdy bok i każdą przekątną sześciokąta foremnego malujemy losowo na jeden z trzech kolorów. Wybór każdego koloru jest jednakowo prawdopodobny, kolorowania różnych odcinków są niezależne. Niech $ X $ oznacza liczbę jednobarwnych trójkątów o wierzchołkach będących wierzchołkami sześciokąta. Obliczyć $ \mathbb{E}X $.

7. Rzucamy kostką aż do momentu, gdy wyrzucimy wszystkie liczby oczek. Obliczyć wartość oczekiwaną i wariancję liczby rzutów.

8. Udowodnić, że dla dowolnej zmiennej losowej nieujemnej $ X $ oraz $ p>0 $ zachodzi wzór

$$ \E X^p=p\int_0^\infty t^{p-1}\P(X\geq t)\mbox{d}t=p\int_0^\infty t^{p-1}\P(X> t)\mbox{d}t.$$

Wywnioskować stąd, że jeśli zmienna $ X $ ma rozkład dyskretny skoncentrowany na liczbach całkowitych nieujemnych, to

$$ \E X=\sum_{k=1}^\infty \P(X\geq k)=\sum_{k=0}^\infty \P(X>k).$$

9. Liczby $ 1,\,2,\,\ldots,\,n $ ustawiono losowo w ciąg $ (a_1,\,a_2,\,\ldots,\,a_n) $. Niech $ N $ oznacza największą taką liczbę, że $ a_k>a_{k-1} $ dla $ k\leq  N $. Obliczyć $ \mathbb{E} N $.

10. Dany jest ciąg niezależnych zmiennych losowych $ X_0 $, $ X_1 $, $ X_2 $, $ \ldots $ o tym samym rozkładzie posiadającym ciągłą dystrybuantę. Niech $ \eta=\inf\{n:X_n>X_0\} $. Wyznaczyć rozkład zmiennej $ \eta $ oraz obliczyć $ \E \eta $.

11. Kij o długości $ 1 $ złamano w punkcie wybranym losowo, z prawdopodobieństwem rozłożonym równomiernie. Obliczyć wartość oczekiwaną stosunku

a) długości kawałka lewego do długości kawałka prawego.

b) długości kawałka krótszego do długości kawałka dłuższego.

12. Zmienne losowe $ X $, $ Y $ spełniają warunki Var$ X=3 $, Cov$ (X,Y)=-1 $, Var$ Y=2 $. Obliczyć Var$ (4X-3Y) $ oraz Cov$ (5X-Y,2X+Y) $.

13. Zmienna losowa $ X $ ma wariancję $ \sigma^2<\infty $. Udowodnić, że

$$ \mathbb{P}(|X-\mathbb{E}X|>3\sigma)\leq \frac{1}{9}. $$

14. Zmienne losowe $ \varepsilon_1,\,\varepsilon_2,\,\ldots,\varepsilon_n $ są niezależne i mają ten sam rozkład $ \mathbb{P}(\varepsilon_k=1)= \mathbb{P}(\varepsilon_k=-1)=1/2 $, $ k=1,\,2,\,\ldots,\,n $. Niech $ a_1,\,a_2,\,\ldots,\,a_n $ będzie ciągiem liczb rzeczywistych i $ A=(\sum_{k=1}^n  a_k^2)^{1/2} $. Udowodnić, że

$$ \mathbb{P}\left(\left|\sum_{k=1}^n  a_k\varepsilon_k\right|>t\right)\leq 2\exp(-t^2/2A^2).$$

15. Zmienne $ \varepsilon_1,\,\varepsilon_2,\,\ldots $ są niezależne i mają ten sam rozkład $ \mathbb{P}(\varepsilon_k=1)= \mathbb{P}(\varepsilon_k=-1)=1/2 $, $ k=1,\,2,\,\ldots. $ Niech $ S_n=\varepsilon_1+\varepsilon_2+\ldots+\varepsilon_n $, $ n=1,\,2,\,\ldots $. Udowodnić, że

$$ \mathbb{P}\left(\limsup_{n\to \infty} \frac{S_n}{\sqrt{2n\log n}} \leq 1\right)=1$$

oraz

$$ \mathbb{P}\left(\liminf_{n\to \infty} \frac{S_n}{\sqrt{2n\log n}} \geq -1\right)=1.$$

16. Zmienna losowa $ X $ ma następującą własność: dla $ n=1,2,\ldots $ mamy

$$\mathbb{E}|X|^n\leq {2n \choose n}.$$

Udowodnić, że $ X\in L^\infty $ (tzn. istnieje taka liczba $ M $, że $ \P(|X|\leq M)=1 $).

17. Zmienna losowa $ X $ ma rozkład normalny w $ \mathbb{R}^d $, o średniej $ m $ i macierzy kowariancji $ \Lambda $. Niech $ T $ będzie przekształceniem afinicznym $ \mathbb{R}^d $ na $ \mathbb{R}^k $, $ k\leq  d $. Udowodnić, że $ TX $ ma rozkład normalny w $ \mathbb{R}^k $. Wyznaczyć jego średnią oraz macierz kowariancji.

18. Zmienna losowa $ X $ ma $ d $-wymiarowy rozkład normalny o gęstości

$$ g(x)=\frac{\sqrt{\mbox{det}\,A}}{(2\pi)^{d/2}}\exp\left[-\frac{1}{2}\langle A(x-m),(x-m)\rangle \right].$$

Udowodnić, że $ \E X=m $ oraz $ \Lambda=A^{-1} $ ($ \Lambda $ oznacza tu macierz kowariancji $ X $).

19. Zmienna losowa $ (X,Y) $ ma dwuwymiarowy rozkład normalny o średniej $ (0,0) $ i macierzy kowariancji

$$ \Lambda=\left[\begin{array}{cc} 2 & 1\\ 1 & 1 \end{array}\right].$$

a) Napisać gęstość zmiennej $ (X,Y) $.

b) Wyznaczyć rozkład zmiennej $ X+3Y $.

c) Wyznaczyć taką liczbę $ a\in \R $, by zmienne $ X+Y $, $ X+aY $ były niezależne.

20. Nadajnik wysyła sygnał $ \xi $, a odbiornik odbiera sygnał $ \eta=a\xi+\zeta $, gdzie $ a\in \R_+ $ jest współczynnikiem wzmocnienia, zaś $ \zeta $ jest zakłóceniem. Zakładamy, że $ \xi $ i $ \zeta $ są niezależnymi zmiennymi losowymi, przy czym $ \E \xi=m $, Var$ \,\xi=1 $, $ \E \zeta=0 $, Var$ \,\zeta=\sigma^2 $. Wyznaczyć współczynnik korelacji $ \xi $ i $ \eta $ oraz regresję liniową $ \xi $ względem $ \eta $ (tzn. najlepsze liniowe przybliżenie $ \xi $ za pomocą $ \eta $).

Różne rodzaje zbieżności zmiennych losowych

Różne rodzaje zbieżności zmiennych losowych

Zajmiemy się teraz zachowaniem granicznym ciągów zmiennych losowych. Zacznijmy jednak od pewnego pożytecznego faktu.

Definicja Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ \F_1 $, $ \F_2 $, $ \ldots \subseteq \F $ jest ciągiem $ \sigma $-ciał. Wówczas $ \sigma $-ciało

$$ \bigcap_{n=1}^\infty \sigma(\F_n,\F_{n+1},\F_{n+2},\ldots)$$

nazywamy $ \sigma $-ciałem resztkowym.

Przykład Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ jest ciągiem zmiennych losowych i niech $ \F_n=\sigma(X_n) $ będzie $ \sigma $-ciałem generowanym przez zmienną $ X_n $, $ n=1,\,2,\,\ldots $. Wówczas każde ze zdarzeń

$$ \{(X_n)_{n\geq 1}\mbox{ jest zbieżny}\},\,\,  \{\sup_n|X_n|<\infty\},\,\,  \left\{\sum_{n=1}^\infty X_n\mbox{ jest zbieżny}\right\}$$

należy do $ \sigma $-ciała resztkowego.

Twierdzenie [Prawo $ 0-1 $ Kołmogorowa] Załóżmy, że $ (\Omega,\F,\P) $ jest przestrzenią probabilistyczną oraz $ \sigma $-ciała $ \F_1,\,\F_2,\,\ldots \subseteq \F $ są niezależne. Wówczas dla każdego $ A\in \bigcap_{n=1}^\infty  \sigma(\F_n,\F_{n+1},\ldots) $ mamy $ \P(A)=0 $ lub $ \P(A)=1 $.
Lemat Załóżmy, że $ \mathcal{G}_1\subseteq \mathcal{G}_2 \subseteq \ldots  \subseteq \F $ jest wstępującym ciągiem $ \sigma $-ciał oraz niech $ \mathcal{G}=\sigma(\mathcal{G}_1,\mathcal{G}_2,\ldots) $. Wówczas dla dowolnego $ A\in\mathcal{G} $ istnieje ciąg $ (A_n)_{n\geq 1} $ takich zdarzeń, że $ A_n\in \mathcal{G}_n $ dla każdego $ n $ oraz $ \lim_{n\to\infty}\P(A \Delta A_n)=0 $ ($ \Delta $ oznacza tu różnicę symetryczną zbiorów).
Dowód:[Dowód] Wprowadźmy klasę zbiorów

$$ \mathcal{K}=\{A\in\mathcal{G}:\mbox{istnieje ciąg }(A_n)_{n\geq  1}\mbox{ jak w sformułowaniu lematu}\}.$$

Oczywiście $ \bigcup_{n\geq 1}\mathcal{G}_n \subset \mathcal{K} $, ponadto suma po lewej stronie zawierania jest $ \pi $-układem. Wystarczy więc wykazać, że $ \mathcal{K} $ jest $ \lambda $-układem. Sprawdzamy:

(i) $ \Omega\in \mathcal{K} $ - jest to oczywiste.

(ii) Załóżmy, że $ A,\,B\in\mathcal{K} $ spełniają warunek $ A\subseteq B $ i niech $ (A_n)_{n\geq 1} $, $ (B_n)_{n\geq 1} $ będą odpowiednimi ciągami przybliżającymi. Wykażemy, zgodnie z intuicją, że ciąg $ (B_n\setminus A_n)_{n\geq 1} $ przybliża $ B\setminus A $. Oczywiście $ B_n\setminus A_n\in \mathcal{G}_n $ dla każdego $ n $. Ponadto, korzystając z tożsamości $ \P(A\Delta  B)=\E|1_A-1_B| $, mamy \begin{align*} \P\big((B_n\setminus A_n)\Delta(B\setminus A)\big)&=\E\big|1_{B_n\setminus A_n}-1_{B\setminus A}\big|\\ &=\E \big|1_{B_n}-1_{A_n\cap B_n}-1_B+1_A\big|\\ &\leq \E |1_{B_n}-1_B|+\E |1_A-1_{A_n}1_{B_n}|. \end{align*} Pierwszy składnik jest równy $ \P(B_n\Delta B) $, a więc zbiega do $ 0 $ gdy $ n\to \infty $. Ponadto, \begin{align*} \E |1_A-1_{A_n}1_{B_n}|&= \E\big|1_A-(1_{A_n}-1_A+1_A)(1_{B_n}-1_B+1_B)\big|\\ &\leq \E |1_A-1_A1_B|+\E 1_A|1_{B_n}-1_B|\\ &     +\E 1_B|1_{A_n}-1_A|+\E |1_{A_n}-1_A||1_{B_n}-1_B|\\ &\leq 0+\P(B\Delta B_n)+\P(A\Delta A_n)+2\P(A\Delta A_n) \end{align*} także zbiega do zera gdy $ n $ dąży do nieskończoności. Udowodniliśmy zatem, że $ B\setminus A\in\mathcal{K} $.

(iii) Jeśli $ A_1,\,A_2,\,\ldots $ jest wstępującym ciągiem elementów z $ \mathcal{K} $, to $ \bigcup_{n=1}^\infty A_n $ także należy do $ \mathcal{K} $. Istotnie, sumę $ \bigcup_{n=1}^\infty A_n $ możemy dowolnie dokładnie przybliżyć za pomocą sumy częściowej $ \bigcup_{n=1}^N A_n=A_N $, a następnie zbiór $ A_N $ przybliżamy odpowiednim ciągiem zdarzeń z $ \sigma $-ciał $ \mathcal{G}_n $. □

Dowód:[Dowód twierdzenia Kołmogorowa] Rozważmy wstępujący ciąg $ \sigma $-ciał dany przez

$$ \mathcal{G}_n=\sigma(\F_1,\F_2,\ldots,\F_n),\qquad n=1,\,2,\,\ldots.$$

Weźmy zdarzenie $ A $ należące do $ \sigma $-ciała resztkowego. Oczywiście należy ono także do $ \sigma $-ciała

$$  \sigma(\F_1,\F_2,\ldots)=\sigma(\mathcal{G}_1,\mathcal{G}_2,\ldots),$$

a zatem, na mocy powyższego lematu, możemy wskazać ciąg $ (A_n)_{n\geq 1} $ taki, że $ A_n\in \mathcal{G}_n $ oraz $ \P(A\Delta  A_n)\to 0 $ gdy $ n\to\infty $. Ponieważ $ \P(A\Delta A_n)=\P(A\setminus  A_n)+\P(A_n\setminus A) $, to każde z tych dwóch prawdopodobieństw także zbiega do $ 0 $. Ale

$$ \P(A\setminus A_n)=\P(A)-\P(A\cap A_n),$$

zatem $ \P(A\cap A_n)\to \P(A) $. Ponadto,

$$ \P(A_n\setminus A)=\P(A_n)-\P(A\cap A_n),$$

a więc, w połączeniu z poprzednią zbieżnością, $ \P(A_n)\to  \P(A) $. Wreszcie, dla dowolnego $ n $ mamy

$$ A\in \sigma(\F_{n+1},\F_{n+2},\ldots),\qquad A_n\in \mathcal{G}_n,$$

i te $ \sigma $-ciała są niezależne. Wobec tego $ A $ oraz $ A_n $ także są niezależne, $ \P(A\cap A_n)=\P(A)\P(A_n) $, i lewa strona dąży do $ \P(A) $, a prawa do $ \P(A)^2 $. Stąd $ \P(A)\in \{0,1\} $. □

Przechodzimy teraz do zbieżności zmiennych losowych.

Definicja Załóżmy, że $ (X_n)_{n\geq 1} $ jest ciągiem zmiennych losowych o wartościach w $ \R^d $. Mówimy, że

(i) $ X_n $ zbiega do $ X $ prawie na pewno, jeśli $ \P(\lim_{n\to \infty}X_n=X)=1 $. Oznaczenie: $ X_n\to X $ p.n.

(ii) ($ p\geq 1 $, $ d=1 $) $ X_n $ zbiega do $ X $ w $ L^p $ jeśli $ X_1,\,X_2,\,\ldots \in L^p $ oraz $ \lim_{n\to \infty}||X_n-X||_p=0 $ (przypomnijmy: $ ||\xi||_p=(\E |\xi|^p)^{1/p} $ dla $ p<\infty $, $ ||\xi||_\infty=\mbox{esssup}\,|\xi| $). Oznaczenie: $ X_n \to X $ w $ L^p $.

(iii) $ X_n $ zbiega do $ X $ według prawdopodobieństwa, jeśli dla każdego $ \e>0 $, $ \lim_{n\to \infty}\P(|X_n-X|>\e)=0 $. Oznaczenie: $ X_n\xrightarrow{\P} X $.

Twierdzenie Jeśli $ X_n\to X $ p.n., to $ X_n\xrightarrow{\P}X $. Implikacja przeciwna nie zachodzi.
Dowód:[Dowód] Z definicji, ciąg $ (X_n)_{n\geq 1} $ zbiega do $ X $ prawie na pewno, jeśli

$$ \P\left(\bigcap_{\e>0}\bigcup_{N=1}^\infty \bigcap_{n\geq N}\{\omega:  |X_n(\omega)-X(\omega)|<\e\}\right)=1.$$

Jest to równoważne warunkowi, że dla każdego $ \e>0 $,

$$ \P\left(\bigcup_{N=1}^\infty \bigcap_{n\geq N}\{\omega:  |X_n(\omega)-X(\omega)|<\e\}\right)=1.$$

Ale ciąg zdarzeń $ \left(\bigcap_{n\geq N}\{|X_n-X|<\e\} \right)_{N\geq 1} $ jest wstępujący; na mocy twierdzenia o ciągłości, powyższa równość oznacza, iż dla dowolnego $ \e>0 $,

$$ \lim_{N\to \infty} \P\left(\bigcap_{n\geq N}\{\omega: |X_n(\omega)-X(\omega)|<\e\}\right)=1.$$

Wobec tego tym bardziej

$$ \lim_{N\to \infty} \P\left(\{\omega: |X_N(\omega)-X(\omega)|<\e\}\right)=1,$$

czyli, po przejściu do zdarzenia przeciwnego, $ \P(|X_N-X|\geq \e)\to 0 $.

Aby udowodnić, że implikacja przeciwna nie zachodzi, rozważmy następujący przykład. Załóżmy, że przestrzeń probabilistyczna to przedział $ [0,1] $ wraz ze swoimi podzbiorami borelowskimi oraz miarą Lebesgue'a. Niech \begin{align*} X_1&=1_{[0,1)},\\ X_2&=1_{[0,1/2)},     X_3=1_{[1/2,1)},\\ X_4&=1_{[0,1/4)},     X_5=1_{[1/4,1/2)},     X_6=1_{[1/2,3/4)},     X_7=1_{[3/4,1)},\\ &\ldots \end{align*} Wówczas ciąg $ (X_n)_{n\geq 0} $ zbiega do $ 0 $ według prawdopodobieństwa: dla dowolnego $ \e $, $ \P(|X_n-0|>\e) $ jest potęgą dwójki z coraz mniejszym całkowitym wykładnikiem. Z drugiej strony, dla dowolnego $ \omega\in [0,1) $, liczbowy ciąg $ (X_n(\omega))_{n\geq 1} $ nie jest zbieżny; jest to ciąg zawierający nieskończenie wiele zer oraz nieskończenie wiele jedynek. □

Twierdzenie Jeśli $ X_n\to X $ w $ L^p $, to $ X_n\xrightarrow{\P}X $. Implikacja w drugą stronę nie zachodzi.
Dowód:[Dowód] Na mocy nierówności Czebyszewa, dla dowolnego $ \e $ mamy

$$ \P(|X_n-X|\geq \e)\leq \frac{\E |X_n-X|^p}{\e^p} \xrightarrow{n\to\infty} 0.$$

Wykażemy, że implikacja w drugą stronę nie zachodzi. Rozpatrzymy tylko $ p<\infty $, przypadek $ p=\infty $ pozostawiamy czytelnikowi. Rozważmy przestrzeń probabilistyczną $ ([0,1],\mathcal{B}(0,1),|\cdot|) $ oraz ciąg $ (X_n)_{n\geq 1} $ zmiennych zadanych wzorem

$$ X_n(\omega)=n^{1/p}1_{[0,1/n]}(\omega).$$

Wówczas $ X_n\xrightarrow{\P}0 $: dla dowolnego $ \e $ mamy

$$ \P(|X_n-0|>\e)\leq 1/n \to 0.$$

Zatem, gdyby ciąg $ (X_n)_{n\geq 1} $ zbiegał w $ L^p $, to do zmiennej skoncentrowanej w zerze (na mocy implikacji którą właśnie udowodniliśmy). Ale

$$ \E |X_n-0|^p=\E |X_n|^p=1 \not\to 0. \qedhere$$

Twierdzenie Jeśli $ p<p' $ oraz $ X_n\to X $ w $ L^{p'} $, to $ X_n\to X $ w $ L^p $.
Dowód:[Dowód] Wynika to natychmiast z nierówności H\óldera: mamy

$$ ||X_n-X||_p\leq ||X_n-X||_{p'}\xrightarrow{n\to\infty} 0.\qedhere$$

Twierdzenie a) Ciąg $ (X_n)_{n\geq 1} $ jest zbieżny według prawdopodobieństwa wtedy i tylko wtedy, gdy spełnia warunek Cauchy'ego według prawdopodobieństwa:

$$ \forall_{\delta>0}\forall_{\e>0}\exists_N\forall_{m,n\geq N} \P(|X_n-X_m|>\e)<\delta.$$

b) Jeśli $ X_n $ zbiega do $ X $ według prawdopodobieństwa, to istnieje podciąg $ (n_k)_{k\geq 1} $ taki, że ciąg $ (X_{n_k})_{k\geq 1} $ zbiega p.n. do $ X $.

Definicja Załóżmy, że $ \{X_i\}_{i \in\mathcal{I}} $ jest rodziną całkowalnych zmiennych losowych. Mówimy, że ta rodzina jest jednostajnie (jednakowo) całkowalna, jeśli

$$ \sup_{i\in \mathcal{I}} \int_{\{|X_i|\geq r\}}|X_i|\mbox{d}\P \xrightarrow{r\to\infty} 0.$$

Przykłady:

1) Załóżmy, że istnieje nieujemna całkowalna zmienna $ \eta $ taka, że $ |X_i|\leq \eta $ dla wszystkich $ i\in \mathcal{I} $. Wówczas $ \{X_i\}_{i\in\mathcal{I}} $ jest rodziną jednakowo całkowalną. Istotnie,

$$ \sup_{i\in\mathcal{I}}\int_{\{|X_i|\geq r\}} |X_i|\mbox{d}\P\leq \int_{\{\eta\geq r\}} |\eta|\mbox{d}\P \xrightarrow{r\to \infty} 0,$$

na mocy twierdzenia Lebesgue'a o zmajoryzowanym przejściu do granicy.

2) Każda skończona rodzina zmiennych całkowalnych jest jednakowo całkowalna: wystarczy wykorzystać poprzedni przykład, biorąc $ \eta=\sum_{i\in \mathcal{I}}|X_i| $.

3) Dowolna jednostajnie całkowalna rodzina zmiennych losowych, po dodaniu do niej skończonej liczby zmiennych całkowalnych, pozostaje jednostajnie całkowalna.

4) Rozważmy przestrzeń probabilistyczną $ ([0,1],\mathcal{B}([0,1]),|\cdot|) $ oraz ciąg zmiennych $ X_1 $, $ X_2 $, $ \ldots $ zadanych przez $ X_n(\omega)=n^21_{[0,1/n]}(\omega) $. Rodzina ta nie jest jednostajnie całkowalna: mamy

$$ \{|X_n|\geq m^2\}=\{n^21_{[0,1/n]}\geq m^2\}=\begin{cases} \emptyset & \mbox{dla }n<m,\\ [0,1/n] & \mbox{dla }n\geq m, \end{cases}$$

a więc

$$ \int_{\{|X_n|\geq m^2\}} |X_n|\mbox{d}\P=\begin{cases} 0 & \mbox{dla }n<m,\\ n^2\cdot 1/n & \mbox{dla }n\geq m, \end{cases}$$

a więc dla każdego $ r $, $ \sup_n \int_{\{|X_n|\geq r\}}|X_n|\mbox{d}\P=\infty $.

Z drugiej strony, rodzina zmiennych $ \{Y_n\}_{n\geq 1}=\{\sqrt{n}1_{[0,1/n]}\}_{n\geq 1} $ jest jednostajnie całkowalna. Powtarzając powyższe rozumowanie widzimy, że

$$  \int_{\{|X_n|\geq r\}} |X_n|\mbox{d}\P=\begin{cases} 0 & \mbox{dla }\sqrt{n}<r,\\ \sqrt{n}\cdot 1/n & \mbox{dla }\sqrt{n}\geq r. \end{cases}$$

Zatem dla ustalonego $ r $,

$$\sup_n \int_{\{|X_n|\geq r\}}|X_n|\mbox{d}\P\leq 1/r, $$

co zbiega do $ 0 $ gdy $ r\to\infty $.

Udowodnimy teraz pewien równoważny warunek na jednakową całkowalność.

Twierdzenie Rodzina $ \{X_i\}_{i\in\mathcal{I}} $ jest jednakowo całkowalna wtedy i tylko wtedy, gdy zachodzą następujące dwa warunki:

1$ ^\circ $ $ \sup_{i\in\mathcal{I}} \E |X_i|<\infty $,

2$ ^\circ $ Dla każdego $ \e>0 $ istnieje $ \delta>0 $ taka, że jeśli zdarzenie $ A $ spełnia $ \P(A)<\delta $, to

$$ \int_A |X_i|\mbox{d}\P<\e,\qquad i\in\mathcal{I}.$$
Dowód:[Dowód] $ \Rightarrow $ Zacznijmy od warunku 2$ ^\circ $. Dla każdego $ A\in \F $ oraz $ i\in\mathcal{I} $ mamy

$$ \int_A |X_i|\mbox{d}\P=\int_{A\cap\{|X_i|\geq r\}}|X_i|\mbox{d}\P+\int_{A\cap\{|X_i|<r\}}|X_i|\mbox{d}\P\leq \sup_{i\in \mathcal{I}}\int_{\{|X_i|\geq r\}}|X_i|\mbox{d}\P+r\P(A).$$

Zatem, przy ustalonym $ \e>0 $, bierzemy $ r $ takie, by pierwszy składnik był mniejszy niż $ \e/2 $ (jest to możliwe na mocy definicji jednakowej całkowalności); następnie, bierzemy $ \delta=\e/(2r) $: wówczas drugi składnik także jest mniejszy niż $ \e/2 $. Ponadto, biorąc wyżej $ A=\Omega $, dostajemy, iż dla każdego $ r $,

$$ \sup_{i\in \mathcal{I}}\E |X_i|\leq \sup_{i\in \mathcal{I}} \int_{\{|X_i|\geq r\}}|X_i|\mbox{d}\P+r<\infty,$$

co jest żądanym warunkiem 1$ ^\circ $.

$ \Leftarrow $ Dla dowolnego $ i\in \mathcal{I} $ mamy, z nierówności Czebyszewa oraz 1$ ^\circ $,

$$ \P(|X_i|\geq r)\leq \frac{\E |X_i|}{r}\leq \sup_{i\in \mathcal{I}} \E |X_i|/r<\infty.$$

Następnie, dla dowolnego $ \e>0 $ dobieramy $ \delta $ z warunku 2$ ^\circ $. Powyższy rachunek daje, iż dla dostatecznie dużych $ r $ mamy $ \sup_{i\in \mathcal{I}}\P(|X_i|\geq r)<\delta $, a zatem z 2$ ^\circ $,

$$ \sup_{i\in \mathcal{I}}\int_{\{|X_i|\geq r\}}|X_i|\mbox{d}\P<\e.$$

Oznacza to, iż jest spełniony warunek definiujący jednakową całkowalność. □

Twierdzenie Niech $ p\geq 1 $ będzie ustaloną liczbą. Ciąg $ (X_n)_{n\geq 1} $ jest zbieżny w $ L^p $ wtedy i tylko wtedy, gdy jest zbieżny według prawdopodobieństwa oraz rodzina $ \{|X_n|^p\}_{n\geq 1} $ jest jednostajnie całkowalna.
Dowód: $ \Rightarrow $ Zbieżność według prawdopodobieństwa mamy za darmo; pozostaje wykazać jednostajną całkowalność. Dla dowolnego $ A\in \F $,

$$ \left(\int_A |X_n|^p\mbox{d}\P\right)^{1/p}=||X_n1_A||_p\leq ||X1_A||_p+||(X-X_n)1_A||_p. \leqno{(*)}$$

Dla $ A=\Omega $, nierówność $ (*) $ daje $ ||X_n||_p\leq ||X||_p+||X_n-X||_p $, a więc $ \sup_n ||X_n||_p<\infty $, co pociąga za sobą warunek 1$ ^\circ $ z poprzedniego twierdzenia. Aby dowieść 2$ ^\circ $, ustalmy $ \e>0 $. Z definicji zbieżności w $ L^p $, istnieje $ N $ takie, że $ ||X_n-X||_p<\e/2 $ dla $ n\geq N $. Rodzina $ \{|X|^p,|X_1-X|^p,\ldots,|X_N-X|^p\} $ jest skończona i zawiera całkowalne zmienne losowe, jest więc jednakowo całkowalna (por. Przykład 2 powyżej) i spełnia warunek 2$ ^\circ $: istnieje $ \delta $ taka, że jeśli $ \P(A)<\delta $, to

$$ \left(\int_A|X|^p\mbox{d}\P\right)^{1/p}<\e/2,\qquad \left(\int_A  |X_i-X|^p\mbox{d}\P\right)^{1/p}<\e/2,\quad i=1,\,2,\,\ldots,\,N.$$

Wystarczy teraz połączyć wszystkie powyższe rozważania i (*): jeśli $ \P(A)<\delta $, to

$$\sup_n \int_A |X_n|^p\mbox{d}\P\leq \e^p.$$

$ \Leftarrow $ Ponieważ $ X_n\to X $ według prawdopodobieństwa, to możemy wybrać podciąg $ (X_{n_k})_{k\geq 1} $ zbieżny do $ X $ prawie na pewno. Z lematu Fatou, $ X\in L^p $:

$$ \E |X|^p=\E \lim_{k\to\infty}|X_{n_k}|^p\leq \liminf_{k\to \infty}\E |X_{n_k}|^p\leq \sup_n \E |X_n|^p<\infty.$$

Dalej, mamy \begin{align*} ||X_n-X||_p&\leq ||(X_n-X)1_{\{|X_n-X|\geq \alpha\}}||_p+||(X_n-X)1_{\{|X_n-X|<\alpha\}}||_p\\ & \leq \left(\int_{\{|X_n-X|\geq \alpha\}}|X_n|^p\mbox{d}\P\right)^{1/p}+\left(\int_{\{|X_n-X|\geq \alpha\}}|X|^p\mbox{d}\P\right)^{1/p}\\ &     +\left(\int_{\{|X_n-X|< \alpha\}}|X_n-X|^p\mbox{d}\P\right)^{1/p}. \end{align*} Następnie, wybierzmy dowolne $ \e>0 $ i połóżmy $ \alpha=\e/3 $. Z warunku 2$ ^\circ $ dostajemy istnienie takiej $ \delta $, że jeśli $ \P(A)<\delta $, to

$$ \sup_n \int_A |X_n|^p\mbox{d}\P<\left(\e/3\right)^p,\qquad \int_A |X|^p<(\e/3)^p.$$

Ponadto, z definicji zbieżności według prawdopodobieństwa, istnieje $ N $ takie, że dla $ n\geq N $, $ \P(|X_n-X|\geq \alpha)<\delta $. Stąd wynika teza, gdyż dwa pierwsze składniki w powyższym oszacowaniu są mniejsze niż $ \e/3 $ oraz

$$ \left(\int_{\{|X_n-X|< \alpha\}}|X_n-X|^p\mbox{d}\P\right)^{1/p}\leq \left(\int_{\{|X_n-X|< \alpha\}} \alpha^p\mbox{d}\P\right)^{1/p}\leq \alpha=\e/3.\qedhere$$

Zadania

1. Zmienne $ (X_n)_{n\geq 1} $ są niezależnymi zmiennymi Rademachera. Udowodnić, że $ (X_n)_{n\geq 1} $ nie jest zbieżny p.n.. Czy $ (X_n)_{n\geq 1} $ jest zbieżny według prawdopodobieństwa?

2. Dany jest ciąg $ (X_n)_{n\geq 1} $ jak poprzednio. Udowodnić, że szereg $ \sum_{n=1}^\infty 2^{-n}X_n $ jest zbieżny p.n. i wyznaczyć rozkład graniczny.

3. Dane są ciągi $ (X_n)_{n\geq 1} $, $ (Y_n)_{n\geq 1} $ zbieżne według prawdopodobieństwa do $ X $, $ Y $, odpowiednio. Udowodnić, że

a) $ (X_n+Y_n)_{n\geq 1} $ zbiega do $ X+Y $ według prawdopodobieństwa. b) $ (X_nY_n)_{n\geq 1} $ zbiega według prawdopodobieństwa do $ XY $.

4. Dana jest całkowalna zmienna losowa $ X $. Niech dla $ n\geq1, $

$$X_n(\omega)=\begin{cases} -n & \text{jeśli }X(\omega)<-n,\\ X(\omega) & \text{jeśli }|X(\omega)|\leq n,\\ n & \text{jeśli }X(\omega)>n. \end{cases}$$

Czy $ (X_n)_{n\geq 1} $ zbiega do $ X $ p.n.? Czy zbiega w $ L^1 $?

5. Dane są ciągi $ (X_n)_{n\geq 1} $, $ (Y_n)_{n\geq 1} $ zbieżne p.n. do zmiennych $ X $, $ Y $. Udowodnić, że jeśli dla każdego $ n $ zmienne $ X_n $ oraz $ Y_n $ mają ten sam rozkład, to $ X $ i $ Y $ też mają ten sam rozkład.

6. Zmienne $ X_1 $, $ X_2 $, $ \ldots $ są niezależnymi zmiennymi losowymi o rozkładzie wykładniczym z parametrem $ \lambda $.

(a) Udowodnić, że jeśli $ \lambda>1 $, to z prawdopodobieństwem $ 1 $ mamy $ \{X_n<\log n\} $ dla dostatecznie dużych $ n $, natomiast jeśli $ \lambda\geq 1 $, to z prawdopodobieństwem $ 1 $ mamy $ X_n\geq \log n $ dla nieskończenie wielu $ n $.

(b) Zbadać zbieżność p.n. ciągu $ (X_n/\log n)_{n\geq 2} $.

7. Zmienne $ X_1 $, $ X_2 $, $ \ldots $ są niezależne, nieujemne i mają ten sam rozkład, różny od $ \delta_0 $. Dowieść, że $  \sum_{n=1}^\infty X_n=\infty $ z prawdopodobieństwem $ 1 $.

8. Zmienne losowe $ X_1 $, $ X_2 $, \ldots są niezależne, mają ten sam rozkład i spełniają warunek $ \P(|X_i|<1)=1 $. Udowodnić, że $ \lim_{n\to\infty}X_1X_2\ldots X_n=0 $ p.n.

9. Zmienne $ X_1 $, $ X_2 $, $ \ldots $ są niezależne i mają ten sam rozkład.

(a) Udowodnić, że ciąg średnich

$$  \frac{X_1+X_2+\ldots+X_n}{n},\qquad n=1,\,2,\,\ldots$$

jest albo zbieżny p.n., albo rozbieżny z prawdopodobieństwem $ 1 $.

(b) Udowodnić, że jeśli ten ciąg jest zbieżny p.n., to jego granica ma rozkład jednopunktowy.

10. Dany jest ciąg $ (X_n)_{n\geq 1} $ niezależnych zmiennych losowych takich, że dla $ n\geq 1 $ $ X_n $ ma rozkład Poissona z parametrem $ 1/n $. Czy $ (X_n)_{n\geq 1} $ jest zbieżny według prawdopodobieństwa? Czy jest zbieżny p.n.? Czy jest zbieżny w $ L^2 $? Czy jest zbieżny w $ L^{3/2} $?

11. Dany są ciągi zmiennych $ (X_n)_{n\geq 1} $, $ (Y_n)_{n\geq  1} $, przy czym $ X_n\to X $ w $ L^p $ oraz $ Y_n \to Y $ w $ L^q $, gdzie $ p,\,q>1 $ spełniają warunek $ 1/p+1/q=1 $. Dowieść, że $ (X_nY_n)_{n\geq 1} $ zbiega w $ L^1 $ do $ XY $.

12. Jakie warunki musi spełniać niepusty zbiór $ \Lambda\subseteq (0,\infty) $, aby rodzina zmiennych losowych $ (X_\lambda)_{\lambda \in \Lambda} $, gdzie

(a) $ X_\lambda \sim \mathcal{U}([0,\lambda]) $,

(b) $ X_\lambda \sim \mbox{\,Exp\,}(\lambda) $,

była jednostajnie całkowalna?

13. Dana jest funkcja $ G:[0,\infty)\to [0,\infty) $ taka, że $ \lim_{t\to\infty} \frac{G(t)}{t}=\infty $. Załóżmy, że $ (X_i)_{i\in  I} $ jest rodziną zmiennych losowych takich, że $ \sup_{i\in I} \mathbb{E}  G(|X_i|) <\infty $. Udowodnić, że rodzina ta jest jednostajnie całkowalna.

Prawa wielkich liczb

Prawa wielkich liczb

Prawa wielkich liczb mówią o zachowaniu granicznym ciągu średnich arytmetycznych

$$ \frac{X_1+X_2+\ldots+X_n}{n},\qquad n=1,\,2,\,\ldots,$$

przy rozmaitych założeniach dotyczących zmiennych. Zacznijmy od słabego prawa wielkich liczb (SPWL): termin ,,słabe'' bierze się stąd, iż badana jest zbieżność według prawdopodobieństwa.

Twierdzenie Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są zmiennymi losowymi całkowalnymi z kwadratem. Jeśli zmienne te są nieskorelowane oraz mają wspólnie ograniczoną wariancję, to

$$ \frac{X_1+X_2+\ldots+X_n-\E(X_1+X_2+\ldots+X_n)}{n} \to 0$$

według prawdopodobieństwa. W szczególności, jeśli zmienne $ X_i $ posiadają tę samą wartość oczekiwaną, to

$$ \frac{X_1+X_2+\ldots+X_n}{n}\xrightarrow{\mathbb{P}} \E X_1.$$
Dowód:[Dowód] Zauważmy, iż \begin{align*} &\E \left|\frac{X_1+X_2+\ldots+X_n-\E(X_1+X_2+\ldots+X_n)}{n}\right|^2\\ &=\mbox{\,Var\,}\left(\frac{X_1+X_2+\ldots+X_n-\E(X_1+X_2+\ldots+X_n)}{n} \right)\\ &=\frac{1}{n^2}\mbox{\,Var\,}\left(\sum_{k=1}^n X_k\right)\\ &=\frac{1}{n^2}\sum_{k=1}^n\mbox{Var\,}X_k\leq \frac{\sup_{k\geq 1}\mbox{\,Var\,}X_k}{n}. \end{align*} Wobec tego dla ustalonego $ \e>0 $ mamy, na mocy nierówności Czebyszewa, \begin{align*} & \mathbb{P}\left( \left|\frac{X_1+X_2+\ldots+X_n-\E(X_1+X_2+\ldots+X_n)}{n}\right|\geq \e\right)\\ &\leq \frac{\sup_{k\geq 1}\mbox{\,Var\,}X_k}{n\e^2}. \end{align*} Wystarczy zauważyć, że ostatnie wyrażenie zbiega do $ 0 $ gdy $ n\to  \infty $. Wynika stąd żądana zbieżność według prawdopodobieństwa. □

Jako przypadek szczególny, dostajemy tzw. słabe prawo wielkich liczb Bernoulliego. Mianowicie, rozważmy ciąg $ (\xi_n)_{n\geq 1} $ zmiennych losowych (niekoniecznie niezależnych), przy czym dla $ n\geq 1 $, zmienna $ \xi_n $ ma rozkład $ B(n,p) $, gdzie $ p\in (0,1) $ jest ustalonym parametrem. Wówczas

$$ \frac{\xi_n}{n}\xrightarrow{\P} p.$$

Istotnie, wystarczy wziąć ciąg $ (X_n)_{n\geq 1} $ niezależnych (a więc w szczególności nieskorelowanych) zmiennych losowych o tym samym rozkładzie dwupunktowym $ \mathbb{P}(X_i=1)=p=1-\P(X_i=0) $. Wówczas $ \xi_n\sim X_1+X_2+\ldots+X_n $, a więc dla $ \e>0 $, \begin{align*} \lim_{n\to \infty} \P\left(\left|\frac{\xi_n}{n}-p\right|>\e\right)= \lim_{n\to \infty} \P\left(\left|\frac{X_1+X_2+\ldots+X_n}{n}-p\right|>\e\right)=0. \end{align*}

Głównym wynikiem tego rozdziału jest tzw. mocne prawo wielkich liczb (MPWL) (Twierdzenie [link] poniżej), które mówi o zbieżności prawie na pewno. Zacznijmy od kilku przygotowawczych faktów.

Twierdzenie [Nierówność Kołmogorowa] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależnymi i scentrowanymi zmiennymi losowymi całkowalnymi z kwadratem. Wówczas dla dowolnego $ \alpha>0 $,

$$ \P(\max_{1\leq k\leq n} |X_1+X_2+\ldots+X_k|\geq \alpha)\leq  \frac{1}{\alpha^2}\mbox{\,Var\,}(X_1+X_2+\ldots+X_n).$$
Dowód: Wprowadźmy oznaczenie $ S_0= 0 $ oraz $ S_k=X_1+X_2+\ldots+X_k $ dla $ k=1,\,2,\,\ldots,\,n $. Rozważmy zdarzenia

$$ A_k=\{|S_j|<\alpha \mbox{ dla }j<k\,\,\mbox{ oraz }\,\,|S_k|\geq  \alpha\},$$

$ k=1,\,2,\,\ldots,\,n $. Jak widać, dla dowolnego $ k $ mamy $ A_k\in  \sigma(X_1,X_2,\ldots,X_k) $. Ponadto, zdarzenia $ A_1 $, $ A_2 $, $ \ldots $, $ A_n $ są parami rozłączne i dają w sumie $ B:=\{\max_{1\leq k\leq  n}|S_k|\geq \alpha\} $. Dalej, \begin{align*} \mbox{Var\,}S_n&=\E S_n^2\\ &=\int_B S_n^2\mbox{d}\P+\int_{B'} S_n^2 \mbox{d}\P\\ &\geq \int_B S_n^2\mbox{d}\P\\ &=\sum_{k=1}^n \int_{A_k} S_n^2\mbox{d}\P\\ &=\sum_{k=1}^n \int_{A_k} (S_k+S_n-S_k)^2 \mbox{d}\P\\ &=\sum_{k=1}^n \left[\int_{A_k} S_k^2\mbox{d}\P+ 2\int_{A_k} (S_n-S_k)S_k\mbox{d}\P+\int_{A_k}(S_n-S_k)^2\mbox{d}\P\right]\\ &\geq \sum_{k=1}^n \left[\int_{A_k} S_k^2\mbox{d}\P+ 2\int_{\Omega} (S_n-S_k)S_k1_{A_k}\mbox{d}\P\right]. \end{align*} Ale dla dowolnego $ k $ zmienne $ S_n-S_k $ oraz $ S_k1_{A_k} $ są niezależne (pierwsza z nich to $ X_{k+1}+X_{k+2}+\ldots+X_n $, a druga z nich zależy wyłącznie od $ X_1,\,X_2,\,\ldots,\,X_k $). Stąd

$$ \int_{\Omega}  (S_n-S_k)S_k1_{A_k}\mbox{d}\P=\E (S_n-S_k)S_k1_{A_k}=\E(S_n-S_k)\E  S_k1_{A_k}=0.$$

Zatem, kontynuując,

$$ \mbox{Var\,}S_n\geq \sum_{k=1}^n\int_{A_k}S_k^2\mbox{d}\P\geq  \sum_{k=1}^n  \int_{A_k}\alpha^2\mbox{d}\P=\alpha^2\sum_{k=1}^n\P(A_k)=\alpha^2\P(B). $$

Dowód jest zakończony. □

Twierdzenie (#) Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ jest ciągiem niezależnych, scentrowanych zmiennych losowych całkowalnych z kwadratem. Jeśli $ \sum_{n=1}^\infty \mbox{\,Var\,}X_n<\infty $, to $ \sum_{n=1}^\infty  X_n $ jest zbieżny p.n.
Dowód:[Dowód] Jak łatwo sprawdzić, mamy \begin{align*} &\P\left(\sum_{n=1}^\infty X_n\mbox{ jest rozbieżny}\right)\\ &=\P\left(\exists_{\gamma \in \mathbb{N}_+} \forall_n \sup_{k\geq 0}|X_n+X_{n+1}+\ldots+X_{n+k}|>\frac{1}{\gamma}\right)\\ &=\P\left(\bigcup_{\gamma \in \mathbb{N}_+} \forall_n \sup_{k\geq 0}|X_n+X_{n+1}+\ldots+X_{n+k}|>\frac{1}{\gamma}\right). \end{align*} Wystarczy więc wykazać, że dla każdego $ \gamma\in\mathbb{N}_+ $,

$$ \mathbb{P}\left(\forall_n \sup_{k\geq  0}|X_n+X_{n+1}+\ldots+X_{n+k}|>\frac{1}{\gamma}\right)=0. \leqno{(*)}$$

Ale dla każdego $ n $, powyższe prawdopodobieństwo szacuje się z góry przez \begin{align*} & \mathbb{P}\left(\sup_{k\geq 0}|X_n+X_{n+1}+\ldots+X_{n+k}|>\frac{1}{\gamma}\right)\\ &=\lim_{m\to \infty} \mathbb{P}\left(\sup_{0\leq k\leq m}|X_n+X_{n+1}+\ldots+X_{n+k}|>\frac{1}{\gamma}\right)\\ &\leq \limsup_{m\to \infty} \gamma^2\sum_{k=0}^m \mbox{\,Var\,}X_{n+k} =\gamma^2\sum_{k=n}^\infty \mbox{Var\,}X_k. \end{align*} Jeśli teraz wziąć $ n\to \infty $, to z założenia powyższe wyrażenie zbiega do $ 0 $. Tak więc prawdopodobieństwo (*) musi wynosić $ 0 $. □

Lemat [Kronecker] Załóżmy, że $ (a_n)_{n\geq 1} $ jest ciągiem liczbowym takim, że szereg $ \sum_{n=1}^\infty a_n/n $ jest zbieżny. Wówczas $ (a_1+a_2+\ldots+a_n)/n\to 0 $.
Dowód:[Dowód] Oznaczmy $ S_n=\sum_{k=1}^n a_k/k $. Wówczas $ a_n=n(S_n-S_{n-1}) $ dla wszystkich $ n $ oraz \begin{align*} \frac{a_1+a_2+\ldots+a_n}{n}&=\frac{S_1+2(S_2-S_1)+\ldots+n(S_n-S_{n-1})} {n}\\ &=\frac{nS_n-S_1-S_2-\ldots-S_{n-1}}{n}\to 0. \qedhere \end{align*} □

Przechodzimy do głównego twierdzenia.

Twierdzenie [MPWL Kołmogorowa](#) Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ jest ciągiem niezależnych zmiennych losowych o tym samym rozkładzie.

(a) Jeśli $ X_n\in L^1 $ i $ m=\E X_1 $, to

$$ \frac{X_1+X_2+\ldots+X_n}{n} \to m \quad \mbox{p.n.}$$

(b) Jeśli $ X_n\notin L^1 $, to

$$ \P\left(\limsup_{n\to  \infty}\left|\frac{X_1+X_2+\ldots+X_n}{n}\right|=\infty\right)=1.$$
Dowód: (a) Przypuśćmy najpierw, że zmienne $ X_1 $, $ X_2 $, $ \ldots $ są całkowalne z kwadratem. Wówczas teza wynika z dwóch powyższych pomocniczych faktów. Istotnie, korzystając z Twierdzenia [link], szereg $ \sum_{n=1}^\infty \frac{X_n-m}{n} $ jest zbieżny p.n., gdyż

$$ \mbox{\,Var\,}\frac{X_n-m}{n}=\frac{\mbox{Var\,}X_n}{n^2},$$

i wystarczy skorzystać z lematu Kroneckera.

Rozważmy teraz przypadek ogólny. Wprowadźmy nowy ciąg $ (X_n')_{n\geq 1} $ zmiennych losowych, zadanych przez

$$ X_n'(\omega)=X_n(\omega)1_{(-n,n)}(X_n(\omega))= \begin{cases} X_n(\omega) & \mbox{jeśli }|X_n(\omega)|<n,\\ 0 & \mbox{jeśli }|X_n(\omega)|\geq n. \end{cases}$$

Wówczas $ X_1' $, $ X_2' $, $ \ldots $ są niezależnymi zmiennymi losowymi całkowalnymi z kwadratem. Możemy napisać

$$ \frac{X_1+X_2+\ldots+X_n}{n}-m=I_n+II_n+III_n,$$

gdzie \begin{align*} I_n&=\frac{X_1+X_2+\ldots+X_n-(X_1'+X_2'+\ldots+X_n')}{n},\\ II_n&=\frac{X_1'+X_2'+\ldots+X_n'-(\E X_1'+\E X_2'+\ldots+\E X_n')}{n},\\ III_n&=\frac{\E X_1'+\E X_2'+\ldots+\E X_n'}{n}-m. \end{align*} Zbadajmy zachowanie każdego ze składników $ I_n $, $ II_n $, $ III_n $ gdy $ n\to \infty $. Na mocy twierdzenia Lebesgue'a o zmajoryzowanym przejściu do granicy,

$$ \E X_n'=\E X_n1_{\{|X_n|<n\}}=\E X_11_{\{|X_1|<n\}}  \xrightarrow{n\to\infty} \E X_1=m,$$

skąd wynika, że $ III_n\to 0 $. Następnie, zauważmy, że \begin{align*} \sum_{n=1}^\infty \P(X_n\neq X_n')&=\sum_{n=1}^\infty \P(|X_n|\geq n)\\ &=\sum_{n=1}^\infty \P(|X_1|\geq n)\\ &\leq \int_0^\infty \P(|X_1|\geq t)\mbox{d}t=\E |X_1|<\infty. \end{align*} Zatem z lematu Borela-Cantelli, z prawdopodobieństwem $ 1 $ zajdzie tylko skończenie wiele spośród zdarzeń $ \{X_n\neq X_n'\} $. Innymi słowy, dla prawie wszystkich $ \omega $, ciągi $ (X_n(\omega))_{n\geq  1} $ oraz $ (X_n'(\omega))_{n\geq 1} $ pokrywają się od pewnego miejsca. Stąd $ I_n\to 0 $ p.n.

Pozostało już tylko pokazać, że $ II_n\to 0 $ p.n. Na mocy lematu Kroneckera, wystarczy udowodnić, że szereg $ \sum_{n=1}^\infty  (X_n'-\E X_n')/{n} $ jest zbieżny prawie na pewno. Skorzystamy z Twierdzenia [link]. Otóż \begin{align*} \mbox{Var\,}\left(\frac{X_n'-\E X_n'}{n}\right)&=\frac{1}{n^2}(\E (X_n')^2-(\E X_n')^2)\\ &\leq \frac{1}{n^2}\E (X_n')^2\\ &=\frac{1}{n^2}\sum_{k=1}^\infty \int_{\{k-1\leq |X_n'|

$$ \sum_{n=k}^\infty \frac{1}{n^2}=\frac{1}{k^2}+\sum_{n=k+1}^\infty  \frac{1}{n^2}\leq \frac{1}{k}+\int_k^\infty  \frac{1}{x^2}\mbox{d}x=\frac{2}{k}.$$

Wobec tego, uwzględniając to w powyższych rozważaniach, dostajemy

$$ \sum_{n=1}^\infty \mbox{Var\,}\left(\frac{X_n'-\E X_n'}{n}\right) \leq 2\sum_{k=1}^\infty \E |X_1|1_{\{k-1\leq |X_1|<k\}}=2\E  |X_1|<\infty.$$

Stąd teza (a).

(b) Mamy

$$  \frac{X_n}{n}=\frac{X_1+X_2+\ldots+X_n}{n}-\frac{n-1}{n} \frac{X_1+X_2+\ldots+X_{n-1}}{n-1}.$$

Wynika stąd, że jeśli ciąg $ \left((X_1(\omega)+X_2(\omega)+\ldots+X_n(\omega))/n\right)_{n\geq 1} $ jest ograniczony dla pewnego $ \omega $, to ciąg $ (X_n(\omega)/n)_{n\geq 1} $ także ma tę własność. Wobec tego, wystarczy wykazać, że

$$ \P\left(\mbox{ciąg }\left(\frac{X_n}{n}\right)_{n\geq 1}\mbox{ jest  nieograniczony}\right)=1.$$

Mamy

$$ \P\left(\left(\frac{X_n}{n}\right)\mbox{  nieograniczony}\right)=\P\left(\bigcap_{M\in \mathbb{N}} \left\{\frac{|X_n|}{n}>M\mbox{ dla nieskończenie wielu  $n$}\right\}\right),$$

a więc teza będzie zachodzić, jeśli udowodnimy, że dla każdego $ M\in \mathbb{N} $,

$$ \P\left(\frac{|X_n|}{n}>M\mbox{ dla nieskończenie wielu  $n$}\right)=1.$$

Zauważmy, że zdarzenia $ \{|X_n|/n>M\} $, $ n=1,\,2,\,\ldots $, są niezależne; ponadto \begin{align*} \sum_{n=1}^\infty \P(|X_n|/n>M)&=\sum_{n=1}^\infty \P(|X_1|>nM)\\ &=\sum_{n=1}^\infty \sum_{k=n}^\infty \P\left(kM<|X_1|\leq (k+1)M\right)\\ &=\sum_{k=1}^\infty \sum_{n=1}^k \P\left(kM<|X_1|\leq (k+1)M\right)\\ &=\sum_{k=1}^\infty k\P(kM<|X_1|\leq (k+1)M)\\ &\geq -1+\frac{1}{M}\sum_{k=1}^\infty (k+1)M\P\left(kM<|X_1|\leq (k+1)M\right)\\ &\geq -1+\frac{1}{M}\sum_{k=1}^\infty \int_{\{kM<|X_1|\leq (k+1)M\}} |X_1|\mbox{d}\P\\ &=-1+\frac{1}{M}\E |X_1|1_{\{|X_1|>M\}}=\infty. \end{align*} Zatem, z lematu Borela-Cantelli wynika teza. □

Omówimy teraz jedno z zastosowań mocnego prawa wielkich liczb, związane z tzw. dystrybuantą empiryczną.

Definicja Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są niezależnymi zmiennymi o tym samym rozkładzie z dystrybuantą $ F $. Wówczas $ n $-tą dystrybuantą empiryczną nazywamy \begin{align*} \mathbb{F}_n(t)&=\frac{1_{\{X_1\leq t\}}+1_{\{X_2\leq t\}}+\ldots+1_{\{X_n\leq t\}}}{n}\\ &=\frac{1_{(-\infty,t]}(X_1)+1_{(-\infty,t]}(X_2)+\ldots+1_{(-\infty,t]}(X_n)}{n}. \end{align*}

Zauważmy, że dla każdego $ \omega\in \Omega $, funkcja $ \mathbb{F}_n $ jest dystrybuantą (jako funkcja zmiennej $ t $). Poniższe twierdzenie jest jednym z podstawowych wyników statystyki matematycznej.

Twierdzenie [Gliwienko-Cantelli] Jeśli $ X_1 $, $ X_2 $, $ \ldots $, $ F $, $ \mathbb{F}_n $ są jak wyżej, to

$$ \sup_{t\in \R} |\mathbb{F}_n(t)-F(t)| \xrightarrow{n\to \infty} 0$$

prawie na pewno.

W dowodzie wykorzystamy następujący lemat (bez dowodu: pozostawiamy to jako ćwiczenie).

Lemat Załóżmy, że $ F $, $ F_1 $, $ F_2 $, $ \ldots $ są dystrybuantami oraz $ S $ jest zbiorem punktów nieciągłości funkcji $ F $. Załóżmy, że $ Q $ jest gęstym, przeliczalnym podzbiorem $ \R $ takim, że $ \lim_{n\to \infty}F_n(t) = F(t) $ dla każdego $ t\in Q $. Wówczas jeśli dla każdego $ t\in S $ mamy $ F_n(t)-F_n(t-) \to F(t)-F(t-) $, to

$$ \sup_{t\in \R} |F_n(t)-F(t)| \xrightarrow{n\to \infty} 0.$$
Dowód:[Dowód twierdzenia Gliwienki-Cantelli'ego przy założeniu lematu] Ustalmy dowolny gęsty przeliczalny podzbiór $ Q \subset \R $ i niech $ S $ będzie zbiorem punktów nieciągłości $ F $. Na mocy MPWL, dla każdego $ t\in Q $ mamy

$$ \mathbb{F}_n(t) \xrightarrow{n\to \infty} F(t)\quad \mbox{ prawie na pewno,}$$

gdyż $ \E 1_{(-\infty,t]}(X_1)=\P(X_1\leq t)=F(t) $. Podobnie, dla dowolnego $ t\in S $, \begin{align*} \mathbb{F}_n(t)-\mathbb{F}_n(t-)&=\frac{1_{\{t\}}(X_1)+1_{\{t\}}(X_2)+\ldots+1_{\{t\}}(X_n)}{n}\\ &\xrightarrow{n\to \infty} \E 1_{\{t\}}(X_1)=\P(X_1=t)=F(t)-F(t-). \end{align*} Zatem zbiór

$$ \Omega_0=\bigcap_{t\in Q}\{\mathbb{F}_n(t)\to F(t)\}\cap \bigcap_{t\in S}\{\mathbb{F}_n(t)-\mathbb{F}_n(t-)\to F(t)-F(t-)\}$$

jest pełnej miary, jako przeliczalne przecięcie zbiorów pełnej miary. Zatem, z lematu, dla każdego $ \omega\in \Omega_0 $ mamy zbieżność jednostajną $ \mathbb{F}_n\to F $. □

Na zakończenie tego rozdziału, omówimy wstępne wyniki związane ze zbieżnością szeregów niezależnych zmiennych losowych. Zacznijmy od następującego faktu.

Twierdzenie (#) Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są niezależnymi, wspólnie ograniczonymi zmiennymi losowymi (tzn. istnieje takie $ a>0 $, że $ |X_n|\leq a $ z prawdopodobieństwem $ 1 $ dla $ n=1,\,2,\,\ldots $). Jeśli szereg $ \sum_{n=1}^\infty X_n $ jest zbieżny prawie na pewno, to jest on także zbieżny w $ L^p $ dla dowolnego $ p\geq 1 $.
Lemat [Nierówność Hoffmana-Joergensena] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są niezależnymi zmiennymi losowymi (być może o wartościach w $ \R^d $, bądź ogólniej, o wartościach w przestrzeni Banacha) i zdefiniujmy $ S_0=0 $, $ S_n=X_1+X_2+\ldots+X_n $, $ n\geq 1 $. Wówczas dla dowolnych $ s,\,t,\,a\geq 0 $, \begin{align*} &\P(\max_{1\leq k\leq n}|S_k|>s+t+a)\\ &\qquad \leq \P(\max_{1\leq k\leq n}|X_k|>a)+\P(\max_{1\leq k\leq n}|S_k|>s)\P(\max_{1\leq k\leq n}|S_n-S_k|>t/2). \end{align*}
Dowód: Niech $ \tau=\inf\{k\geq 1:|S_k|>s\} $ (przyjmujemy $ \inf\emptyset=\infty $). Zauważmy, że \begin{align*} &\{\max_{1\leq k\leq n}|S_k|>s+t+a\}\\ &\subseteq \{\max_{1\leq k\leq n}|X_k|>a\}\cup \bigcup_{j=1}^n \Big(\{\max_{1\leq k\leq n}|X_k|\leq a\}\cap \{\tau=j\}\cap \{\max_{1\leq k\leq n}|S_k|> s+t+a\}\Big)\\ &= \{\max_{1\leq k\leq n}|X_k|>a\}\cup \bigcup_{j=1}^n A_j. \end{align*} Ustalmy $ \omega\in A_j $. Mamy $ S_j(\omega)>s $; ponadto, $ |S_{j-1}(\omega)|\leq s $ oraz $ |X_j(\omega)|\leq a $, skąd wynika, na mocy nierówności trójkąta, iż $ |S_j|\leq s+a $. Następnie, mamy $ |S_\ell(\omega)|>s+t+a $ dla pewnego $ \ell>j $. Możemy więc napisać \begin{align*} s+t+a&<|S_\ell|\\ &\leq |S_j|+|S_\ell-S_j|\\ &\leq s+a+|S_n-S_\ell|+|S_n-S_j|\\ &\leq s+a+2\max_{j\leq k\leq n}|S_n-S_k|. \end{align*} Wnioskujemy stąd, że $ \max_{j\leq k\leq n}|S_n-S_k|>t/2 $. Wobec tego

$$ A_j\subset \{\tau=j\}\cap \{\max_{j\leq k\leq n}|S_n-S_k|>t/2\}$$

i przecinane zdarzenia są niezależne: istotnie, pierwsze z nich zależy tylko od zmiennych $ X_1 $, $ X_2 $, $ \ldots $, $ X_j $, podczas gdy drugie zapisuje się w terminach pozostałych zmiennych. Zbierając wszystkie powyższe fakty dostajemy iż

$$ \P(\max_{1\leq k\leq n}|S_k|>s+t+a)\leq \P(\max_{1\leq k\leq n}|X_k|>a)+\sum_{j=1}^n\P(\tau=j)\P(\max_{1\leq k\leq n}|S_n-S_k|>t/2)$$

i wystarczy już tylko zauważyć, że

$$ \sum_{j=1}^n \P(\tau=j)=\P(\tau<\infty)=\P(\max_{1\leq k\leq n}|S_k|>s).\qedhere$$

Dowód:[Dowód Twierdzenia [link]] Niech, jak wyżej, $ S_n=X_1+X_2+\ldots+X_n $, $ n=1,\,2,\,\ldots $. na mocy założeń, $ (S_n)_{n\geq 1} $ jest zbieżny p.n., a więc dla każdego $ \e\in (0,1) $ istnieje $ m $ takie, że

$$\P(\max_{m\leq k\leq n}|S_n-S_k|>\e/2)<\e$$

o ile tylko $ n>m $. Mamy \begin{align*} \E |S_n-S_m|^p&=p\int_0^\infty \alpha^{p-1}\P(|S_n-S_m|>\alpha)\mbox{d}\alpha\\ &=\sum_{r=0}^\infty p\int_{(r+1)(\e+a)>\alpha>r(\e+a)}\alpha^{p-1}\P(|S_n-S_m|>\alpha)\mbox{d}\alpha\\ &=p\int_0^{\e+a}\alpha^{p-1}\P(|S_n-S_m|>\alpha)\mbox{d}\alpha\\ &     +\sum_{r=1}^\infty p\int_{(r+1)(\e+a)>\alpha>r(\e+a)}\alpha^{p-1}\P(|S_n-S_m|>r(\e+a))\mbox{d}\alpha. \end{align*} Ale $ S_n-S_m=X_{m+1}+X_{m+2}+\ldots+X_n $, więc stosując nierówność Hoffmana-Joergensena do tych zmiennych, z parametrami $ s=(r-1)(\e+a) $, $ t=\e $ oraz $ a=a $, dostajemy \begin{align*} \P(\max_{mr(\e+a))&\leq 0+\P(\max_{m(r-1)(\e+a))\times\\ &     \times \P(\max_{m\e/2). \end{align*} Drugi czynnik szacuje się przez $ \e $, a zatem, przez prostą indukcję, dostajemy, że

$$ \P(|S_n-S_m|>r(\e+a))\leq \P(\max_{m<k\leq n}|S_n-S_m|>r(\e+a))\leq \e^r.$$

Wobec tego \begin{align*} \E |S_n-S_m|^p&\leq p\int_0^\e \alpha^{p-1}\mbox{d}\alpha+p\int_\e^{\e+a}\alpha^{p-1}\P(|S_n-S_m|>\e)\mbox{d}\alpha\\ &     +\sum_{r=1}^\infty p\int_{r(\e+a)}^{(r+1)(\e+a)}\alpha^{p-1}\e^r \mbox{d}\alpha\\ &\leq \e^p+(\e+a)^p\cdot \e+\e\sum_{r=1}^\infty \e^{r-1}((r+1)^p-r^p)(\e+a)^p\\ &\leq \e \cdot C, \end{align*} gdzie $ C $ jest pewną stałą zależącą tylko od $ p $ i $ a $. Wobec tego $ (S_n)_{m\geq 0} $ spełnia warunek Cauchy'ego w $ L^p $, a więc jest zbieżny w $ L^p $. □

Wprowadźmy następujące oznaczenie: dla zmiennej losowej $ X $ oraz $ a>0 $, niech

$$ X^a(\omega)=\begin{cases} a & \mbox{dla }X(\omega)>a,\\ X(\omega) & \mbox{dla }|X(\omega)|\leq a,\\ -a & \mbox{dla }X(\omega)<-a. \end{cases}$$
Twierdzenie [Kołmogorowa o trzech szeregach] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są niezależnymi zmiennymi losowymi oraz $ a $ jest ustaloną liczbą dodatnią. Wówczas szereg $ \sum_{n=0}^\infty X_n $ jest zbieżny p.n. wtedy i tylko wtedy, gdy zbieżne są szeregi liczbowe

$$ \sum_{n=1}^\infty \E X_n^a,\quad \sum_{n=1}^\infty \,\mbox{Var}\,X_n^a,\quad \sum_{n=1}^\infty \P(|X_n|>a).$$

W dowodzie wykorzystamy następujący prosty fakt.

Lemat Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są zmiennymi losowymi spełniającymi warunek $ \sum_{n=1}^\infty \P(|X_n|>a)<\infty $ dla pewnego $ a>0 $. Wówczas szereg $ \sum_{n=1}^\infty X_n $ jest zbieżny p.n. wtedy i tylko wtedy, gdy szereg $ \sum_{n=1}^\infty X_n^a $ jest zbieżny p.n.
Dowód:[Dowód] Na mocy lematu Borela-Cantelli, dla prawie wszystkich $ \omega $ ciągi $ X_n(\omega) $, $ X_n^a(\omega) $ pokrywają się od pewnego miejsca. Stąd natychmiast wynika teza. □
Dowód:[Dowód twierdzenia o trzech szeregach] $ \Leftarrow $ Na mocy lematu, wystarczy wykazać, że szereg $ \sum_{n=1}^\infty X_n^a $ jest zbieżny p.n. Zmienne $ X_n^a-\E X_n^a $ są scentrowane, niezależne, ograniczone oraz

$$ \sum_{n=1}^\infty\,\mbox{Var}\,(X_n^a-\E X_n^a)=\sum_{n=1}^\infty \,\mbox{Var}\,X_n^a<\infty,$$

a więc na mocy Twierdzenia [link] szereg $ \sum_{n=1}^\infty (X_n^a-\E X_n^a) $ jest zbieżny p.n. Ponieważ szereg liczbowy $ \sum_{n=1}^\infty \E X_n^a $ także jest zbieżny, wynika stąd teza.

$ \Rightarrow $ Przypuśćmy, wbrew tezie, że $ \sum_{n=1}^\infty \P(|X_n|>a)=\infty $. Wówczas na mocy lematu Borela-Cantelli, z prawdopodobieństwem $ 1 $ zachodzi nieskończenie wiele nierówności $ |X_n|>a $, co wyklucza zbieżność szeregu $ \sum_{n=1}^\infty X_n $, sprzeczność. Zatem $ \sum_{n=1}^\infty \P(|X_n|>a)<\infty $, a więc z powyższego lematu szereg $ \sum_{n=1}^\infty X_n^a $ jest zbieżny p.n. Korzystając z Twierdzenia [link], dostajemy, że szereg $ \sum_{n=1}^\infty X_n^a $ jest zbieżny w $ L^1 $ oraz $ L^2 $. Zatem, w szczególności, ciąg liczbowy

$$ \left(\E \sum_{n=1}^N X_n^a\right)_{N\geq 1}=\left(\sum_{n=1}^N \E X_n^a\right)_{N\geq 1}$$

jest zbieżny. Ponadto, to samo jest prawdą dla

$$ \left(\E \left(\sum_{n=1}^N (X_n^a-\E X_n^a) \right)^2 \right)_{N\geq 1}=\left(\,\mbox{Var}\,\left(\sum_{n=1}^N X_n^a\right)\right)_{N\geq 1}=\left(\sum_{n=1}^N \mbox{Var}\,X_n^a\right)_{N\geq 1}.$$

To zaś oznacza tezę. □

Przykład Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ jest ciągiem niezależnych zmiennych losowych takich, że $ X_n $ ma rozkład wykładniczy z paramtrem $ \lambda_n $. Wyznaczymy warunek na ciąg $ (\lambda_n)_{n\geq 0} $ który jest równoważny zbieżności prawie na pewno szeregu $ \sum_{n=1}^\infty X_n $.

Na mocy twierdzenia Kołmogorowa, zbieżność p.n. ma miejsce wtedy i tylko wtedy, gdy

$$ \sum_{n=1}^\infty \P(|X_n^1|>1)<\infty, \quad \mbox{ czyli }\quad \sum_{n=1}^\infty e^{-\lambda_n}<\infty, \leqno{(1)}$$
$$\sum_{n=1}^\infty \E X_n^1<\infty, \quad \mbox{ czyli }\quad \sum_{n=1}^\infty \left(\frac{1-e^{-\lambda_n}}{\lambda_n}-e^{-\lambda_n}\right)<\infty, \leqno{(2)}$$
$$\sum_{n=1}^\infty \mbox{Var}\,X_n^1<\infty, \quad \mbox{ czyli }\quad \sum_{n=1}^\infty \left(\frac{1}{\lambda_n^2}-e^{-\lambda_n}-\frac{(1+\lambda_n)^2}{\lambda_n^2}e^{-2\lambda_n}\right)<\infty. \leqno{(3)}$$

Załóżmy teraz, że szereg $ \sum_{n=1}^\infty X_n $ jest zbieżny p.n. Wówczas z (1) mamy $ \lambda_n\to \infty $, co w połączeniu z (2) prowadzi to wniosku, iż $ \sum_{n=1}^\infty \frac{1}{\lambda_n}<\infty $.

Wykażemy, że warunek $ \sum_{n=1}^\infty \frac{1}{\lambda_n}<\infty $ jest dostateczny. Istotnie, wynika z niego, że $ \lambda_n\to \infty $, a stąd $ \sum_{n=1}^\infty \frac{1}{\lambda_n^2}<\infty $ (gdyż dla dostatecznie dużych $ n $ mamy $ \frac{1}{\lambda_n^2}\leq \frac{1}{\lambda_n} $). Dalej, mamy $ e^{-\lambda_n}\leq \frac{1}{1+\lambda_n}\leq \frac{1}{\lambda_n} $ oraz $ e^{-2\lambda_n}\leq \frac{1}{\lambda_n^2} $, skąd wynika już zbieżność wszystkich trzech szeregów w (1), (2) oraz (3).

Zadania

1. Dany jest ciąg $ (X_n)_{n\geq 1} $ niezależnych zmiennych losowych o rozkładzie Poissona z parametrem $ 2 $. Udowodnić, że ciąg

$$ \frac{X_1X_2+X_2X_3+\ldots+X_{n}X_{n+1}}{n+2009}, \qquad n=1,\,2,\,\ldots,$$

jest zbieżny p.n. i wyznaczyć jego granicę.

2. Dany jest ciąg $ (X_n)_{n\geq 1} $ niezależnych zmiennych losowych, przy czym dla $ n\geq 1 $ zmienna $ X_n $ ma rozkład jednostajny na przedziale $ (1/n,1] $. Udowodnić, że ciąg

$$ \frac{X_1+X_2+\ldots+X_n}{n},\qquad n=1,\,2,\,\ldots,$$

jest zbieżny p.n. i wyznaczyć jego granicę.

3. Dany jest ciąg $ (X_n)_{n\geq 1} $ niezależnych nieujemnych zmiennych losowych o tym samym rozkładzie. Udowodnić, że jeśli $ \mathbb{E}  X_1=\infty $, to

$$ \frac{X_1+X_2+\ldots+X_n}{n} \to \infty$$

prawie na pewno.

4. Dany jest ciąg $ (A_n)_{n\geq 1} $ niezależnych zdarzeń, $ p_n=\mathbb{P}(A_n) $. Udowodnić, że

$$  \frac{1_{A_1}+1_{A_2}+\ldots+1_{A_n}}{n}-\frac{p_1+p_2+\ldots+p_n}{n}  \to 0$$

według prawdopodobieństwa.

5. Dany jest ciąg $ (X_n)_{n\geq 1} $ niezależnych całkowalnych zmiennych losowych o tym samym rozkładzie. Udowodnić, że ciąg

$$ \frac{X_1+X_2+\ldots+X_n}{n},\qquad n\geq 1,$$

zbiega w $ L^1 $ do $ \mathbb{E} X_1 $.

6. Dany jest ciąg $ (N_n)_{n\geq 1} $ zmiennych losowych (niekoniecznie niezależnych), przy czym dla $ n\geq 1 $ zmienna $ N_n $ ma rozkład Poissona z parametrem $ n $. Wykazać, że $ N_n/n\to 1 $ w $ L^1 $.

7. Zmienne $ X_1 $, $ X_2 $, $ \ldots $ są niezależne i mają rozkład jednostajny na $ [-1,1] $. Czy ciąg

$$ \frac{X_1+X_2^2+\ldots+X_n^n}{n},\qquad n=1,\,2,\,\ldots,$$

jest zbieżny p.n.?

8. Obliczyć granice

$$ \lim_{n\to\infty} \frac{1}{2^n}\int_{-1}^1\int_{-1}^1\ldots\int_{-1}^1 \frac{x_1^2+x_2^2+x_3^3+x_4^4+\ldots+x_n^n}{x_1^2+x_2^2+\ldots+x_n^2}\mbox{d}x_1\mbox{d}x_2\ldots\mbox{d}x_n$$

oraz

$$ \lim_{n\to\infty} \int_0^1\int_0^1\ldots \int_0^1 f(\sqrt[n]{x_1x_2\ldots x_n})\mbox{d}x_1\mbox{d}x_2\ldots\mbox{d}x_n,$$

gdzie $ f:[0,1]\to \mathbb{R} $ jest ustaloną funkcją ciągłą.

9. Zmienne losowe $ X_1,\,X_2,\,\ldots $ są niezależne, przy czym dla $ n\geq 1 $ rozkład $ X_n $ zadany jest następująco:

$$  \mathbb{P}(X_n=0)=1/2,\,\mathbb{P}(X_n=1)=1/2-\frac{1}{4n^2},\,\,\mathbb {P}(X_n=n)=\frac{1}{4n^2}.$$

Udowodnić, że ciąg

$$ \frac{X_1+X_2+\ldots+X_n}{n}$$

jest zbieżny prawie na pewno i wyznaczyć jego granicę.

10. Zmienne $ \e_1 $, $ \e_2 $, $ \ldots $ są niezależne i mają rozkład Rademachera. Dowieść, że dla $ \alpha>1/2 $, ciąg

$$ \frac{\e_1+\e_2+\ldots+\e_n}{n^\alpha},\qquad n=1,\,2,\,\ldots$$

jest zbieżny p.n.

11. Udowodnić następujące twierdzenie o dwóch szeregach: jeśli $ (X_n)_{n\geq 1} $ jest ciągiem takich niezależnych zmiennych losowych całkowalnych z kwadratem, że szeregi liczbowe

$$ \sum_{n=1}^\infty \E X_n,\qquad \sum_{n=1}^\infty \,\mbox{Var}\,X_n$$

są zbieżne, to szereg $ \sum_{n=1}^\infty X_n $ jest zbieżny p.n.

12. Dany jest ciąg $ (X_n)_{n\geq 1} $ niezależnych zmiennych losowych takich, że

$$  \mathbb{P}(X_n=-n)=\mathbb{P}(X_n=n)=\frac{1}{n^3},\,\,\mathbb{P}(X_n=0) =1-\frac{2}{n^3}.$$

Udowodnić, że $ \sum_{n=1}^\infty X_n $ jest zbieżny p.n.

13. Dany jest ciąg $ (\e_n)_{n\geq 1} $ niezależnych zmiennych Rademachera. Jaki warunek musi spełniać ciąg $ (a_n)_{n\geq 1} $, by szereg $ \sum_{n=1}^\infty a_n\e_n $ był zbieżny p.n.?

14. Dany jest ciąg $ (X_n) $ niezależnych zmiennych losowych takich, że dla $ n\geq 1 $ zmienna $ X_n $ ma rozkład jednostajny na odcinku $ [-n,n] $. Dla jakich wartości parametru $ p>0 $ szereg

$$\sum_{n=1}^\infty \frac{X_n}{n^p}$$

jest zbieżny p.n.?

Twierdzenie de Moivre'a-Laplace'a

Twierdzenie de Moivre'a-Laplace'a

Zajmiemy się teraz niezwykle ważnym i użytecznym faktem, pozwalającym przybliżać rozkład Bernoulliego $ B(n,p) $ przez rozkład normalny. Znaczne uogólnienie poniższych wyników będzie podane na wykładzie z Rachunku Prawdopodobieństwa II, przy okazji tzw. Centralnego Twierdzenia Granicznego.

Załóżmy, że $ \Phi:\R\to [0,1] $ jest dystrybuantą, a $ g $ jest gęstością, standardowego rozkładu normalnego:

$$ g(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2},\quad \Phi(t)=\int_{-\infty}^t g(x)\mbox{d}x.$$

Ponadto, będziemy zakładać, że $ p $ jest ustaloną liczbą z przedziału $ (0,1) $, $ q=1-p $ oraz $ S_n $ jest zmienną losową o rozkładzie $ B(n,p) $.

Twierdzenie Załóżmy, że $ k $ jest liczbą całkowitą taką, że

$$ |k-np|\cdot \frac{\max(p,q)}{npq}\leq 1/2. \leqno{(*)}$$

Wówczas

$$ \mathbb{P}(S_n=k)=\frac{1}{\sqrt{2\pi n pq}}\exp\left(-\frac{(k-np)^2}{2npq}+R(n,k)\right),$$

gdzie

$$ R(n,k)\leq \frac{3|k-np|}{4npq}+\frac{|k-np|^3}{3n^2p^2q^2}+\frac{1}{3npq}.$$
Dowód:[Dowód] Stosując wzór Stirlinga

$$ n!=\sqrt{2\pi n}n^ne^{-n+\theta_n/(12n)},\qquad 0<\theta_n<1,$$

dostajemy \begin{align*} \P(S_n=k)&=\sqrt{\frac{n}{2k\pi(n-k)}}\cdot \left(\frac{np}{k}\right)^k\left(\frac{nq}{n-k}\right)^{n-k}\cdot \exp\left(\frac{\theta_n}{12n}-\frac{\theta_k}{12k}-\frac{\theta_{n-k}}{12(n-k)}\right)\\ &=I \cdot II \cdot III. \end{align*} Zbadajmy po kolei czynniki $ I $, $ II $ oraz $ III $. Mamy

$$ I=\frac{1}{\sqrt{2\pi npq}}\cdot \left(1+\frac{k-np}{npq}\cdot q\right)^{-1/2}\left(1-\frac{k-np}{npq}\cdot p\right)^{-1/2}=\frac{1}{\sqrt{2\pi npq}}\cdot e^{R_1(n,k)}.$$

Dla dowolnego $ x\geq -1/2 $ zachodzi oszacowanie

$$ |\log(1+x)-x|\leq x^2,$$

skąd wynika, że \begin{align*} R_1(n,k)&=-\frac{1}{2}\left[\log\left(1+\frac{k-np}{npq}\cdot q\right)+\log\left(1-\frac{k-np}{npq}\cdot p\right)\right]\\ &=\frac{1}{2}\frac{(p-q)(k-np)}{npq}+R_1'(n,k), \end{align*} gdzie $ |R_1'(n,k)|\leq \frac{1}{2}(p^2+q^2)(k-np)^2/(n^2p^2q^2)\leq |k-np|/(4npq) $, na mocy założenia (*). W konsekwencji,

$$ |R_1(n,k)|\leq \frac{3|k-np|}{4npq}.$$

Następnie, mamy \begin{align*} \log II&=k\log\left(\frac{np}{k}\right)+(n-k)\log\left(\frac{nq}{n-k}\right)\\ &=-np\cdot \frac{k}{np}\log\left(\frac{k}{np}\right)-nq\cdot \frac{n-k}{nq}\log\left(\frac{n-k}{nq}\right)\\ &=-np\cdot\left(1+\frac{k-np}{np}\right)\log\left(1+\frac{k-np}{np}\right)\\ &     -nq\cdot \left(1-\frac{ k-np}{nq}\right)\log \left(1-\frac{ k-np}{nq}\right). \end{align*} Korzystamy teraz z nierówności

$$ \left|(1+x)\log(1+x)-x-\frac{x^2}{2}\right|\leq \frac{1}{3}|x|^3,$$

prawdziwej dla $ x\geq -1/2 $: jeśli (*) jest spełniona, to \begin{align*} \log II &=-np\left(\frac{k-np}{np}+\frac{1}{2}\left(\frac{k-np}{np}\right)^2\right)\\ &     -nq\left(-\frac{k-np}{nq}+\frac{1}{2}\left(\frac{k-np}{nq}\right)^2\right)+R_2'(n,k)\\ &=-\frac{1}{2}\frac{(k-np)^2}{npq}+R_2'(n,k), \end{align*} gdzie \begin{align*} |R_2'(n,k)|&\leq \frac{1}{3}\left(np\left|\frac{k-np}{np}\right|^3+nq\left|\frac{k-np}{nq}\right|^3\right)=\frac{|k-np|^3}{3n^2p^2q^2}(p^2+q^2)\leq \frac{|k-np|^3}{3n^2p^2q^2}. \end{align*} Wreszcie, mamy $ III=e^{R_3(n,k)} $, gdzie

$$ -\left(\frac{1}{12k}+\frac{1}{12(n-k)}\right)<R_3(n,k)<\frac{1}{12n}.$$

Równoważnie,

$$ -\frac{1}{12npq}\left(1+\frac{k-np}{npq}\cdot q\right)^{-1}\left(1-\frac{k-np}{npq}\cdot p\right)^{-1}<R_3(n,k)<\frac{1}{12n},$$

skąd, na mocy (*), wynika oszacowanie

$$ |R_3(n,k)|\leq \frac{1}{3npq}.$$

Łącząc otrzymane wyżej nierówności dla $ R_i(n,k) $, dostajemy tezę. □

Kolejne twierdzenie, tzw. integralne twierdzenie de Moivre'a-Laplace'a, pozwala przybliżać prawdopodobieństwo, że liczba sukcesów należy do ustalonego przedziału.

Twierdzenie Załóżmy, że $ a,\,b\geq 0 $ spełniają warunek

$$ |a-np|\cdot \frac{\max(p,q)}{npq}\leq 1/2,\qquad  |b-np|\cdot \frac{\max(p,q)}{npq}\leq 1/2. \leqno{(*)}$$

Wówczas

$$ \P\left(a\leq S_n\leq b\right)=\left[ \Phi\left(\frac{b-np+\frac{1}{2}}{\sqrt{npq}}\right) -\Phi\left(\frac{a-np-\frac{1}{2}}{\sqrt{npq}}\right)\right] e^{D(n,a,b)},$$

gdzie

$$ |D(n,a,b)|\leq \max_{k\in \{a,b\}}\left[\frac{5}{4}\frac{|k-np|}{npq}+\frac{1}{3}\frac{|k-np|^3}{n^2p^2q^2}\right]+\frac{1}{3npq}+\frac{1}{8npq}.$$
Dowód:[Dowód] Przypomnijmy, że $ g $ oznacza gęstość standardowego rozkładu normalnego. Oznaczmy

$$ x_k=\frac{k-np}{\sqrt{npq}},\qquad h=\frac{1}{\sqrt{npq}}.$$

Z twierdzenia o wartości średniej mamy, iż

$$ \Phi\left(x_k+h/2\right)- \Phi\left(x_k-h/2\right)=hg(\xi_k),$$

gdzie $ \xi_k\in \left(x_k-h/2,x_k+h/2\right) $. Innymi słowy, mamy \begin{align*} & h g\left(x_k\right)\\ & =\exp\left(\frac{1}{2}(\xi_k^2-x_k^2)\right)\Phi\left(x_k+h/2\right)- \Phi\left(x_k-h/2\right). \end{align*} Dalej, $ |\xi_k^2-x_k^2|=|\xi_k+x_k|\cdot|\xi_k-x_k|\leq \frac{1}{2}h\left(2|x_k|+\frac{1}{2}h\right)=h|x_k|+\frac{1}{4}h^2 $, a zatem

$$ h g(x_k)=e^{r_k}\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right],$$

gdzie $ |r_k|\leq \frac{1}{2}h|x_k|+\frac{1}{8}h^2 $. W połączeniu z poprzednim twierdzeniem, otrzymujemy zatem

$$ \P(S_n=k)=e^{r_k+R(n,k)}\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right].$$

Niech $ d=\max_{k\in \{a,a+1,\ldots,b\}}|r_k+R(n,k)| $; dostajemy zatem

$$ e^{-d}\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right]\leq \P(S_n=k)\leq e^d\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right].$$

Pisząc te nierówności dla $ k=a,\,a+1,\,\ldots,\,b $ i sumując, dostajemy tezę. □

Na zakończenie, sformułujemy (bez dowodu) fakt, który zawiera wygodne oszacowanie na błąd przybliżenia w twierdzeniu de Moivre'a-Laplace'a.

Twierdzenie Przy oznaczeniach jak wyżej, mamy

$$ \sup_{t\in \R}\left|\P\left(\frac{S_n-np}{\sqrt{npq}}\leq t\right)-\Phi(t)\right|\leq \frac{p^2+q^2}{\sqrt{npq}}.$$

Zadania

1. Prawdopodobieństwo urodzenia chłopca wynosi $ 0,517 $. Jakie jest prawdopodobieństwo tego, że wśród $ n=10000 $ noworodków liczba chłopców nie przewyższy liczby dziewcząt?

2. Rzucamy symetryczną monetą aż do momentu, gdy wyrzucimy $ 200 $ orłów (łącznie, niekoniecznie pod rząd). Jakie jest przybliżone prawdopodobieństwo tego, że rzucimy więcej niż $ 440 $ razy?

3. Do sklepu meblowego przywieziono $ 150 $ biurek I rodzaju oraz $ 75 $ biurek II rodzaju. Wiadomo, że biurka I rodzaju cieszą się dwukrotnie większym powodzeniem (tzn. prawdopodobieństwo tego, że klient kupujący biurko zdecyduje się na biurko I rodzaju, wynosi $ 2/3 $). Jakie jest przybliżone prawdopodobieństwo tego, że któryś z pierwszych $ 200 $ klientów kupujących biurka nie dostanie takiego modelu, jaki chce?

4. Stwierdzono, iż przeciętnie $ 30\% $ spośród ogólnej liczby studentów przyjętych na studia kończy je w terminie. Ile osób trzeba przyjąć na pierwszy rok, aby z prawdopodobieństwem co najmniej $ 0,9 $ co najmniej $ 50 $ osób skończyło studia w terminie?

5. W pewnym doświadczeniu prawdopodobieństwo zajścia zdarzenia $ A $ wynosi $ 0,7 $. Ile razy trzeba powtórzyć to doświadczenie, żeby z prawdopodobieństwem $ 0,9 $ częstość zajścia zdarzenia $ A $ nie różniła się od $ 0,7 $ o więcej niż $ 0,1 $? Czy można coś powiedzieć o potrzebnej liczbie powtórzeń, jeśli nie znamy prawdopodobieństwa zdarzenia $ A $?

6. a) Rzucamy 4500 razy kostką, dla której prawdopodobieństwo wypadnięcia szóstki wynosi $ 1/6 $. Obliczyć przybliżone prawdopodobieństwo tego, że liczba wyrzuconych szóstek przekroczy $ 450 $.

b) Załóżmy, że prawdopodobieństwo wypadnięcia szóstki wynosi $ 1/1000 $. Jakie jest przybliżone prawdopodobieństwo tego, że liczba wyrzuconych szóstek przekroczy 2?

7. Dany jest ciąg $ (\e_n)_{n\geq 1} $ niezależnych zmiennych losowych Rademachera. Dowieść, że ciąg

$$ \frac{\e_1+\e_2+\ldots+\e_n}{\sqrt{n}},\qquad n=1,\,2,\,\ldots,$$

nie jest zbieżny prawie na pewno.

Warunkowa wartość oczekiwana

Warunkowa wartość oczekiwana

Warunkowa wartość oczekiwana jest jednym z kluczowych pojęć w teorii prawdopodobieństwa. Zacznijmy od sytuacji gdy warunkujemy względem zdarzenia.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną oraz $ B $ jest zdarzeniem o dodatnim prawdopodobieństwie. Niech $ X $ będzie całkowalną zmienną losową. Warunkową wartością oczekiwaną $ X $ pod warunkiem $ B $ nazywamy liczbę

$$ \E(X|B)=\int_\Omega X(\omega)\mathbb{P}(d\omega|B).$$
Twierdzenie Przy założeniach jak wyżej,

$$ \E(X|B)=\frac{1}{\mathbb{P}(B)}\int_BXd\mathbb{P}. \leqno{(*)}$$
Dowód:[Dowód:] Stosujemy standardową metodę komplikacji zmiennej $ X $.

1. Załóżmy najpierw, że $ X=1_A $, gdzie $ A\in  \F $. Wówczas

$$\E(X|B)=\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap  B)}{\mathbb{P}(B)}=\frac{1}{\mathbb{P}(B)}\int_B1_Ad\mathbb{P}.$$

2. Z liniowości, dowodzona równość zachodzi także dla zmiennych prostych (kombinacji liniowych indykatorów zdarzeń).

3. Teraz jeśli $ X $ jest nieujemną zmienną losową, to bierzemy niemalejący ciąg $ (X_n)_{n\geq 1} $ zmiennych prostych zbieżny prawie na pewno do $ X $. Pisząc (*) dla $ X_n $ i zbiegając z $ n\to\infty $ dostajemy (*) dla $ X $, na mocy twierdzenia Lebesgue'a o monotonicznym przejściu do granicy pod znakiem całki.

4. Jeśli $ X $ jest dowolną zmienną losową, to rozważamy rozbicie $ X=X_+-X_- $ i stosujemy (*) dla $ X_+ $ oraz $ X_- $; po odjęciu stronami dostajemy (*) dla $ X $. □

Rozważmy teraz następujący przykład. Przypuśćmy, że $ \{B_i\}_{i=1,2,\ldots,n} $ jest rozbiciem $ \Omega $ na zdarzenia o dodatniej mierze. Niech $ X $ będzie całkowalną zmienną losową i zdefiniujmy zmienną $ \eta $ wzorem $ \eta(\omega)=\E(X|B_i) $ jeśli $ \omega\in B_i $, $ i=1,\,2,\,\ldots,\,n $. Zmienną $ \eta $ interpretujemy jako średnią wartość $ X $ jeśli wiemy wszystko o zdarzeniach z $ \sigma $-ciała generowanego przez rozbicie $ \{B_i\} $. Zmienna $ \eta $ posiada następujące własności:

1) $ \eta $ jest mierzalna względem $ \sigma(B_1,B_2,\ldots,B_n) $ - gdyż jest stała na dowolnym zdarzeniu $ B_i $,

2) Dla każdego $ i=1,\,2,\,\ldots,\,n $ mamy

$$ \int_{B_i} \eta \mbox{d}\P=\E(X|B_i)\cdot \P(B_i)=\int_{B_i}X\mbox{d}\P,$$

skąd wynika, iż

$$ \int_B \eta \mbox{d}\P=\int_B X \mbox{d}\P$$

dla dowolnego $ B\in \sigma(B_1,B_2,\ldots,B_n) $.

Prowadzi to do definicji warunkowej wartości oczekiwanej względem $ \sigma $-ciała.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną, $ \mathcal{M} $ jest pod-$ \sigma $-ciałem $ \F $, a $ X $ jest całkowalną zmienną losową. Warunkową wartością oczekiwaną $ X $ pod warunkiem $ \mathcal{M} $ nazywamy taką zmienną losową $ \eta $, że są spełnione następujące dwa warunki.

1) $ \eta $ jest mierzalna względem $ \mathcal{M} $.

2) Dla każdego $ B\in \mathcal{M} $,

$$ \int_B \eta \mbox{d}\mathbb{P}=\int_B X \mbox{d}\mathbb{P}.$$

Oznaczenie: $ \E(X|\mathcal{M}) $.

W szczególności gdy $ X=1_A $, $ A\in\F $, to definiujemy prawdopodobieństwo warunkowe zdarzenia $ A $ pod warunkiem $ \mathcal{M} $ poprzez $ \mathbb{P}(A|\mathcal{M})=\E(1_A|\mathcal{M}). $

Twierdzenie Załóżmy, że $ X $ jest całkowalną zmienną losową, a $ \mathcal{M} $ jest pod-$ \sigma $-ciałem $ \F $. Wówczas warunkowa wartość oczekiwana istnieje i jest wyznaczona jednoznacznie z dokładnością do równości p.n.
Dowód:[Dowód:] Dla dowolnego $ B\in\mathcal{M} $ definiujemy $ \nu(B)=\int_BX\mbox{d}\mathbb{P} $. Funkcja $ \nu:\mathcal{M}\to \R $ jest przeliczalnie addytywną funkcją zbioru. Ponadto jeśli $ \mathbb{P}(B)=0 $, to $ \nu(B)=0 $ (jest to tzw. absolutna ciągłość $ \nu $ względem $ \mathbb{P} $). Na mocy twierdzenia Radona-Nikodyma istnieje $ \mathcal{M} $-mierzalna zmienna losowa $ \eta $ będąca gęstością $ \nu $ względem $ \mathbb{P} $, tzn. taka, że dla wszystkich $ B\in\mathcal{M} $,

$$ \int_B X \mbox{d}\mathbb{P}=\nu(B)=\int_B \eta \mbox{d}\mathbb{P}.$$

Jednoznaczność jest oczywista: jeśli $ \eta_1 $, $ \eta_2 $ są zmiennymi losowymi spełniającymi 1) oraz 2), to w szczególności, dla każdego $ B\in\mathcal{M} $, $ \int_B\eta_1\mbox{d}\mathbb{P}=\int_B\eta_2\mbox{d}\mathbb{P} $, skąd $ \eta_1=\eta_2 $ p.n. □

Przechodzimy do pojęcia warunkowej wartości oczekiwanej względem zmiennej losowej. Będziemy potrzebować następującego pomocniczego faktu.

Lemat Załóżmy, że $ Y $ jest zmienną losową. Wówczas każda zmienna losowa $ X $ mierzalna względem $ \sigma(Y) $ ma postać $ f(Y) $ dla pewnej funkcji borelowskiej $ f $.
Dowód:[Dowód:] Ponownie stosujemy metodę komplikacji zmiennej.

1. Załóżmy, że $ X=1_A $, gdzie $ A\in \sigma(Y) $. Wówczas $ A=\{Y\in  B\} $ dla pewnego $ B $, skąd $ X=1_B(Y) $, czyli jako $ f $ możemy wziąć indykator $ 1_B $.

2. Jeśli $ X $ jest zmienną prostą, to jako $ f $ bierzemy kombinację liniową odpowiednich indykatorów (patrz poprzedni punkt).

3. Załóżmy, że $ X $ jest nieujemną zmienną losową. Istnieje niemalejący ciąg $ (X_n) $ prostych, $ \sigma(Y) $-mierzalnych zmiennych losowych zbieżny do $ X $. Na mocy 2), mamy $ X_n=f_n(Y) $ dla pewnego ciągu funkcyjnego $ (f_n) $. Jak łatwo sprawdzić, wystarczy wziąć

$$ f(x)=\begin{cases} \lim_{n\to\infty}f_n(x) & \mbox{ jeśli granica istnieje,}\\ 0 & \text{jeśli granica nie istnieje}. \end{cases}$$

4. Jeśli teraz $ X $ jest dowolną zmienną losową, to mamy $ X=X_+-X_-=f_+(Y)-f_-(Y)=f(Y) $, gdzie $ f_+ $, $ f_- $ to funkcje borelowskie odpowiadające $ \sigma(Y) $-mierzalnym $ X_+ $ oraz $ X_- $. □

Definicja Załóżmy, że $ X,\,Y $ są zmiennymi losowymi, przy czym $ X $ jest całkowalna. Definiujemy warunkową wartość oczekiwaną $ X $ pod warunkiem $ Y $ jako

$$ \E(X|Y)=\E(X|\sigma(Y)).$$

Uwaga: Na mocy lematu mamy $ \E(X|Y)=f(Y) $ dla pewnej funkcji borelowskiej $ f $. Liczbę $ f(y) $ możemy interpretować jako $ \E(X|Y=y) $.\\

Przykłady:

1. Załóżmy, że $ X $, $ Y $ posiadają rozkłady skokowe. Oznaczmy

$$ P_Y(y)=\mathbb{P}(Y=y) \,\,\mbox{ oraz }\,\,  P_{(X,Y)}(x,y)=\mathbb{P}(X=x,Y=y). $$

Jeśli $ h $ jest dowolną funkcją borelowską taką, że $ h(X)\in L^1 $, to

$$ \E(h(X)|Y)=\sum_{x\in S_X} h(x)\frac{P_{(X,Y)}(x,Y)}{P_Y(Y)}.$$

Aby to wykazać, należy sprawdzić, iż prawa strona (oznaczana dalej przez $ \eta $) spełnia własności 1) i 2) z definicji $ \E(h(X)|\sigma(Y)) $. Pierwszy warunek jest jasny - $ \eta $, jako funkcja $ Y $, jest $ \sigma(Y) $-mierzalna. Zajmijmy się zatem drugim warunkiem. Niech $ B\in \sigma(Y) $. Ponieważ $ Y $ ma rozkład dyskretny, $ B $ jest co najwyżej przeliczalną sumą zdarzeń postaci $ \{Y=y\} $ oraz zdarzenia o prawdopodobieństwie $ 0 $. Wystarczy więc sprawdzić 2) dla zbiorów $ B $ postaci $ \{Y=y\} $. Mamy

$$ \int_{\{Y=y\}} \eta \mbox{d}\mathbb{P}=\int_{\{Y=y\}}  \sum_{x\in S_X} h(x)\frac{P_{X,Y}(x,y)}{P_Y(y)}\mbox{d}\mathbb{P}=\sum_{x\in  S_X} h(x)P_{X,Y}(x,y)$$

oraz

$$ \int_{\{Y=y\}} h(X)\mbox{d}\mathbb{P}=\sum_{x\in S_X}  h(x)\int_{\{Y=y\}}1_{\{X=x\}}\mbox{d}\mathbb{P}=\sum_{x\in  S_X} h(x)P_{X,Y}(x,y).$$

2. Konkretny przykład. Załóżmy, że $ X $, $ Y $ są niezależnymi zmiennymi losowymi o rozkładzie Poissona z parametrami $ \lambda,\,\mu $, odpowiednio. Wyznaczymy $ \E(X|X+Y) $.

Wiadomo, że $ X+Y $ ma rozkład Poissona z parametrem $ \lambda+\mu $. Stąd

$$ P_{X+Y}(k)=\frac{(\lambda+\mu)^k}{k!}e^{-(\lambda+\mu)},\qquad  k=0,\,1,\,2,\,\ldots.$$

Ponadto, jeśli $ k\geq \ell\geq 0 $, to

\[  \begin{split}  P_{X,X+Y}(\ell,k)&=\mathbb{P}(X=\ell,X+Y=k)=\mathbb{P}(X=\ell)\mathbb{P}( Y=k-\ell)\\ &=\frac{\lambda^\ell}{\ell!}e^{-\lambda}\cdot\frac{\mu^{k-\ell}} { (k-\ell)!}e^{-\mu} \end{split}  \]

i

$$ \frac{P_{X,X+Y}(\ell,k)}{P_{X+Y}(k)}= \frac{k!\lambda^\ell\mu^{k-\ell}}{\ell!(k-\ell)!(\lambda+\mu)^k}= {k \choose  \ell}\left(\frac{\lambda}{\lambda+\mu}\right)^\ell\left(1-\frac{\lambda} {\lambda+\mu}\right)^{k-\ell}.$$

Stąd

$$ \E(X|X+Y)=\frac{\lambda}{\lambda+\mu}(X+Y).$$

3. Załóżmy, że $ (X,Y) $ ma rozkład z gęstością $ g $ i niech $ g_Y(y)=\int_\R g(x,y)dx $ będzie gęstością zmiennej $ Y $. Zdefiniujmy gęstość warunkową wzorem

$$ g_{X|Y}(x|y)=\begin{cases} \frac{g(x,y)}{g_Y(y)} & \text{jeśli }g_Y(y)\neq 0,\\ 0 & \text{jeśli }g_Y(y)=0. \end{cases}$$

Wówczas dla dowolnej funkcji borelowskiej $ h:\R\to\R $ takiej, że $ h(X)\in L^1 $ mamy

$$ \E(h(X)|Y)=\int_\R h(x)g_{X|Y}(x|Y)dx. \leqno{(*)}$$

Istotnie, sprawdzimy, że prawa strona spełnia warunki 1) i 2) z definicji $ \E(h(X)|Y) $. Oczywiście warunek 1) jest spełniony - prawa strona jest funkcją od $ Y $. Przejdźmy do 2). Dla dowolnego $ B\in\sigma(Y) $ mamy, iż $ B=\{Y\in A\} $ dla pewnego $ A\in \R $ oraz

\[   \begin{split} \int_B h(X)d\mathbb{P}&=\int_\Omega 1_{\{Y\in A\}}h(X)d\mathbb{P}= \int_{\R^2}1_{\{y\in A\}}h(x)g(x,y)dxdy\\ &=\int_\R 1_{\{y\in A\}}g_Y(y)\int_\R h(x)g_{X|Y}(x|y)dxdy= \int_B\int_\R h(x)g_{X|Y}(x|Y)dx d\mathbb{P}. \end{split}  \]

4. Konkretny przykład. Załóżmy, że $ (X,Y) $ ma rozkład jednostajny na trójkącie

$$ D=\{(x,y): 0\leq x\leq y\leq 1\}.$$

Obliczymy $ \E(X|Y) $ oraz $ \P(X\leq 1/2|Y) $.

Mamy $ g(x,y)=21_{\{0\leq x\leq y\leq 1\}} $ oraz

$$g_Y(y)=\int_\R g(x,y)\mbox{d}x=2y1_{[0,1]}(y).$$

Wobec tego, gęstość warunkowa $ g_{X|Y} $ zadana jest wzorem

$$ g_{X|Y}(x|y)=\begin{cases} \frac{1}{y}1_{[0,y]}(x) & \mbox{jeśli }y\in (0,1],\\ 0 & \mbox{dla pozostałych }y. \end{cases}$$

Stąd

$$ \E(X|Y)=\int_\R xg_{X|Y}(x|Y)\mbox{d}x=\frac{1}{Y}\int_0^Y x\mbox{d}x=\frac{Y}{2}$$

oraz \begin{align*} \P(X\leq 1/2|Y)&=\E[ 1_{(-\infty,1/2]}(X)|Y]\\ &=\int_\R 1_{(-\infty,1/2]}(x)g_{X|Y}(x|Y)\mbox{d}x\\ &=\frac{1}{Y}\int_0^Y 1_{(-\infty,1/2]}(x)1_{[0,Y]}(x)\mbox{d}x\\ &=\begin{cases} 1 & \mbox{jeśli }Y\leq 1/2,\\ 1/(2Y) & \mbox{jeśli }Y>1/2. \end{cases} \end{align*}

Własności warunkowej wartości oczekiwanej

Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest ustaloną przestrzenią probabilistyczną i niech $ \mathcal{M} $ będzie pewnym pod-$ \sigma $-ciałem $ \F $. Ponadto, o wszystkich zmiennych losowych warunkowanych zakładamy, że są całkowalne.

0. Mamy $ \E(\E(X|\mathcal{M}))=\E X $. Wynika to natychmiast z 2), jeśli weźmiemy $ B=\Omega $.

Przykład Liczba wypadków danego dnia w pewnym mieście ma rozkład Poissona z parametrem $ 5 $. Wysokość szkody powstałej w wypadku ma rozkład jednostajny na przedziale $ [2,10] $. Niech $ X $ oznacza łączną szkodę danego dnia. Wyznaczyć $ \mathbb{E}X $.

     Rozwiązanie: Wprowadźmy zmienną losową $ Y $, zadaną jako liczbę wypadków danego dnia. Zmienna $ Y $ ma rozkład Poissona z parametrem $ 5 $, ponadto, z warunków zadania, $ \E(X|Y)=6Y $. Istotnie, średnia wysokość szkody powstałej w pojedynczym wypadku wynosi $ 6 $, a więc jeśli było $ Y $ wypadków, to średnia szkoda wynosi $ 6Y $. Zatem, korzystając z własności 0.,

$$ \E X=\E(\E(X|Y))=\E 6Y=30.$$

1. Niech $ \alpha,\,\beta\in \R $. Wówczas

$$ \E(\alpha X_1+\beta  X_2|\mathcal{M})=\alpha\E(X_1|\mathcal{M})+\beta\E(X_2|\mathcal{M}).$$

Istotnie: sprawdzimy, że prawa strona (oznaczana dalej przez $ R $) spełnia warunki 1) i 2) z definicji $ \E(\alpha X_1+\beta X_2|\mathcal{M}) $. Pierwszy warunek jest oczywisty. Aby sprawdzić drugi zauważmy, że dla dowolnego $ B\in \mathcal{M} $,

\[  \begin{split}  \int_B R d\mathbb{P}&=\alpha\int_B \E(X_1|\mathcal{M})\mbox{d}\mathbb{P}+ \beta\int_B \E(X_2|\mathcal{M})\mbox{d}\mathbb{P}=\alpha\int_BX_1\mbox{d}\mathbb{P}+ \beta\int_BX_2\mbox{d}\mathbb{P}\\ &=\int_B \alpha X_1+\beta X_2 d\mathbb{P}. \end{split}  \]

2. Jeśli $ X $ jest nieujemną zmienną losową, to $ \E(X|\mathcal{M})\geq 0 $ p.n. Istotnie, niech $ B=\{ \E(X|\mathcal{M})< 0\} $. Wówczas $ B\in\mathcal{M} $ i

$$ \int_B \E(X|\mathcal{M}) d\mathbb{P}=\int_B X d\mathbb{P}.$$

Widzimy, że gdyby zdarzenie $ B $ miało dodatnie prawdopodobieństwo, to lewa strona byłaby ujemna, a prawa - nieujemna.

3. Mamy

$$|\E(X|\mathcal{M})|\leq \E(|X||\mathcal{M})\quad \text{p.n.}\leqno{(*)}$$

Istotnie, na mocy 1. oraz 2. mamy, iż nierówność $ X\leq Y $ p.n. pociąga za sobą $ \E(X|\mathcal{M})\leq \E(Y|\mathcal{M}) $. Stąd, z prawdopodobieństwem $ 1 $,

$$ \E(X_1|\mathcal{M})\leq \E(|X_1||\mathcal{M})$$

i

$$ -\E(X_1|\mathcal{M})\leq \E(|X_1||\mathcal{M}).$$

Uwaga: Biorąc wartość oczekiwaną obu stron w (*) dostajemy, na mocy 0.,

$$ \E(|\E(X|\mathcal{M})|)\leq \E |X|.$$

Innymi słowy, operator liniowy $ \E(\cdot|\mathcal{M}):L^1(\Omega,\F,\mathbb{P})\to  L^1(\Omega,\F,\mathbb{P}) $ jest kontrakcją.

4. Warunkowa wersja twierdzenia Lebesgue'a o monotonicznym przejściu do granicy. Załóżmy, że $ X_n $ jest niemalejącym ciągiem nieujemnych zmiennych losowych zbieżnych p.n. do $ X\in L^1 $. Wówczas $ \E(X_n|\mathcal{M})\uparrow \E(X|\mathcal{M}) $ p.n.

Aby to wykazać, zacznijmy od obserwacji iż na mocy 1. i 2., ciąg $ (\E(X_n|\mathcal{M})) $ jest z prawdopodobieństwem $ 1 $ niemalejący, a więc w szczególności zbieżny. Oznaczmy jego granicę przez $ \eta $, $ \E(X_1|\mathcal{M})\leq \eta\leq \infty $. Niech teraz $ B\in\mathcal{M} $. Mamy, na mocy 2) oraz bezwarunkowego twierdzenia Lebesgue'a,

$$ \int_B X=\lim_{n\to\infty}\int_B  X_n=\lim_{n\to\infty}\int_B\E(X_n|\mathcal{M})=\int_B \eta.$$

Ponieważ $ \eta $ jest $ \mathcal{M} $-mierzalna, to z powyższej równości wynika, iż $ \eta=\E(X|\mathcal{M}) $.

5. Analogicznie dowodzimy warunkowe wersje twierdzenia Lebesgue'a o zmajoryzowanym przejściu do granicy pod znakiem całki oraz lematu Fatou.

6. Załóżmy, że $ X_1 $ jest mierzalna względem $ \mathcal{M} $. Wówczas

$$ \E(X_1X_2|\mathcal{M})=X_1\E(X_2|\mathcal{M})\quad  \text{p.n}.\leqno{(+)}$$

W szczególności, biorąc $ X_2\equiv 1 $, dostajemy, iż $ \E(X_1|\mathcal{M})=X_1 $.

Sprawdzamy, że prawa strona spełnia warunki 1) oraz 2) z definicji $ \E(X_1X_2|\mathcal{M}) $. Warunek 1) jest oczywisty, pozostaje więc sprawdzić drugi. Zastosujemy metodę komplikacji zmiennej $ X_1 $.

a) Jeśli $ X_1=1_A $, gdzie $ A\in\mathcal{M} $, to dla dowolnego $ B\in\mathcal{M} $,

$$ \int_B X_1\E(X_2|\mathcal{M})\mbox{d}\mathbb{P}=\int_{A\cap  B}\E(X_2|\mathcal{M})\mbox{d}\mathbb{P}=\int_{A\cap  B}X_2\mbox{d}\mathbb{P}=\int_BX_1X_2\mbox{d}\mathbb{P}.$$

b) Jeśli $ X_1 $ jest zmienną prostą, to wzór $ (+) $ dostajemy na mocy a) oraz liniowości warunkowych wartości oczekiwanych.

c) Jeśli $ X_1 $ jest nieujemną zmienną losową, to istnieje niemalejący ciąg $ (Y_n) $ $ \mathcal{M} $-mierzalnych zmiennych prostych, zbieżny p.n. do $ X_1 $. Rozbijmy $ X_2=X_2^+-X_2^- $ i zastosujmy b) do zmiennych $ Y_n $ oraz $ X_2^+ $:

$$ \E(Y_nX_2^+|\mathcal{M})=Y_n\E(X_2^+|\mathcal{M}).$$

Zbiegając z $ n\to \infty $ i korzystając z warunkowej wersji twierdzenia Lebesgue'a (własność 4.), dostajemy

$$ \E(X_1X_2^+|\mathcal{M})=X_1\E(X_2^+|\mathcal{M}).$$

Zastępując $ X_2^+ $ przez $ X_2^- $ i powtarzając rozumowanie, dostajemy

$$ \E(X_1X_2^-|\mathcal{M})=X_1\E(X_2^-|\mathcal{M})$$

i po odjęciu stronami dostajemy (+).

d) Jeśli $ X_1 $ jest dowolną zmienną losową, to rozbijamy ją na różnicę $ X_1^+-X_1^- $, stosujemy c) do zmiennych $ X_1^+ $, $ X_2 $, oraz $ X_1^- $, $ X_2 $, i odejmujemy stronami uzyskane równości.

7. Jeśli $ \mathcal{M}_1\subset \mathcal{M}_2 $ są pod-$ \sigma $-ciałami $ \F $, to

$$ \E(X|\mathcal{M}_1)=\E(\E(X|\mathcal{M}_2)|\mathcal{M}_1) =\E(\E(X|\mathcal{M}_1)|\mathcal{M}_2). \leqno{(=)}$$

Zacznijmy od obserwacji, iż wyrażenia stojące po skrajnych stronach są równe. Wynika to natychmiast z poprzedniej własności: zmienna losowa $ \E(X|\mathcal{M}_1) $ jest mierzalna względem $ \mathcal{M}_2 $. Wystarczy więc udowodnić, że pierwsze dwa wyrazy w (=) są równe. Weźmy $ B\in \mathcal{M}_1 $. Mamy $ B\in \mathcal{M}_2 $, a więc

$$ \int_B \E(X|\mathcal{M}_1)=\int_B X=\int_B \E(X|\mathcal{M}_2)= \int_B \E(\E(X|\mathcal{M}_2)|\mathcal{M}_1),$$

skąd teza.

8. Załóżmy, że $ X $ jest niezależna od $ \mathcal{M} $. Wówczas $ \E(X|\mathcal{M})=\E X $. Istotnie, sprawdzimy, że $ \E X $ spełnia warunki 1) i 2) w definicji $ \E(X|\mathcal{M}) $. Warunek 1) jest oczywisty: $ \E X $ jest zmienną losową stałą, a więc mierzalną względem każdego $ \sigma $-ciała. Niech teraz $ B\in\mathcal{M} $. Mamy na mocy niezależności $ 1_B $ oraz $ X $,

$$ \int_B \E X \mbox{d}\mathbb{P}=\E 1_B \E X=\E (1_BX)=\int_B X\mbox{d}\mathbb{P}.$$

9. Nierówność Jensena. Załóżmy, że $ f:\R\to\R $ jest funkcją wypukłą taką, że $ f(X) $ jest zmienną całkowalną. Wówczas

$$ \E(f(X)|\mathcal{M})\geq f(\E(X|\mathcal{M})).$$

Będzie nam potrzebny następujący prosty fakt. Dowód pozostawiamy jako proste ćwiczenie.

Lemat Załóżmy, że $ f:\R\to\R $ jest funkcją wypukłą. Wówczas istnieją ciągi $ (a_n) $, $ (b_n) $ takie, że dla dowolnego $ x\in \R $,

$$ f(x)=\sup_n (a_nx+b_n).$$

Powróćmy do dowodu 9. Dla ciągów $ (a_n) $, $ (b_n) $, gwarantowanych przez powyższy lemat, mamy $ f(X)\geq a_nX+b_n $ dla każdego $ n $. Stąd, na mocy 1. oraz 2., z prawdopodobieństwem $ 1 $,

$$ \E(f(X)|\mathcal{M})\geq a_n\E(X|\mathcal{M})+b_n.$$

Poniweaż ciągi $ (a_n) $, $ (b_n) $ są przeliczalne, to możemy wziąć supremum po $ n $ po prawej stronie i dalej nierówność będzie zachodziła z prawdopodobieństwem $ 1 $:

$$ \E(f(X)|\mathcal{M})\geq  \sup_n(a_n\E(X|\mathcal{M})+b_n)=f(\E(X|\mathcal{M})).$$

Uwaga: Jako wniosek, dostajemy, iż dla $ p\geq 1 $ i $ X\in  L^p(\Omega,\F,\mathbb{P}) $,

$$ \E(|X|^p|\mathcal{M})\geq [\E(|X||\mathcal{M})]^p.$$

Stąd po wzięciu wartości oczekiwanej obu stron, $ \E(|\E(X|\mathcal{M})|^p)\leq \E |X|^p, $ czyli

$$ ||\E(X|\mathcal{M})||_p\leq ||X||_p.$$

Zatem warunkowa wartość oczekiwana $ \E(\cdot|\mathcal{M}) $ jest kontrakcją w $ L^p $.

Na zakończenie zajmiemy się zagadnieniem regresji nieliniowej. Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi całkowalnymi z kwadratem. Obserwujemy zmienną $ Y $ i za pomocą tych danych chcemy najlepiej przybliżyć $ X $ (w sensie średniokwadratowym) zmienną postaci $ h(Y) $. Ściślej, szukamy funkcji borelowskiej $ f $ takiej, że

$$ \E(X-f(Y))^2=\min_h \E (X-h(Y))^2.$$

W przypadku, gdy zawęzimy się do klasy funkcji liniowych, prowadzi to do zagadnienia regresji liniowej, rozważanej wcześniej.

Twierdzenie Rozwiązaniem powyższego zagadnienia jest $ f(Y)=\E(X|Y) $.
Dowód:[Dowód] Weźmy dowolną funkcję borelowską $ h $. Mamy \begin{align*} \E(X-h(Y))^2&=\E(X-f(Y)+f(Y)-h(Y))^2\\ &=\E(X-f(Y))^2+2\E(X-f(Y))(f(Y)-h(Y))+\E(f(Y)-h(Y))^2. \end{align*} Ale zmienna $ f(Y)-h(Y) $ jest mierzalna względem $ \sigma(Y) $. Zatem korzystając z własności 0., 1. oraz 6., \begin{align*} \E(X-f(Y))(f(Y)-h(Y))&=\E\bigg\{\E\big[(X-f(Y))(f(Y)-h(Y))|Y\big]\bigg\}\\ &=\E \bigg\{(f(Y)-h(Y))\E(X-f(Y)|Y) \bigg\}=0. \end{align*} Wobec tego człon środkowy w poprzednim ciągu równości znika i otrzymujemy

$$ \E(X-h(Y))^2\geq \E(X-f(Y))^2.$$

Stąd teza. □

Zadania

1. Zmienne losowe $ \e_1,\,\e_2,\,\e_3 $ są niezależne i mają ten sam rozkład $ \mathbb{P}(\e_i=-1)=\mathbb{P}(\e_i=1)=1/2 $, $ i=1,\,2,\,3 $. Obliczyć $ \E(\e_1|\e_1+\e_2+\e_3) $ oraz $ \E(\e_1\e_2|e_1+e_2e_3) $.

2. Zmienne losowe $ X $, $ Y $ są niezależne, przy czym $ X $ ma rozkład Bernoulliego $ B(n,p) $, a $ Y $ ma rozkład Bernoulliego $ B(m,p) $. Wyznaczyć $ \E(X+Y|X) $ oraz $ \E(X|X+Y) $.

3. Rzucono kostką, a następnie rzucono nią tyle razy, ile oczek wypadło w pierwszym rzucie. Obliczyć wartość oczekiwaną liczby wyrzuconych trójek.

4. W urnie znajduje się $ a $ kul białych, $ b $ kul czarnych i $ c $ kul czerownych ($ a $, $ b $, $ c $ są dodatnimi liczbami całkowitymi). Losujemy ze zwracaniem po jednej kuli aż do momentu wyciągnięcia kuli czerwonej. Wyznaczyć wartość oczekiwaną liczby losowań w których wyciągnięto białą kulę.

5. Wiadomo, że $ p $ procent monet stanowią monety fałszywe, z orłem po obu stronach. Losujemy ze zwracaniem $ n $ monet i każdą z nich wykonujemy rzut. Niech $ F $ oznacza liczbę losowań, w wyniku których wyciągnięto monetę fałszywą, $ O $ - liczba wyrzuconych orłów. Udowodnić, że $ \E(F|O)=\frac{2p}{100+p}O. $

6. Zmienna losowa $ (X,Y) $ ma gęstość

$$ g(x,y)=\frac{x^3}{2}e^{-x(y+1)}1_{\{x>0,\,y>0\}}.$$

Wyznaczyć $ \E(Y|X) $, $ \E(Y^2|X^2) $ oraz $ \mathbb{P}(Y>1|X^3+1) $.

7. Zmienne losowe $ X $, $ Y $ są niezależne i mają rozkład wykładniczy z parametrem $ 1 $. Obliczyć $ \mathbb{P}(X\in B|X+Y) $ (dla $ B\in\mathcal{B}(\R) $) oraz $ \E(\sin X|X+Y) $.

8. Zmienna losowa $ X $ ma rozkład wykładniczy z parametrem $ 1 $, zaś $ Y $ jest zmienną losową taką, że jeśli $ X=x $, to $ Y $ ma rozkład wykładniczy z parametrem $ x $.

a) Wyznaczyć rozkład $ Y $.

b) Obliczyć $ \mathbb{P}(X>r|Y) $.

9. Zmienna losowa $ (X,Y) $ ma rozkład normalny o wartości oczekiwanej $ 0 $, Var$ X=\sigma_1^2 $, Var$ Y=\sigma_2^2 $, Cov$ (X,Y)=c $. Obliczyć $ \mathbb{P}(Y\in B|X) $ (dla $ B\in\mathcal{B}(\R) $) oraz $ \E(Y|X) $.

10. Zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależne i mają ten sam rozkład o skończonej wartości oczekiwanej. Obliczyć $  \E(X_1|X_1+X_2+\ldots+X_n). $

11. Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi a $ \mathcal{G} $ jest $ \sigma $-ciałem takim, że $ X $ jest mierzalne względem $ \mathcal{G} $, a $ Y $ jest niezależne od $ \mathcal{G} $. Niech $ \phi:\R^2\to \R $ będzie funkcją borelowską taką, że $ \phi(X,Y) $ jest całkowalną zmienną losową. Udowodnić, że

$$ \E[\phi(X,Y)|\mathcal{G}]=\Phi(X),$$

gdzie $ \Phi(x)=\E\phi(x,Y) $.

12. Załóżmy, że $ X $ jest całkowalną zmienną losową, a $ \sigma $-ciało $ \mathcal{G} $ jest niezależne od $ X $ oraz od $ \sigma $-ciała $ \mathcal{M} $. Udowodnić, że

$$ \E(X|\sigma(\mathcal{G},\mathcal{M}))=\E(X|\mathcal{M}).$$

13. Zmienne $ X $, $ Y $, $ Z $ są niezależne, przy czym $ X $ ma standardowy rozkład normalny, $ Y $ jest nieujemną zmienną ograniczoną, a $ Z $ ma rozkład Rademachera. Obliczyć $ \E (e^{XY}|Y) $ oraz $ \E(e^{XY}|YZ) $.

14. Zmienne $ N $, $ X_1 $, $ X_2 $, $ \ldots $ są niezależne, przy czym $ N $ ma rozkład Poissona z parametrem $ 3 $, a $ X_n $ ma rozkład jednostajny na $ [0,1] $, $ n=1,\,2,\,\ldots $. Obliczyć $ \E(X_1+X_2+\ldots+X_{N+1}) $.

Dodatek: R

Current View
Click here to download the PDF file.