Warunkowa wartość oczekiwana

Warunkowa wartość oczekiwana

Warunkowa wartość oczekiwana jest jednym z kluczowych pojęć w teorii prawdopodobieństwa. Zacznijmy od sytuacji gdy warunkujemy względem zdarzenia.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną oraz $ B $ jest zdarzeniem o dodatnim prawdopodobieństwie. Niech $ X $ będzie całkowalną zmienną losową. Warunkową wartością oczekiwaną $ X $ pod warunkiem $ B $ nazywamy liczbę

$$ \E(X|B)=\int_\Omega X(\omega)\mathbb{P}(d\omega|B).$$
Twierdzenie Przy założeniach jak wyżej,

$$ \E(X|B)=\frac{1}{\mathbb{P}(B)}\int_BXd\mathbb{P}. \leqno{(*)}$$
Dowód:[Dowód:] Stosujemy standardową metodę komplikacji zmiennej $ X $.

1. Załóżmy najpierw, że $ X=1_A $, gdzie $ A\in  \F $. Wówczas

$$\E(X|B)=\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap  B)}{\mathbb{P}(B)}=\frac{1}{\mathbb{P}(B)}\int_B1_Ad\mathbb{P}.$$

2. Z liniowości, dowodzona równość zachodzi także dla zmiennych prostych (kombinacji liniowych indykatorów zdarzeń).

3. Teraz jeśli $ X $ jest nieujemną zmienną losową, to bierzemy niemalejący ciąg $ (X_n)_{n\geq 1} $ zmiennych prostych zbieżny prawie na pewno do $ X $. Pisząc (*) dla $ X_n $ i zbiegając z $ n\to\infty $ dostajemy (*) dla $ X $, na mocy twierdzenia Lebesgue'a o monotonicznym przejściu do granicy pod znakiem całki.

4. Jeśli $ X $ jest dowolną zmienną losową, to rozważamy rozbicie $ X=X_+-X_- $ i stosujemy (*) dla $ X_+ $ oraz $ X_- $; po odjęciu stronami dostajemy (*) dla $ X $. □

Rozważmy teraz następujący przykład. Przypuśćmy, że $ \{B_i\}_{i=1,2,\ldots,n} $ jest rozbiciem $ \Omega $ na zdarzenia o dodatniej mierze. Niech $ X $ będzie całkowalną zmienną losową i zdefiniujmy zmienną $ \eta $ wzorem $ \eta(\omega)=\E(X|B_i) $ jeśli $ \omega\in B_i $, $ i=1,\,2,\,\ldots,\,n $. Zmienną $ \eta $ interpretujemy jako średnią wartość $ X $ jeśli wiemy wszystko o zdarzeniach z $ \sigma $-ciała generowanego przez rozbicie $ \{B_i\} $. Zmienna $ \eta $ posiada następujące własności:

1) $ \eta $ jest mierzalna względem $ \sigma(B_1,B_2,\ldots,B_n) $ - gdyż jest stała na dowolnym zdarzeniu $ B_i $,

2) Dla każdego $ i=1,\,2,\,\ldots,\,n $ mamy

$$ \int_{B_i} \eta \mbox{d}\P=\E(X|B_i)\cdot \P(B_i)=\int_{B_i}X\mbox{d}\P,$$

skąd wynika, iż

$$ \int_B \eta \mbox{d}\P=\int_B X \mbox{d}\P$$

dla dowolnego $ B\in \sigma(B_1,B_2,\ldots,B_n) $.

Prowadzi to do definicji warunkowej wartości oczekiwanej względem $ \sigma $-ciała.

Definicja Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest przestrzenią probabilistyczną, $ \mathcal{M} $ jest pod-$ \sigma $-ciałem $ \F $, a $ X $ jest całkowalną zmienną losową. Warunkową wartością oczekiwaną $ X $ pod warunkiem $ \mathcal{M} $ nazywamy taką zmienną losową $ \eta $, że są spełnione następujące dwa warunki.

1) $ \eta $ jest mierzalna względem $ \mathcal{M} $.

2) Dla każdego $ B\in \mathcal{M} $,

$$ \int_B \eta \mbox{d}\mathbb{P}=\int_B X \mbox{d}\mathbb{P}.$$

Oznaczenie: $ \E(X|\mathcal{M}) $.

W szczególności gdy $ X=1_A $, $ A\in\F $, to definiujemy prawdopodobieństwo warunkowe zdarzenia $ A $ pod warunkiem $ \mathcal{M} $ poprzez $ \mathbb{P}(A|\mathcal{M})=\E(1_A|\mathcal{M}). $

Twierdzenie Załóżmy, że $ X $ jest całkowalną zmienną losową, a $ \mathcal{M} $ jest pod-$ \sigma $-ciałem $ \F $. Wówczas warunkowa wartość oczekiwana istnieje i jest wyznaczona jednoznacznie z dokładnością do równości p.n.
Dowód:[Dowód:] Dla dowolnego $ B\in\mathcal{M} $ definiujemy $ \nu(B)=\int_BX\mbox{d}\mathbb{P} $. Funkcja $ \nu:\mathcal{M}\to \R $ jest przeliczalnie addytywną funkcją zbioru. Ponadto jeśli $ \mathbb{P}(B)=0 $, to $ \nu(B)=0 $ (jest to tzw. absolutna ciągłość $ \nu $ względem $ \mathbb{P} $). Na mocy twierdzenia Radona-Nikodyma istnieje $ \mathcal{M} $-mierzalna zmienna losowa $ \eta $ będąca gęstością $ \nu $ względem $ \mathbb{P} $, tzn. taka, że dla wszystkich $ B\in\mathcal{M} $,

$$ \int_B X \mbox{d}\mathbb{P}=\nu(B)=\int_B \eta \mbox{d}\mathbb{P}.$$

Jednoznaczność jest oczywista: jeśli $ \eta_1 $, $ \eta_2 $ są zmiennymi losowymi spełniającymi 1) oraz 2), to w szczególności, dla każdego $ B\in\mathcal{M} $, $ \int_B\eta_1\mbox{d}\mathbb{P}=\int_B\eta_2\mbox{d}\mathbb{P} $, skąd $ \eta_1=\eta_2 $ p.n. □

Przechodzimy do pojęcia warunkowej wartości oczekiwanej względem zmiennej losowej. Będziemy potrzebować następującego pomocniczego faktu.

Lemat Załóżmy, że $ Y $ jest zmienną losową. Wówczas każda zmienna losowa $ X $ mierzalna względem $ \sigma(Y) $ ma postać $ f(Y) $ dla pewnej funkcji borelowskiej $ f $.
Dowód:[Dowód:] Ponownie stosujemy metodę komplikacji zmiennej.

1. Załóżmy, że $ X=1_A $, gdzie $ A\in \sigma(Y) $. Wówczas $ A=\{Y\in  B\} $ dla pewnego $ B $, skąd $ X=1_B(Y) $, czyli jako $ f $ możemy wziąć indykator $ 1_B $.

2. Jeśli $ X $ jest zmienną prostą, to jako $ f $ bierzemy kombinację liniową odpowiednich indykatorów (patrz poprzedni punkt).

3. Załóżmy, że $ X $ jest nieujemną zmienną losową. Istnieje niemalejący ciąg $ (X_n) $ prostych, $ \sigma(Y) $-mierzalnych zmiennych losowych zbieżny do $ X $. Na mocy 2), mamy $ X_n=f_n(Y) $ dla pewnego ciągu funkcyjnego $ (f_n) $. Jak łatwo sprawdzić, wystarczy wziąć

$$ f(x)=\begin{cases} \lim_{n\to\infty}f_n(x) & \mbox{ jeśli granica istnieje,}\\ 0 & \text{jeśli granica nie istnieje}. \end{cases}$$

4. Jeśli teraz $ X $ jest dowolną zmienną losową, to mamy $ X=X_+-X_-=f_+(Y)-f_-(Y)=f(Y) $, gdzie $ f_+ $, $ f_- $ to funkcje borelowskie odpowiadające $ \sigma(Y) $-mierzalnym $ X_+ $ oraz $ X_- $. □

Definicja Załóżmy, że $ X,\,Y $ są zmiennymi losowymi, przy czym $ X $ jest całkowalna. Definiujemy warunkową wartość oczekiwaną $ X $ pod warunkiem $ Y $ jako

$$ \E(X|Y)=\E(X|\sigma(Y)).$$

Uwaga: Na mocy lematu mamy $ \E(X|Y)=f(Y) $ dla pewnej funkcji borelowskiej $ f $. Liczbę $ f(y) $ możemy interpretować jako $ \E(X|Y=y) $.\\

Przykłady:

1. Załóżmy, że $ X $, $ Y $ posiadają rozkłady skokowe. Oznaczmy

$$ P_Y(y)=\mathbb{P}(Y=y) \,\,\mbox{ oraz }\,\,  P_{(X,Y)}(x,y)=\mathbb{P}(X=x,Y=y). $$

Jeśli $ h $ jest dowolną funkcją borelowską taką, że $ h(X)\in L^1 $, to

$$ \E(h(X)|Y)=\sum_{x\in S_X} h(x)\frac{P_{(X,Y)}(x,Y)}{P_Y(Y)}.$$

Aby to wykazać, należy sprawdzić, iż prawa strona (oznaczana dalej przez $ \eta $) spełnia własności 1) i 2) z definicji $ \E(h(X)|\sigma(Y)) $. Pierwszy warunek jest jasny - $ \eta $, jako funkcja $ Y $, jest $ \sigma(Y) $-mierzalna. Zajmijmy się zatem drugim warunkiem. Niech $ B\in \sigma(Y) $. Ponieważ $ Y $ ma rozkład dyskretny, $ B $ jest co najwyżej przeliczalną sumą zdarzeń postaci $ \{Y=y\} $ oraz zdarzenia o prawdopodobieństwie $ 0 $. Wystarczy więc sprawdzić 2) dla zbiorów $ B $ postaci $ \{Y=y\} $. Mamy

$$ \int_{\{Y=y\}} \eta \mbox{d}\mathbb{P}=\int_{\{Y=y\}}  \sum_{x\in S_X} h(x)\frac{P_{X,Y}(x,y)}{P_Y(y)}\mbox{d}\mathbb{P}=\sum_{x\in  S_X} h(x)P_{X,Y}(x,y)$$

oraz

$$ \int_{\{Y=y\}} h(X)\mbox{d}\mathbb{P}=\sum_{x\in S_X}  h(x)\int_{\{Y=y\}}1_{\{X=x\}}\mbox{d}\mathbb{P}=\sum_{x\in  S_X} h(x)P_{X,Y}(x,y).$$

2. Konkretny przykład. Załóżmy, że $ X $, $ Y $ są niezależnymi zmiennymi losowymi o rozkładzie Poissona z parametrami $ \lambda,\,\mu $, odpowiednio. Wyznaczymy $ \E(X|X+Y) $.

Wiadomo, że $ X+Y $ ma rozkład Poissona z parametrem $ \lambda+\mu $. Stąd

$$ P_{X+Y}(k)=\frac{(\lambda+\mu)^k}{k!}e^{-(\lambda+\mu)},\qquad  k=0,\,1,\,2,\,\ldots.$$

Ponadto, jeśli $ k\geq \ell\geq 0 $, to

\[  \begin{split}  P_{X,X+Y}(\ell,k)&=\mathbb{P}(X=\ell,X+Y=k)=\mathbb{P}(X=\ell)\mathbb{P}( Y=k-\ell)\\ &=\frac{\lambda^\ell}{\ell!}e^{-\lambda}\cdot\frac{\mu^{k-\ell}} { (k-\ell)!}e^{-\mu} \end{split}  \]

i

$$ \frac{P_{X,X+Y}(\ell,k)}{P_{X+Y}(k)}= \frac{k!\lambda^\ell\mu^{k-\ell}}{\ell!(k-\ell)!(\lambda+\mu)^k}= {k \choose  \ell}\left(\frac{\lambda}{\lambda+\mu}\right)^\ell\left(1-\frac{\lambda} {\lambda+\mu}\right)^{k-\ell}.$$

Stąd

$$ \E(X|X+Y)=\frac{\lambda}{\lambda+\mu}(X+Y).$$

3. Załóżmy, że $ (X,Y) $ ma rozkład z gęstością $ g $ i niech $ g_Y(y)=\int_\R g(x,y)dx $ będzie gęstością zmiennej $ Y $. Zdefiniujmy gęstość warunkową wzorem

$$ g_{X|Y}(x|y)=\begin{cases} \frac{g(x,y)}{g_Y(y)} & \text{jeśli }g_Y(y)\neq 0,\\ 0 & \text{jeśli }g_Y(y)=0. \end{cases}$$

Wówczas dla dowolnej funkcji borelowskiej $ h:\R\to\R $ takiej, że $ h(X)\in L^1 $ mamy

$$ \E(h(X)|Y)=\int_\R h(x)g_{X|Y}(x|Y)dx. \leqno{(*)}$$

Istotnie, sprawdzimy, że prawa strona spełnia warunki 1) i 2) z definicji $ \E(h(X)|Y) $. Oczywiście warunek 1) jest spełniony - prawa strona jest funkcją od $ Y $. Przejdźmy do 2). Dla dowolnego $ B\in\sigma(Y) $ mamy, iż $ B=\{Y\in A\} $ dla pewnego $ A\in \R $ oraz

\[   \begin{split} \int_B h(X)d\mathbb{P}&=\int_\Omega 1_{\{Y\in A\}}h(X)d\mathbb{P}= \int_{\R^2}1_{\{y\in A\}}h(x)g(x,y)dxdy\\ &=\int_\R 1_{\{y\in A\}}g_Y(y)\int_\R h(x)g_{X|Y}(x|y)dxdy= \int_B\int_\R h(x)g_{X|Y}(x|Y)dx d\mathbb{P}. \end{split}  \]

4. Konkretny przykład. Załóżmy, że $ (X,Y) $ ma rozkład jednostajny na trójkącie

$$ D=\{(x,y): 0\leq x\leq y\leq 1\}.$$

Obliczymy $ \E(X|Y) $ oraz $ \P(X\leq 1/2|Y) $.

Mamy $ g(x,y)=21_{\{0\leq x\leq y\leq 1\}} $ oraz

$$g_Y(y)=\int_\R g(x,y)\mbox{d}x=2y1_{[0,1]}(y).$$

Wobec tego, gęstość warunkowa $ g_{X|Y} $ zadana jest wzorem

$$ g_{X|Y}(x|y)=\begin{cases} \frac{1}{y}1_{[0,y]}(x) & \mbox{jeśli }y\in (0,1],\\ 0 & \mbox{dla pozostałych }y. \end{cases}$$

Stąd

$$ \E(X|Y)=\int_\R xg_{X|Y}(x|Y)\mbox{d}x=\frac{1}{Y}\int_0^Y x\mbox{d}x=\frac{Y}{2}$$

oraz \begin{align*} \P(X\leq 1/2|Y)&=\E[ 1_{(-\infty,1/2]}(X)|Y]\\ &=\int_\R 1_{(-\infty,1/2]}(x)g_{X|Y}(x|Y)\mbox{d}x\\ &=\frac{1}{Y}\int_0^Y 1_{(-\infty,1/2]}(x)1_{[0,Y]}(x)\mbox{d}x\\ &=\begin{cases} 1 & \mbox{jeśli }Y\leq 1/2,\\ 1/(2Y) & \mbox{jeśli }Y>1/2. \end{cases} \end{align*}

Własności warunkowej wartości oczekiwanej

Załóżmy, że $ (\Omega,\F,\mathbb{P}) $ jest ustaloną przestrzenią probabilistyczną i niech $ \mathcal{M} $ będzie pewnym pod-$ \sigma $-ciałem $ \F $. Ponadto, o wszystkich zmiennych losowych warunkowanych zakładamy, że są całkowalne.

0. Mamy $ \E(\E(X|\mathcal{M}))=\E X $. Wynika to natychmiast z 2), jeśli weźmiemy $ B=\Omega $.

Przykład Liczba wypadków danego dnia w pewnym mieście ma rozkład Poissona z parametrem $ 5 $. Wysokość szkody powstałej w wypadku ma rozkład jednostajny na przedziale $ [2,10] $. Niech $ X $ oznacza łączną szkodę danego dnia. Wyznaczyć $ \mathbb{E}X $.

     Rozwiązanie: Wprowadźmy zmienną losową $ Y $, zadaną jako liczbę wypadków danego dnia. Zmienna $ Y $ ma rozkład Poissona z parametrem $ 5 $, ponadto, z warunków zadania, $ \E(X|Y)=6Y $. Istotnie, średnia wysokość szkody powstałej w pojedynczym wypadku wynosi $ 6 $, a więc jeśli było $ Y $ wypadków, to średnia szkoda wynosi $ 6Y $. Zatem, korzystając z własności 0.,

$$ \E X=\E(\E(X|Y))=\E 6Y=30.$$

1. Niech $ \alpha,\,\beta\in \R $. Wówczas

$$ \E(\alpha X_1+\beta  X_2|\mathcal{M})=\alpha\E(X_1|\mathcal{M})+\beta\E(X_2|\mathcal{M}).$$

Istotnie: sprawdzimy, że prawa strona (oznaczana dalej przez $ R $) spełnia warunki 1) i 2) z definicji $ \E(\alpha X_1+\beta X_2|\mathcal{M}) $. Pierwszy warunek jest oczywisty. Aby sprawdzić drugi zauważmy, że dla dowolnego $ B\in \mathcal{M} $,

\[  \begin{split}  \int_B R d\mathbb{P}&=\alpha\int_B \E(X_1|\mathcal{M})\mbox{d}\mathbb{P}+ \beta\int_B \E(X_2|\mathcal{M})\mbox{d}\mathbb{P}=\alpha\int_BX_1\mbox{d}\mathbb{P}+ \beta\int_BX_2\mbox{d}\mathbb{P}\\ &=\int_B \alpha X_1+\beta X_2 d\mathbb{P}. \end{split}  \]

2. Jeśli $ X $ jest nieujemną zmienną losową, to $ \E(X|\mathcal{M})\geq 0 $ p.n. Istotnie, niech $ B=\{ \E(X|\mathcal{M})< 0\} $. Wówczas $ B\in\mathcal{M} $ i

$$ \int_B \E(X|\mathcal{M}) d\mathbb{P}=\int_B X d\mathbb{P}.$$

Widzimy, że gdyby zdarzenie $ B $ miało dodatnie prawdopodobieństwo, to lewa strona byłaby ujemna, a prawa - nieujemna.

3. Mamy

$$|\E(X|\mathcal{M})|\leq \E(|X||\mathcal{M})\quad \text{p.n.}\leqno{(*)}$$

Istotnie, na mocy 1. oraz 2. mamy, iż nierówność $ X\leq Y $ p.n. pociąga za sobą $ \E(X|\mathcal{M})\leq \E(Y|\mathcal{M}) $. Stąd, z prawdopodobieństwem $ 1 $,

$$ \E(X_1|\mathcal{M})\leq \E(|X_1||\mathcal{M})$$

i

$$ -\E(X_1|\mathcal{M})\leq \E(|X_1||\mathcal{M}).$$

Uwaga: Biorąc wartość oczekiwaną obu stron w (*) dostajemy, na mocy 0.,

$$ \E(|\E(X|\mathcal{M})|)\leq \E |X|.$$

Innymi słowy, operator liniowy $ \E(\cdot|\mathcal{M}):L^1(\Omega,\F,\mathbb{P})\to  L^1(\Omega,\F,\mathbb{P}) $ jest kontrakcją.

4. Warunkowa wersja twierdzenia Lebesgue'a o monotonicznym przejściu do granicy. Załóżmy, że $ X_n $ jest niemalejącym ciągiem nieujemnych zmiennych losowych zbieżnych p.n. do $ X\in L^1 $. Wówczas $ \E(X_n|\mathcal{M})\uparrow \E(X|\mathcal{M}) $ p.n.

Aby to wykazać, zacznijmy od obserwacji iż na mocy 1. i 2., ciąg $ (\E(X_n|\mathcal{M})) $ jest z prawdopodobieństwem $ 1 $ niemalejący, a więc w szczególności zbieżny. Oznaczmy jego granicę przez $ \eta $, $ \E(X_1|\mathcal{M})\leq \eta\leq \infty $. Niech teraz $ B\in\mathcal{M} $. Mamy, na mocy 2) oraz bezwarunkowego twierdzenia Lebesgue'a,

$$ \int_B X=\lim_{n\to\infty}\int_B  X_n=\lim_{n\to\infty}\int_B\E(X_n|\mathcal{M})=\int_B \eta.$$

Ponieważ $ \eta $ jest $ \mathcal{M} $-mierzalna, to z powyższej równości wynika, iż $ \eta=\E(X|\mathcal{M}) $.

5. Analogicznie dowodzimy warunkowe wersje twierdzenia Lebesgue'a o zmajoryzowanym przejściu do granicy pod znakiem całki oraz lematu Fatou.

6. Załóżmy, że $ X_1 $ jest mierzalna względem $ \mathcal{M} $. Wówczas

$$ \E(X_1X_2|\mathcal{M})=X_1\E(X_2|\mathcal{M})\quad  \text{p.n}.\leqno{(+)}$$

W szczególności, biorąc $ X_2\equiv 1 $, dostajemy, iż $ \E(X_1|\mathcal{M})=X_1 $.

Sprawdzamy, że prawa strona spełnia warunki 1) oraz 2) z definicji $ \E(X_1X_2|\mathcal{M}) $. Warunek 1) jest oczywisty, pozostaje więc sprawdzić drugi. Zastosujemy metodę komplikacji zmiennej $ X_1 $.

a) Jeśli $ X_1=1_A $, gdzie $ A\in\mathcal{M} $, to dla dowolnego $ B\in\mathcal{M} $,

$$ \int_B X_1\E(X_2|\mathcal{M})\mbox{d}\mathbb{P}=\int_{A\cap  B}\E(X_2|\mathcal{M})\mbox{d}\mathbb{P}=\int_{A\cap  B}X_2\mbox{d}\mathbb{P}=\int_BX_1X_2\mbox{d}\mathbb{P}.$$

b) Jeśli $ X_1 $ jest zmienną prostą, to wzór $ (+) $ dostajemy na mocy a) oraz liniowości warunkowych wartości oczekiwanych.

c) Jeśli $ X_1 $ jest nieujemną zmienną losową, to istnieje niemalejący ciąg $ (Y_n) $ $ \mathcal{M} $-mierzalnych zmiennych prostych, zbieżny p.n. do $ X_1 $. Rozbijmy $ X_2=X_2^+-X_2^- $ i zastosujmy b) do zmiennych $ Y_n $ oraz $ X_2^+ $:

$$ \E(Y_nX_2^+|\mathcal{M})=Y_n\E(X_2^+|\mathcal{M}).$$

Zbiegając z $ n\to \infty $ i korzystając z warunkowej wersji twierdzenia Lebesgue'a (własność 4.), dostajemy

$$ \E(X_1X_2^+|\mathcal{M})=X_1\E(X_2^+|\mathcal{M}).$$

Zastępując $ X_2^+ $ przez $ X_2^- $ i powtarzając rozumowanie, dostajemy

$$ \E(X_1X_2^-|\mathcal{M})=X_1\E(X_2^-|\mathcal{M})$$

i po odjęciu stronami dostajemy (+).

d) Jeśli $ X_1 $ jest dowolną zmienną losową, to rozbijamy ją na różnicę $ X_1^+-X_1^- $, stosujemy c) do zmiennych $ X_1^+ $, $ X_2 $, oraz $ X_1^- $, $ X_2 $, i odejmujemy stronami uzyskane równości.

7. Jeśli $ \mathcal{M}_1\subset \mathcal{M}_2 $ są pod-$ \sigma $-ciałami $ \F $, to

$$ \E(X|\mathcal{M}_1)=\E(\E(X|\mathcal{M}_2)|\mathcal{M}_1) =\E(\E(X|\mathcal{M}_1)|\mathcal{M}_2). \leqno{(=)}$$

Zacznijmy od obserwacji, iż wyrażenia stojące po skrajnych stronach są równe. Wynika to natychmiast z poprzedniej własności: zmienna losowa $ \E(X|\mathcal{M}_1) $ jest mierzalna względem $ \mathcal{M}_2 $. Wystarczy więc udowodnić, że pierwsze dwa wyrazy w (=) są równe. Weźmy $ B\in \mathcal{M}_1 $. Mamy $ B\in \mathcal{M}_2 $, a więc

$$ \int_B \E(X|\mathcal{M}_1)=\int_B X=\int_B \E(X|\mathcal{M}_2)= \int_B \E(\E(X|\mathcal{M}_2)|\mathcal{M}_1),$$

skąd teza.

8. Załóżmy, że $ X $ jest niezależna od $ \mathcal{M} $. Wówczas $ \E(X|\mathcal{M})=\E X $. Istotnie, sprawdzimy, że $ \E X $ spełnia warunki 1) i 2) w definicji $ \E(X|\mathcal{M}) $. Warunek 1) jest oczywisty: $ \E X $ jest zmienną losową stałą, a więc mierzalną względem każdego $ \sigma $-ciała. Niech teraz $ B\in\mathcal{M} $. Mamy na mocy niezależności $ 1_B $ oraz $ X $,

$$ \int_B \E X \mbox{d}\mathbb{P}=\E 1_B \E X=\E (1_BX)=\int_B X\mbox{d}\mathbb{P}.$$

9. Nierówność Jensena. Załóżmy, że $ f:\R\to\R $ jest funkcją wypukłą taką, że $ f(X) $ jest zmienną całkowalną. Wówczas

$$ \E(f(X)|\mathcal{M})\geq f(\E(X|\mathcal{M})).$$

Będzie nam potrzebny następujący prosty fakt. Dowód pozostawiamy jako proste ćwiczenie.

Lemat Załóżmy, że $ f:\R\to\R $ jest funkcją wypukłą. Wówczas istnieją ciągi $ (a_n) $, $ (b_n) $ takie, że dla dowolnego $ x\in \R $,

$$ f(x)=\sup_n (a_nx+b_n).$$

Powróćmy do dowodu 9. Dla ciągów $ (a_n) $, $ (b_n) $, gwarantowanych przez powyższy lemat, mamy $ f(X)\geq a_nX+b_n $ dla każdego $ n $. Stąd, na mocy 1. oraz 2., z prawdopodobieństwem $ 1 $,

$$ \E(f(X)|\mathcal{M})\geq a_n\E(X|\mathcal{M})+b_n.$$

Poniweaż ciągi $ (a_n) $, $ (b_n) $ są przeliczalne, to możemy wziąć supremum po $ n $ po prawej stronie i dalej nierówność będzie zachodziła z prawdopodobieństwem $ 1 $:

$$ \E(f(X)|\mathcal{M})\geq  \sup_n(a_n\E(X|\mathcal{M})+b_n)=f(\E(X|\mathcal{M})).$$

Uwaga: Jako wniosek, dostajemy, iż dla $ p\geq 1 $ i $ X\in  L^p(\Omega,\F,\mathbb{P}) $,

$$ \E(|X|^p|\mathcal{M})\geq [\E(|X||\mathcal{M})]^p.$$

Stąd po wzięciu wartości oczekiwanej obu stron, $ \E(|\E(X|\mathcal{M})|^p)\leq \E |X|^p, $ czyli

$$ ||\E(X|\mathcal{M})||_p\leq ||X||_p.$$

Zatem warunkowa wartość oczekiwana $ \E(\cdot|\mathcal{M}) $ jest kontrakcją w $ L^p $.

Na zakończenie zajmiemy się zagadnieniem regresji nieliniowej. Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi całkowalnymi z kwadratem. Obserwujemy zmienną $ Y $ i za pomocą tych danych chcemy najlepiej przybliżyć $ X $ (w sensie średniokwadratowym) zmienną postaci $ h(Y) $. Ściślej, szukamy funkcji borelowskiej $ f $ takiej, że

$$ \E(X-f(Y))^2=\min_h \E (X-h(Y))^2.$$

W przypadku, gdy zawęzimy się do klasy funkcji liniowych, prowadzi to do zagadnienia regresji liniowej, rozważanej wcześniej.

Twierdzenie Rozwiązaniem powyższego zagadnienia jest $ f(Y)=\E(X|Y) $.
Dowód:[Dowód] Weźmy dowolną funkcję borelowską $ h $. Mamy \begin{align*} \E(X-h(Y))^2&=\E(X-f(Y)+f(Y)-h(Y))^2\\ &=\E(X-f(Y))^2+2\E(X-f(Y))(f(Y)-h(Y))+\E(f(Y)-h(Y))^2. \end{align*} Ale zmienna $ f(Y)-h(Y) $ jest mierzalna względem $ \sigma(Y) $. Zatem korzystając z własności 0., 1. oraz 6., \begin{align*} \E(X-f(Y))(f(Y)-h(Y))&=\E\bigg\{\E\big[(X-f(Y))(f(Y)-h(Y))|Y\big]\bigg\}\\ &=\E \bigg\{(f(Y)-h(Y))\E(X-f(Y)|Y) \bigg\}=0. \end{align*} Wobec tego człon środkowy w poprzednim ciągu równości znika i otrzymujemy

$$ \E(X-h(Y))^2\geq \E(X-f(Y))^2.$$

Stąd teza. □

Zadania

1. Zmienne losowe $ \e_1,\,\e_2,\,\e_3 $ są niezależne i mają ten sam rozkład $ \mathbb{P}(\e_i=-1)=\mathbb{P}(\e_i=1)=1/2 $, $ i=1,\,2,\,3 $. Obliczyć $ \E(\e_1|\e_1+\e_2+\e_3) $ oraz $ \E(\e_1\e_2|e_1+e_2e_3) $.

2. Zmienne losowe $ X $, $ Y $ są niezależne, przy czym $ X $ ma rozkład Bernoulliego $ B(n,p) $, a $ Y $ ma rozkład Bernoulliego $ B(m,p) $. Wyznaczyć $ \E(X+Y|X) $ oraz $ \E(X|X+Y) $.

3. Rzucono kostką, a następnie rzucono nią tyle razy, ile oczek wypadło w pierwszym rzucie. Obliczyć wartość oczekiwaną liczby wyrzuconych trójek.

4. W urnie znajduje się $ a $ kul białych, $ b $ kul czarnych i $ c $ kul czerownych ($ a $, $ b $, $ c $ są dodatnimi liczbami całkowitymi). Losujemy ze zwracaniem po jednej kuli aż do momentu wyciągnięcia kuli czerwonej. Wyznaczyć wartość oczekiwaną liczby losowań w których wyciągnięto białą kulę.

5. Wiadomo, że $ p $ procent monet stanowią monety fałszywe, z orłem po obu stronach. Losujemy ze zwracaniem $ n $ monet i każdą z nich wykonujemy rzut. Niech $ F $ oznacza liczbę losowań, w wyniku których wyciągnięto monetę fałszywą, $ O $ - liczba wyrzuconych orłów. Udowodnić, że $ \E(F|O)=\frac{2p}{100+p}O. $

6. Zmienna losowa $ (X,Y) $ ma gęstość

$$ g(x,y)=\frac{x^3}{2}e^{-x(y+1)}1_{\{x>0,\,y>0\}}.$$

Wyznaczyć $ \E(Y|X) $, $ \E(Y^2|X^2) $ oraz $ \mathbb{P}(Y>1|X^3+1) $.

7. Zmienne losowe $ X $, $ Y $ są niezależne i mają rozkład wykładniczy z parametrem $ 1 $. Obliczyć $ \mathbb{P}(X\in B|X+Y) $ (dla $ B\in\mathcal{B}(\R) $) oraz $ \E(\sin X|X+Y) $.

8. Zmienna losowa $ X $ ma rozkład wykładniczy z parametrem $ 1 $, zaś $ Y $ jest zmienną losową taką, że jeśli $ X=x $, to $ Y $ ma rozkład wykładniczy z parametrem $ x $.

a) Wyznaczyć rozkład $ Y $.

b) Obliczyć $ \mathbb{P}(X>r|Y) $.

9. Zmienna losowa $ (X,Y) $ ma rozkład normalny o wartości oczekiwanej $ 0 $, Var$ X=\sigma_1^2 $, Var$ Y=\sigma_2^2 $, Cov$ (X,Y)=c $. Obliczyć $ \mathbb{P}(Y\in B|X) $ (dla $ B\in\mathcal{B}(\R) $) oraz $ \E(Y|X) $.

10. Zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są niezależne i mają ten sam rozkład o skończonej wartości oczekiwanej. Obliczyć $  \E(X_1|X_1+X_2+\ldots+X_n). $

11. Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi a $ \mathcal{G} $ jest $ \sigma $-ciałem takim, że $ X $ jest mierzalne względem $ \mathcal{G} $, a $ Y $ jest niezależne od $ \mathcal{G} $. Niech $ \phi:\R^2\to \R $ będzie funkcją borelowską taką, że $ \phi(X,Y) $ jest całkowalną zmienną losową. Udowodnić, że

$$ \E[\phi(X,Y)|\mathcal{G}]=\Phi(X),$$

gdzie $ \Phi(x)=\E\phi(x,Y) $.

12. Załóżmy, że $ X $ jest całkowalną zmienną losową, a $ \sigma $-ciało $ \mathcal{G} $ jest niezależne od $ X $ oraz od $ \sigma $-ciała $ \mathcal{M} $. Udowodnić, że

$$ \E(X|\sigma(\mathcal{G},\mathcal{M}))=\E(X|\mathcal{M}).$$

13. Zmienne $ X $, $ Y $, $ Z $ są niezależne, przy czym $ X $ ma standardowy rozkład normalny, $ Y $ jest nieujemną zmienną ograniczoną, a $ Z $ ma rozkład Rademachera. Obliczyć $ \E (e^{XY}|Y) $ oraz $ \E(e^{XY}|YZ) $.

14. Zmienne $ N $, $ X_1 $, $ X_2 $, $ \ldots $ są niezależne, przy czym $ N $ ma rozkład Poissona z parametrem $ 3 $, a $ X_n $ ma rozkład jednostajny na $ [0,1] $, $ n=1,\,2,\,\ldots $. Obliczyć $ \E(X_1+X_2+\ldots+X_{N+1}) $.