Parametry rozkładu zmiennej losowej (wartość oczekiwana i wariancja)

Parametry rozkładu zmiennej losowej (wartość oczekiwana i wariancja)

Definicja (i) Załóżmy, że $ X $ jest jednowymiarową zmienną losową na przestrzeni probabilistycznej $ (\Omega,\F,\mathbb{P}) $. Mówimy, że $ X $ ma wartość oczekiwaną, jeśli istnieje całka $ \int_\Omega  X(\omega)\mbox{d}\mathbb{P}(\omega) $. Całkę tę nazywamy wartością oczekiwaną (średnią) zmiennej $ X $ i oznaczamy symbolem $ \E X $.

(ii) Jeśli $ \E |X|<\infty $, to mówimy, że $ X $ jest całkowalna i oznaczamy to przez $ X\in L^1(\Omega,\F,\P) $.

(iii) Analogicznie, załóżmy, że $ p $ jest pewną dodatnią liczbą. Jeśli $ \E |X|^p<\infty $, to mówimy że $ X $ jest całkowalna z $ p $-tą potęgą i oznaczamy to przez $ X\in L^p(\Omega,\F,\P) $.

(iv) Mówimy, że zmienna losowa $ X $ jest ograniczona, jeśli istnieje liczba $ u $ taka, że $ \mathbb{P}(|X|\geq u)=0 $. Oznaczenie: $ X\in L^\infty(\Omega,\F,\P) $.

Uwaga: Powyższe definicje mają także sens gdy $ X $ jest zmienną wielowymiarową: będzie o tym mowa w dalszej części wykładu. \def\eeee{ $ X=(X_1,X_2,\ldots,X_d) $. Wówczas wartość oczekiwaną $ X $ definiujemy jako wektor

$$ \left(\int_\Omega  X_1(\omega)\mbox{d}\mathbb{P}(\omega),\int_\Omega  X_2(\omega)\mbox{d}\mathbb{P}(\omega),\ldots,\int_\Omega  X_n(\omega)\mbox{d}\mathbb{P}(\omega) \right),$$

o ile całki istnieją. Ponadto, wprowadzamy klasy $ L^p(\Omega,\F,\P) $, $ 1\leq p\leq \infty $ tak jak wyżej, przy czym $ |\cdot| $ rozumiemy jako normę euklidesową w $ \R^d $.}

Odnotujmy dwie ważne nierówności:

1) Nierówność Minkowskiego. Jeśli $ X $, $ Y $ są zmiennymi losowymi oraz $ 1\leq p<\infty $, to

$$ (\E|X+Y|^p)^{1/p}\leq (\E |X|^p)^{1/p}+(\E |Y|^p)^{1/p}.$$

Istnieje wersja tej nierówności dla $ p=\infty $: mianowicie,

$$ \mbox{ess\,sup}\,|X+Y|\leq  \mbox{ess\,sup\,}|X|+\mbox{ess\,sup\,}|Y|,$$

gdzie ess\,sup\,$ \xi=\inf\{u:\P(\xi\geq u)=0\} $ to tzw. istotne supremum zmiennej $ \xi $.

2) Nierówność H\óldera. Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi oraz $ p,q\in (1,\infty) $ są liczbami harmonicznie sprzężonymi, tzn. spełniającymi równość $ \frac{1}{p}+\frac{1}{q}=1 $. Wówczas

$$ \E |XY|\leq (\E |X|^p)^{1/p}(\E |Y|^q)^{1/q}.$$

Uwaga: Bezpośrednio z definicji widzimy, że wartość oczekiwana jest operatorem liniowym: ściślej, jeśli $ X_1 $, $ X_2 $, \ldots, $ X_n $ są całkowalnymi zmiennymi losowymi oraz $ a_1,\,a_2,\,\ldots,\,a_n\in \R $, to zmienna $ a_1X_1+a_2X_2+\ldots+a_nX_n $ jest całkowalna oraz

$$ \E (a_1X_1+a_2X_2+\ldots+a_nX_n)=a_1\E X_1+a_2\E X_2+\ldots+a_n\E  X_n.$$

Z analizy znamy następujące trzy twierdzenia o przechodzeniu do granicy pod znakiem całki.

Twierdzenie [Lebesgue'a o monotonicznym przechodzeniu do granicy] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są nieujemnymi i całkowalnymi zmiennymi losowymi, przy czym $ X_n(\omega)\leq X_{n+1}(\omega) $, $ n=1,\,2,\,\ldots $. Wówczas

$$ \E\big(\lim_{n\to\infty}X_n\big)=\lim_{n\to \infty}\E X_n.$$

W szczególności, zmienna $ \lim_{n\to\infty} X_n $ jest całkowalna wtedy i tylko wtedy, gdy $ \lim_{n\to\infty}\E X_n<\infty. $

Twierdzenie [Lebesgue'a o zbieżności zmajoryzowanej] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są zmiennymi losowymi majoryzowanymi przez pewną zmienną całkowalną $ \eta $: $ |X_n|\leq \eta $ dla $ n=1,\,2,\,\ldots $. Jeśli istnieje granica $ X(\omega)=\lim_{n\to  \infty}X_n(\omega) $ dla prawie wszystkich $ \omega $ (prawie wszystkich w sensie miary $ \P $), to $ \lim_{n\to\infty}\E X_n=\E X $.
Twierdzenie [Lemat Fatou] Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $ są nieujemnymi zmiennymi losowymi. Wówczas $ \E \lim\inf_{n\to\infty}X_n\leq \lim\inf_{n\to  \infty}\E X_n $.

Dygresja: Załóżmy, że $ X $, $ Y $ są zmiennymi losowymi. Mówimy, że $ X $ i $ Y $ są równe prawie na pewno, jeśli zachodzi równość $ \P(X\neq Y)=0 $. Załóżmy, że $ p\in [1,\infty] $ i określmy

$$||X||_p=\begin{cases}(\E |X|^p)^{1/p} & \mbox{dla }1\leq p<\infty,\\ \mbox{ess\,sup\,}|X| & \mbox{dla }p=\infty. \end{cases}$$

Jeśli utożsamimy zmienne losowe równe p.n., to $ ||\cdot||_p $ jest normą na $ L^p(\Omega,\F,\P) $. Co więcej, przestrzeń $ L^p(\Omega,\F,\P) $ wraz z tą normą jest liniowa i zupełna (czyli jest przestrzenią Banacha).

Uwaga: Na mocy nierówności H\óldera, mamy $ ||X||_p\leq  ||X||_{p'} $ jeśli $ p<p' $. Dostajemy stąd inkluzję $ L^{p'}(\Omega,\F,\mathbb{P})\subset L^p(\Omega,\F,\P) $.

Definicja Dla $ p\in (0,\infty) $, liczbę $ \E |X|^p $ nazywamy $ p $-tym momentem zmiennej $ X $.
Twierdzenie [Nierówność Czebyszewa] Załóżmy, że $ X $ jest zmienną losową oraz $ f:[0,\infty)\to[0,\infty) $ jest funkcją niemalejącą taką, że $ f(x)>0 $ dla $ x>0 $. Wówczas dla dowolnej liczby $ \lambda>0 $,

$$ \P(|X|\geq \lambda)\leq \frac{\E f(|X|)}{f(\lambda)}.$$

W szczególności, biorąc $ f(x)=x^p $, $ p>0 $, dostajemy

$$ \P(|X|\geq \lambda)\leq \frac{\E |X|^p}{\lambda^p}.$$
Dowód:[Dowód] Mamy

$$ \E f(|X|)\geq \E f(|X|)1_{\{|X|\geq \lambda\}}\geq \E  f(\lambda)1_{\{|X|\geq \lambda\}}=f(\lambda)\P(|X|\geq  \lambda).\qedhere$$

Definicja Załóżmy, że $ X $ jest jednowymiarową zmienną losową całkowalną z kwadratem (tzn. $ X\in L^2 $). Liczbę Var$ X=\E(X-\E X)^2 $ nazywamy wariancją zmiennej $ X $.

Jak łatwo sprawdzić, wariancja posiada następujące własności. Przy założeniu, że $ X\in L^2 $, mamy:

  • Var$ X=\E X^2-(\E X)^2 $,
  • Var$ X\geq 0 $, przy czym Var$ X=0 $ wtedy i tylko wtedy, gdy $ X $ ma rozkład jednopunktowy.
  • Var$ (aX+b)=a^2\, $Var$ X $ dla dowolnych liczb rzeczywistych $ a,\,b $.
  • Z nierówności Czebyszewa, dla dowolnej liczby $ \lambda>0 $,
    $$ \P(|X-\E X|\geq \lambda)\leq \frac{\mbox{Var}\,X}{\lambda^2}.$$

Odnotujmy kolejny ogólny fakt.

Twierdzenie [O zamianie zmiennych] Załóżmy, że $ X $ jest $ d $-wymiarową zmienną losową na $ (\Omega,\F,\P) $, a $ f:\R^d\to \R $ jest funkcją borelowską. Wówczas

$$ \E f(X)=\int_{\R^d} f(x)P_X(\mbox{d}x),$$

o ile jedna z tych całek istnieje.

Dowód:[Dowód] Stosujemy metodę komplikacji funkcji.

(i) Najpierw załóżmy, że $ f $ jest funkcją charakterystyczną pewnego zbioru $ B $: $ f=1_B $. Wówczas dowodzona tożsamość przyjmuje postać $ \P(X\in B)=P_X(B) $, która oczywiście jest prawdziwa.

(ii) Jeśli $ f $ jest funkcją prostą, tzn. kombinacją liniową funkcji charakterystycznych, to badana równość zachodzi, gdyż jej obie strony zależą od $ f $ w sposób liniowy.

(iii) Załóżmy, że $ f\geq 0 $. Wówczas $ f $ jest granicą punktową pewnego niemalejącego ciągu $ (f_n)_{n\geq 0} $ nieujemnych funkcji prostych. Na mocy (ii), mamy

$$ \E f_n(X)=\int_{\R^d} f_n(x)P_X(\mbox{d}x),\qquad n=1,\,2,\,\ldots,$$

a więc wystarczy zbiec z $ n\to \infty $ oraz skorzystać z twierdzenia Lebesgue'a o monotonicznym przejściu do granicy.

(iv) Jeśli $ f $ jest dowolna, to rozbijamy ją na różnicę dwóch nieujemnych funkcji borelowskich: $ f=f_+-f_-=f1_{\{f\geq  0\}}+f1_{\{f<0\}} $, stosujemy (iii) do funkcji $ f_+ $ i $ f_- $, a następnie odejmujemy stronami uzyskane dwie tożsamości. Stąd teza. □

Z powyższego faktu wynikają następujące

Wnioski:

1) Jeśli $ X $ jest zmienną losową, to $ \E X=\int_\R xP_X(\mbox{d}x) $ oraz

$$ \mbox{Var}\,X=\int_\R(x-\E X)^2 P_X(\mbox{d}x)=\int_\R  x^2P_X(\mbox{d}x)-(\E X)^2$$

(o ile te wielkości istnieją).

2) Wartość oczekiwana i wariancja zależą tylko od rozkładu.

Jak łatwo widać z powyższego twierdzenia, jeśli $ X $ jest $ d $-wymiarową zmienną o rozkładzie dyskretnym, a $ f:\R^d\to \R $ jest funkcją borelowską, to

$$ \E f(X)=\int_{\R^d}f(x)P_X(\mbox{d}x)=\sum_{x\in S_X}  f(x)P_X(\{x\})=\sum_{x\in S_X} f(x)\P(X=x),$$

o ile wartość oczekiwana istnieje. Tak więc, w szczególności, dla $ d=1 $ mamy

$$ \E X=\sum_{x\in S_X} xP_X(\{x\})=\sum_{x\in S_X}x\P(X=x),$$
$$ \mbox{Var}\,X=\E X^2-(\E X)^2=\sum_{x\in S_X} x^2P_X(\{x\})-(\E  X)^2=\sum_{x\in S_X}x^2\P(X=x)-(\E X)^2.$$

W przypadku gdy zmienna ma rozkład ciągły, jej parametry wyznaczamy przy użyciu następującego faktu.

Twierdzenie Załóżmy, że $ d $-wymiarowa zmienna losowa $ X $ ma rozkład z gęstością $ g $. Wówczas dla dowolnej funkcji borelowskiej $ f:\R^d\to  \R $ mamy

$$ \E f(X)=\int_{\R^d}  f(x)P_X(\mbox{d}x)=\int_{\R^d}f(x)g(x)\mbox{d}x,$$

o ile wartość oczekiwana istnieje.

Dowód:[Dowód] Tak jak wyżej, stosujemy metodę komplikacji funkcji. □

Wobec tego, jeśli $ X $ jest jednowymiarową zmienną losową o rozkładzie z gęstością $ g $, to

$$ \E X=\int_\R x g(x)\mbox{d}x,\quad \mbox{Var}\,X=\int_\R  x^2g(x)\mbox{d}x-(\E X)^2.$$

Przykłady:

1) Załóżmy, że $ P_X=\delta_a $, $ a\in \R $. Wówczas $ \E X=a\cdot 1=a $, Var$ \,X=\E  X^2-(\E X)^2=a^2-a^2=0 $.

2) Przypuśćmy, że $ P_X $ to rozkład dwupunktowy, skupiony w $ \{a,b\} $, taki że $ P_X(\{a\})=p $, $ P_X(\{b\})=1-p $, $ 0<p<1 $. Wówczas

$$ \E X=a\cdot p+b\cdot (1-p),$$
$$ \mbox{Var}\,X=a^2\cdot p+b^2\cdot  (1-p)-(ap+b(1-p))^2=(a-b)^2p(1-p).$$

3) Załóżmy teraz, że $ P_X=B(n,p) $: $ P_X(\{k\})={n \choose  k}p^k(1-p)^{n-k} $, $ k=0,\,1,\,\ldots,\,n $. Wówczas, jak za chwilę policzymy,

$$ \E X=np\quad \mbox{ oraz } \mbox{Var}\,X=np(1-p).$$

Podejście wprost z definicji jest niewygodne: na przykład, mamy

$$ \E X=\sum_{k=0}^n k{n \choose k}p^k(1-p)^{n-k}$$

i trzeba ,,zwinąć'' tę sumę. Aby uniknąć rachunków, rozważmy niezależne zmienne losowe $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ o tym samym rozkładzie dwupunktowym zadanym przez $ \P(X_i=1)=p=1-\P(X_i=0) $. Wówczas, jak już wiemy, $ X_1+X_2+\ldots+X_n $ ma rozkład $ B(n,p) $, a zatem, z liniowości wartości oczekiwanej,

$$ \E X=\E(X_1+X_2+\ldots+X_n)=\E X_1+\E X_2+\ldots+\E X_n=np.$$

Ponadto,

$$ \E X^2=\E(X_1+X_2+\ldots+X_n)^2=\sum_{k=1}^n \E X_k^2+2\sum_{k<\ell}  \E X_kX_\ell.$$

Dla dowolnych różnych $ k,\,\ell $, zmienna $ X_kX_\ell $ ma rozkład dwupunktowy skoncentrowany na $ \{0,1\} $, przy czym

$$\P(X_kX_\ell=1)=\P(X_k=1,X_\ell=1)=\P(X_k=1)\P(X_\ell=1)=p^2,$$

na mocy niezależności $ X_k $ oraz $ X_\ell $. Zatem

$$ \E X^2=n \cdot p+2{n \choose 2}p^2=np+n(n-1)p^2$$

i w konsekwencji,

$$ \mbox{Var}\,X=\E X^2-(\E X)^2=np-np^2=np(1-p).$$

4) Załóżmy następnie, że zmienna $ X $ ma rozkład Poissona z parametrem $ \lambda>0 $: $ P_X(\{k\})=e^{-\lambda}\frac{\lambda^k}{k!} $, $ k=0,\,1,\,2,\,\ldots $. Wówczas

$$ \E X=\sum_{k=0}^\infty k\cdot e^{-\lambda}\frac{\lambda^k}{k!} =\lambda e^{-\lambda}\sum_{k=1}^\infty  \frac{\lambda^{k-1}}{(k-1)!}=\lambda.$$

Podobnie obliczamy, iż

$$ \mbox{Var}\,X=\sum_{k=0}^\infty k^2\cdot  e^{-\lambda}\frac{\lambda^k}{k!}-(\E X)^2=\lambda.$$

5) Załóżmy, że $ P_X=\mathcal{U}([a,b]) $: $ g(x)=\frac{1}{b-a}1_{[a,b]}(x) $. Wtedy

$$ \E X=\int_\R xg(x)\mbox{d}x=\frac{1}{b-a}\int_a^b  x\mbox{d}x=\frac{a+b}{2}$$

oraz

$$ \mbox{Var}\,X=\frac{1}{b-a}\int_a^b  x^2\mbox{d}x-\left(\frac{a+b}{2}\right)^2=\frac{(b-a)^2}{12}.$$

6) Dalej, przypuśćmy, że $ X\sim \, $Exp$ (\lambda) $, $ \lambda>0 $, tzn. $ X $ ma rozkład z gęstością $ g(x)=\lambda e^{-\lambda  x}1_{[0,\infty)}(x) $. Całkując przez części, dostajemy

$$ \E X=\int_0^\infty x\cdot \lambda e^{-\lambda x}\mbox{d}x= -xe^{-\lambda x}\Big|_0^\infty+\int_0^\infty e^{-\lambda  x}\mbox{d}x=\frac{1}{\lambda}$$

oraz, wykonując analogiczne obliczenia, otrzymujemy Var$ \,X=\frac{1}{\lambda^2}. $

7) Wreszcie, przypuśćmy, że $ P_X=N(m,\sigma^2) $, gdzie $ m\in \R $ oraz $ \sigma>0 $. Wówczas gęstość $ X $ dana jest wzorem

$$  g(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-m)^2}{2\sigma^2} \right].$$

Dokonując podstawienia $ y=(x-m)/\sigma $, obliczamy, iż \begin{align*} \E X&=\frac{1}{\sqrt{2\pi}\sigma}\int_\R x\cdot \exp\left[-\frac{(x-m)^2}{2\sigma^2} \right]\mbox{d}x\\ &=\frac{1}{\sqrt{2\pi}}\int_\R (\sigma y+m)e^{-y^2/2}\mbox{d}y\\ &=\frac{\sigma}{\sqrt{2\pi}}\int_\R ye^{-y^2/2}\mbox{d}y+ \frac{m}{\sqrt{2\pi}}\int_\R e^{-y^2/2}\mbox{d}y=m. \end{align*} Ponadto, ponownie stosując powyższe podstawienie, otrzymujemy \begin{align*} \mbox{Var}\,X&=\frac{1}{\sqrt{2\pi}\sigma}\int_\R (x-m)^2 e^{-(x-m)^2/(2\sigma^2)}\mbox{d}x\\ &=\frac{\sigma^2}{\sqrt{2\pi}}\int_\R y^2e^{-y^2/2}\mbox{d}y\\ &=\frac{\sigma^2}{\sqrt{2\pi}}\big(-ye^{-y^2/2}\big)\Big|_{-\infty} ^\infty +\frac{\sigma^2}{\sqrt{2\pi}}\int_\R e^{-y^2/2}\mbox{d}y=\sigma^2. \end{align*} Podkreślmy: zatem parametry $ m $ i $ \sigma^2 $ pojawiające się w oznaczeniu rozkładu normalnego, to odpowiednio jego średnia i wariancja.

8) Warto tu jeszcze podać jeden przykład. Załóżmy, że $ X $ ma rozkład Cauchy'ego, tzn. rozkład z gęstością

$$ g(x)=\frac{1}{\pi}\frac{1}{1+x^2},\qquad x\in \R.$$

Wówczas zmienna $ X $ nie jest całkowalna: mamy

$$ \E |X|=\int_\R |x|\cdot \frac{1}{\pi}\frac{1}{1+x^2}\mbox{d}x=\infty.$$

Co więcej, wartość oczekiwana $ X $ nie istnieje: mamy

$$ \E X^+=\int_\R x^+g(x)\mbox{d}x=\int_0^\infty \frac{1}{\pi}\frac{x}{1+x^2}\mbox{d}x=\infty$$

i podobnie $ \E X^-=\infty $.

Przechodzimy teraz do związków wartości oczekiwanej i wariancji z niezależnością zmiennych.

Twierdzenie Załóżmy, że $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ to całkowalne i niezależne zmienne losowe. Wówczas zmienna $ X_1X_2\ldots X_n $ jest całkowalna i zachodzi równość

$$\E X_1X_2\ldots X_n=\E X_1\E X_2\ldots \E X_n.$$
Dowód:[Dowód] Wiemy, że $ P_{(X_1,X_2,\ldots,X_n)}=P_{X_1}\otimes P_{X_2}\otimes \ldots \otimes  P_{X_n}. $ Wobec tego, korzystając z twierdzenia o zamianie zmiennych, \begin{align*} \E|X_1X_2\ldots X_n|&= \int_{\R^n}|x_1x_2\ldots x_n|P_{(X_1,\ldots,X_n)}(\mbox{d}x_1\ldots\mbox{d}x_n)\\ &=\prod_{i=1}^n \int_\R |x_i|P_{X_i}(\mbox{d}x_i)<\infty, \end{align*} a więc $ X_1X_2\ldots X_n\in L^1(\Omega,\F,\P) $. Wystarczy teraz powtórzyć powyższy ciąg równości bez modułów (który ma sens, gdyż, jak właśnie udowodniliśmy, wszystkie wartości oczekiwane istnieją). □

Uwaga: Twierdzenie odwrotne nie zachodzi. Przykładowo, weźmy zmienne $ \eta_1 $, $ \eta_2 $ o tym samym rozkładzie całkowalnym z kwadratem i połóżmy $ X_1=\eta_1+\eta_2 $, $ X_2=\eta_1-\eta_2 $. Wówczas $ \E X_2=0 $, a więc $ \E X_1\E X_2=0 $; ponadto, $  \E X_1X_2=\E \eta_1^2-\E \eta_2^2=0 $, na mocy równości rozkładów. Na ogół zmienne $ X_1 $ oraz $ X_2 $ nie są jednak niezależne: przykładowo, rozważmy dwukrotny rzut kostką i niech $ \eta_i $ oznacza liczbę oczek w $ i $-tym rzucie, $ i=1,\,2 $. Wówczas $ X_1 $, $ X_2 $ są zależne - mają tę samą parzystość.

Przechodzimy do sytuacji wielowymiarowej.

Definicja Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ jest $ d $-wymiarową zmienną losową o całkowalnych współrzędnych (tzn. $ \E|X_i|<\infty $ dla $ i=1,\,2,\,\ldots,\,n $). Wartością oczekiwaną $ X $ nazywamy wektor $ (\E X_1,\,\E X_2,\,\ldots,\,\E X_d) $.

Uwagi:

1) Jeśli $ X $, $ Y $$ d $-wymiarowymi zmiennymi losowymi mającymi wartość oczekiwaną oraz $ \alpha,\,\beta\in \R $, to $ \alpha X+\beta  Y $ także posiada wartość oczekiwaną.

2) Zmienna $ d $-wymiarowa $ X $ ma wartość oczekiwaną wtedy i tylko wtedy, gdy $ \E |X|<\infty $ (gdzie $ |\cdot| $ oznacza tu normę euklidesową). Wynika to natychmiast z oszacowania

$$ |X_j|\leq |X|\leq \sum_{i=1}^d |X_i|,\qquad j=1,\,2,\,\ldots,\,d.$$

3) Jeśli $ d $-wymiarowa zmienna $ X $ ma skończoną wartość oczekiwaną, to $ |\E X|\leq \E |X| $. Istotnie, dla dowolnego wektora $ a\in \R^d $ o długości $ 1 $ mamy

$$ \langle \E X,a\rangle=\sum_{j=1}^d \E X_j \cdot a_j=\E \langle  X,a\rangle \leq \E |X||a|=\E |X|$$

i biorąc supremum po $ a $ (bądź, alternatywnie, kładąc $ a=\E X/|\E  X| $), dostajemy żądaną nierówność.

Definicja Załóżmy, że $ X_1 $, $ X_2 $ są zmiennymi losowymi całkowalnymi z kwadratem. Liczbę

$$ \mbox{Cov}\,(X,Y)=\E\big[(X-\E X)(Y-\E Y)\big]$$

nazywamy kowariancją zmiennych $ X $ i $ Y $. W przypadku gdy Cov$ \,(X,Y)=0 $, mówimy, że zmienne $ X $, $ Y $nieskorelowane.

Jak łatwo sprawdzić, kowariancja posiada następujące własności:

(a) Przede wszystkim, jest ona dobrze określona, na mocy nierówności Schwarza.

(b) Zachodzi równość Cov$ \,(X,Y)=\E XY-\E X\E Y $.

(c) Dla dowolnej zmiennej $ X\in L^2 $, Cov$ \,(X,X)=\, $Var$ \,X $.

(d) Zachodzi równość Cov$ \,(X,Y)=\, $Cov$ \,(Y,X). $

(e) Kowariancja jest operatorem dwuliniowym: jeśli $ X $, $ Y,\,Z\in L^2 $, to

$$\mbox{Cov}\,(X+Y,Z)=\mbox{Cov}\,(X,Z)+\mbox{Cov}\,(Y,Z).$$

Ponadto, jeśli $ X\in L^2 $ oraz $ a\in \R $, to Cov$ \,(X,a)=0 $.

Uwaga: Powyższe rozważania pokazują, że jeśli $ X $, $ Y\in L^2 $ są niezależne, to są nieskorelowane, ale nie na odwrót.

Twierdzenie Zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są całkowalne z kwadratem. Wówczas

$$ \mbox{Var}\,(X_1+X_2+\ldots+X_n)=\sum_{k=1}^n  \mbox{Var}\,X_k+2\sum_{k<\ell} \mbox{Cov}\,(X_k,X_\ell).$$

W szczególności, jeśli zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_n $ są nieskorelowane, to

$$  \mbox{Var}\,(X_1+X_2+\ldots+X_n)=\,\mbox{Var}\,X_1+\,\mbox{Var}\,X_2+ \ldots+\,\mbox{Var}\,X_n.$$
Dowód:[Dowód] Przekształcamy: \begin{align*} \mbox{Var}\,(X_1+X_2+\ldots+X_n)&=\E\left[\sum_{j=1}^n X_j-\E\left(\sum_{j=1}^n X_j\right)\right]^2\\ &=\E\left[\sum_{j=1}^n (X_j-\E X_j)\right]^2\\ &=\sum_{j=1}^n \E (X_j-\E X_j)^2+2\sum_{i

Porównując przypadek jedno- i wielowymiarowy widzimy, iż wartość oczekiwana jednowymiarowej zmiennej losowej jest liczbą, a wartością oczekiwaną wielowymiarowej zmiennej jest wektor. Powstaje naturalne pytanie dotyczące uogólnienia wariancji na przypadek wielowymiarowy. Okazuje się, iż tym uogólnieniem jest tzw. macierz kowariancji.

Definicja Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ jest $ d $-wymiarową zmienną losową o współrzędnych całkowalnych z kwadratem. Macierz

$$ \Lambda=\left [\begin{array}{cccc} \mbox{Cov}\,(X_1,X_1) & \mbox{Cov}\,(X_1,X_2) & \ldots & \mbox{Cov}\,(X_1,X_d)\\ \mbox{Cov}\,(X_2,X_1) & \mbox{Cov}\,(X_2,X_2) & \ldots & \mbox{Cov}\,(X_2,X_d)\\  & \ldots & &\\ \mbox{Cov}\,(X_d,X_1) & \mbox{Cov}\,(X_d,X_2) & \ldots & \mbox{Cov}\,(X_d,X_d) \end{array}\right]$$

nazywamy macierzą kowariancji zmiennej $ X $.

Uwaga: Wartość oczekiwana i macierz kowariancji zmiennej losowej $ d $-wymiarowej zależą tylko od rozkładu.

Twierdzenie [Własności macierzy kowariancji] Macierz kowariancji zmiennej $ X=(X_1,X_2,\ldots,X_d) $ jest symetryczna i nieujemnie określona.
Dowód:[Dowód] Symetryczność wynika wprost z własności (d) kowariancji. Aby udowodnić nieujemną określoność, niech $ m_i=\E X_i $ oraz weźmy dowolny ciąg liczb rzeczywistych $ t_1 $, $ t_2 $, $ \ldots $, $ t_d $. Rozważmy jednowymiarową zmienną losową $ \eta=t_1X_1+t_2X_2+\ldots+t_dX_d $, która jest całkowalna z kwadratem (gdyż własność tę mają też zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $). Mamy \begin{align*} 0&\leq \mbox{Var}\,\eta\\ &=\E \left(\sum_{j=1}^dt_j(X_j-\E X_j)\right)^2\\ &=\sum_{i,j=1}^d \E \big[t_i(X_i-\E X_i)\cdot t_j(X_j-\E X_j)\big]\\ &=\sum_{i,j=1}^d t_it_j\mbox{Cov}\,(X_i,X_j), \end{align*} co oznacza tezę.

Poczyńmy jeszcze jedną przydatną obserwację. Przypuśćmy, iż macierz kowariancji nie jest dodatnio określona, tzn. dla pewnych $ t_1 $, $ t_2 $, $ \ldots $, $ t_d $ mamy

$$\sum_{i,j} t_it_j\,\mbox{Cov}\,(X_i,X_j)=0.$$

Oznacza to, iż $ \eta=t_1X_1+t_2X_2+\ldots+t_dX_d $ ma rozkład jednopunktowy, tzn. istnieje $ c\in \R $ takie, że

$$ \P\left(t_1X_1+t_2X_2+\ldots+t_dX_d=c\right)=1,$$

a zatem z prawdopodobieństwem $ 1 $ zmienna $ X $ przyjmuje wartości w pewnej $ d-1 $-wymiarowej podprzestrzeni afinicznej. □

Odnotujmy pożyteczny

Wniosek: Zmienna $ X=(X_1,X_2,\ldots,X_d) $ ma parami nieskorelowane współrzędne wtedy i tylko wtedy, gdy macierz kowariancji jest diagonalna. W szczególności, jeśli współrzędne $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $ są niezależne, to $ X $ ma diagonalną macierz kowariancji (ale nie na odwrót!).

Przykład Rozważmy wielowymiarowy rozkład normalny. Niech $ m\in \R^d $, niech $ A $ będzie symetryczną, dodatnio określoną macierzą $ d\times d $ oraz załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ ma rozkład z gęstością

$$ g(x)=\frac{\sqrt{\mbox{det}\,A}}{(2\pi)^{d/2}}\exp\left[-\frac{1}{2}\langle A(x-m),(x-m)\rangle \right].$$
Twierdzenie Mamy $ \E X=m $, a macierz kowariancji $ X $ jest równa $ A^{-1} $.

Pozostawiamy dowód tego twierdzenia jako ćwiczenie.

Twierdzenie Załóżmy, że $ X=(X_1,X_2,\ldots,X_d) $ ma $ d $-wymiarowy rozkład normalny. Wówczas zmienne $ X_1 $, $ X_2 $, $ \ldots $, $ X_d $ są niezależne wtedy i tylko wtedy, gdy są nieskorelowane.
Dowód:[Dowód] $ \Rightarrow $ W tę stronę implikacja zachodzi dla dowolnych zmiennych losowych.

$ \Leftarrow $ Jeśli współrzędne są nieskorelowane, to, jak wiemy, macierz kowariancji jest przekątniowa:

$$ \Lambda=\left[\begin{array}{cccc} \sigma_1^2 & 0 & \ldots & 0\\ 0 & \sigma_2^2 & \ldots & 0\\ &\ldots & &\\ 0 & 0 & \ldots & \sigma_d^2 \end{array}\right].$$

Zatem $ A=\Lambda^{-1} $ także jest diagonalna i jej wyrazy na głównej przekątnej to $ 1/\sigma_1^2 $, $ 1/\sigma_2^2 $, $ \ldots $, $ 1/\sigma_d^2 $. Wobec tego \begin{align*} g(x)&=\frac{\sqrt{\sigma_1^{-2}\sigma_2^{-2}\ldots\sigma_d^{-2}}}{(2\pi)^{d/2}}\exp\left[-\frac{1}{2}\sum_{j=1}^d (x_j-m_j)\cdot \sigma_j^{-2}\right]\\ &=\prod_{j=1}^d \left(\frac{1}{\sqrt{2\pi}\sigma_j} e^{-(x_j-m_j)^2/(2\sigma_j^2)}\right)\\ &=g_1(x_1)g_2(x_2)\ldots g_d(x_d), \end{align*} gdzie $ g_j $ to gęstość rozkładu $ \mathcal{N}(m_j,\sigma_j^2) $. Stąd niezależność. □

Rozważymy teraz tzw. zagadnienie regresji liniowej, grające ważną rolę w statystyce. Problem możermy sformułować następująco. Załóżmy, że mamy zmienne losowe $ X $, $ Y $ całkowalne z kwadratem i znamy ich łączny rozkład. Ponadto, przypuśćmy, iż obserwujemy wartości zmiennej $ X $, a zmienna $ Y $ jest trudniejsza - bądź niemożliwa - do zmierzenia. Powstaje więc interesujące zagadnienie optymalnego przybliżania zmiennej $ Y $ za pomocą zmiennej $ X $. Oczywiście, musimy odpowiednio postawić ten problem; będziemy szukać optymalnego przybliżenia liniowego, tzn. postaci $ aX+b $, $ a,\,b \in \R $, a błąd będziemy mierzyć w sensie średniokwadratowym. Innymi słowy, szukamy stałych $ a,\,b \in \R $, dla których wielkość $  f(a,b)=\E (Y-aX-b)^2 $ jest najmniejsza.

Aby rozwiązać ten problem, zauważmy, iż przy ustalonym $ a $, funkcja $ b \mapsto f(a,b) $ jest trójmianem kwadratowym, który przyjmuje swoją najmniejszą wartość w punkcie $ \E (Y-aX) $. Wystarczy więc wyznaczyć najmniejszą wartość funkcji

$$ h(a)=f(a,\E(Y-aX))=\E (Y-\E Y-a(X-\E X))^2=a^2\text{Var}X-2a\text{Cov}(X,Y)+\text{Var}Y. $$

Jeśli zmienna $ X $ jest stała p.n. (czyli Var$ X $=0), to wówczas $ h $ jest funkcją stałą i widać, że optymalnym liniowym estymatorem zmiennej $ Y $ jest jej średnia: $ aX+b=aX+(\E Y-a\E X)=\E Y $. Jeśli zaś Var$ X\neq 0 $, to $ h $ jest trójmianem kwadratowym zmiennej $ a $, przyjmującym swoją najmniejszą wartość w punkcie

$$ a=\frac{\text{Cov}(X,Y)}{\text{Var}X}$$

i wówczas

$$ b=\E Y-\E X \cdot \frac{\text{Cov}(X,Y)}{\text{Var}X}.$$

Uwagi:

1) Widać, że do powyższych obliczeń nie potrzebowaliśmy całej wiedzy o rozkładzie łącznym zmiennych $ (X,Y) $. Wystarczy nam znajomość średnich i wariancji zmiennych $ X $, $ Y $ oraz ich kowariancji.

2) Załóżmy, że wariancje $ X $ oraz $ Y $ są niezerowe. Dla powyższych (optymalnych) $ a $, $ b $ obliczamy, iż

$$ f(a,b)=\mbox{Var}\,X (1-\rho^2(X,Y)),$$

gdzie

$$ \rho(X,Y)=\frac{\mbox{Cov}\,(X,Y)}{\sqrt{\mbox{Var}\,X\,\mbox{Var}Y}}$$

to tzw. współczynnik korelacji. Współczynnik ten posiada następujące własności:

(a) Zachodzi nierówność $ -1 \leq \rho(X,Y)\leq 1 $,

(b) Mamy $ \rho(X,Y)=\rho(Y,X) $ oraz, dla dowolnych $ a,\,b\in \R $, $ \rho(aX+b,Y)=\rho(X,Y) $.

(c) Jeśli $ |\rho(X,Y)|=1 $, to $ X=\alpha Y+\beta $ dla pewnych $ \alpha $, $ \beta\in \R $; innymi słowy, między $ X $ a $ Y $ jest zależność liniowa.

(d) Równość $ \rho(X,Y)=0 $ zachodzi wtedy i tylko wtedy, gdy $ X $, $ Y $ są nieskorelowane. Wówczas najlepszym przybliżeniem $ Y $ jest $ \E X $.

Zadania

1. Dana jest zmienna losowa $ X $ taka, że $ \mathbb{P}(X=0)=\mathbb{P}(X=1)=\frac{1}{4} $, $ \mathbb{P}(X=-3)=\frac{1}{2} $. Obliczyć $ \mathbb{E}X $, $ \mathbb{E}\frac{1}{X+2} $, $ \mathbb{E} \cos(\pi X) $ oraz Var$ \,X $.

2. Zmienna losowa $ X $ ma rozkład Poissona z parametrem $ 2 $. Obliczyć $ \mathbb{E} 6^X $.

3. Zmienna losowa $ X $ ma rozkład z gęstością

$$ g(x)=\frac{3}{8}x^21_{[0,2]}. $$

Obliczyć $ \mathbb{E} X $, $ \mathbb{E} \frac{1}{1+x^3} $ oraz Var$ \,X^2 $.

4. Zmienna losowa $ X $ ma rozkład z dystrybuantą

$$ F(t)=\begin{cases} 0 & \text{jeśli }t<0,\\ t/2 & \text{jeśli }0\leq t<1,\\ 3/4 & \text{jeśli }1\leq t<5,\\ 1 & \text{jeśli }t\geq 5. \end{cases}$$

Wyznaczyć $ \mathbb{E} (2X+1) $.

5. W urnie znajduje się 50 białych kul. Losujemy ze zwracaniem po jednej kuli, przy czym wyciągniętą kulę malujemy na czerwono, jeśli jest biała. Niech $ X $ oznacza liczbę czerwonych kul w urnie po 20 losowaniach. Wyznaczyć $ \mathbb{E}X $ oraz Var$ \,X $.

6. Każdy bok i każdą przekątną sześciokąta foremnego malujemy losowo na jeden z trzech kolorów. Wybór każdego koloru jest jednakowo prawdopodobny, kolorowania różnych odcinków są niezależne. Niech $ X $ oznacza liczbę jednobarwnych trójkątów o wierzchołkach będących wierzchołkami sześciokąta. Obliczyć $ \mathbb{E}X $.

7. Rzucamy kostką aż do momentu, gdy wyrzucimy wszystkie liczby oczek. Obliczyć wartość oczekiwaną i wariancję liczby rzutów.

8. Udowodnić, że dla dowolnej zmiennej losowej nieujemnej $ X $ oraz $ p>0 $ zachodzi wzór

$$ \E X^p=p\int_0^\infty t^{p-1}\P(X\geq t)\mbox{d}t=p\int_0^\infty t^{p-1}\P(X> t)\mbox{d}t.$$

Wywnioskować stąd, że jeśli zmienna $ X $ ma rozkład dyskretny skoncentrowany na liczbach całkowitych nieujemnych, to

$$ \E X=\sum_{k=1}^\infty \P(X\geq k)=\sum_{k=0}^\infty \P(X>k).$$

9. Liczby $ 1,\,2,\,\ldots,\,n $ ustawiono losowo w ciąg $ (a_1,\,a_2,\,\ldots,\,a_n) $. Niech $ N $ oznacza największą taką liczbę, że $ a_k>a_{k-1} $ dla $ k\leq  N $. Obliczyć $ \mathbb{E} N $.

10. Dany jest ciąg niezależnych zmiennych losowych $ X_0 $, $ X_1 $, $ X_2 $, $ \ldots $ o tym samym rozkładzie posiadającym ciągłą dystrybuantę. Niech $ \eta=\inf\{n:X_n>X_0\} $. Wyznaczyć rozkład zmiennej $ \eta $ oraz obliczyć $ \E \eta $.

11. Kij o długości $ 1 $ złamano w punkcie wybranym losowo, z prawdopodobieństwem rozłożonym równomiernie. Obliczyć wartość oczekiwaną stosunku

a) długości kawałka lewego do długości kawałka prawego.

b) długości kawałka krótszego do długości kawałka dłuższego.

12. Zmienne losowe $ X $, $ Y $ spełniają warunki Var$ X=3 $, Cov$ (X,Y)=-1 $, Var$ Y=2 $. Obliczyć Var$ (4X-3Y) $ oraz Cov$ (5X-Y,2X+Y) $.

13. Zmienna losowa $ X $ ma wariancję $ \sigma^2<\infty $. Udowodnić, że

$$ \mathbb{P}(|X-\mathbb{E}X|>3\sigma)\leq \frac{1}{9}. $$

14. Zmienne losowe $ \varepsilon_1,\,\varepsilon_2,\,\ldots,\varepsilon_n $ są niezależne i mają ten sam rozkład $ \mathbb{P}(\varepsilon_k=1)= \mathbb{P}(\varepsilon_k=-1)=1/2 $, $ k=1,\,2,\,\ldots,\,n $. Niech $ a_1,\,a_2,\,\ldots,\,a_n $ będzie ciągiem liczb rzeczywistych i $ A=(\sum_{k=1}^n  a_k^2)^{1/2} $. Udowodnić, że

$$ \mathbb{P}\left(\left|\sum_{k=1}^n  a_k\varepsilon_k\right|>t\right)\leq 2\exp(-t^2/2A^2).$$

15. Zmienne $ \varepsilon_1,\,\varepsilon_2,\,\ldots $ są niezależne i mają ten sam rozkład $ \mathbb{P}(\varepsilon_k=1)= \mathbb{P}(\varepsilon_k=-1)=1/2 $, $ k=1,\,2,\,\ldots. $ Niech $ S_n=\varepsilon_1+\varepsilon_2+\ldots+\varepsilon_n $, $ n=1,\,2,\,\ldots $. Udowodnić, że

$$ \mathbb{P}\left(\limsup_{n\to \infty} \frac{S_n}{\sqrt{2n\log n}} \leq 1\right)=1$$

oraz

$$ \mathbb{P}\left(\liminf_{n\to \infty} \frac{S_n}{\sqrt{2n\log n}} \geq -1\right)=1.$$

16. Zmienna losowa $ X $ ma następującą własność: dla $ n=1,2,\ldots $ mamy

$$\mathbb{E}|X|^n\leq {2n \choose n}.$$

Udowodnić, że $ X\in L^\infty $ (tzn. istnieje taka liczba $ M $, że $ \P(|X|\leq M)=1 $).

17. Zmienna losowa $ X $ ma rozkład normalny w $ \mathbb{R}^d $, o średniej $ m $ i macierzy kowariancji $ \Lambda $. Niech $ T $ będzie przekształceniem afinicznym $ \mathbb{R}^d $ na $ \mathbb{R}^k $, $ k\leq  d $. Udowodnić, że $ TX $ ma rozkład normalny w $ \mathbb{R}^k $. Wyznaczyć jego średnią oraz macierz kowariancji.

18. Zmienna losowa $ X $ ma $ d $-wymiarowy rozkład normalny o gęstości

$$ g(x)=\frac{\sqrt{\mbox{det}\,A}}{(2\pi)^{d/2}}\exp\left[-\frac{1}{2}\langle A(x-m),(x-m)\rangle \right].$$

Udowodnić, że $ \E X=m $ oraz $ \Lambda=A^{-1} $ ($ \Lambda $ oznacza tu macierz kowariancji $ X $).

19. Zmienna losowa $ (X,Y) $ ma dwuwymiarowy rozkład normalny o średniej $ (0,0) $ i macierzy kowariancji

$$ \Lambda=\left[\begin{array}{cc} 2 & 1\\ 1 & 1 \end{array}\right].$$

a) Napisać gęstość zmiennej $ (X,Y) $.

b) Wyznaczyć rozkład zmiennej $ X+3Y $.

c) Wyznaczyć taką liczbę $ a\in \R $, by zmienne $ X+Y $, $ X+aY $ były niezależne.

20. Nadajnik wysyła sygnał $ \xi $, a odbiornik odbiera sygnał $ \eta=a\xi+\zeta $, gdzie $ a\in \R_+ $ jest współczynnikiem wzmocnienia, zaś $ \zeta $ jest zakłóceniem. Zakładamy, że $ \xi $ i $ \zeta $ są niezależnymi zmiennymi losowymi, przy czym $ \E \xi=m $, Var$ \,\xi=1 $, $ \E \zeta=0 $, Var$ \,\zeta=\sigma^2 $. Wyznaczyć współczynnik korelacji $ \xi $ i $ \eta $ oraz regresję liniową $ \xi $ względem $ \eta $ (tzn. najlepsze liniowe przybliżenie $ \xi $ za pomocą $ \eta $).