Twierdzenie de Moivre'a-Laplace'a

Twierdzenie de Moivre'a-Laplace'a

Zajmiemy się teraz niezwykle ważnym i użytecznym faktem, pozwalającym przybliżać rozkład Bernoulliego $ B(n,p) $ przez rozkład normalny. Znaczne uogólnienie poniższych wyników będzie podane na wykładzie z Rachunku Prawdopodobieństwa II, przy okazji tzw. Centralnego Twierdzenia Granicznego.

Załóżmy, że $ \Phi:\R\to [0,1] $ jest dystrybuantą, a $ g $ jest gęstością, standardowego rozkładu normalnego:

$$ g(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2},\quad \Phi(t)=\int_{-\infty}^t g(x)\mbox{d}x.$$

Ponadto, będziemy zakładać, że $ p $ jest ustaloną liczbą z przedziału $ (0,1) $, $ q=1-p $ oraz $ S_n $ jest zmienną losową o rozkładzie $ B(n,p) $.

Twierdzenie Załóżmy, że $ k $ jest liczbą całkowitą taką, że

$$ |k-np|\cdot \frac{\max(p,q)}{npq}\leq 1/2. \leqno{(*)}$$

Wówczas

$$ \mathbb{P}(S_n=k)=\frac{1}{\sqrt{2\pi n pq}}\exp\left(-\frac{(k-np)^2}{2npq}+R(n,k)\right),$$

gdzie

$$ R(n,k)\leq \frac{3|k-np|}{4npq}+\frac{|k-np|^3}{3n^2p^2q^2}+\frac{1}{3npq}.$$
Dowód:[Dowód] Stosując wzór Stirlinga

$$ n!=\sqrt{2\pi n}n^ne^{-n+\theta_n/(12n)},\qquad 0<\theta_n<1,$$

dostajemy \begin{align*} \P(S_n=k)&=\sqrt{\frac{n}{2k\pi(n-k)}}\cdot \left(\frac{np}{k}\right)^k\left(\frac{nq}{n-k}\right)^{n-k}\cdot \exp\left(\frac{\theta_n}{12n}-\frac{\theta_k}{12k}-\frac{\theta_{n-k}}{12(n-k)}\right)\\ &=I \cdot II \cdot III. \end{align*} Zbadajmy po kolei czynniki $ I $, $ II $ oraz $ III $. Mamy

$$ I=\frac{1}{\sqrt{2\pi npq}}\cdot \left(1+\frac{k-np}{npq}\cdot q\right)^{-1/2}\left(1-\frac{k-np}{npq}\cdot p\right)^{-1/2}=\frac{1}{\sqrt{2\pi npq}}\cdot e^{R_1(n,k)}.$$

Dla dowolnego $ x\geq -1/2 $ zachodzi oszacowanie

$$ |\log(1+x)-x|\leq x^2,$$

skąd wynika, że \begin{align*} R_1(n,k)&=-\frac{1}{2}\left[\log\left(1+\frac{k-np}{npq}\cdot q\right)+\log\left(1-\frac{k-np}{npq}\cdot p\right)\right]\\ &=\frac{1}{2}\frac{(p-q)(k-np)}{npq}+R_1'(n,k), \end{align*} gdzie $ |R_1'(n,k)|\leq \frac{1}{2}(p^2+q^2)(k-np)^2/(n^2p^2q^2)\leq |k-np|/(4npq) $, na mocy założenia (*). W konsekwencji,

$$ |R_1(n,k)|\leq \frac{3|k-np|}{4npq}.$$

Następnie, mamy \begin{align*} \log II&=k\log\left(\frac{np}{k}\right)+(n-k)\log\left(\frac{nq}{n-k}\right)\\ &=-np\cdot \frac{k}{np}\log\left(\frac{k}{np}\right)-nq\cdot \frac{n-k}{nq}\log\left(\frac{n-k}{nq}\right)\\ &=-np\cdot\left(1+\frac{k-np}{np}\right)\log\left(1+\frac{k-np}{np}\right)\\ &     -nq\cdot \left(1-\frac{ k-np}{nq}\right)\log \left(1-\frac{ k-np}{nq}\right). \end{align*} Korzystamy teraz z nierówności

$$ \left|(1+x)\log(1+x)-x-\frac{x^2}{2}\right|\leq \frac{1}{3}|x|^3,$$

prawdziwej dla $ x\geq -1/2 $: jeśli (*) jest spełniona, to \begin{align*} \log II &=-np\left(\frac{k-np}{np}+\frac{1}{2}\left(\frac{k-np}{np}\right)^2\right)\\ &     -nq\left(-\frac{k-np}{nq}+\frac{1}{2}\left(\frac{k-np}{nq}\right)^2\right)+R_2'(n,k)\\ &=-\frac{1}{2}\frac{(k-np)^2}{npq}+R_2'(n,k), \end{align*} gdzie \begin{align*} |R_2'(n,k)|&\leq \frac{1}{3}\left(np\left|\frac{k-np}{np}\right|^3+nq\left|\frac{k-np}{nq}\right|^3\right)=\frac{|k-np|^3}{3n^2p^2q^2}(p^2+q^2)\leq \frac{|k-np|^3}{3n^2p^2q^2}. \end{align*} Wreszcie, mamy $ III=e^{R_3(n,k)} $, gdzie

$$ -\left(\frac{1}{12k}+\frac{1}{12(n-k)}\right)<R_3(n,k)<\frac{1}{12n}.$$

Równoważnie,

$$ -\frac{1}{12npq}\left(1+\frac{k-np}{npq}\cdot q\right)^{-1}\left(1-\frac{k-np}{npq}\cdot p\right)^{-1}<R_3(n,k)<\frac{1}{12n},$$

skąd, na mocy (*), wynika oszacowanie

$$ |R_3(n,k)|\leq \frac{1}{3npq}.$$

Łącząc otrzymane wyżej nierówności dla $ R_i(n,k) $, dostajemy tezę. □

Kolejne twierdzenie, tzw. integralne twierdzenie de Moivre'a-Laplace'a, pozwala przybliżać prawdopodobieństwo, że liczba sukcesów należy do ustalonego przedziału.

Twierdzenie Załóżmy, że $ a,\,b\geq 0 $ spełniają warunek

$$ |a-np|\cdot \frac{\max(p,q)}{npq}\leq 1/2,\qquad  |b-np|\cdot \frac{\max(p,q)}{npq}\leq 1/2. \leqno{(*)}$$

Wówczas

$$ \P\left(a\leq S_n\leq b\right)=\left[ \Phi\left(\frac{b-np+\frac{1}{2}}{\sqrt{npq}}\right) -\Phi\left(\frac{a-np-\frac{1}{2}}{\sqrt{npq}}\right)\right] e^{D(n,a,b)},$$

gdzie

$$ |D(n,a,b)|\leq \max_{k\in \{a,b\}}\left[\frac{5}{4}\frac{|k-np|}{npq}+\frac{1}{3}\frac{|k-np|^3}{n^2p^2q^2}\right]+\frac{1}{3npq}+\frac{1}{8npq}.$$
Dowód:[Dowód] Przypomnijmy, że $ g $ oznacza gęstość standardowego rozkładu normalnego. Oznaczmy

$$ x_k=\frac{k-np}{\sqrt{npq}},\qquad h=\frac{1}{\sqrt{npq}}.$$

Z twierdzenia o wartości średniej mamy, iż

$$ \Phi\left(x_k+h/2\right)- \Phi\left(x_k-h/2\right)=hg(\xi_k),$$

gdzie $ \xi_k\in \left(x_k-h/2,x_k+h/2\right) $. Innymi słowy, mamy \begin{align*} & h g\left(x_k\right)\\ & =\exp\left(\frac{1}{2}(\xi_k^2-x_k^2)\right)\Phi\left(x_k+h/2\right)- \Phi\left(x_k-h/2\right). \end{align*} Dalej, $ |\xi_k^2-x_k^2|=|\xi_k+x_k|\cdot|\xi_k-x_k|\leq \frac{1}{2}h\left(2|x_k|+\frac{1}{2}h\right)=h|x_k|+\frac{1}{4}h^2 $, a zatem

$$ h g(x_k)=e^{r_k}\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right],$$

gdzie $ |r_k|\leq \frac{1}{2}h|x_k|+\frac{1}{8}h^2 $. W połączeniu z poprzednim twierdzeniem, otrzymujemy zatem

$$ \P(S_n=k)=e^{r_k+R(n,k)}\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right].$$

Niech $ d=\max_{k\in \{a,a+1,\ldots,b\}}|r_k+R(n,k)| $; dostajemy zatem

$$ e^{-d}\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right]\leq \P(S_n=k)\leq e^d\left[\Phi(x_k+h/2)-\Phi(x_k-h/2)\right].$$

Pisząc te nierówności dla $ k=a,\,a+1,\,\ldots,\,b $ i sumując, dostajemy tezę. □

Na zakończenie, sformułujemy (bez dowodu) fakt, który zawiera wygodne oszacowanie na błąd przybliżenia w twierdzeniu de Moivre'a-Laplace'a.

Twierdzenie Przy oznaczeniach jak wyżej, mamy

$$ \sup_{t\in \R}\left|\P\left(\frac{S_n-np}{\sqrt{npq}}\leq t\right)-\Phi(t)\right|\leq \frac{p^2+q^2}{\sqrt{npq}}.$$

Zadania

1. Prawdopodobieństwo urodzenia chłopca wynosi $ 0,517 $. Jakie jest prawdopodobieństwo tego, że wśród $ n=10000 $ noworodków liczba chłopców nie przewyższy liczby dziewcząt?

2. Rzucamy symetryczną monetą aż do momentu, gdy wyrzucimy $ 200 $ orłów (łącznie, niekoniecznie pod rząd). Jakie jest przybliżone prawdopodobieństwo tego, że rzucimy więcej niż $ 440 $ razy?

3. Do sklepu meblowego przywieziono $ 150 $ biurek I rodzaju oraz $ 75 $ biurek II rodzaju. Wiadomo, że biurka I rodzaju cieszą się dwukrotnie większym powodzeniem (tzn. prawdopodobieństwo tego, że klient kupujący biurko zdecyduje się na biurko I rodzaju, wynosi $ 2/3 $). Jakie jest przybliżone prawdopodobieństwo tego, że któryś z pierwszych $ 200 $ klientów kupujących biurka nie dostanie takiego modelu, jaki chce?

4. Stwierdzono, iż przeciętnie $ 30\% $ spośród ogólnej liczby studentów przyjętych na studia kończy je w terminie. Ile osób trzeba przyjąć na pierwszy rok, aby z prawdopodobieństwem co najmniej $ 0,9 $ co najmniej $ 50 $ osób skończyło studia w terminie?

5. W pewnym doświadczeniu prawdopodobieństwo zajścia zdarzenia $ A $ wynosi $ 0,7 $. Ile razy trzeba powtórzyć to doświadczenie, żeby z prawdopodobieństwem $ 0,9 $ częstość zajścia zdarzenia $ A $ nie różniła się od $ 0,7 $ o więcej niż $ 0,1 $? Czy można coś powiedzieć o potrzebnej liczbie powtórzeń, jeśli nie znamy prawdopodobieństwa zdarzenia $ A $?

6. a) Rzucamy 4500 razy kostką, dla której prawdopodobieństwo wypadnięcia szóstki wynosi $ 1/6 $. Obliczyć przybliżone prawdopodobieństwo tego, że liczba wyrzuconych szóstek przekroczy $ 450 $.

b) Załóżmy, że prawdopodobieństwo wypadnięcia szóstki wynosi $ 1/1000 $. Jakie jest przybliżone prawdopodobieństwo tego, że liczba wyrzuconych szóstek przekroczy 2?

7. Dany jest ciąg $ (\e_n)_{n\geq 1} $ niezależnych zmiennych losowych Rademachera. Dowieść, że ciąg

$$ \frac{\e_1+\e_2+\ldots+\e_n}{\sqrt{n}},\qquad n=1,\,2,\,\ldots,$$

nie jest zbieżny prawie na pewno.