Analiza Matematyczna II

Ten tekst powstał w roku akademickim 2011/2012, jako dość wierny, bieżący zapis wykładu z Analizy Matematycznej II. Proszę pamiętać, że jest to wciąż materiał w budowie mogą w nim być błędy, zarówno literówki, jak i poważniejsze usterki; mogą stopniowo pojawiać się pewne (niezbyt wielkie) zmiany układu treści. Wszelkie uwagi Czytelników (zgłaszanie błędów, a także sugestie, co zmienić, gdzie warto napisać dokładniejsze wyjaśnienie, gdzie umieścić dodatkowy rysunek itp.) są mile widziane. Z góry za nie serdecznie dziękuję. Część rysunków, zwłaszcza w rozdziałach 1, 2, 6 i 7, wykonałem w programie Mathematica (skądinąd: dostępnym dla wszystkich użytkowników laboratorium komputerowego Wydziału MIM), zastanawiając się, jak w sposób możliwie czytelny, poglądowy i nietrywialny zilustrować jakieś pojęcie, twierdzenie, lub przykład nietypowego (na pierwszy rzut oka) zachowania funkcji wielu zmiennych. Gorąco zachęcam Czytelników do samodzielnego eksperymentowania z podobnymi wykresami i rysunkami - jestem przekonany, że każdy, kto naprawdę sam je wykonuje, pogłębia zarówno swoją wyobraźnię, jak i zrozumienie tematu. To ma sens także dlatego, że Analiza II różni się istotnie od Analizy I: mniej jest w niej ważnych twierdzeń, natomiast istotnie więcej niełatwych pojęć, wymagających spokojnego `przetrawienia' oraz dobrych intuicji geometrycznych (i obycia z algebrą liniową).

Ciągłość funkcji wielu zmiennych

Zajęcia z Analizy Matematycznej II poświęcone są funkcjom wielu zmiennych rzeczywistych. Dlatego zaczniemy od opisania najważniejszych z punktu widzenia podstaw Analizy własności przestrzeni $ \R^n $ i pewnych klas jej podzbiorów. Dzięki temu będziemy mogli później zobaczyć, że uogólnienia pewnych pojęć, które poznaliśmy dla funkcji jednej zmiennej rzeczywistej, są w gruncie rzeczy jasne i naturalne (choć, dla $ n> 3 $, mogą zdaniem Czytelnika mieć dość abstrakcyjny charakter).

Podkreślmy jednak, że nawet z punktu widzenia w miarę naturalnych zastosowań matematyki nie warto ograniczać studiowania funkcji $ f\colon \R^n\to\R^m $ do `fizycznych' przypadków $ n,m\in \{1,2,3\} $. Na przykład, opis temperatury, ciśnienia, prędkości wiatru i wilgotności powietrza w punktach pewnego obszaru przestrzeni $ \R^3 $ i w czasie $ t\in (t_0,t_1) $ -- a więc, po ludzku mówiąc, możliwie wierne prognozowanie pogody -- wymaga w istocie, jak widać, konstrukcji pewnego przekształcenia z podzbioru przestrzeni $ \R^4 $ w przestrzeń $ \R^6 $: temperatura, ciśnienie i wilgotność powietrza to trzy liczby, a prędkość wiatru jest wektorem o trzech współrzędnych. Choćby dlatego, ale i ze względów teoretycznych, będziemy zajmować się funkcjami $ f\colon \R^n\to\R^m $ dla dowolnych $ m,n $ naturalnych.

Topologia w $\mathbb{R}^n$. Zbiory otwarte, domknięte i zwarte

Przestrzeń kartezjańska $ n $-wymiarowa, $ \R^n $, to iloczyn $ n $ kopii prostej rzeczywistej $ \R $. Elementy przestrzeni $ \R^n $ będziemy zamiennie nazywać punktami lub wektorami i oznaczać je $ \tl{x}=(x_1,\ldots,x_n) $, $ \yy=(y_1,\ldots,y_n) $ itp., starając się - w skrypcie, nie na tablicy - konsekwentnie używać pogrubionych liter dla zasygnalizowania, że chodzi o punkt w $ \R^n $, niepogrubionych zaś dla oznaczenia współrzędnych punktu.

Norma i iloczyn skalarny

Definicja [iloczyn skalarny] (Standardowym) iloczynem skalarnym w $ \R^n $ nazywamy funkcję

\[ 	\R^n\times\R^n \ni (\xx,\yy)\longmapsto \langle \xx, \yy\rangle :=\sum_{i=1}^n x_iy_i\in \R\,. 	\]

     Jak wiadomo z wykładów Algebry Liniowej, iloczyn skalarny jest dwuliniowy (liniowy względem każdej zmiennej z osobna), symetryczny (tzn. $ \langle\xx,\yy\rangle=\langle \yy,\xx\rangle $ dla wszystkich $ \xx,\yy\in \R^n $) i dodatnio określony, tzn. $ \langle \xx,\xx\rangle>0 $ dla wszystkich $ \xx\not=\zero\in\R^n $.

Definicja [norma euklidesowa] Funkcję

\[ \R^n\ni \xx\mapsto \|x\|_2\equiv\|x\|=\biggl(\sum_{i=1}^n x_i^2\biggr)^{1/2}\ \in\  [0,\infty) \]

nazywamy normą euklidesową.

Przymiotnik euklidesowa, a także dolny indeks 2, będziemy zwykle opuszczać, pisząc po prostu $ \|\xx\| $. Z twierdzenia Pitagorasa wynika, że dla $ n=2 $ (odpowiednio, $ n=3 $) liczba $ \|\xx\| $ jest po prostu odległością punktu $ \xx $ od początku układu współrzędnych na płaszczyźnie $ \R^2 $ (odpowiednio, w trójwymiarowej przestrzeni $ \R^3 $).

Liczbę $ \|\xx-\yy\| $ nazywamy, zgodnie z naturalną geometryczną interpretacją, odległością punktów $ \xx $ i $ \yy\in \R^n $

Stwierdzenie [własności normy i iloczynu skalarnego w $ \R^n $] $ \phantom{a} $ (#)

  1. (Nierówność trójkąta). Dla wszystkich $ \xx,\yy\in \R^n $ jest
    \[ 	\|\xx+\yy\|\le \|\xx\|+\|\yy\|\, .  	\]
  2. (Jednorodność). Dla wszystkich $ t\in \R $ i $ \xx\in\R^n $ jest $ \|t\, \xx\|=|t|\cdot \|\xx\| $.
  3. Równość $ \|\xx\|=0 $ zachodzi wtedy i tylko wtedy, gdy $ \xx=\zero\in \R^n $.
  4. (Nierówność Schwarza). Dla wszystkich $ \xx,\yy\in \R^n $ jest
    \[ \begin{equation} 		\label{nierSchwarza} 		|\langle \xx,\yy\rangle|\le \|\xx\|\cdot \|\yy\|\, , \end{equation} \]

    a równość zachodzi wtedy i tylko wtedy, gdy $ \xx=t\yy $ lub $ \yy=t \xx $ dla pewnego $ t\in \R $.

Dowód: Własności (ii) oraz (iii) są oczywiste. Nierówność Schwarza i nierówność trójkąta Czytelnik miał okazję poznać wcześniej, ale naszkicujemy dla porządku krótkie dowody.

Zaczniemy od nierówności Schwarza. Niech $ t\in \R $. Z definicji normy oraz dwuliniowości i symetrii iloczynu skalarnego otrzymujemy

\[ \begin{eqnarray*} 	0 &\le & \|\xx+t\yy\|^2 = \langle \xx+t\yy ,   \xx+t\yy \rangle\\ 	& = &  \|\xx\|^2+2t\langle \xx, \yy\rangle + t^2 \|\yy\|^2\, . \end{eqnarray*} \]

Trójmian kwadratowy $ P(t)=\|\xx\|^2+2t\langle \xx, \yy\rangle + t^2 \|\yy\|^2 $ jest więc nieujemny dla każdego $ t\in\R $. Wyróżnik tego trójmianu musi zatem być niedodatni, tzn.

\[ 4 \langle \xx, \yy\rangle^2 - 4\|\xx\|^2\cdot \|\yy\|^2\le 0\, . \]

Stąd już wynika nierówność nierSchwarza. Zauważmy, że równość zachodzi w niej wtedy i tylko wtedy, gdy $ \xx=\zero $ lub $ \yy=\zero $ lub gdy $ P(t) $ ma pierwiastek, tzn. gdy $ \xx=t\yy $ dla pewnego $ t\in \R $. To jest równoważne warunkowi, podanemu w punkcie (iv).

Nierówność trójkąta łatwo wyprowadzić z nierówności Schwarza: ponieważ $ \langle \xx, \yy\rangle\le |\langle \xx, \yy\rangle|\le \|\xx\|\cdot \|\yy\| $, więc jest

\[ \begin{eqnarray*} \bigl(\|\xx\|+\|\yy\|\bigr)^2 - \|\xx+\yy\|^2 & = &\|\xx\|^2+  2\|\xx\|\cdot \|\yy\|+ \|\yy\|^2-\bigl(             \|\xx\|^2+  2\langle \xx, \yy\rangle + \|\yy\|^2\bigr) \\ &=& 2\bigl(\|\xx\|\cdot \|\yy\|-  \langle \xx, \yy\rangle \bigr)\\  &\ge& 0.          \end{eqnarray*} \]

Dowód stwierdzenia jest zakończony. □

Uwaga Ogólnie, normą w $ \R^n $ nazywa się każdą funkcję $ \|\cdot\|\colon \R^n\to [0,\infty) $, która spełnia warunki (i)-(iii) Stwierdzenia [link]. Zauważmy, że w dowodzie tego stwierdzenia wystarczyło korzystać ze związku $ \|\xx\|^2=\langle \xx,\xx\rangle $ i z tego, że przekształcenie $ (\xx,\yy)\mapsto\langle\xx,\yy\rangle $ jest dwuliniowe, symetryczne i dodatnio określone. Nie było ważne, że chodzi akurat o standardowy iloczyn skalarny. Ponadto, normy można definiować w dowolnych przestrzeniach liniowych, także nieskończonego wymiaru. Przykład, bardzo ważny zarówno w analizie, jak i w topologii, to tzw. norma supremum

\[ 	\|f\|_\infty=\sup_{x\in I} |f(x)|\, , 	\]

określona na przestrzeni liniowej funkcji ciągłych na odcinku domkniętym $ I\subset \R $. Czytelnik zna tę normę z wykładów Analizy I (patrz rozdział o zbieżności jednostajnej). Inne przykłady norm spotkamy wielokrotnie później.

Wniosek Dla każdego przekształcenia dwuliniowego, symetrycznego i dodatnio określonego

\[ \R^n\times\R^n \ni (\xx,\yy)\longmapsto \langle \xx, \yy\rangle \in \R \]

funkcja $ \xx\mapsto\|\xx\|=\langle \xx,\xx\rangle^{1/2} $ jest normą na przestrzeni $ \R^n $.

Można podać inne przykłady norm.

Przykład Dla $ p\in [1,\infty) $ połóżmy

\[ 	\|\xx\|_p=\biggl(\sum_{i=1}^n |x_i|^p\biggr)^{1/p}, 	\]

a dla $ p=\infty $ niech

\[ \|\xx\|_\infty=\max_{i=1,\ldots,n} |x_i|\, . \]
Zadanie Wykazać, że $ \|\xx\|_p $ jest normą dla każdego $ p\in [1,\infty] $.

    Wskazówka. Dla dowodu nierówności trójkąta przypomnieć sobie nierówność H\"oldera izauważyć, że $ |x_i+y_i|^p\le |x_i|\cdot |x_i+y_i|^{p-1} + |y_i|\cdot |x_i+y_i|^{p-1} $.

Zadanie Czy dla $ p\not =2 $ norma $ \|\cdot\|_p $ pochodzi od pewnego (niekoniecznie standardowego) iloczynu skalarnego na $ \R^n $?     Wskazówka. W każdym równoległoboku suma kwadratów długości obu przekątnych jest równa sumie kwadratów długości wszystkich boków. Zapisać to twierdzenie w języku normy i spróbować je wykorzystać.

Kule. Zbiory otwarte i domnkięte.

Definicja Kulą otwartą o środku $ \xx\in\R^n $ i promieniu $ r>0 $ nazywamy zbiór

\[ 	B(\xx, r)=\{\yy\in \R^n\colon \|\yy-\xx\|< r\}\, . 	\]

Zbiór $ \overline{B}(\xx, r)=\{\yy\in \R^n\colon \|\yy-\xx\|\le r\} $ to kula domknięta o środku $ \xx $ i promieniu $ r $.

Dla $ n=1 $ kule są po prostu przedziałami: norma euklidesowa w $ \R $ to wartość bezwzględna liczby, zaś warunki $ |y-x|<r $ i $ y\in (x-r,x+r) $ są równoważne. Kule w normie euklidesowej na płaszczyźnie $ \R^2 $ to koła: warunek $ (y_1-x_1)^2+(y_2-x_2)^2< r^2 $ oznacza, że $ \yy=(y_1,y_2) $ leży wewnątrz okręgu o środku w punkcie $ \xx=(x_1,x_2) $ i promieniu $ r>0 $.

Definicja (#) Zbiór $ \Omega\subset \R^n $ jest otwarty wtedy i tylko wtedy, gdy dla każdego punktu $ \xx\in \Omega  $ istnieje promień $ r>0 $ taki, że $ B(\xx,r)\subset \Omega $.

Inaczej mówiąc, zbiór otwarty to taki zbiór, który wraz z każdym swoim punktem zawiera pewną kulę otwartą wokół tego punktu.

Przykład Cała przestrzeń $ \R^n $ jest zbiorem otwartym (dla każdego $ \xx\in \Omega=\R^n $ można wziąć w warunku z definicji np. $ r=2011 $). Zbiór pusty jest otwarty; warunek zdefinicji jest wtedy pusto spełniony. Kula otwarta $ B(\aa,r) $ jest zbiorem otwartym: jeśli $ \xx\in B(\aa,r) $ i $ 0<\rho< r-\|\xx-\aa\| $, to kula $ B(\xx,\rho)\subset B(\aa,r) $, gdyż dla $ \yy\in B(\xx,\rho) $ mamy z nierówności trójkąta

\[ \|\yy-\aa\|\le \|\yy-\xx\|+\|\xx-\aa\| < \rho + \|\xx-\aa\|< r-\|\xx-\aa\| +  \|\xx-\aa\| =r\, . \]

(Proszę samodzielnie zrobić rysunek, ilustrujący to oszacowanie). □

Stwierdzenie [własności zbiorów otwartych]$ \phantom{a} $ (#)

  1. Jeśli zbiory $ \Omega_i\subset \R^n $, gdzie $ i\in I $, a $ I $ jest dowolnym zbiorem, są otwarte, to zbiór $ \displaystyle\bigcup_{i\in I}\Omega_i $ jest otwarty.
  2. Jeśli zbiory $ \Omega_1, \Omega_2,\ldots, \Omega_N \subset \R^n $ są otwarte, to zbiór $ \displaystyle\bigcap_{i=1}^N\Omega_i $ jest otwarty.

Zauważmy od razu, że własność (ii) nie zachodzi dla nieskończonych rodzin zbiorów otwartych: przecięcie wszystkich kul $ B(\zero,1/j)\subset \R^n $, gdzie $ j=1,2,\ldots $, jest zbiorem jednopunktowym $ \{\zero\} $, a zbiór jednopunktowy w $ \R^n $ nie jest otwarty (bo każda kula otwarta w $ \R^n $ jest zbiorem nieskończonym).

Dowód: Wykażemy najpierw pierwszą własność. Jeśli $ \xx\in \bigcup_{i\in I}\Omega_i $, to $ \xx\in \Omega_{i_0} $ dla pewnego $ i_0\in I $. Ponieważ zbiór $ \Omega_{i_0} $ jest otwarty, więc istnieje $ r>0 $ takie, że $ B(\xx,r)\subset \Omega_{i_0} $. Zatem, $ B(\xx,r)\subset \bigcup_{i\in I}\Omega_i $, a więc zbiór $ \bigcup_{i\in I}\Omega_i $ jest otwarty.

Jeśli $ \xx\in \bigcap_{i=1,\ldots, N}\Omega_i $, to $ \xx\in \Omega_{i} $ dla każdego $ i=1,2,\ldots, N $. Zatem, wobec otwartości $ \Omega_i $, znajdziemy liczby $ r_i>0 $ (gdzie $ i=1,2,\ldots, N $) takie, że $ B(\xx,r_i)\subset \Omega_i $. Niech $ r>0 $ będzie najmniejszą (Tu właśnie korzystamy z tego, że zbiorów $ \Omega_i $ jest tylko skończenie wiele!) spośród liczb $ r_1,r_2,\ldots, r_N $. Mamy

\[ B(\xx,r)\subset B(\xx,r_i)\subset \Omega_i\qquad\mbox{dla każdego $i=1,2,\ldots N$,} \]

a więc $ B(\xx,r)\subset \bigcap_{i=1,\ldots, N}\Omega_i  $. □

Uwaga Rodzinę zbiorów otwartych w $ \R^n $ nazywamy topologią (euklidesową).
Definicja (#) Zbiór $ F\subset \R^n $ jest domknięty wtedy i tylko wtedy, gdy jego dopełnienie $ \R^n\setminus F $ jest zbiorem otwartym.

Cała przestrzeń $ \R^n $ i zbiór pusty są domknięte, istnieją więc zbiory, które są jednocześnie otwarte i domknięte. Nietrudno sprawdzić, że każda kula domknięta jest zbiorem domkniętym. Nie należy oczywiście uważać, że każdy zbiór w $ \R^n $ jest albo otwarty, albo domknięty: np. przedział $ [0,1)\subset \R $ nie jest ani domknięty, ani otwarty. Podobnie, koło otwarte $ B(\zero,1)\subset \R^2 $ z dołączonym punktem $ (1,2) $ nie jest ani domknięte, ani otwarte.

Korzystając z praw de Morgana (dopełnienie iloczynu zbiorów jest sumą dopełnień, a dopełnienie sumy jest iloczynem dopełnień) i definicji zbioru domkniętego, otrzymujemy natychmiast następujący odpowiednik Stwierdzenia [link].

Stwierdzenie [własności zbiorów domkniętych]$ \phantom{a} $ (#)

  1. Jeśli zbiory $ F_i\subset \R^n $, gdzie $ i\in I $, a $ I $ jest dowolnym zbiorem, są domknięte, to zbiór $ \displaystyle\bigcap_{i\in I}F_i $ jest domknięty.
  2. Jeśli zbiory $ F_1, F_2,\ldots, F_N \subset \R^n $ są domknięte, to zbiór $ \displaystyle\bigcup_{i=1}^NF_i $ jest domknięty. □

Podamy teraz definicję zbieżnego ciągu punktów przestrzeni $ \R^n $. Czytelnik miał już z nią do czynienia dla $ n=2 $, gdy mówiliśmy o zbieżności ciągów liczb zespolonych.

Definicja Mówimy, że ciąg $ (\xx_j) \subset \R^n $ jest zbieżny do punktu $ \xx\in\R^n $ wtedy i tylko wtedy, gdy $ \|\xx_j-\xx\|\to 0 $ dla $ j\to\infty $.

Definicja ma, jak widać, bardzo naturalny sens: zbieżność $ \xx_j\to\xx $ oznacza, że odległości punktów $ \xx_j $ i $ \xx $ są zbieżne do zera dla $ j\to\infty $. Okazuje się, że badanie zbieżności ciągów punktów $ \R^n $ można sprowadzić do badania zbieżności ciągów poszczególnych współrzędnych tych punktów. (Wnikliwy Czytelnik zechce zauważyć, że do określenia pojęcia ciągu zbieżnego nie jest potrzebna metryka - wystarczy topologia. Jednak w analizie zwykle wygodniej posługiwać się jest normą lub odległością.)

Stwierdzenie Niech $ \xx_j=(x_{j,1},x_{j,2},\ldots,x_{j,n}) $ dla $ j\in \N $. Następujące warunki są równoważne:

  1. Ciąg $ (\xx_j) \subset \R^n $ jest zbieżny do punktu $ \xx=(x_1,x_2,\ldots,x_n)\in\R^n $.
  2. Dla każdego $ i=1,2,\ldots, n\,  $ jest $ \, \lim_{j\to\infty }x_{j,i}=x_i $.

(#)

Dowód: Dla każdego $ i_0=1,2,\ldots, n\,  $ jest

\[ \begin{equation} \label{zbciagn}                       0\le |x_{j,i_0}-x_{i_0}|\le \biggl(\sum_{i=1}^n |x_{j,i}-x_i|^2\biggr)^{1/2}=\|\xx_j-\xx\|.      \end{equation} \]

Na mocy twierdzenia o trzech ciągach, warunek (i) pociąga za sobą %$ \lim_{j\to\infty} |x_{j,i_0}-x_{i_0}| =0  $, tzn. $ \lim_{j\to\infty} x_{j,i_0}=x_{i_0} $.

Na odwrót, jeśli każdy z $ n $ składników skończonej sumy w zbciagn zbiega do zera dla $ j\to \infty $, to, wobec arytmetycznych własności granicy ciągu i ciągłości pierwiastka, ciąg $ \|\xx_j-\xx\|\to 0 $ dla $ j\to \infty $. Zatem, warunek (ii) pociąga za sobą (i). □

Podamy jeszcze wygodną charakteryzację zbiorów domkniętych przestrzeni $ \R^n $.

Stwierdzenie (#) Następujące warunki są równoważne:

  1. Zbiór $ F\subset \R^n $ jest domknięty.
  2. Dla każdego ciągu $ (\xx_j)\subset F $, który jest zbieżny, zachodzi warunek $ \xx=\lim \xx_j\in F $.
Dowód: Obu implikacji (i) $ \Rightarrow $ (ii) oraz (ii) $ \Rightarrow $ (i) dowiedziemy przez zaprzeczenie.

Załóżmy najpierw, że $ F $ jest domknięty, ale warunek (ii) nie zachodzi. Istnieje wtedy ciąg $ (\xx_j)\subset F $, który jest zbieżny do punktu $ \xx\in \Omega= \R^n\setminus F $. Z definicji zbioru domkniętego wynika, że $ \Omega  $ jest zbiorem otwartym, tzn. dla pewnego $ r>0 $ kula $ B(\xx,r) $ jest zawarta w $ \Omega $ (i oczywiście nie ma punktów wspólnych ze zbiorem $ F=\R^n\setminus\Omega $). Jednak $ \|\xx_j-\xx\|\to 0 $, a więc $ \|\xx_j-\xx\|<r $ dla wszystkich $ j $ dostatecznie dużych; dla takich $ j $ mamy $ \xx_j\in B(\xx,r) $, tzn. $ \xx_j\not \in F $, sprzeczność.

Na odwrót, załóżmy, że (ii) zachodzi, ale $ F $ nie jest domknięty. Wówczas zbiór $ \Omega= \R^n\setminus F $ nie jest otwarty. Zaprzeczając warunkowi, podanemu w Definicji [link], wskażemy taki punkt $ \xx\in \Omega $, że dla każdego $ j\in \N $ kula $ B(\xx,1/j) $ zawiera pewien punkt $ \xx_j\not\in\Omega $, tzn. punkt $ \xx_j\in F $. (Można myśleć o tym tak: punkt $ \xx $ jest `świadkiem', że zbiór $ \Omega $ nie jest owtarty, natomiast punkt $ \xx_j $ jest `świadkiem', że kula $ B(\xx, 1/j) $ nie jest cała zawarta w $ \Omega $.) Wtedy $ \|\xx_j-\xx\|<1/j $, a więc $ F\ni \xx_j\to \xx\in \Omega=\R^n\setminus F $. Otrzymaliśmy sprzeczność z założeniem: warunek (ii) nie zachodzi. □

Uwaga Czytelnik mógłby zadać pytanie: czy, zmieniając w definicjach normę euklidesową $ \|\cdot\|\equiv\|\cdot\|_2 $ na jakąś inną, otrzymalibyśmy w $ \R^n $ tę samą rodzinę zbiorów otwartych (i tę samą rodzinę zbiorów domkniętych)? Okazuje się, że tak: to, czy zbiór jest otwarty, nie zależy od tego, jaką normą się posłużymy, określając kule w Definicji [link]. Wrócimy do tej sprawy później, mówiąc o równoważności norm\/ w $ \R^n $. Najpierw jednak potrzebne nam będą pojęcia zbioru zwartego i funkcji ciągłej.

Zbiory zwarte.

Mówiąc o własnościach funkcji ciągłych jednej zmiennej rzeczywistej, wprowadziliśmy bardzo ważną klasę zbiorów zwartych. Tak samo definiuje się zbiory zwarte w $ \R^n $.

Definicja Zbiór $ K\subset \R^n $ jest zwarty wtedy i tylko wtedy, gdy z każdego ciągu $ (\xx_j) \subset K $ można wybrać podciąg $ (\xx_{j_k}) $ zbieżny do pewnego punktu $ \xx\in K $.
Definicja Zbiór $ A\subset\R^n $ nazywa się ograniczony, jeśli zawiera się w pewnej kuli.
Stwierdzenie Następujące warunki są równoważne:

  1. Zbiór $ K\subset \R^n $ jest zwarty.
  2. Zbiór $ K\subset \R^n $ jest domknięty i ograniczony.
Dowód: Dla każdego zbioru zwartego zachodzi warunek (ii) Stwierdzenia [link] (gdyż dowolny podciąg ciągu zbieżnego jest zbieżny do tej samej granicy, co cały ciąg). Dlatego zwartość pociąga za sobą domkniętość.

Gdyby zbiór $ K $ był zwarty i nieograniczony, to dla każdego $ j $ znaleźlibyśmy punkt $ \xx_j\in K\setminus B(\zero, j) $. Bez zmniejszenia ogólności, przechodząc w razie potrzeby do podciągu zbieżnego, można założyć, że $ \xx_j\to \xx\in K $. Wtedy jednak, z nierówności trójkąta i definicji granicy,

\[ j\le \|\xx_j\| \le \|\xx\|+\|\xx_j-\xx\|\to \|\xx\| < \infty\qquad \mbox{dla $j\to \infty$.} \]

To jest sprzeczność, gdyż lewa strona nie jest ograniczona.

Załóżmy teraz, że zachodzi (ii). Niech $ (\xx_j)\subset K $. Aby wskazać podciąg $ (\xx_j) $ zbieżny do pewnego punktu w $ K $, posłużymy się Stwierdzeniami [link] i [link].

Dla każdego numeru $ i=1,2,\ldots, n $ ciąg współrzędnych $ (x_{j,i})_{j=1,2,\ldots} $ jest ograniczonym ciagiem liczb rzeczywistych. Możemy wybrać podciąg $ j_{k}' $ tak, aby otrzymać zbieżność na pierwszej współrzędnej, tzn. zbieżność $ x_{j_k',1}\to x_1 $. Następnie, z $ j_k' $ można wybrać kolejny podciąg $ j_k'' $ tak, żeby otrzymać zbieżność także na drugiej współrzędnej, itd. Po $ n $ krokach wybierzemy ostatecznie podciąg $ j_k $ taki, że $ x_{j_k,i}\to x_i $ dla każdego $ i=1,2,\ldots, n $. (Czytelnik być może pamięta, że z podobnym kolejnym wybieraniem podciągów mieliśmy do czynienia w dowodzie twierdzenia Arzeli i Ascoliego - tylko tam proces nie kończył się po $ n $ krokach i trzeba było używać metody przekątniowej.) Na mocy Stwierdzenia [link], $ \xx_{j_k}\to \xx $, a na mocy Stwierdzenia [link] i domkniętości $ K $, punkt $ \xx\in K $. □

Funkcje ciągłe: definicje, własności, przykłady

Definicja Funkcja $ f\colon \R^n\supset A\to \R^m $ jest ciągła w punkcie $ \aa\in A $ wtedy i tylko wtedy, gdy dla każdego $ \eps>0 $ istnieje $ \delta>0 $ takie, że jeśli $ \xx\in A $ i $ \|\xx-\aa\|<\delta $, to $ \|f(\xx)-f(\aa)\|<\eps $.

Jak widać, jest to wierny odpowiednik definicji Cauchego funkcji ciągłej jednej zmiennej rzeczywistej. Można też definiować ciągłość funkcji wielu zmiennych, posługując się ciagową definicją Heinego: funkcja $ f\colon \R^n\supset A\to \R^m $ jest ciągła w punkcie $ \aa\in A $ wtedy itylko wtedy, gdy dla każdego ciągu $ A\ni \xx_j\to \aa $ jest $ f(\xx_j)\to f(\aa) $. Dowód równoważności obu definicji jest taki sam, jak w przypadku jednowymiarowym. Nie będziemy go powtarzać.

Mówimy, że funkcja $ f $ jest ciągła na zbiorze $ A $, jeśli jest ciagła w każdym punkcie tego zbioru.

Również jednostajną ciągłość funkcji wielu zmiennych definiuje się tak samo, jak w przypadku jednowymiarowym.

Definicja Funkcja $ f\colon \R^n\supset A\to \R^m $ jest jednostajnie ciągła na $ A $ wtedy i tylko wtedy, gdy dla każdego $ \eps>0 $ istnieje $ \delta>0 $ takie, że jeśli $ \xx,\yy\in A $ i $ \|\xx-\yy\|<\delta $, to $ \|f(\xx)-f(\yy)\|<\eps $.

W zeszłym roku poznaliśmy trzy ogólne twierdzenia, podające własności funkcji ciagłych: twierdzenie Weierstrassa o przyjmowaniu kresów, twierdzenie Cantora o jednostajnej ciągłości oraz własność Darboux. Pierwsze dwa dotyczyły własności funkcji ciągłych $ f\colon \R\supset K\to \R $ na zwartych podzbiorach prostej. Przenoszą się one bez zmian, z takimi samymi dowodami, na przypadek funkcji wielu zmiennych. Oto ich sformułowania.

Twierdzenie [Weierstrassa o przyjmowaniu kresów](#) Jeśli $ K\subset \R^n $ jest niepustym zbiorem zwartym, a funkcja $ f\colon K\to \R $ jest ciągła, to istnieją punkty $ \xx_1,\xx_2\in K $ takie, że

\[ f(\xx_1) = \sup_{K} f\, , \qquad   f(\xx_2) = \inf_{K} f\, .  \]
Twierdzenie [Cantora o jednostajnej ciągłości] Jeśli $ K\subset \R^n $ jest zbiorem zwartym, a funkcja $ f\colon K\to \R $ jest ciągła, to $ f $ jest jednostajnie ciągła na $ K $.

Wspomnijmy jeszcze, zanim przejdziemy do przykładów, że Twierdzenie [link] można traktować jako wniosek z ogólniejszego rezultatu.

Twierdzenie Jeśli $ K\subset \R^n $ jest zbiorem zwartym, a funkcja $ f\colon K\to \R^m $ jest ciągła, to zbiór $ f(K) $ jest zwarty w $ \R^m $.
Dowód: Ustalmy dowolny ciąg punktów $ (\yy_j)\subset f(K) $. Z definicji obrazu zbioru, istnieją punkty $ \xx_j\in K $ takie, że $ \yy_j=f(\xx_j) $ dla każdego $ j\in \N $. Zbiór $ K $ jest zwarty, więc istnieje podciąg $ j_k $ taki, że $ \xx_{j_k}\to \xx\in K $. Wobec ciągłości $ f $, otrzymujemy $ \yy_{j_k}=f(\xx_{j_k})\to f(\xx)\in f(K) $. Zatem, zbiór $ f(K) $ jest zwarty. □

Poznaliśmy formalną definicję ciągłości i trzy proste, choć bardzo ważne twierdzenia, opisujące własności tych funkcji. Przejdźmy teraz do przykładów.

Definicja [warunek Lipschitza] Powiemy, że funkcja $ f\colon \R^n\supset A\to \R^m $ spełnia na zbiorze $ A $ warunek Lipschitza ze stałą $ L $ wtedy i tylko wtedy, gdy nierówność

\[ 	 \|f(\xx)-f(\yy)\| \le L\|\xx-\yy\| 	\]

zachodzi dla wszystkich $ \xx,\yy\in A $.

Nieformalnie mówiąc, funkcja lipschitzowska to taka funkcja, która wszystkie odległości między punktami zwiększa co najwyżej $ L $-krotnie.

Stwierdzenie Jeśli $ f\colon \R^n\supset A\to \R^m $ spełnia warunek Lipschitza ze stałą $ L $, to $ f $ jest jednostajnie ciągła na $ A $.
Dowód: (Jest taki sam, jak w przypadku jednowymiarowym). Dla $ L=0 $ teza jest oczywista. Załóżmy więc, że $ L>0 $.

Niech $ \eps>0 $; weźmy $ \delta=\eps/L $. Jeśli $ \xx,\yy\in A $ i $ \|\xx-\yy\|<\delta $, to mamy wtedy

\[ \|f(\xx)-f(\yy)\|  \le L\|\xx-\yy\| < L\delta=\eps\, ,                                      \]

a zatem, dzięki dowolności $ \eps>0 $, $ f $ jest jednostajnie ciągła na $ A $. □

Przykład (#) Funkcja $ f(\xx)=x_i $, przypisująca każdemu punktowi wartość jego $ i $-tej współrzędnej, jest ciągła na $ \R^n $, gdyż spełnia warunek Lipschitza ze stałą 1. Istotnie,

\[ 	|f(\xx)-f(\yy)|= |x_i-y_i|\le \biggl(\sum_{j=1}^n |x_j-y_j|^2\biggr)^{1/2}=\|\xx-\yy\|\, . 	\]

Na przypadek wielowymiarowy przenoszą się bez żadnych istotnych zmian (analizę szczegółów w prostych dowodach pozostawiamy dla Czytelnika jako ćwiczenie) twierdzenia o ciągłości sumy, iloczynu, ilorazu czy złożenia funkcji ciągłych, które poznaliśmy dla funkcji jednej zmiennej rzeczywistej.

Sformułujmy je dla porządku.

Stwierdzenie Jeśli $ f,g\colon \R^n\supset A\to \R^m $ są ciągłe w punkcie $ a\in A $, to wówczas funkcja $ f+g\colon \R^n\supset A\to \R^m $ też jest ciągła w punkcie $ a\in A $. □

Wynika stąd w szczególności, że przestrzeń funkcji ciągłych $ C(A,\R^m) $, określonych na zbiorze $ A\subset \R^n $ i przyjmujących wartości w $ \R^m $, jest przestrzenią liniową nad $ \R $.

Stwierdzenie Jeśli $ f\colon \R^n\supset A\to \R^m $ i $ g\colon \R^n\supset A\to \R $ są ciągłe w punkcie $ a\in A $, to wówczas funkcja $ g\cdot f\colon \R^n\supset A\to \R^m $ też jest ciągła w punkcie $ a\in A $. □
Stwierdzenie Jeśli $ g\colon \R^n\supset A\to \R\setminus\{0\} $ jest ciągła w punkcie $ a\in A $, to wówczas funkcja $ \frac 1g \colon \R^n\supset A\to \R\setminus\{0\} $ też jest ciągła w punkcie $ a\in A $. □
Stwierdzenie [ciągłość złożenia] Jeśli $ f\colon \R^n\supset A\to \R^m $ jest ciągła w punkcie $ a\in A $, zaś $ g\colon \R^m\subset B\to \R^k $, gdzie $ B\supset f(A) $ (tzn. wszystkie wartości funkcji $ f $ należą do dziedziny funkcji $ g $) jest ciągła w punkcie $ b=f(a) $, to wówczas funkcja $ g\circ f\colon \R^n\supset A\to \R^k $ jest ciągła w punkcie $ a\in A $. □

Wreszcie, zachodzi następujący prosty odpowiednik Stwierdzenia [link], dzięki któremu można sprowadzić badanie ciągłości odwzorowania o wartościach w $ \R^m $ do badania ciągłości poszczególnych współrzędnych tego odwzorowania.

Stwierdzenie Niech $ f=(f_1,\ldots,f_m)\colon \R^n\supset A\to \R^m $ i $ \aa\in A $. Następujące warunki są równoważne:

  1. Funkcja $ f $ jest ciągła w punkcie $ \aa $.
  2. Dla każdego $ j=1,2,\ldots, m\,  $ funkcja $ f_j $ jest ciągła w punkcie $ \aa $.

(#)

Dowód: Dla każdego $ j_0=1,2,\ldots, m $ i każdego ciągu $ (\xx_k)\subset A $, $ \xx_k\to \aa $ mamy oczywiście

\[ 0\le |f_{j_0}(\xx_k)-f_{j_0}(\aa)|\le \biggl(\sum_{j=1}^m |f_{j}(\xx_k)-f_{j}(\aa)|^2\biggr)^{1/2} = \|f(\xx_k)-f(\aa)\|\, . \]

Dlatego implikacja (i) $ \Rightarrow $ (ii) wynika natychmiast z twierdzenia o trzech ciągach, a implikacja w drugą stronę jest konsekwencją arytmetycznych własności granicy i ciągłości pierwiastka kwadratowego. □

Uwaga W powyższym stwierdzeniu ciągłość $ f_j $ wynika także stąd, że $ f_j $ jest złożeniem $ f $ i rzutu na $ j $-tą oś układu współrzędnych. To minimalnie inny sposób wypowiedzenia tego samego faktu.
Wniosek Każdy wielomian $ n $ zmiennych rzeczywistych jest funkcją ciagłą.
Dowód: To wynika natychmiast z ciągłości funkcji współrzędnych i funkcji stałej, oraz z ciągłości sumy i iloczynu funkcji ciągłych. □
Wniosek Wyznacznik macierzy jest funkcją ciągłą na zbiorze $ M_{n\times n}\simeq\R^{n^2} $ wszystkich macierzy kwadratowych $ n\times n $.
Dowód: Z permutacyjnej definicji wyznacznika wiadomo, że

\[ \det X = \sum_{\sigma\in S_n} \mathrm{sgn}\,  \sigma \cdot x_{1,\sigma(1)}x_{2,\sigma(2)}\cdot\ldots\cdot x_{n,\sigma(n)}\, , \qquad X=(x_{i,j})_{1\le i,j\le n}\, , \]

gdzie sumowanie odbywa się względem wszystkich permutacji $ \sigma\in S_n $ zbioru $ n $-ele\-men\-towego, a $ \mathrm{sgn}\,  \sigma=\pm 1 $ oznacza znak permutacji. Zatem, wyznacznik jest po prostu wielomianem $ n^2 $ zmiennych rzeczywistych (wyrazów macierzy $ X $), a więc jest funkcją ciągłą. □

Z ostatniego wniosku wynika łatwo, że zbiór wszystkich macierzy odwracalnych jest otwartym podzbiorem $ M_{n\times n}\simeq\R^{n^2} $. Wiąże się z tym następująca ważna intuicja: mała zmiana wyrazów macierzy odwracalnej daje macierz odwracalną. Sformułujmy to ściśle.

Stwierdzenie Jeśli $ f\colon \R^n\supset \Omega\to \R $ jest ciągła, a $ \Omega $ jest otwartym podzbiorem $ \R^n $, to dla każdego przedziału otwartego $ (a,b)\supset \R $ (dopuszczamy też możliwość $ a=-\infty $ lub $ b=+\infty $) zbiór $ U=f^{-1}\bigl((a,b)\bigr) $ jest otwarty. (#)
Dowód: Wybierzmy $ \xx\in U $. Znajdziemy taką liczbę $ \delta>0 $, że $ B(\xx,\delta)\subset U $, co zakończy dowód otwartości tego zbioru.

Skoro $ \xx\in U $, to z definicji $ a<f(\xx)<b $. Wybierzmy taką liczbę $ \eps>0 $, żeby przedział $ (f(\xx)-\eps,f(\xx)+\eps) $ był zawarty w $ (a,b) $. Następnie, dobierzmy $ \delta>0 $ tak, aby dla $ \|\yy-\xx\|<\delta $ zachodziła nierówność $ |f(\xx)-f(\yy)|<\eps $ (uwaga: tu właśnie korzystamy z ciągłości $ f $). Wtedy

\[ f(\yy)\in (f(\xx)-\eps,f(\xx)+\eps) \subset (a,b), \]

a więc, wprost z definicji przeciwobrazu, $ \yy\in f^{-1}\bigl((a,b)\bigr)=U $. Wykazaliśmy więc, że jeśli $ \yy\in B(\xx,\delta) $, to $ \yy\in U $, tzn. $ B(\xx,\delta)\subset U $. Zgodnie z początkową zapowiedzią, dowód jest zakończony.□

Wniosek Zbiór macierzy odwracalnych $ n\times n $ jest otwartym podzbiorem $ M_{n\times n}\simeq\R^{n^2} $.
Dowód: Zbiór, o który chodzi, jest sumą dwóch zbiorów:

\[ \{X\in M_{n\times n}\colon \det X > 0\} \qquad\mbox{oraz}\qquad \{X\in M_{n\times n}\colon \det X < 0\}. \]

Ze Stwierdzenia [link] i ciągłości wyznacznika wnioskujemy, że każdy z tych zbiorów jest otwarty, a więc ich suma też jest zbiorem otwartym. □

Ciągłość norm i przekształceń liniowych

Stwierdzenie Każde przekształcenie liniowe $ A\colon \R^n\to \R^m $ spełnia warunek Lipschitza (w szczególności: jest ciągłe). (#)
Dowód: Niech $ A=(a_{ij}) $, bez zbytnich obaw o kolizję oznaczeń, oznacza macierz przekształcenia $ A $ w standardowych bazach $ \R^n $ i $ \R^m $. Wektory standardowej bazy w $ \R^n $ będziemy oznaczać

\[ \ee_i=(0,\ldots,0,\underbrace{1}_{i},0,\ldots,0)\, ,\qquad i=1,\ldots,n. \]

Zauważmy, że zapis $ \xx=(x_1,\ldots,x_n) $ oznacza tyle samo, co $ \xx=\sum x_i\ee_i $. Posługując się najpierw nierównością trójkąta i własnościami normy, następnie zaś nierównością Schwarza, łatwo sprawdzamy, że

\[ \begin{eqnarray*} \|A\xx\| & = & \biggl\|\sum_{i=1}^n x_i\, A\ee_i\biggr\|  \\            & \le &\sum_{i=1}^n |x_i|\, \cdot\,  \|A\ee_i\|  \\ & \le & \biggl(\sum_{i=1}^n |x_i|^2\biggr)^{1/2}  \biggl(\sum_{i=1}^n \|A\ee_i\| ^2\biggr)^{1/2}\\ & = & C\|x\|\, ,            \end{eqnarray*} \]

gdzie

\[ C\equiv C_A =   \biggl(\sum_{i=1}^n \|A\ee_i\| ^2\biggr)^{1/2}  \]

jest pewną stałą, zależną tylko od przekształcenia $ A $, nie zaś od punktu $ \xx $.

Zastępując w powyższym rachunku wektor $ \xx $ wektorem $ \xx-\yy $, otrzymujemy

\[ \|A\xx-A\yy\| = \|A(\xx-\yy)\|\le C \|\xx-\yy\|, \qquad\xx,\yy\in \R^n\, . \]

Przekształcenie $ A\colon R^n\to \R^m $ spełnia więc warunek Lipschitza.□

Uwaga Definicję ciągłości można formalnie, bez najmniejszych zmian, przenieść na przypadek funkcji $ f\colon V\to W $, gdzie $ V,W $ są przestrzeniami liniowymi unormowanymi. Jednak, gdy $ V $ ma wymiar nieskończony, to istnieją przekształcenia liniowe $ A\colon V\to \R $, które nie są ciągłe. Czytelnik, zapoznawszy się do końca z treścią tego rozdziału, może samodzielnie zastanowić się nad (prostymi) przykładami.
Uwaga Stała $ C_A $, którą uzyskaliśmy w powyższym dowodzie, jest (na ogół) nieoptymalna. Zauważmy, że $ A\ee_i $ to po prostu $ i $-ta kolumna macierzy $ A $. Dlatego

\[ C_A =   \biggl(\sum_{i=1}^n \|A\ee_i\| ^2\biggr)^{1/2}=  \biggl(\sum_{i,j} a_{ij}^2\biggr)^{1/2}  \]

jest po prostu normą euklidesową macierzy $ A $, traktowanej jako wektor o $ n\cdot m $ współrzędnych. Np. dla $ n=m=3 $ i $ A=\mathrm{Id}\colon \R^3\to \R^3 $ otrzymujemy tu wynik $ C_{\mathrm{Id}}=\sqrt{3} $, a widać wszak, że dla przekształcenia identycznościowego odpowiednia nierówność zachodzi ze stałą równą $ 1 $ (i jest po prostu równością).

Zadanie Wykazać, że dla przekształcenia liniowego $ A\colon V\to W $, gdzie $ V,W $ są przestrzeniami liniowymi unormowanymi, następujące warunki są równoważne:

  1. $ A $ jest ciągłe na $ V $;
  2. $ A $ jest ciągłe w jednym punkcie przestrzeni $ V $;
  3. Istnieje taka stała $ C $, że $ \|A\xx\|\le C\|\xx\| $ dla wszystkich $ \xx\in V $.

Nietrudno sprawdzić, że wśród wszystkich stałych, spełniających warunek (iii) z powyższego zadania, istnieje zawsze najmniejsza (nierówności nieostre zachowują się w granicy). Tę stałą nazywamy normą (lub normą operatorową) przekształcenia liniowego $ A $ i oznaczamy $ \|A\| $. Ma ona poglądową interpretację geometryczną: dla $ A\colon\R^n\to \R^m $ liczba $ \|A\| $ jest równa

\[ \sup_{\|\xx\|=1} \|A\xx\|\, , \]

tzn. jest długością najdłuższej półosi elipsoidy, która jest obrazem kuli jednostkowej pod działaniem przekształcenia $ A $.

Stwierdzenie Niech $ f(\xx)=\|\xx\|' $ będzie dowolną normą na przestrzeni $ \R^n $. Wówczas $ f $ spełnia warunek Lipschitza w normie euklidesowej $ \|\cdot\|\equiv\|\cdot\|_2 $. W szczególności, dowolna norma jest funkcją ciągłą na $ \R^n $.
Dowód: Dla każdego $ \xx\in \R^n $, postępując tak samo, jak w początkowej części dowodu Stwierdzenia [link], otrzymujemy

\[ \|\xx\|'=\biggl\|\sum_{i=1}^nx_i\ee_i\biggr\|'\le   \sum_{i=1}^n|x_i|\cdot\|\ee_i\|' \le \|x\|_2\cdot \biggl(\sum_{i=1}^n\bigl(\|\ee_i\|'\bigr)^2\biggr)^{1/2}=C\|x\|_2, \]

gdzie stała

\[ C=\biggl(\sum_{i=1}^n\bigl(\|\ee_i\|'\bigr)^2\biggr)^{1/2} \]

zależy tylko od nieznanej normy $ \|\cdot\|' $, nie zaś od konkretnego punktu $ \xx\in\R^n $. Dlatego, z nierówności trójkąta,

\[ \bigl|\|\xx\|'-\|\yy\|'\bigr| \le \|\xx-\yy\|' \le C \|\xx-\yy\|_2 \, , \]

tzn. funkcja $ f=\|\cdot\|' $ spełnia warunek Lipschitza ze stałą $ C $. □

Definicja [równoważność norm] Powiemy, że normy $ \|\cdot\| $ i $ \|\cdot\|' $ określone na tej samej przestrzeni liniowej $ V $ są równoważne wtedy i tylko wtedy, gdy istnieje stała $ C\ge 1 $ taka, że

\[ 	\frac 1C \|\xx\|'\le \|\xx\|\le C\|\xx\|' \qquad\mbox{dla wszystkich $\xx\in V$.} 	\]
Twierdzenie Wszystkie normy na przestrzeni $ \R^n $ są równoważne.

     Dowód tego twierdzenia pozostawimy jako zadanie dla Czytelnika. Oto wskazówka: wystarczy umieć porównać każdą normę z normą euklidesową; porównanie $ \|\cdot\|'\le C\|\cdot\|_2 $ przeprowadziliśmy w ostatnim dowodzie. Wystarczy zatem wykazać, że zachodzi, być może z inną stałą, nierówność przeciwna. Można w tym celu wykorzystać twierdzenie Weierstrassa o przyjmowaniu kresów i fakt, że sfera $ \{\xx\in \R^n\colon x_1^2+\cdots+x_n^2=1\} $ jest zbiorem zwartym.

Inne z eleganckich zastosowań twierdzenia Weierstrassa opisuje poniższy

Przykład [dowód nierówności między średnimi] (#) Załóżmy, że $ x_1,\ldots,x_n\ge 0 $. Wykażemy nierówność między średnią arytmetyczną i geometryczną,

\[ \begin{equation} 	\label{AG}  \bigl(x_1x_2\ldots x_n\bigr)^{1/n}\le \frac{x_1+x_2+\cdots+x_n}n \, ,    \end{equation} \]

a także sprawdzimy, że równość w tej nierówności zachodzi wtedy i tylko wtedy, gdy wszystkie liczby $ x_i $ są równe.

Zauważmy najpierw, że rozważania wystarczy ograniczyć do przypadku, gdy $ x_1+x_2+\cdots+x_n=n $. To wynika z jednorodności: jeśli każdą z liczb $ x_i $ pomnożymy przez ten sam współczynnik $ t>0 $, to lewa i prawa strona AG też zostaną pomnożone przez $ t $.

Oznaczmy teraz

\[                                                              K=\{\xx\in\R^n  \colon x_i\ge 0 \mbox{ dla wszystkich $i$, a ponadto } x_1+\cdots+x_n=n\}\, . \]

Zbiór $ K $ jest zwarty. ($ K $ jest określony przez układ nierówności nieostrych, więc jego domkniętość uzysujemy np. ze Stwierdzenia , to $ \|\xx\|_\infty=\max |x_i|\le n $; stąd ograniczoność i ostatecznie zwartość $ K $." title="chardomkn). Jeśli $ \xx\in K $, to $ \|\xx\|_\infty=\max |x_i|\le n $; stąd ograniczoność i ostatecznie zwartość $ K $." class="ext">[link] Dla $ \xx\in K $ prawa strona nierówności AG jest równa 1. Wystarczy więc wykazać, że

\[ f(\xx):=x_1x_2\ldots x_n \le 1=f(1,1,\ldots, 1)\qquad \mbox{dla wszystkich $\xx\in K$,}   \]

przy czym równość zachodzi jedynie wtedy, gdy $ \xx=(1,1,\ldots,1)\in K $.

Funkcja $ f(\xx)=x_1x_2\ldots x_n $ jest ciągła, osiąga zatem w pewnym punkcie $ \aa\in K $ swój kres górny. Przypuśćmy, że ów punkt ma pewne dwie współrzędne różne, np. dla ustalenia uwagi niech $ a_1<a_2 $. Z pewnością $ \sup f\ge 1 $, więc $ a_i>0 $ dla wszystkich $ i $. Rozważmy pomocniczy punkt

\[ \aa'=\bigl((a_1+a_2)/2,(a_1+a_2)/2, a_3,\ldots,a_n\bigr). \]

Suma jego współrzędnych jest równa $ \sum a_i=n $, więc także $ \aa'\in K $. Nietrudno jednak sprawdzić, że z uwagi na ostrą nierówność $ a_1<a_2 $ jest (To w istocie nierówność między średnią arytmetyczną i geometryczną dwóch liczb).

\[  \left(\frac{a_1+a_2}2\right)^2 > a_1a_2 \]

stąd zaś, ponieważ $ a_i>0 $ dla wszystkich $ i $,

\[ f(\aa')=\left(\frac{a_1+a_2}2\right)^2a_3\ldots a_n> a_1a_2a_3\ldots a_n= f(\aa)=\sup_K f\, , \]

sprzeczność. Punkt $ \aa $, w którym $ f $ osiąga największą wartość, musi więc mieć wszystkie współrzędne równe. W $ K $ jest tylko jeden taki punkt, mianowicie $ \aa=(1,1,\ldots, 1) $.

Ostatecznie więc

\[ \bigl(x_1x_2\ldots x_n\bigr)^{1/n}\le 1 \qquad \mbox{na $K$},  \]

i równość zachodzi wtedy i tylko wtedy, gdy $ x_1=x_2=\ldots =x_n=1 $. □

Przykład (#) Rozważmy teraz funkcję dwóch zmiennych rzeczywistych daną wzorem

\[ 	f(x,y)=\left\{ 	\begin{array}{ll} 		\displaystyle\frac{yx^2}{y^2+x^4}\, , \qquad & (x,y)\not=(0,0),\\[12pt] 	   0, & (x,y)=(0,0).    \end{array}\right. \]

Funkcja $ f $ jest ciągła na $ \R^2\setminus\{\zero\}; $ to wynika z ciągłości licznika i mianownika.

Wykres funkcji $ f $ z Przykładu [link]; na rysunku jest $ x^2+y^2>1/500 $ (tzn. z dziedziny $ f $ wycięty został niewielki dysk o środku w zerze) i $ x,y\in [-1,1] $. Grubymi liniami zaznaczono parabole, złożone z punktów $ (t,t^2,1/2) $ oraz $ (t,-t^2,-1/2) $, gdzie $ t\in [-1,1] $: z dokładnością do punktów $ (0,0,\pm \frac 12) $, obie są położone na wykresie $ f $.

Na osiach układu współrzędnych w $ \R^2 $, tzn. tam, gdzie $ x=0 $ lub $ y=0 $, $ f $ przybiera wartość 0. Na prostej o równaniu $ y=kx $ funkcja $ f $ ma wartość

\[ f(x,kx)=\frac{kx^3}{k^2x^2+x^4}=\frac{kx}{k^2+x^2} \to 0\, , \qquad x\to 0. \]

Zatem, analizując zachowanie $ f $ na wszystkich prostych przechodzących przez $ \zero\in \R^2 $, nie widzimy jeszcze powodu, dla którego $ f $ miałaby być nieciągła w zerze. Jednak na paraboli o równaniu $ y=x^2 $ jest, poza punktem $ (0,0) $,

\[ f(x,x^2)= \frac{x^4}{(x^2)^2+x^4}=\frac{1}{2}. \]

Nie jest więc prawdą, że $ f(x_n,y_n)\to 0 $ dla każdego ciągu $ (x_n,y_n) $ zbieżnego do $ \zero\in \R^2 $: wystarczy wędrować do zera po paraboli i wtedy $ f(x_n,y_n)\equiv \frac 12 \not \to 0 $. □

Zbiory spójne

Aby zakończyć krótki przegląd podstawowych własności funkcji ciągłych, podamy jeszcze wielowymiarowy odpowiednik własności Darboux. Potrzebne nam będzie w tym celu pojęcie zbioru spójnego. Oto odpowiednia definicja.

Definicja Zbiór $ A\subset \R^n $ jest niespójny wtedy i tylko wtedy, gdy istnieją dwa zbiory otwarte $ \Omega_1,\Omega_2\subset\R^n $ takie, że

\[ \begin{equation} 		\label{niespojny} 		\Omega_1\cap A\not=\emptyset\not=\Omega_2\cap A, \qquad \Omega_1\cap\Omega_2\cap A=\emptyset, \qquad A \subset \Omega_1\cup \Omega_2\, . \end{equation} \]

Zbiór $ B $ nazywa się spójny, jeśli nie jest niespójny.

Przykład [spójność odcinka] Sprawdzimy, że dla dowolnych punktów $ \xx,\yy\in \R^n $ odcinek

\[ [\xx,\yy]=\{\zz(t)= (1-t)\xx+t\yy\in \R^n\colon t\in [0,1]\} \]

jest zbiorem spójnym.

Dowód:Przypuśćmy, że jest przeciwnie. Niech $ \Omega_1,\Omega_2 $ będą zbiorami otwartymi, spełniającymi niespojny dla $ A=[\xx,\yy] $. Bez zmniejszenia ogólności przyjmijmy, że $ \xx\in \Omega_1 $. Z otwartości $ \Omega_1 $ wynika, że punkt $ \zz(t)=(1-t)\xx+t\yy\in \Omega_1 $ dla wszystkich dostatecznie małych (Czytelnik sprawdzi, że jest tak dla $ 0\le t<\delta/\|\yy-\xx\| $, gdzie $ \delta>0 $ jest taką liczbą, że $ B(\xx,\delta)\subset\Omega_1 $.) $ t\ge 0 $. Oznaczmy teraz

\[ S_1=\{s\in [0,1]\colon \mbox{dla wszystkich $t\in [0,s]$ punkt $\zz(t)\in \Omega_1$}\}\, .  \]

To jest niepusty i ograniczony podzbiór odcinka $ [0,1] $. Niech $ \sigma=\sup S_1 $. Mamy $ \sigma \in (0,1] $. Gdyby $ \sigma<1 $, $ \sigma\in S_1 $, to odcinek $ [x,\zz(\sigma)] $ zawierałby się w $ \Omega_1 $. Biorąc $ \rho>0 $ takie, że $ B(\zz(\sigma),\rho)\subset\Omega_1 $, sprawdzamy, że

\[ \|\zz(\sigma)-\zz(s)\|=|\sigma-s|\cdot \|\xx-\yy\|<\rho \qquad\mbox{dla $|\sigma-s|<\rho/\|\xx-\yy\|$, $s\in [0,1]$,} \]

tzn. $ \zz(s)\in\Omega_1 $ dla wszystkich $ s $ dostatecznie bliskich $ \sigma $, co przeczy temu, że $ \sigma=\sup S_1 $.

Gdyby $ \sigma=1\in S_1 $, to mielibyśmy $ [\xx,\yy]\subset \Omega_1 $, co przeczy definicji niespójności: zbiory $ \Omega_i\cap [\xx,\yy] $ powinny być oba niepuste i rozłączne.

Zatem $ 0<\sigma\not\in S_1 $, stąd zaś wynika, że $ \zz(\sigma)\in \Omega_2 $. Wtedy jednak, tym razem wobec otwartości $ \Omega_2 $, dla wszystkich $ s $ dostatecznie bliskich $ \sigma $ jest $ \zz(s)\in \Omega_2 $, co przeczy równości $ \sigma=\sup S_1 $ i definicji $ S_1 $. □

Przykład [spójność łamanych] Łamaną w $ \R^n $ nazwiemy sumę skończenie wielu odcinków $ I_1 $, \ldots, $ I_N $, o tej własności, że koniec odcinka $ I_k $ jest początkiem $ I_{k+1} $ dla każdego $ k=1,2,\ldots, N-1 $. (Odcinki mogą mieć inne punkty wspólne: nie wymagamy, żeby łamana nie przecinała siebie samej).

Każda łamana też jest zbiorem spójnym. Można to wykazać na kilka sposobów. Po pierwsze, łamana jest ciągłym obrazem odcinka, a ciągły obraz zbioru spójnego jest zbiorem spójnym (oba fakty nietrudno udowodnić samemu; szczegóły, które pojawią się na zajęciach z topologii, pozostawimy Czytelnikowi). Po drugie, można wykorzystać spójność odcinka i stosować przez indukcję następujący lemat:

Lemat Jeśli zbiory $ A,B\subset\R^n $ są spójne i $ A\cap B\not=\emptyset $, to $ S=A\cup B $ jest zbiorem spójnym.
Dowód: Przypuśćmy, że tak nie jest. Istnieją wtedy zbiory otwarte $ \Omega_1,\Omega_2\subset\R^n $ takie, że

\[ \begin{equation} 			\label{niespojnysum} 			\Omega_1\cap S\not=\emptyset\not=\Omega_2\cap S, \qquad \Omega_1\cap\Omega_2\cap S=\emptyset, \qquad S \subset \Omega_1\cup \Omega_2\, . 	\end{equation} \]

Niech $ \xx\in A\cap B $. Bez zmniejszenia ogólności, $ \xx\in \Omega_1 $. Zbiór $ A $ jest zawarty w sumie $ S $ zbiorów $ A $ i $ B $; dlatego, wobec drugiego i trzeciego warunku w niespojnysum,

\[  \Omega_1\cap\Omega_2\cap A=\emptyset, \qquad A \subset \Omega_1\cup \Omega_2\, . \]

Jednak $ A $ jest spójny, dlatego - z definicji! - któryś ze zbiorów $ \Omega_i\cap A $ musi być pusty. Ponieważ $ \xx\in A\cap\Omega_1 $, tzn. $ A\cap\Omega_1 $ nie jest pusty, więc $ A\cap\Omega_2=\emptyset $. Ponieważ $ \xx\in B, $ więc, powtarzając powyższe rozumowanie, wnioskujemy, że $ B\cap\Omega_2=\emptyset $.

Skoro jednak $ A\cap\Omega_2=B\cap\Omega_2=\emptyset $, to $ (A\cup B)\cap \Omega_2=S\cap \Omega_2=\emptyset $. Otrzymaliśmy sprzeczność z pierwszym warunkiem w niespojnysum.□

Uwaga Proszę sprawdzić, że powyższy lemat zachodzi nie tylko dla dwóch zbiorów spójnych, ale i dla dowolnej rodziny zbiorów spójnych, mających choć jeden punkt wspólny. W dowodzie trzeba dopasowac tylko oznaczenia.
Twierdzenie Załóżmy, że zbiór $ U\subset \R^n $ ma następującą własność: dla każdych $ \xx,\yy\in U $ istnieje zbiór spójny $ A\subset U $ taki, że $ \xx,\yy\in A $. Wtedy $ U $ jest spójny.
Dowód: Przypuśćmy, że $ U $ nie jest spójny. Weźmy zbiory otwarte $ \Omega_1,\Omega_2\subset\R^n $ takie, że

\[ 		\Omega_1\cap U\not=\emptyset\not=\Omega_2\cap U, \qquad \Omega_1\cap\Omega_2\cap U=\emptyset, \qquad U \subset \Omega_1\cup \Omega_2\, . \]

Niech $ \xx\in \Omega_1\cap U $, $ \yy\in \Omega_2\cap U $. Dobierzmy zbiór spójny $ A\subset U $ taki, że $ \xx,\yy\in A $. Wtedy

\[ 		\Omega_1\cap A\supset\{\xx\}\not=\emptyset\not=\{\yy\}\subset\Omega_2\cap A, \qquad \Omega_1\cap\Omega_2\cap A=\emptyset, \qquad A\subset U \subset \Omega_1\cup \Omega_2\, . \]

To jednak przeczy spójności $ A $, zatem $ U $ nie może być niespójny.□

Wniosek (#) Jeśli dowolne dwa punkty zbioru $ U $ można połączyć łamaną (ogólniej: krzywą) zawartą w tym zbiorze, to $ U $ jest zbiorem spójnym.

Okazuje się, że jeśli zbiór $ U $ jest otwarty, to implikację z ostatniego wniosku można odwrócić. Zachodzi następujące twierdzenie.

Twierdzenie [spójność zbiorów otwartych] Niech $ U\subset\R^n $ będzie otwarty. Wówczas $ U $ jest spójny wtedy i tylko wtedy, gdy dowolne dwa punkty zbioru $ U $ można połączyć łamaną, zawartą w tym zbiorze.

     Łamane można w tym twierdzeniu zastąpić ogólniejszymi krzywymi (definiując krzywą jako ciagły obraz odcinka). Zanim przejdziemy do dowodu, podkreślmy ważną rzecz: teza tego twierdzenia nie zachodzi dla zbiorów, które nie są otwarte. Różne przykłady Czytelnik pozna na zajęciach z Topologii; w szczególności, zbiór

\[ A=\{(x,y)\in \R^2\colon x=0, -1\le y\le 1\}\ \cup\ \{(x,y)\in \R^2\colon x>0, \ y=\sin (1/x)\} \]

jest spójny, ale nie każde jego dwa punkty można połączyć krzywą zawartą w $ A $.

Dowód: Wobec Wniosku [link] wystarczy wykazać, że jeśli $ \xx\in U $, to dla każdego $ \yy\in U $ istnieje łamana zawarta w $ U $ i łącząca punkty $ \xx,\yy $.

Dla $ \xx\in U $ niech

\[ U(\xx)=\{\zz\in U\colon \mbox{istnieje łamana $L\subset U$, łącząca $\xx$ i $\zz$}\}\, . \]

Zauważmy:

\[ \begin{equation} 	\label{spojnoscUxx}   	\mbox{dla każdego $\xx\in U$ zbiór $U(\xx)$ jest niepusty, otwarty i spójny. } \end{equation} \]

Istotnie, jeśli $ z\in U(\xx)\subset U $, to wobec otwartości $ U $ pewna kula $ B(\zz,\delta)\subset U $. Każdy punkt $ \yy $ tej kuli można połączyć odcinkiem (promieniem) ze środkiem kuli, punktem $ \zz $. Dodając ten odcinek do zawartej w $ U $ łamanej o końcach $ \xx,\zz $, otrzymamy łamaną, która łączy w zbiorze $ U $ punkty $ \yy $ i $ \xx $. Dlatego $ B(\zz,\delta)\subset U(\xx) $, a więc $ U(\xx) $ jest otwarty. Spójność $ U(\xx) $ wynika z Wniosku [link]: jeśli dwa punkty $ \zz_1,\zz_2\in U(\xx) $, to istnieje łamana, łącząca je w $ U(\xx) $. Łączymy po prostu łamaną w $ U $ punkty $ \zz_1 $ i $ \xx $, a nastepnie $ \xx $ i $ \zz_2 $; każdy punkt takiej łamanej z definicji należy do $ U(\xx) $.

Rozumując podobnie, stwierdzamy, że jeśli $ U(\yy)\cap U(\xx) $ jest zbiorem niepustym, to $ \yy\in U(\xx) $, a zatem cały zbiór $ U(\yy)\subset U(\xx) $. Czytelnik sam zechce wskazać łamane, łączące odpowiednie punkty. Zamieniając rolami $ \xx $ i $ \yy $, otrzymujemy inkluzję przeciwną. Zatem:

\[ \begin{equation}  	\mbox{jeśli $U(\xx)\cap U(\yy)\not = \emptyset$, to $U(\xx)=U(\yy)$.} \label{skladowax} \end{equation} \]

Ustalmy teraz $ \xx_0\in U $. Przypuśćmy, że punktu $ \yy_0\in U $ nie można z $ \xx_0 $ połączyć łamaną. Niech $ \Omega_1 $ będzie sumą tych zbiorów $ U(\zz) $, które mają punkty wspólne z $ U(\xx_0) $. Wobec skladowax, mamy $ \Omega_1=U(\xx_0)\not=\emptyset $. Niech $ \Omega_2 $ będzie sumą tych zbiorów $ U(\zz) $, które nie mają punktów wspólnych z $ U(\xx_0) $. Z założenia, $ U(\yy_0)\subset \Omega_2 $, więc $ U\cap\Omega_2\not=\emptyset $.

Z określenia $ \Omega_1 $ i $ \Omega_2 $ wnioskujemy łatwo, że $ \Omega_1 $ i $ \Omega_2 $ są rozłączne. Są też otwarte; to wynika z otwartości $ U(\xx) $ i Stwierdzenia [link]. Są też niepuste ($ \xx_0\in \Omega_1 $, a $ \yy_0\in \Omega_2 $), a ich suma jest zbiorem $ U $. To przeczy spójności $ U $. Uzyskana sprzeczność kończy dowód.□

Twierdzenie [własność Darboux](#) Załóżmy, że zbiór $ \Omega\subset \R^n $ jest otwarty i spójny, a funkcja $ f\colon \Omega\to \R $ jest ciągła. Jeśli $ \xx,\yy\in \Omega $ i

\[   f(\xx)< c <f(\yy) \]

dla pewnego $ c\in \R $, to wówczas istnieje punkt $ \zz\in \Omega $ taki, że $ f(\zz)=c $.

Dowód: Wybierzmy łamaną $ L $, która łączy w zbiorze $ \Omega $ punkty $ \xx $ i $ \yy $. Niech $ \gamma\colon [0,1]\to L $ będzie funkcją ciągłą (Można wybrać funkcję $ \gamma $, która jest kawałkami afiniczna: po prostu parametryzujemy kolejne odcinki łamanej $ L $, np. dzieląc $ [0,1] $ na tyle przedziałów, z ilu odcinków składa się $ L $.) taką, że $ \gamma(0)=\xx $ i $ \gamma(1)=\yy $.

Funkcja $ g=f\circ\gamma\colon [0,1]\to \R $ jest ciągła i spełnia

\[ g(0)=f(\gamma(0))=f(\xx) <c <f(\yy)=f(\gamma(1))=g(1)\, . \]

Dlatego istnieje $ s\in (0,1) $ takie, że $ g(s)=c $. Zatem $ f(\zz)=c $ dla $ \zz=\gamma(s) $. □

Uwaga Czytelnik zechce zauważyć, że wykazaliśmy w istocie, że przy założeniach Twierdzenia [link] punkt pośredni $ \zz $, o którym mowa w tezie, można znaleźć na każdej łamanej, łączącej w $ \Omega $ punkty $ \xx,\yy $.

Na zakończenie powiemy kilka słów o ciągłości funkcji odwrotnej do funkcji wielu zmiennych (i założeniach, których wymaga odpowiednik jednowymiarowego twierdzenia o ciągłości funkcji odwrotnej).

Twierdzenie (#) Załóżmy, że zbiór $ K\subset \R^n $ jest zwarty, a funkcja $ f\colon \R^n\supset K\to \R^m $ jest ciągła i różnowartościowa. Wówczas $ g=f^{-1}\colon \R^m\supset f(K)\to \R^n $ jest ciągła.
Dowód: Załóżmy, że $ \yy_j\to \yy\in f(K) $. Wykażemy, że $ g(\yy_j)\to g(\yy) $ dla $ j\to \infty $.

Niech $ \xx_j=g(\yy_j)\in K $. Ponieważ $ K $ jest zwarty, więc istnieje podciąg $ \xx_{j_k}\to\xx\in K $. Zatem, wobec ciągłości $ f $, ciąg $ \yy_{j_k}=f(\xx_{j_k}) $ ma granicę $ f(\xx) $, a ponieważ ciąg nie może mieć dwóch granic, więc $ f(\xx)=\yy $, tzn. $ \xx=g(\yy) $. Wiemy zatem, że $ g(\yy_{j_k})=\xx_{j_k}\to g(\yy) $.

Rozumując podobnie, można wykazać, że każdy podciąg ciągu $ g(\yy_j) $ zawiera podciąg $ g(\yy_{j_s}) $ taki, że $ g(\yy_{j_s})\to g(\yy) $. Stąd już wynika, ze cały ciąg $ g(\yy_j) $ jest zbieżny do $ g(\yy) $. □

Okazuje się, że założenie zwartości jest w Twierdzeniu [link] istotne. Oto przykłady.

Przykład Niech

\[ 	f\colon [0,\infty)\ni t\longmapsto f(t)=\exp\bigl(2\pi i \cdot   e^{-t}\bigr)\equiv \bigl(\cos 2\pi e^{-t},\sin 2\pi e^{-t} \bigr)\in \C\equiv \R^2\, . 	\]

Czytelnik bez trudu sprawdzi, że funkcja $ f $ jest ciągła różnowartościowa (to wynika z własności funkcji wykładniczej w $ \C $), a zbiorem jej wartości jest okrąg jednostkowy $ \gamma=\{(x,y)\in \R^2\colon x^2+y^2=1\} $. Jednak

\[ f(0)= (1,0) = \lim_{t\to+\infty} f(t)\,  \]

a więc funkcja odwrotna do $ f $ nie jest ciągła w $ (1,0) $.

Przykład [gęste krzywe na torusie] (#) Niech $ R>r>0 $ i niech $ F\colon \R^2\to \R^3 $ będzie dana wzorem

\[ F(\theta,\varphi) = \bigl((R+r\cos\varphi)\cos\theta,  \   (R+r\cos\varphi)\sin\theta,\ r\sin\varphi\bigr)\in \R^3\, . \]

Można sprawdzić, że obrazem funkcji $ F $ jest torus obrotowy $ \T $, który powstaje przez obrót (położonego w płaszczyźnie $ x_2=0 $) okręgu

\[ \gamma:= \{\xx\in \R^3\colon \|\xx-(R,0,0)\|=0\} \cap  \{\xx\in \R^3\colon x_2=0\} \]

wokół osi $ x_3 $ układu współrzędnych. Oczywiście, $ F $ jest ciągła. Rozpatrzmy teraz złożenie $ F $ z funkcją $  \R\ni t\longmapsto (t,at),  $ gdzie $ a $ jest (jakąkolwiek) ustaloną liczbą niewymierną, tzn. przekształcenie

\[ g(t)=F(t,at)= \bigl((R+r\cos at)\cos t,  \   (R+r\cos at)\sin t,\ r\sin at\bigr)    \]

Nietrudno sprawdzić, że $ g $ jest różnowartościowa (to wynika z niewymierności $ a $), zaś obraz funkcji $ g $, tzn. krzywa $ g(\R) $, jest gęstym (Proszę wykazać, że dla każdego $ \xx\in\T $ i każdego $ \eps>0 $ istnieją dowolnie duże liczby $ t\in \R $ takie, że $ g(t)\in\T\cap B(\xx,\eps)\setminus\{\xx\} $. Można wcześniej przypomnieć sobie dowód gęstości - dla niewymiernych $ b\in \R $ - ciągu $ c_n=nb-[nb] $ w odcinku $ [0,1] $; Czytelnik zapewne widział ten dowód podczas ćwiczeń z Analizy Matematycznej I.) podzbiorem torusa $ \T $.

Oba obrazki uzyskano dla $ R=8 $, $ r=1 $. Po lewej stronie: obraz przekształcenia $ g_1(t)=F(2t, 3t) $ to krzywa zamknięta na torusie (węzeł, nazywany trójlistnikiem). Funkcja $ g_1 $ jest okresowa.

Po prawej: obraz przekształcenia $ g_2(t)=F(t, at) $ dla $ a=1+\sqrt{5} $, $ t\in [0,15\pi] $. Funkcja $ g_2 $ jest różnowartościowa i ciągła na $ \R $, ale odwrotna do niej nie jest ciągła na zbiorze $ A=g_2(\R) $ w $ \R^3 $. Podobne krzywe na torusie nazywa się czasem obmotkami.

Z geometrycznego punktu widzenia, $ g\colon \R\to \T\subset \R^3 $ to różnowartościowe, równomierne nawinięcie (nieskończenie cienkiej i długiej) nitki na torus obrotowy.

Funkcja $ g $ jest ciągła. Jednak przekształcenie $ g^{-1} $ nie jest ciągłe w żadnym punkcie zbioru $ g(\R) $, bo dowolnie blisko punktu $ g(s) $ znajdują się punkty $ g(t) $, dla których liczba $ |t-s| $ może być dowolnie duża.

Założenie zwartościw Twierdzeniu [link] można zastąpić założeniem otwartości dziedziny oraz równości wymiarów dziedziny i przeciwdziedziny przekształcenia $ f $. Zachodzi następujące twierdzenie, udowodnione przez holenderskiego matematyka L.E.J. Brouwera w 1912 roku.

Twierdzenie [Brouwera o niezmienniczości obszaru] Przypuśćmy, że zbiór $ U\subset\R^n $ jest otwarty, a funkcja $ f\colon U\to\R^n $ jest różnowartościowa i ciągła. Wtedy $ V=f(U) $ jest otwartym podzbiorem $ \R^n $, a funkcja $ f^{-1}\colon V\to U\subset \R^n $ jest ciągła.

Dowód wykracza poza ramy tego wykładu i należy do topologii, a nie do analizy.

Różniczkowanie funkcji wielu zmiennych

Pochodne cząstkowe, kierunkowe i różniczka zupełna

Definicja [pochodna cząstkowa] (#) Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie zbiór $ \Omega\subset \R^n $ jest otwarty, ma w punkcie $ \aa=(a_1,\ldots,a_n)\in \Omega $ pochodną cząstkową względem zmiennej $ x_i $ wtedy i tylko wtedy, gdy funkcja jednej zmiennej rzeczywistej

\[ \begin{equation} F_i(t) = f(a_1,\ldots, a_{i-1},t,a_{i+1},\ldots, a_n), \qquad F_i\colon (a_i-\delta,a_i+\delta) \to \R^m    \end{equation} \]

ma pochodną w punkcie $ a_i $, gdzie $ \delta>0 $ wybieramy tak, aby odcinek $ (\aa-\delta\ee_i,\aa+\delta\ee_i)\subset \Omega $. Przyjmujemy

\[ \begin{equation}  	\label{def-pcz} 	\pcz{f}{x_i}(\aa)=F_i'(a_i)=\lim_{h\to 0}\frac{f(\aa+h\ee_i)-f(\aa)}h\, . \end{equation} \]

Używa się także innych oznaczeń:

\[ D_i f(\aa) =  f_{x_i}(\aa)=\pcz{f}{x_i}(\aa)\, . \]

Jak widać, pochodną cząstkową $ \pcz{f}{x_i} $ obliczamy, traktując wszystkie zmienne oprócz $ x_i $ jako ustalone parametry i wykonując różniczkowanie względem $ x_i $. Obowiązują przy tym oczywiście wszystkie reguły, które Czytelnik poznał, ucząc się rachunku różniczkowego funkcji jednej zmiennej rzeczywistej. Np. jeśli

\[ f(x,y,z)= x^2 + x\cos (y z) + z\exp(x^2)\, , \]

to

\[  \begin{gather*} \pcz{f}{x}(x,y,z) = 2 x + \cos(y z)+2zx\exp(x^2)\, , \qquad   \pcz{f}{y}(x,y,z) = -xz\sin(y z)\, , \\ \pcz{f}{z}(x,y,z) = -xy\sin(y z) +\exp(x^2)\, .  \end{gather*}     \]
Uwaga Ze wzoru def-pcz wynika, że gdy wartości $ f $ są liczbami rzeczywistymi, tzn. $ m=1 $ w Definicji [link], to także $ \pcz{f}{x_i}(\aa) $ - tam, gdzie jest określona - jest liczbą rzeczywistą. Jeśli $ m>1 $, to $ \pcz{f}{x_i}(\aa) $ jest wektorem z przestrzeni $ \R^m $.

Podkreślmy od razu, że samo istnienie pochodnych cząstkowych funkcji $ f $ nie gwarantuje\/ ciągłości funkcji.

Przykład

  1. Niech $ f\colon\R^2\to \R $ bedzie funkcją charakterystyczną zbioru $ A=\{(x,y)\in \R^2: y=x^2, y\not=0\} $, tzn. niech $ f\equiv 1 $ na $ A $ i $ f\equiv 0 $ na $ \R^2\setminus A $. Na obu osiach układu współrzędnych mamy $ f\equiv 0 $ i dlatego, wprost z definicji,
    \[ \pcz{f}{x}(\zero)=0=\pcz{f}{y}(\zero)\, . \]

    Jednak $ f $ nie jest ciągła w zerze, gdyż $ f(\zero)=0\not=\lim_{j\to\infty} f(1/j,1/j^2) $.

  2. Rozpatrzmy ponownie funkcję z Przykładu [link]:
    \[ \begin{equation}  	\label{zlafunkcja}   f(x,y)=\left\{ 	\begin{array}{ll} 		\displaystyle\frac{yx^2}{y^2+x^4}\, , \qquad & (x,y)\not=(0,0),\\[12pt] 	   0, & (x,y)=(0,0).    \end{array}\right.  \end{equation} \]

    Jeśli $ (x,y)\not=(0,0)\in \R^2 $, to

    \[ \begin{eqnarray} \pcz{f}{x}(x,y)&=&\frac{2xy(y^2+x^4)-4x^3\cdot yx^2}{(y^2+x^4)^2}=\frac{2xy(y^2-x^4)}{(y^2+x^4)^2}\, , \\   \pcz{f}{y}(x,y)&=&\frac{x^2(y^2+x^4)-2y\cdot yx^2}{(y^2+x^4)^2} =\frac{-x^2(y^2-x^4)}{(y^2+x^4)^2}\, . \end{eqnarray} \]

    Podobnie jak w poprzednim przykładzie, $ f\equiv 0 $ na obu osiach układu współrzędnych mamy i dlatego

    \[ \pcz{f}{x}(\zero)=0=\pcz{f}{y}(\zero)\, . \]

    Jednak wiemy już, że $ f $ nie jest ciągła w punkcie $ \zero\in \R^2 $.

Przykład Niech $ f\colon \R\to \R $ będzie funkcją różniczkowalną i niech $ G(x)=(x,f(x)) $, $ G\colon \R\to \R^2 $. Wówczas $ \pcz{G}{x}=G'(x)=(1,f'(x)) $. Interpretacja geometryczna jest prosta: $ G'(x) $ jest wektorem stycznym do wykresu $ f $ w punkcie $ (x,f(x))\in \R^2 $.
Definicja [pochodna kierunkowa] Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie zbiór $ \Omega\subset \R^n $ jest otwarty, ma w punkcie $ \aa=(a_1,\ldots,a_n)\in \Omega $ pochodną kierunkową względem wektora $ \vv\in \R^n\setminus\{\zero\} $ wtedy i tylko wtedy, gdy funkcja jednej zmiennej rzeczywistej

\[ \begin{equation} F_{\mvv}(t) = f(\aa+t\vv), \qquad F_{\mvv}\colon (-\delta,\delta) \to \R^m    \end{equation} \]

ma pochodną w zerze. (Liczbę $ \delta>0 $ wybieramy tak, by odcinek $ (\aa-\delta\vv,\aa+\delta\vv)\subset \Omega $.) Przyjmujemy

\[ \begin{equation}  	\label{def-pkier} 	\pcz{f}{\vv}(\aa)=(F_{\mvv})'(0)=\lim_{h\to 0}\frac{f(\aa+h\vv)-f(\aa)}h\, . \end{equation} \]

Używa się także innych oznaczeń:

\[ D_{\mvv} f(\aa) =  f'_{\mvv}(\aa)=\pcz{f}{\vv}(\aa)\, . \]
Uwaga Zauważmy, że pochodna kierunkowa względem $ \ee_i $ jest tym samym, co pochodna cząstkowa względem $ \ee_i $:

\[ 	D_{\mee_i}f(\aa) =\pcz{f}{x_i}(\aa)\, . 	\]

Przykład Raz jeszcze rozpatrzmy funkcję z Przykładu [link], daną wzorem zlafunkcja. Dla $ \aa=\zero $ i dowolnego wektora $ \vv=(\xi,\eta)\in \R^2 $, gdzie $ \xi,\eta\not=0 $, iloraz

\[ \frac{f(\aa+h\vv)-f(\aa)}{h}= \frac 1h\cdot\frac{h^3\xi^2\eta}{h^2\eta^2+h^4\xi^4}= \frac{\xi^2\eta}{\eta^2+h^2\xi^4}  \to \frac{\xi^2}{\eta}\qquad\mbox{dla $h\to 0$.} \]

Zatem $ f $ ma w zerze wszystkie pochodne kierunkowe (sprawdzaliśmy już istnienie pochodnych cząstkowych). Nietrudno stwierdzić, że w pozostałych punktach $ \R^2 $ funkcja $ f $ też ma wszystkie pochodne kierunkowe. Wynika stąd, że nawet istnienie wszystkich pochodnych kierunkowych w każdym punkcie dziedziny nie gwarantuje ciągłości funkcji wielu zmiennych rzeczywistych.

Właściwym odpowiednikiem pojęcia pochodnej jest, dla funkcji wielu zmiennych, pojęcie różniczki.

Definicja [różniczkowalność funkcji wielu zmiennych] Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie $ \Omega\subset\R^n $ jest zbiorem otwartym, jest różniczkowalna w punkcie $ \aa\in \Omega $ wtedy i tylko wtedy, gdy istnieje przekształcenie liniowe $ A\colon \R^n\to\R^m $ takie, że

\[ \begin{equation}   	\label{defrozniczki} 		\lim_{\|h\|\to 0}\frac{\| f(\aa+\hh)-f(\aa)-A\hh\|}{\|\hh\|} = 0\, . \end{equation} \]

Przekształcenie $ A $ nazywamy różniczką (lub pochodną, lub różniczką zupełną) $ f $ w punkcie $ \aa $\/ i oznaczamy $ Df(\aa) $ lub $ f'(\aa) $.

Stwierdzenie (#) Niech $ f\colon \R^n\supset\Omega\to \R^m $, gdzie $ \Omega\subset\R^n $ jest zbiorem otwartym. Następujące warunki są równoważne:

  1. $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $;
  2. istnieją przekształcenie liniowe $ A\colon \R^n\to \R^m $ i funkcja
    \[ 		r\colon \Omega_{\maa}=\{\hh\in \R^n\colon \aa+\hh\in \Omega\}\to\R^m 	\]

    ciągła w punkcie $ \hh=\zero $, $ r(\zero)=\zero $, dla których zachodzi równość

    \[ \begin{equation} 			\label{A-i-r} 			f(\aa+\hh)=f(\aa)+A\hh+\|\hh\|\cdot r(\hh)\qquad\mbox{dla wszystkich $\hh\in \Omega_{\maa}$.} 	\end{equation} \]

    Jeśli zachodzi warunek (ii), to $ Df(\aa)=A $.

Dowód: Jeśli różniczka $ A=Df(\aa) $ istnieje, to wystarczy określić

\[ r(\hh)=\frac{ f(\aa+\hh)-f(\aa)-A\hh}{\|\hh\|}\quad\mbox{dla $\hh\not=\zero$}\, , \qquad r(\zero)= \zero\, .  \]

Funkcja $ r $ jest określona, gdy $ \aa+\hh\in \Omega $. Ponadto, dzięki warunkowi defrozniczki,

$$\|r(\hh)\|=\frac{\| f(\aa+\hh)-f(\aa)-A\hh\|}{\|\hh\|}\to 0, \qquad\mbox{dla } \|\hh\|\to 0, $$

tzn. równoważnie $ r(\hh)\to \zero $ dla $ \hh\to\zero $. Na odwrót, jeśli zachodzi (ii), to warunek $ r(\hh)\to \zero=r(\zero) $ dla $ \hh\to\zero $ implikuje, że granica we wzorze defrozniczki jest równa zero, tzn. $ A=Df(\aa) $.□

Uwaga Jeśli różniczka $ Df(\aa) $ istnieje, to jest określona jednoznacznie. Istotnie, gdyby wzór A-i-r zachodził dla $ A_i,r_i $, gdzie $ i=1,2 $, to mielibyśmy $ A_1\hh+ \|\hh\|r_1(\hh)=A_2\hh+\|h\|r_2(\hh) $ dla wszystkich $ \hh $ z pewnej kuli $ B(\zero,\delta)\subset \R^n $. Stąd, kładąc $ \hh=t\cdot \vv $, gdzie $ \|\vv\|=1 $ i $ t>0 $, a następnie dzieląc obie strony przez $ t $, otrzymujemy

\[  (A_1-A_2)\vv = r_2(t\vv)-r_1(t\vv)\to \zero\, , \qquad t\to 0. \]

Jednak lewa strona strona nie zależy od $ t $. Zatem przekształcenia liniowe $ A_1 $ i $ A_2 $ pokrywają się na całej sferze jednostkowej $ \S^{n-1}=\{\vv\in \R^n\colon \|\vv\|=1\} $, a więc są równe.

Wniosek (#) Jeśli $ f\colon \R^n\supset \Omega\to \R^m $ jest różniczkowalna w punkcie $ \aa\in\Omega $, to dla każdego niezerowego wektora $ \vv\in \R^n $ jest

\[ 	Df(\aa)\cdot \vv=\pcz{f}{\vv}(\aa)\, . 	\]

W szczególności, dla $ \vv=\ee_i $ jest

\[ Df(\aa)\cdot \ee_i=\pcz{f}{x_i}(\aa)\, , \qquad i=1,\ldots,n. \]
Dowód: Podstawiając w równości A-i-r wektor $ \hh=t\vv $, gdzie $ \vv $ jest ustalony i $ t\not=0 $, otrzymujemy

\[ Df(\aa)\cdot \vv =\frac 1t Df(\aa)\cdot \hh = \frac{f(\aa+t\vv)-f(\aa)}{t}\pm \|\vv\| r(t\vv)\to \pcz{f}{\vv}(\aa), \qquad t\to 0. \]

Lewa strona nie zależy od $ t $; dlatego zachodzi pierwsza równość z tezy wniosku. Druga równość to jej przypadek szczególny (wspominaliśmy już, że pochodna $ f $ w kierunku $ \ee_i $ ipochodna cząstkowa $ \pcz{f}{x_i} $ są równe).□

Wniosek (#) Niech $ \Omega\subset\R^n $ będzie zbiorem otwartym i niech

$$f=(f_1,\ldots,f_m)\colon \R^n\supset\Omega\to\R^m.$$

Następujące warunki są równoważne:

  1. funkcja $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $;
  2. każda z funkcji $ f_i\,  $ jest różniczkowalna w punkcie $ \aa\in \Omega $.

W standardowych bazach przestrzeni $ \R^n $ i $ \R^m $ macierz $ Df_i(\aa)\in M_{1\times n} $ jest wtedy $ i $-tym wierszem macierzy $ Df(\aa)\in M_{m\times n} $.

Dowód: Posługujemy się Stwierdzeniem [link]. Obie strony równości A-i-r są wektorami z $ \R^m $. Równość $ i $-tych współrzędnych tych wektorów ($ i=1,\ldots,m $) jest równoważna różniczkowalności $ f_i $ ($ i=1,\ldots,m $) w punkcie $ \aa\in A $ oraz równości $ Df_i(\aa)\hh=(Df(a)\hh)_i $ dla $ \hh\in \R^n $, tzn. - po utożsamieniu przekształceń liniowych z ich macierzami w standardowych bazach - temu, że $ Df_i(\aa) $ jest $ i $-tym wierszem macierzy $ Df(\aa) $. □
Uwaga [terminologia: macierz Jacobiego] Jak wiadomo z wykładów Algbry Liniowej, przekształcenie liniowe $ A\colon \R^n\to\R^m $ ma w standardowych bazach macierz (oznaczaną zwykle tą samą literą) o $ m $ wierszach i $ n $ kolumnach, której $ j $-tą kolumnę stanowi wektor $ A\ee_j\in \R^m $, gdzie $ \ee_j $ ($ j=1,\ldots, n $) są wektorami standardowej bazy w $ \R^n $. Z dwóch ostatnich wniosków wypływa zatem następująca obserwacja: jeśli

$$f=(f_1,\ldots,f_m)\colon \R^n\supset\Omega\to\R^m\, ,$$

gdzie $ f_i\colon \Omega\to\R $ dla $ i=1,\ldots,m $, jest różniczkowalna w punkcie $ \aa\in \Omega $, to jej różniczka ma w standardowych bazach przestrzeni $ \R^n $ i $ \R^m $ macierz

\[ \begin{equation} 	\label{JacobiM} 	Df(\aa)=\biggl(\pcz {f_i}{x_j}(\aa)\biggr)_{{1\le i\le m}, {1\le j \le n}} = 	\begin{pmatrix} 	\dpcz{f_1}{x_1}(\aa) & \ldots & \dpcz{f_1}{x_n}(\aa) \\ 	\vdots              &        & \vdots \\ 	\dpcz{f_m}{x_1}(\aa) & \ldots & \dpcz{f_m}{x_n}(\aa) \\               	\end{pmatrix} \, . \end{equation} \]

Kolumny tej macierzy to wektory

\[ Df(\aa)\ee_i = \pcz{f}{\ee_i}(\aa)= \pcz{f}{x_i}({\aa}) =  \begin{pmatrix} \dpcz{f_1}{x_i}(\aa) \\ \vdots              \\ \dpcz{f_m}{x_i}(\aa)\\               \end{pmatrix} \in \R^m\, , \qquad i=1\ldots, n. \]

Macierz JacobiM nazywamy macierzą Jacobiego przekształcenia różniczkowalnego $ f $. Dla $ n=m $ wyznacznik tej macierzy nazywamy jakobianem przekształcenia $ f $ w punkcie $ \aa $.

Wniosek Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ jest różniczkowalna w punkcie $ \aa\in \Omega $, to $ f $ jest ciągła w punkcie $ \aa $.
Dowód: Korzystamy ze Stwierdzenia [link](ii) oraz ciągłości przekształceń liniowych: dla $ \hh\to 0 $ jest

\[ f(\aa+\hh)-f(\aa)=Df(\aa)\hh+ \|\hh\|\cdot r(\hh)\to \zero\in \R^m\, , \]

to zaś oznacza, że $ f $ jest ciągła w punkcie $ \aa $. □

Uwaga Wiemy już zatem, że istnienie pochodnych cząstkowych funkcji $ f $ w danym punkcie jest warunkiem koniecznym różniczkowalności $ f $ w tym punkcie. Nie jest jednak warunkiem dostatecznym, gdyż z istnienia pochodnych cząstkowych (a nawet wszystkich pochodnych kierunkowych) nie wynika ciągłość! Poniżej podajemy warunek dostateczny różniczkowalności, wyrażony w języku pochodnych cząstkowych.
Twierdzenie Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ i wszystkie pochodne cząstkowe $ \pcz{f}{x_i} $ istnieją na całej kuli $ B(\aa,r)\subset\Omega $ i są ciągłe w punkcie $ \aa $, gdzie $ r>0 $, to $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $. Zachodzi wtedy wzór

\[ 	Df(\aa)\hh = \sum_{i=1}^nh_i\pcz{f}{x_i}(\aa)\, , \qquad \hh=(h_1,\ldots,h_n)\in \R^n\, . 	\]

(#)

Dowód: Wobec Stwierdzenia [link], wystarczy przeprowadzić dowód dla $ m=1 $.

Dla uproszczenia (Chodzi o uproszczenie zapisu, a nie istotnych trudności - Czytelnik zechce się nad tym zastanowić. W ogólnym przypadku mielibyśmy w dowodzie do czynienia z sumą $ n $ przyrostów, a nie dwóch. ) przyjmiemy $ n=2 $. Niech odtąd $ \hh=(h_1,h_2) $, $ \|\hh\|<  r $. Aby skorzystać z istnienia pochodnych cząstkowych, wyrazimy przyrost $ f $ na odcinku $ [\aa, \aa+\hh] $ jako sumę przyrostów wzdłuż dwóch odcinków równoległych do osi układu współrzędnych. Stosując twierdzenie Lagrange'a dla funkcji jednej zmiennej rzeczywistej o wartościach rzeczywistych do funkcji

\[ F_1(t)=f(a_1+t,a_2+h_2), \qquad t\in [0,h_1], \]

oraz

\[ F_2(t)=f(a_1,a_2+t), \qquad t\in [0,h_2] \]

sprawdzamy, że dla pewnych punktów posrednich $ \theta_i=\theta_i(\hh)\in [0,h_i] $ ($ i=1,2 $) jest

\[ \begin{eqnarray*} f(\aa+\hh)-f(\aa) & = & \Bigl(F_1(h_1) - F_1(0)\Bigr) + \Bigr(F_2(h_2)-F_2(0)\Bigr)\\  & = & h_1 F_1'(\theta_1) + h_2F_2'(\theta_2)  \\ & = & h_1\pcz{f}{x_1} (\underbrace{a_1+\theta_1,a_2+h_2}_{\text{punkt }\mpp_1})  + h_2\pcz{f}{x_2}(\underbrace{a_1,a_2+\theta_2}_{\text{punkt }\mpp_2})\\ & = & \underbrace{h_1\pcz{f}{x_1}(\aa) + h_2\pcz{f}{x_2}(\aa)}_{\text{część liniowa przyrostu}} + R(\hh), \end{eqnarray*} \]

gdzie reszta

\[ R(\hh)=  h_1\left(\pcz{f}{x_1}(\pp_1)-\pcz{f}{x_1}(\aa)\right) + h_2\left(\pcz{f}{x_2}(\pp_2)-\pcz{f}{x_2}(\aa)\right)\, . \]

Z nierówności Schwarza wynika, że dla $ \|\hh\|<\delta<r $ jest

\[ 0\le |R(\hh)|\le \sqrt{2} \|h\| \cdot \max_{i=1,2}\left(\sup_{\mpp\in B(\maa,\delta)} \left|\pcz{f}{x_i}(\pp)-\pcz{f}{x_i}(\aa)\right|\right)\, . \]

Jednak

\[ \sup_{\mpp\in B(\maa,\delta)} \left|\pcz{f}{x_i}(\pp)-\pcz{f}{x_i}(\aa)\right|\qquad \mbox{dla $\delta\to 0$} \]

dzięki ciągłości $ \pcz{f}{x_i} $ w punkcie $ \aa $. Zatem

\[ R(\hh)=\|\hh\|\cdot r(\hh), \]

gdzie $ r(\zero)=0 $ i $ r(\hh)\to 0 $ dla $ \hh\to \zero $. Ze Stwierdzenia [link] wynika teraz, że

\[ Df(\aa)=\Bigl(\, \pcz{f}{x_1}(\aa),\pcz{f}{x_2}(\aa)\Bigr)\, . \]

Dowód został zakończony.□

Na zakończenie tego podrozdziału podkreślmy jedno. Czytelnikowi może wydawać się, że pochodna cząstkowa i być może pochodna kierunkowa to pojęcia naturalniejsze od różniczki. Tak nie jest. Pochodne cząstkowe i kierunkowe określa się po to, żeby badać zachowanie funkcji na prostych. Z przytoczonych przykładów wynika jasno, że nie daje to dostatecznych informacji o zachowaniu funkcji w całym otoczeniu danego punktu. Naturalnym uogólnieniem pochodnej funkcji jednej zmiennej rzeczywistej jest właśnie różniczka. Jej istnienie oznacza, że odwzorowanie $ f $ można lokalnie przybliżać przekształceniami

\[ \xx\mapsto f(\aa)+ Df(\aa)\cdot (\xx-\aa) = f(\xx)+o(\|\xx-\aa\|) \approx f(\xx)\, . \]

Ponadto, przekształcenie liniowe $ Df(\aa) $ koduje w sobie pełną informację o pochodnych kierunkowych i cząstkowych $ f $.

Arytmetyczne własności różniczki

Stwierdzenie [różniczka sumy funkcji] Jeśli $ f,g\colon \R^n\supset\Omega\to\R^m $ są różniczkowalne w punkcie $ \aa\in\Omega $, to funkcja $ f+g\colon\Omega\to\R^m $ jest różniczkowalna w $ \aa $ i zachodzi wzór

\[ 	 D(f+g)(\aa)=Df(\aa)+Dg(\aa)\, . 	\]
Dowód: Stosujemy Stwierdzenie [link]. Wzory [link] dla funkcji $ f,g $ dodajemy stronami; ponieważ $ o(\|\hh\|)+o(\|\hh\|)=o(\|\hh\|) $, więc uzyskujemy warunek (ii) Stwierdzenia [link] dla funkcji $ f+g $. Szczegóły pozostawiamy Czytelnikowi jako proste ćwiczenie. □

Uogólnimy teraz wzór $ (fg)'=f'g +fg' $ na przypadek wielowymiarowy. Okazuje się, że jeśli można zdefiniować `iloczyn' przekształceń różniczkowalnych $ f $, $ g $ (to może być np. iloczyn funkcji o wartościach w $ \R $ i $ \R^m $, albo iloczyn skalarny wektorów z $ \R^m $, albo iloczyn wektorowy wektorów z $ \R^3 $, albo iloczyn macierzy o odpowiednich rozmiarach, gdy wartości $ f,g $ są macierzami itp.), to ów iloczyn jest różniczkowalny, a jego pochodną oblicza się podobnie, jak dla funkcji z $ \R $ w $ \R $.

Twierdzenie [różniczka `iloczynu'](#) Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ i $ g\colon \R^n\supset\Omega\to\R^k $ są różniczkowalne w punkcie $ \aa\in\Omega $, a przekształcenie

\[ B\colon \R^m\times\R^k\ni (\xx,\yy)\mapsto B[\xx,\yy]\in\R^l \]

jest dwuliniowe (Oznaczenie $ B[f,g] $ Czytelnik może zastąpić przez $ f\cdot g $ - wtedy analogia z przypadkiem jednowymiarowym będzie widoczna jak na dłoni.), to wówczas funkcja

\[ B[f,g]\colon \R^n\supset \Omega\ni \xx\mapsto B[f(\xx),g(\xx)]\in \R^l \]

jest różniczkowalna w punkcie $ \aa\in \Omega $ i zachodzi równość

\[ \begin{equation}  	\label{dwulin} DB[f,g](\aa)\hh=B[Df(\aa)\hh, g(\aa)] + B[f(\aa),Dg(\aa)\hh] \qquad\mbox{dla wszystkich $\hh\in\R^n$.}   \end{equation} \]
Uwaga Nie zakładamy, że $ B[f,g]=B[g,f] $ (bo np. mnożenie macierzy nie jest działaniem przemiennym). Dlatego we wzorze dwulin nie wolno zamieniać kolejności argumentów $ B $ w składnikach prawej strony.

    Dowód Twierdzenia [link] Wobec Stwierdzenia [link],

\[ \begin{eqnarray}  	f(\aa+\hh)-f(\aa) & =& Df(\aa)\hh + R_f(\hh)\, ,  \label{df}\\ 	g(\aa+\hh)-g(\aa) & =& D 	g(\aa)\hh + R_g(\hh)\, ,    \label{dg} \end{eqnarray} \]

gdzie $ \|R_f(\hh)\|=\|R_g(\hh)\|=o(\|\hh\|) $ dla $ \hh\to \zero $. %

\[ \begin{equation} %\label{oreszty}	    %\|R_f(\hh)\|=\|R_g(\hh)\|=o(\|\hh\|) \qquad\mbox{dla $\hh\to %\zero$.}  %\end{equation} \]

Ustalmy zatem liczbę $ \delta>0 $ tak, aby dla wszystkich $ \|\hh\|<\delta $ mieć

\[ \begin{equation} 	\label{malereszty}  \|R_f(\hh)\|+\|R_g(\hh)\|<\|\hh\|. \end{equation} \]

Korzystając z dwuliniowości $ B $, piszemy

\[ \begin{eqnarray*}   	\lefteqn{ 	B[f(\aa+\hh),g(\aa+\hh)]-B[f(\aa),g(\aa)] }\\ &=&  B[f(\aa+\hh),g(\aa+\hh)]-B[f(\aa),g(\aa+\hh)]\\ & & {}+B[f(\aa),g(\aa+\hh)]-B[f(\aa),g(\aa)]  \\ 	& = &  B[f(\aa+\hh)-f(\aa),g(\aa+\hh)] + B[f(\aa),g(\aa+\hh)-g(\aa)] \\ 	& = &  B[f(\aa+\hh)-f(\aa),g(\aa)] + B[f(\aa),g(\aa+\hh)-g(\aa)]  \\   & &{}  +  B[f(\aa+\hh)-f(\aa),g(\aa+\hh)-g(\aa)] \ \stackrel{\text{ozn.}}=\ S_1 + S_2 + S_3\, . \end{eqnarray*} \]

Do prawej strony wstawiamy teraz równości df i dg. Składnik

\[ S_1=  B[f(\aa+\hh)-f(\aa),g(\aa)] = B[Df(\aa)\hh, g(\aa)] + B[R_f(\hh),g(\aa)],  \]

gdzie $ B[R_f(\hh),g(\aa)]=o(\|\hh\|) $ dla $ \hh\to 0 $ (to łatwo wynika z dwuliniowości $ B $). Podobnie,

\[ S_2=  B[f(\aa), Dg(\aa)\hh] + B[f(\aa),R_g(\hh)] =  B[f(\aa), Dg(\aa)\hh] + o(\|\hh\|)\, , \qquad  \hh\to \zero. \]

Dlatego suma $ S_1+S_2 $ daje prawą stronę wzoru dwulin z tezy, z błędem $ o(\|\hh\|) $. Wreszcie, składnik $ S_3=o(\|\hh\|) $ dla $ \hh\to\zero $. Istotnie, każde przekształcenie dwuliniowe $ B $ spełnia nierówność

\[ \bigl\|B[\xx,\yy] \bigr\|\le C\|\xx\|\, \cdot \|\yy\| \]

z pewną stałą $ C $ zależną od $ B $. (Czytelnik może to udowodnić samodzielnie, naśladując dowód Stwierdzenia [link] Dlatego

\[ \begin{eqnarray*} \|S_3\|& \le &C\|Df(\aa)\hh+R_f(\hh)\|\cdot \|Dg(\aa)\hh+R_g(\hh)\| \\          & \le & C\cdot M^2\|\hh\|^2 \qquad\mbox{dla  $\|\hh\|<\delta$,} \end{eqnarray*} \]

gdzie, wobec oszacowania malereszty, można wziąć np. stałą $ M=\|Df(\aa)\|+\|Dg(\aa)\|+1 $. Ostatecznie więc

\[ \begin{multline*}     	B[f(\aa+\hh),g(\aa+\hh)]-B[f(\aa),g(\aa)]=\\ =S_1+S_2+S_3=\text{prawa strona wzoru \eqref{dwulin}} + o(\|\hh\|) \qquad\mbox{dla $\hh\to\zero$.} \end{multline*} \]

Wobec Stwierdzenia [link], dowód jest zakończony.□

Twierdzenie [różniczka złożenia funkcji](#) Niech $ \Omega_1\subset \R^n $ i $ \Omega_2\subset\R^m $ będą zbiorami otwartymi. Jeśli $ f\colon \Omega_1\to \R^m $ jest różniczkowalne w punkcie $ \aa\in \Omega_1 $, a $ \Omega_2\supset f(\Omega_1) $ i$ g\colon \Omega_2\to \R^k $ jest różniczkowalne w punkcie $ \bb=f(\aa) $, to złożenie $ g\circ f $ jest różniczkowalne w punkcie $ \aa $ i zachodzi wzór

\[ \begin{equation} 	 D(g\circ f)(\aa)= Dg(\bb)\circ Df(\aa)= Dg\bigl(f(\aa)\bigr) \circ Df(\aa)\, .  \end{equation} \]
Dowód: Wobec Stwierdzenia [link],

\[ \begin{eqnarray}  	f(\aa+\hh)-f(\aa) & =& Df(\aa)\hh + R_f(\hh)\, ,  \label{df-2}\\ 	g(\bb+\ww)-g(\bb) & =& D    g(\bb)\ww + R_g(\ww)\, ,    \label{dg-2} \end{eqnarray} \]

gdzie $ \|R_f(\hh)\|=o(\|\hh\|) $ dla $ \hh\to \zero $ i $ \|R_g(\ww)\|=o(\|\ww\|) $ dla $ \ww\to \zero $. Do dg-2 podstawmy $ \bb=f(\aa) $ oraz $ \ww=\ww(\hh)= f(\aa+\hh)-f(\aa) $. Korzystając z df-2, otrzymujemy

\[ \begin{eqnarray} g\circ f(\aa+\hh)-g\circ f(\aa) &= &  g(\bb+\ww)-g(\bb)\nonumber \\ & = & 	 D g(\bb)\ww + R_g(\ww)\nonumber \\ & = & Dg (\bb)\bigl(Df(\aa)\hh + R_f(\hh)\bigr) + R_g(\ww) \nonumber  \\ & = & \bigl[Dg (\bb)\circ Df(\aa)\bigr] \hh  + R,     \label{DgDf} \end{eqnarray} \]

gdzie reszta

\[ R =Dg (\bb)\bigl(R_f(\hh)\bigr) + R_g(\ww)\, . \]

Niech $ M=\|Dg(\bb)\|+\|Df(\aa)\|+1 $. Dla małych $ \|\hh\| $ jest $ \|R_f(\hh)\|< \|\hh\| $ i dlatego

\[ \|\ww\|=\|Df(\aa)\hh + R_f(\hh)\|\le \|Df(\aa)\|\cdot \|\hh\| + \|R_f(\hh)\|\le  M\|\hh\|\, . \]

Zatem $ \ww=\ww(\hh)\to\zero $, gdy $ \hh\to \zero $ i mamy

\[ \begin{eqnarray*} \frac{\|R\|}{\|\hh\|}  &\le & \frac{M \|R_f(\hh)\|+\|R_g(\ww)\|} {\|\hh\|}  \\                & = & M \frac{\|R_f(\hh)\|} {\|\hh\|}  + \frac{\|\ww\|}{\|\hh\|}\cdot \frac{\|R_g(\ww)\|} {\|\ww\|}\\ & \le & M \biggl(\frac{\|R_f(\hh)\|} {\|\hh\|}  +  \frac{\|R_g(\ww)\|} {\|\ww\|}\biggr) \longrightarrow 0 \quad \mbox{dla }\hh\to \zero, \end{eqnarray*} \]

tzn. $ R=o(\|\hh\|) $ dla $ \hh\to \zero $. Wobec równości DgDf i Stwierdzenia [link], zachodzi równość $ D(g\circ f)(\aa)=Dg(\bb)\circ Df(\aa) $.□

Uwaga Zgodnie z definicją różniczka $ D(g\circ f)(\aa) $ złożenia $ g\circ f\colon \R^n\supset \Omega_1\to \R^k $ powinna być przekształceniem liniowym z $ \R^n $ w $ \R^k $. Istotnie tak jest: $ Df(\aa)\colon \R^n\to \R^m $ i$ Dg(\bb)\colon \R^m\to \R^k $, więc ich złożenie jest przekształceniem liniowym z $ \R^n $ w $ \R^k $. Twierdzenie [link] ma następującą interpretację: macierz Jacobiego różniczki przekształcenia $ g\circ f $ jest iloczynem macierzy Jacobiego przekształceń $ g $ i $ f $, wziętych w odpowiednich punktach. Z wieloma zastosowaniami tej interpretacji Czytelnik spotka się wkonkretnych przykładach.

Gradient. Płaszczyzna styczna do wykresu funkcji i punkty krytyczne

Definicja [gradient funkcji wielu zmiennych] Gradientem funkcji różniczkowalnej $ f\colon \R^n\supset \Omega\to\R $ w punkcie $ \xx\in \Omega $ nazywamy wektor

\[ 	\text{grad}\, f(\xx) =\Bigl(\pcz f{x_1}(\xx),\ldots, \pcz f{x_n}(\xx)\Bigr)\, . 	\]

Z tej definicji oraz definicji macierzy Jacobiego wynika, że dla $ f\colon \Omega\to \R $ mamy

\[ \langle \grad f(\xx),\hh\rangle = Df(\xx)\hh = \sum_{i=1}^nh_i\pcz{f}{x_i}(\xx)\, . \]

Czytelnik może więc uważać, że rozróżnianie gradientu i różniczki to niepotrzebna maniera. Podkreślmy jednak, że $ \grad f(\xx)\in \R^n $, natomiast $ Df(\xx)\in L(\R^n,\R)=\bigl(\R^n\bigr)^\ast $. Przywykliśmy utożsamiać przestrzenie $ \bigl(\R^n\bigr)^\ast $ i $ \R^n $; to wymaga odwołania się do konkretnego układu współrzędnych. Na gładkich powierzchniach w $ \R^n $ - powiedzmy na torusie czy na sferze - nie sposób jednak zwykle wskazać jakiegoś wyróżnionego układu współrzędnych. Dlatego odróżnianie gradientu i różniczki ma sens. Czytelnik zetknie się z tym później w bieżącym roku, a także na zajęciach z geometrii różniczkowej.

Stwierdzenie Dla każdej funkcji różniczkowalnej $ f\colon \R^n\supset \Omega\to\R $ i każdego wektora $ \ww\in \R^n $ takiego, że

\[ \|\ww\|=\|\vv\|, \qquad\mbox{gdzie}\quad \vv=\grad f(\xx)\not =0, \quad \xx\in \Omega, \]

zachodzi nierówność

\[ \begin{equation} 	\label{gradspad}            	\pcz {f}{\ww} (\xx)\le  \pcz {f}{\vv} (\xx)\, . \end{equation} \]

Ponadto, równość w gradspad zachodzi jedynie dla $ \ww=\vv $.

Dowód: Wobec Wniosku [link] i nierówności Schwarza, mamy

\[ \pcz {f}{\ww} (\xx)=Df(\xx)\ww =\langle \grad f(\xx), \ww\rangle =\langle \vv, \ww\rangle \le \|\vv\| \|\ww\| = \|\vv\|^2, \]

natomiast

\[ \pcz {f}{\vv}(\xx) =Df(\xx)\vv =\langle \grad f(\xx), \vv\rangle = \|\vv\|^2\, . \]

Stąd już wynika nierówność gradspad.

W nierówności Schwarza $ |\langle \vv,\ww\rangle|\le \|\vv\| \|\ww\| $ dla wektorów $ \vv,\ww $ o równych długościach równość zachodzi wtedy i tylko wtedy, gdy $ \vv=\pm \ww $. Jednak dla $ \ww=-\vv $ jest

\[ \pcz {f}{\ww} (\xx) =   \langle \vv, \ww\rangle  =-\|\vv\|^2 < 0 < \|\vv\|^2 = \pcz{f}{\vv}(\xx)\, . \]

Ta obserwacja kończy dowód. □

    

Powyższe stwierdzenie ma następującą interpretację geometryczną: gradient funkcji w punkcie wyznacza kierunek najszybszego wzrostu funkcji w tym punkcie. Długość wektora gradientu odpowiada za tempo wzrostu w tym kierunku.

Definicja [płaszczyzna styczna do wykresu funkcji] Jeśli $ f\colon \Omega\to\R $ jest różniczkowalna w punkcie $ \aa $, to płaszczyzną styczną do wykresu $ f $ w punkcie $ (\aa,f(\aa))\in \R^{n+1} $ nazywamy zbiór

\[ 	T=\{(\xx,x_{n+1})\in \R^n\times\R=\R^{n+1}\colon Df(\aa)(\xx-\aa)=x_{n+1}-f(\aa)\} 	\]

(#)

Płaszczyzna styczna do wykresu funkcji różniczkowalnej $ f\colon \R^2\supset\Omega\to \R $ w punkcie $ (\pp,f(\pp))\in \R^3 $ ma równanie

\[  f_{x_1}(\pp) (x_1-p_1)   + f_{x_2}(\pp)\cdot (x_2-p_2) = x_3-f(\pp) \]

Wektor $ (-f_{x_1}(\pp),-f_{x_2}(\pp),1)\in \R^3 $ jest prostopadły do płaszczyzny stycznej.

Po lewej: w punkcie ekstremum lokalnego $ f_x=f_y=0 $ i tam płaszczyzna styczna jest pozioma.

Innymi słowy, zbiór $ T $ jest wykresem odwzorowania afinicznego

\[ \R^n\ni \xx\longmapsto \phi(\xx)= f(\aa) + Df(\aa)(\xx-\aa)\in \R\, . \]

Wprost z definicji różniczki wynika, że dla $ \xx\to \aa $ jest $ f(\xx)-\phi(\xx)=o(\|\xx-\aa\|) $. Widzieliśmy też, że ten warunek określa odwzorowanie $ \phi $ jednoznacznie. To uzasadnia nazwę płaszczyzna styczna. Zauważmy, że jeśli $ Df(\aa)=\zero $, to przekształcenie $ \phi $ jest stałe, a więc jego wykresem jest hiperpłaszczyzna $ x_{n+1}=\mathrm{const} $.

Podamy teraz warunek konieczny istnienia ekstremum (Definicja maksimum (minimum) lokalnego jest analogiczna, jak w wymiarze 1; trzeba tylko przedział wokół danego punktu w dziedzinie zastąpić kulą o środku w tym punkcie.) funkcji w punkcie wewnętrznym dziedziny.

Stwierdzenie [lemat Fermata] Jeśli funkcja $ f\colon \R^n\supset\Omega\to \R $ ma ekstremum lokalne w punkcie $ \aa\in \Omega $ i jest w tym punkcie różniczkowalna, to

\[ 	Df(\aa)=0\, , 	\]

lub równoważnie $ \pcz{f}{x_i}(\aa)=0 $ dla $ i=1,2\ldots, n $.

Dowód: Jeśli $ f $ ma ekstremum lokalne w $ \aa $, to dla każdego $ i=1,\ldots, n $ funkcja

\[ F_i(t) = f(a_1,\ldots, a_{i-1},t,a_{i+1},\ldots, a_n)\, , \]

określona w pewnym przedziale $ (a_i-\delta,a_i+\delta)\subset\R $, ma ekstremum lokalne w $ a_i $. Dlatego $ F_i'(a_i)=\pcz{f}{x_i}(\aa)=Df(\aa)\ee_i=0 $.□

W wielu sytuacjach wykorzystywane jest następujące ogólne pojęcie.

Definicja Przypuśćmy, że odwzorowanie $ f\colon \R^n\supset \Omega\to \R^m $ jest różniczkowalne na $ \Omega $. Powiemy, że $ \aa\in \Omega $ jest punktem krytycznym $ f $ wtedy i tylko wtedy, gdy przekształcenie liniowe $ Df(\aa)\colon \R^n\to\R^m $ ma rząd mniejszy, niż $ \min (m,n) $. (Zauważmy: $ k=\min(m,n) $ jest maksymalnym) możliwym rzędem przekształcenia liniowego z $ \R^n $ w $ \R^m $.

Gdy $ m=1 $, to $ \aa\in \Omega $ jest punktem krytycznym funkcji $ f\colon \R^n\supset\Omega\to \R $ wtedy i tylko wtedy, gdy $ Df(\aa)\colon \R^n\to\R $ ma rząd mniejszy, niż $ \min(n,1)=1 $, tzn. wtedy i tylko wtedy, gdy $ Df(\aa) $ jest przekształceniem zerowym. Jest to równoważne temu, że wszystkie pochodne cząstkowe $ \pcz{f}{x_i} $ znikają w punkcie $ \aa $. Zachodzi zatem następujące:

Stwierdzenie Wszystkie ekstrema lokalne funkcji różniczkowalnej $ f\colon\R^n\supset \Omega\to \R $ są jej punktami krytycznymi. □

Po lewej: wykres funkcji $ f(x,y)=xy $. Płaszczyzna styczna przecina wykres funkcji wzdłuż osi $ x $ i $ y $. Po prawej: tzw. małpie siodło, wykres funkcji $ g(x,y)=x^3-3y^2 x $. Płaszczyzna styczna przecina wykres wzdłuż trzech prostych. Na obu rysunkach brzegi kolorowych pasów to poziomice (linie, na których funkcja ma stałą wartość).

Oczywiście nie zachodzi implikacja odwrotna. Funkcja $ f(x,y)=xy $ ma pochodne cząstkowe $ f_x(x,y)=y $ i $ f_y(x,y) =x $, które znikają jednocześnie wtedy i tylko wtedy, gdy $ x=y=0 $. Jednak w punkcie $ (0,0) $ funkcja $ f $ nie ma ani minimum, ani maksimum lokalnego (równego zero), gdyż w każdym otoczeniu tego punktu przyjmuje zarówno wartości dodatnie, jak i ujemne. Podobnie,

\[ \begin{equation}    \label{malpie}     g(x,y)=x^3-3y^2 x = x(x-y\sqrt3)(x+y\sqrt 3)     \end{equation} \]

ma pochodne cząstkowe $ g_x(x,y)=3x^2-3y^2 $ i $ g_y(x,y)=6xy $. Łatwo zauważyć, że jedynym punktem krytycznym tej funkcji jest $ (0,0) $, jednak w każdym otoczeniu tego punktu $ f $ przyjmuje zarówno wartości dodatnie, jak i ujemne.

Nawet dla $ n=2 $ zachowanie funkcji różniczkowalnych $ f\colon \R^n\to \R $ potrafi odbiegać od naiwnych oczekiwań, jakie Czytelnik mógłby mieć dzięki wcześniejszym jednowymiarowym intuicjom. Należy o tym pamiętać, szukając kresów zbioru wartości funkcji.

Przykład Istnieją funkcje różniczkowalne $ f\colon \R^2\to\R $ (o ciagłych pochodnych cząstkowych), które spełniają dwa warunki:

    \parskip -1pt

  • $ f $ ma na $ \R^2 $ tylko jeden punkt krytyczny, w którym jest jej ekstremum lokalne;
  • $ f $ nie jest ograniczona ani z góry, ani z dołu.

Taka funkcja w punkcie jedynego swego ekstremum lokalnego nie osiąga ani kresu dolnego, ani kresu górnego! Spójrzmy na dwa konkretne przykłady takich sytuacji.

Wykres funkcji $ f(x,y)=x^2(1+y)^3+y^2 $. Zaznaczone linie to poziomice. W środku widoczne minimum lokalne. Dla $ x=\mathrm{const}>0 $ funkcja $ f(\mathrm{const},y) $ jest wielomianem stopnia 3; proszę zwrócić uwagę na kształt przedniej krawędzi tego fragmentu wykresu $ f $.

Niech

\[ \begin{equation}  	\label{1min} 	f(x,y)=x^2(1+y)^3+y^2\, . \end{equation} \]

Funkcja $ f $ jest wielomianem, więc ma ciągłe pochodne cząstkowe. Wyznaczymy teraz jej punkty krytyczne. Łatwo obliczamy

\[ \pcz fx (x,y)=2x(1+y)^3, \qquad \pcz fy (x,y)=3x^2(1+y)^2+2y. \]

Jeśli $ \pcz fx =0 $, to $ x=0 $ lub $ y=-1 $. Jednak dla $ y=-1 $ jest $ \pcz fy \equiv -2\not=0 $, tzn. $ f $ nie ma żadnych punktów krytycznych postaci $ (a,-1) $. Natomiast $ \pcz fy (0,y)=2y=0 $ dla $ y=0 $. Dlatego jedynym punktem krytycznym $ f $ jest $ (0,0)\in \R^2 $.

Nietrudno zauważyć, że dla $ |y|<1/2 $ jest $ 2\ge 1+y\ge 1/2 $ i dlatego

\[ 8(x^2+y^2)\ge f(x,y)\ge \frac 18 (x^2+y^2), \qquad |y|<\frac 12, \quad x\in\R. \]

Stąd wynika, że $ f $ ma w punkcie $ (x,y)=(0,0) $ minimum lokalne właściwe. Jednak $ f $ nie jest na $ \R^2 $ ograniczona ani z góry, ani z dołu, gdyż funkcja

\[ h(y)= f(1,y)=(1+y)^3+y^2, \qquad y\in \R, \]

jest wielomianem trzeciego stopnia, a więc nie jest ograniczona ani z góry, ani z dołu.

Innego przykładu tego zjawiska dostarcza funkcja

\[ \begin{equation} 	g(x,y)=3xe^y-x^3-e^{3y}, 	\label{1max} \end{equation} \]

która jest nieograniczona z góry i z dołu na $ \R^2 $, gdyż $ g(x,0)=3x-x^3-1 $ jest wielomianem trzeciego stopnia zmiennej $ x $. Mamy

\[ \pcz{g}{x}(x,y)=3(e^y-x^2), \qquad \pcz gy (x,y)=3e^y(x-e^{2y})\, . \]

Z równań $ \pcz gx=\pcz gy =0 $ otrzymujemy $ y=\ln x^2 $ i $ x=e^{2y}=x^4 $, stąd zaś $ x=1 $ i $ y=0 $ (innych rozwiązań nie ma). Zachowanie funkcji $ g $ w otoczeniu punktu $ (1,0) $ można przeanalizować, korzystając ze wzoru Taylora. (Nie znamy jeszcze wprawdzie wzoru Taylora dla funkcji wielu zmiennych, tu jednak nietrudno jest znaleźć najpierw rozwinięcie Taylora względem $ x $ (traktując $ y $ jako parametr), potem zaś skorzystać ze znanego rozwinięcia $ e^y=1+y+y^2/2!+\cdots $.) Wskażemy tylko kroki w rachunkach; Czytelnik zechce sprawdzić (nietrudne) szczegóły samodzielnie. Najpierw piszemy

\[ g(x,y)=3(x-1)e^y-x^3+3e^y-e^{3y}, \]

podstawiamy $  x^3=\bigl(1+(x-1)\bigr)^3=1 + 3 (x - 1) + 3 (x - 1)^2 + (x - 1)^3  $ i otrzymujemy

\[ g(x,y)=3e^y-e^{3y}-1 +3(x-1)(e^y-1) -3(x-1)^2-(x-1)^3\, . \]

Następnie wykorzystujemy rozwinięcie Taylora-Maclaurina funkcji wykładniczej. Prowadzi to do wyniku

\[ \begin{multline*}  g(x,y)=1 - 3(x-1)^2-3y^2 \\{}+ 3y(x-1) + \frac 32y^2 (x-1) + o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$.} \end{multline*} \]

Jednak $ |3y(x-1)|\le \frac 32 \bigl(y^2+(x-1)^2\bigr) $, a z nierówności Younga $ ab\le a^p/p + b^q/q $ (gdzie $ a,b\ge 0 $, $ p,q>1 $ i $ \frac 1p+\frac 1q=1 $, patrz wykłady Analizy Matematycznej z I roku) zastosowanej dla $ p=3/2 $ i $ q=3 $ otrzymujemy

\[ \frac 32 |y^2(x-1)|\le |y|^3 +\frac 12 |x-1|^3= o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$.} \]

Dlatego

\[ g(x,y)\ge 1-\frac 32\Bigl( y^2+(x-1)^2\Bigr ) + o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$,} \]

stąd zaś wynika, że $ g $ ma w punkcie $ (1,0) $ maksimum lokalne właściwe. Odpowiedni fragment wykresu funkcji $ g $ przedstawiony jest na rysunku. □

Wykres funkcji $ g(x,y)=3xe^y-x^3-e^{3y} $. Widoczny garb to jedyne maksimum lokalne tej funkcji. Innych punktów krytycznych $ g $ nie ma. Pomysł na prezentację wykresu zaczerpnięty z książki: Stan Wagon, Mathematica in action, wydanie 3, Springer Verlag 2010.

Przykład [Nierówność między średnimi raz jeszcze] Udowodnimy ponownie nierówność między średnią arytmetyczną i geometryczną. Jak wcześniej w Przykładzie [link], założymy, że

\[ 	x_1+x_2+\cdots+x_n=n, \qquad x_i\ge 0\, . 	\]

Wykażemy, że $ x_1x_2\cdot\ldots\cdot x_n\le 1 $ (przy czym równość zachodzi jedynie wtedy, gdy wszystkie $ x_i $ są równe).

Tym razem niech

\[ f(x_1,x_2,\ldots,x_{n-1})= x_1x_2\ldots x_{n-1}\underbrace{\big(n-(x_1+x_2+\cdots+x_{n-1})\big)}_{=x_n\ge 0} \]

dla

\[ \xx=(x_1,\ldots,x_{n-1})\in K=\{\xx\in \R^{n-1}\colon x_i\ge 0, \quad   x_1+\cdots+x_{n-1}\le n\}\, . \]

Zbiór $ K $ jest zwarty w $ \R^{n-1} $, a funkcja $ f $ jest ciągła na $ K $, zatem $ f $ osiąga swój kres górny. Na brzegu $ K $ jest $ f\equiv 0 $, a $ f $ przyjmuje wartości dodatnie, np. w punkcie $ (1,\ldots, 1) $, dlatego $ \sup f=f(\aa) $ dla pewnego punktu $ \aa $ należącego do wnętrza zbioru $ K $. W tym punkcie musi być $ \grad f(\aa)=0 $.

Stosując wzór na pochodną iloczynu, łatwo sprawdzić, że wewnątrz $ K $

\[ \pcz f{x_i}(\aa) =\frac{f(\aa)}{a_i}-a_1\ldots a_{n-1}, \qquad i=1,\ldots, n-1. \]

Dlatego układ równań $ \grad f(\aa)=0 $ jest równoważny innemu:

\[ n-\sum_{j=1}^{n-1} a_j - a_i=0, \qquad  i=1,\ldots, n-1.   \]

Sumując te równania, otrzymujemy $ n(n-1)=(n-1)\sum a_j + (a_1+a_2+\cdots+a_{n-1}) $, a stąd $ \sum a_j=n-1 $ i dlatego

\[ n-\sum_{j=1}^{n-1} a_j - a_i =1-a_i,  \]

ostatecznie więc $ \grad f(a)=0 $ jedynie wtedy, gdy $ a_i=1 $ dla wszystkich $ i=1,\ldots, n-1 $. Właśnie w punkcie $ (1,\ldots,1) $ funkcja $ f $ przyjmuje więc swój kres górny, równy 1. □

.

Opisaliśmy już geometryczną interpretację gradientu: jest to kierunek, w którym funkcja rośnie najszybciej. Okazuje się, że można powiedzieć więcej: przy nieznacznych dodatkowych założeniach funkcja ``jest stała w kierunkach prostopadłych do gradientu''. Aby wyjaśnić to bliżej i ściślej, będziemy potrzebowali dwóch definicji.

Definicja [poziomica funkcji] Poziomicą funkcji $ f\colon \R^n\supset \Omega\to \R^m $ nazywamy zbiór

\[ 	M=\{\xx\in \Omega\colon f(\xx)=f(\aa)\}\, , 	\]

gdzie $ \aa\in \Omega $ jest ustalonym punktem.

Innymi słowy, poziomica składa się z tych punktów, gdzie funkcja przybiera konkretną, ustaloną wartość (równą $ f(\aa) $ dla danego punktu $ \aa\in\Omega $).

Definicja [wektory styczne do zbioru w punkcie](#) Mówimy, że wektor $ \ww\in\R^n\setminus\{\zero\} $ jest styczny do zbioru $ A\subset \R^n $ w punkcie $ \aa\in A $ (i piszemy $ \ww\in T_{\maa}A $) wtedy itylko wtedy, gdy istnieje ciąg punktów $ \xx_j\in A\setminus\{\aa\} $ taki, że $ \xx_j\to \aa $ dla $ j\to\infty $, a ponadto

\[ \begin{equation} \label{defTaA} \frac{\ww}{\norm{\ww}}=\lim_{j\to\infty}\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\, .  \end{equation} \]

Przyjmiemy także, że wektor $ \zero\in \R^n $ jest, dla dowolnych $ A $ i $ \aa\in A $, styczny do zbioru $ A $ w punkcie $ \aa $. Zbiór $ T_{\maa}A $ nazywamy przestrzenią styczną do $ A $ w punkcie $ \aa $ (lub, czasem, stożkiem stycznym do $ A $ w punkcie $ \aa $).

W literaturze matematycznej można spotkać różne (niekoniecznie równoważne) definicje wektora stycznego do zbioru. Przytoczona wyżej ma tę zaletę, że można się nią posługiwać, nie przyjmując żadnych\/ dodatkowych założeń o zbiorze $ A $.

Uwaga (#) Lewa strona wzoru defTaA nie zmienia się, gdy wektor $ \ww $ mnożymy przez liczbę $ t>0 $. Dlatego jeśli $ \ww\in T_{\maa}A $, to $ t\cdot \ww\in T_{\maa}A $ dla $ t>0 $. To przestaje być prawdą dla $ t<0 $: jeśli zbiór $ A\subset \R^2 $ jest wykresem funkcji $ y=|x|^{1/2} $ i $ \aa=(0,0) $, to nietrudno sprawdzić, że $ \ww=(0,1)\in T_{\maa}A $, natomiast $ -\ww\not\in T_{\maa}A $.
Uwaga (#) Przypuśćmy, że $ \gamma\colon \R\supset I\to A\subset \R^n $ jest funkcją różniczkowalną zmiennej jednej zmiennej rzeczywistej $ t\in I $, gdzie $ I $ jest jakimś przedziałem otwartym wokół zera. Wówczas wektor $ \gamma'(0) $ jest styczny do zbioru $ A $ w punkcie $ \aa=\gamma(0) $. Jeśli $ \gamma'(0)=0 $, to nie ma czego dowodzić. Przypuśćmy więc, że $ \ww\equiv\gamma'(0)\not=0 $. Z definicji pochodnej

\[ \ww=\gamma'(0)=\lim_{j\to\infty}\frac{\gamma(1/j)-\gamma(0)}{1/j}\, . \]

Ponieważ norma jest funkcją ciągłą, więc

\[ 0\not=\|\ww\|=\lim_{j\to\infty}\frac{\norm{\gamma(1/j)-\gamma(0)}}{1/j} \]

(i wyrazy ciagu po prawej stronie są różne od zera dla dużych $ j $). Dlatego

\[ \frac{\ww}{\norm{\ww}}=\lim_{j\to\infty}  \left(\frac{\gamma(1/j)-\gamma(0)}{1/j}\cdot    \frac{1/j}{\norm{\gamma(1/j)-\gamma(0)}}              \right) =\lim _{j\to\infty}  \frac{\gamma(1/j)-\gamma(0)}{\norm{\gamma(1/j)-\gamma(0)}}\, , \]

a więc warunek defTaA jest spełniony w punkcie $ \aa=\gamma(0) $ dla punktów $ \xx_j=\gamma(1/j) $.

Interpretacja fizyczna powyższego spostrzeżenia jest jasna: jeśli podróżujemy w zbiorze $ A\subset\R^n $ (i położenie jest różniczkowalną funkcją czasu $ t $), to wektor prędkości jest cały czas styczny do zbioru $ A $.

Twierdzenie [prostopadłość gradientu do poziomicy](#) Załóżmy, że $ f\colon \R^n\supset \Omega\to \R $ jest różniczkowalna w punkcie $ \aa\in \Omega $ i ciągła na pewnej kuli $ B(\aa, r)\subset \Omega $, gdzie $ r>0 $. Niech

\[ A=\{x\in \Omega\colon f(\xx)=f(\aa)\}\, . \]

Jeśli $ \vv:=\grad f(\aa)\not=0 $, to następujące warunki są równoważne:

    {(\roman{enumi})}

  1. $ \ww\in T_{\maa} A $;
  2. wektor $ \ww $ jest prostopadły do $ \vv=\grad f(a) $, tzn. $ \langle \ww,\vv\rangle=0 $.
Dowód: Jeśli $ \ww=\zero $, to oba warunki są spełnione. Niech więc odtąd $ \ww\not= 0 $. Załóżmy także, że $ f(\aa)=0 $; to nie zmniejsza ogólności rozważań, gdyż dodając do $ f $ stałą, nie zmieniamy gradientu.

Najpierw wykażemy, że (i) $ \Rightarrow $ (ii). Niech $ \xx_j\in A\setminus\{\aa\} $ będzie zbieżnym do $ \aa $ ciągiem punktów, dla którego zachodzi warunek defTaA. Ponieważ $ \xx_j\in A $, więc z definicji $ f(\xx_j)=0 $. Wobec różniczkowalności $ f $ w $ \aa $, mamy

\[ \begin{eqnarray*} 0=f(\xx_j)=f\bigr(\aa+(\xx_j-\aa)\bigl)& =& f(\aa) + Df(\aa)(\xx_j-\aa) + o(\|\xx_j-\aa\|) \\ & = & \underbrace{f(\aa)}_{= 0}+\langle\grad f(\aa),\xx_j-\aa\rangle  + o(\|\xx_j-\aa\|) \\ & = & \langle\grad f(\aa),\xx_j-\aa\rangle  + o(\|\xx_j-\aa\|), \qquad j\to\infty, \end{eqnarray*} \]

a zatem

\[ 0=\left\langle \grad f(a),\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\right\rangle +\frac{o(\|\xx_j-\aa\|)}{\norm{\xx_j-\aa}}\, . \]

Zgodnie z defTaA, $ ({\xx_j-\aa})/{\norm{\xx_j-\aa}}\to \ww/\|\ww\| $, gdy $ j\to \infty $. Zatem

\[ 0=\lim_{j\to\infty}\left\langle \grad f(a),\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\right\rangle =\left\langle \grad f(a),\frac{\ww}{\norm{\ww}}\right\rangle =\langle \grad f(a),\ww\rangle\, . \]

Dowód implikacji (ii) $ \Rightarrow $ (i) jest nieco trudniejszy. Niech $ \vv=\grad f(a)\not=0 $. Ustalmy najpierw, posługując się wprost definicją różniczki i gradientu, liczbę $ t>0 $ tak, aby mieć

\[ f(\aa+t\cdot \vv) > 0=f(\aa)> f(\aa-t\cdot \vv)\qquad\mbox{oraz}\qquad t\cdot\|\vv\|< \frac r2\, ; \]

można to zrobić, gdyż $ Df(\aa)\hh= \langle\grad f(\aa),\hh\rangle=\langle \vv,\hh\rangle $ i dla małych $ |t| $ jest

\[    f(\aa+t\vv)=f(\aa)+Df(\aa)(t\vv)+o(|t|)= Df(\aa)(t\vv)+o(|t|)=t\|v\|^2 + o(|t|), \]

a więc znak liczby $ f(\aa+t\vv) $ jest taki, jak znak $ t $. Dalszy ciąg dowodu polega na tym, by wybrać punkty $ \xx_j\in A $, dla których zachodzi warunek z definicji wektora stycznego. Kluczowy krok pod koniec rozumowania wykonujemy nie wprost; w dowodzie istotną rolę odgrywa ciągłość $ f $ w całym otoczeniu $ \aa $. (Czytelnik zechce wykonać rysunek, zakładając, że płaszczyzna kartki jest rozpięta na $ \vv $ i $ \ww $, i zaznaczać położenia kolejnych rozpatrywanych punktów).

Niech $ j\in \N $, $ 0<\frac 1j<t $. Korzystając z ciągłości $ f $ w punktach $ \aa\pm \frac 1j \vv $, wybierzmy liczbę $ \delta_j\in (0,1/j) $ tak, aby

\[ \begin{equation} 	\label{zprawejdod} 	f(\aa+\frac 1j \vv+s\ww)>0 \qquad\mbox{dla wszystkich $|s|\le\delta_j$} \end{equation} \]

i jednocześnie

\[ \begin{equation}  	\label{zlewejuj} 	f(\aa-\frac 1j \vv+s\ww)< 0 \qquad\mbox{dla wszystkich $|s|\le\delta_j$.} \end{equation} \]

Założymy też, że punkty $ \aa\pm \frac 1j\vv +\delta_j \ww\in B(\aa,r) $.

Dla każdego dostatecznie dużego $ j\in \N $ funkcja

\[ [-1/j,1/j]\ni \theta\longmapsto \phi_j(\theta) = f(\aa+\theta\vv+\delta_j\ww) \in \R \]

jest ciągła i na końcach odcinka $ [-1/j,1/j] $ ma wartości różnych znaków, zatem istnieje punkt $ \theta_j\in (-1/j,1/j) $ taki, że $ \phi_j(\theta_j)=0 $, lub równoważnie

\[ \xx_j\stackrel{\text{ozn.}}=\aa+\theta_j\vv +\delta_j \ww\in A=\{f=0\}\, . \]

Ponieważ $ \delta_j\in (0,1/j) $ i $ |\theta_j|<1/j $, więc $ \xx_j\not= \aa $ i $ \xx_j\to \aa $ dla $ j\to \infty $. Korzystając ze zwartości sfery jednostkowej $ \S^{n-1}=\{\uu\colon \|\uu\|=1\} $, możemy założyć (przechodząc w razie potrzeby do odpowiedniego podciągu), że

\[ \frac{\xx_j-\aa}{\norm{\xx_j-\aa}} =\alpha_j\vv+\beta_j\ww \longrightarrow \uu_0= \alpha \vv +\beta \ww\in \S^{n-1}\, ,  \qquad j\to \infty \]

gdzie współczynniki $ \alpha_j\to \alpha $, $ \beta_j\to \beta $ dla $ j\to\infty $. Zauważmy, że $ \beta_j=\delta_j/\|\xx_j-\aa\|>0 $. Dlatego $ \beta=\lim\beta_j\ge 0 $.

Z definicji, wektor $ \uu_0\in T_{\maa}A $. Gdyby $ \alpha\not=0 $, to mielibyśmy

\[ \langle\uu_0,\vv\rangle=\alpha \|\vv\|^2+\beta\langle \ww,\vv\rangle\stackrel{\text{(i)}}= \alpha \|\vv\|^2\not=0. \]

Byłoby więc $ \uu_0\in T_{\maa}A $ i nie zachodziłby warunek (ii), co przeczyłoby udowodnionej już implikacji (i) $ \Rightarrow $(ii).

Dlatego musi być $ \alpha=0 $. Ponieważ $ \uu_0\not=0 $, więc $ \beta\not=0 $, czyli $ \beta>0 $. Wykazaliśmy zatem, że

\[ \uu_0=\beta \ww\in T_{\maa} A, \qquad \beta>0\, . \]

Zgodnie z Uwagą [link], $ \ww\in T_{\maa} A $. □

Zadanie Wskazać przykład funkcji $ f\colon \R^2\to\R $ różniczkowalnej w $ \aa=(0,0)\in \R^2 $, $ \grad f(0,0)=(1,0) $, dla której nie zachodzi implikacja (ii) $ \Rightarrow $ (i) w ostatnim twierdzeniu.

     Wskazówka. Podzielić płaszczyznę na trzy obszary (dolną półpłaszczyznę $ y<0 $ i dwie ćwiartki górnej półpłaszczyzny); na jednym z nich przyjąć $ f(x,y)=x $, a na dwóch pozostałych $ f(x,y)=x\pm y^2 $, tak, aby zbiór $ A=\{f=0\} $ był półprostą domkniętą o końcu wpunkcie $ \aa $.

Przykład [styczna do okręgu] Niech $ f(x,y)=x^2+y^2-R^2 $, gdzie $ R>0 $. Zbiór $ \{f=0\} $ to okrąg $ \gamma_R $ o promieniu $ R>0 $. Gradient funkcji $ f $ w punkcie $ (x,y)\in \gamma_R $ to wektor $ 2(x,y) $, współliniowy z promieniem okręgu $ \gamma_R $, prowadzącym do punktu $ (x,y) $. Twierdzenie [link] implikuje więc, że styczna do okręgu jest prostopadła do promienia, poprowadzonego w punkcie styczności.
Zadanie Proszę wykazać, że jeśli $ P $ jest płaszczyzną styczną (w sensie Definicji [link]) do wykresu funkcji różniczkowalnej $ f\colon \R^n\supset\Omega\to\R $ w punkcie $ (\aa,f(\aa)) $, to dla każdego punktu $ (\xx,x_{n+1})\in P $ wektor

\[ 	\vv=(\xx,x_{n+1}) - (\aa,f(\aa))\in \R^{n+1} 	\]

jest styczny (w sensie Definicji [link]) do wykresu funkcji $ f $. Można posłużyć się Twierdzeniem [link], tzn. przedstawić wykres funkcji $ n $ zmiennych jako poziomicę pewnej funkcji $ n+1 $ zmiennych.

Twierdzenie o wartości średniej

Definicja [Funkcje klasy $ C^1 $] Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $. Mówimy, że $ f\in C^1(\Omega,\R^m) $, jeśli $ f\colon \Omega\to\R^m $ ma na $ \Omega $ ciągłe pochodne cząstkowe $ \pcz f{x_j} $, $ j=1,2,\ldots,n $. (#)
Uwaga Jeśli $ f\in C^1(\Omega,\R^m) $, to wobec twierdzenia [link] $ f $ jest różniczkowalna w każdym punkcie $ \Omega $, a ponadto odwzorowanie

\[ 	\Omega\ni \xx\longmapsto Df(\xx)\in L(\R^n,\R^m)\simeq M_{m\times n} 	\]

jest ciągłe (tu korzystamy ze Stwierdzenia [link]). Ponieważ z istnienia różniczki wynika ciągłość funkcji, więc funkcje klasy $ C^1 $ są ciągłe.

Na odwrót, jeśli założymy, że $ f\colon \R^n\supset \Omega\to \R^m $ jest ciągła i ma ciągłą różniczkę $ Df\colon \R^n\supset \Omega\to L(\R^n,\R^m) $, to oczywiście spełnione są warunki Definicji [link]. To wynika ze Stwierdzenia [link].

Podamy teraz odpowiednik twierdzenia Lagrange'a o wartości średniej dla funkcji wielu zmiennych.

Twierdzenie [o wartości średniej](#) Niech $ f\colon \R^n\supset\Omega\to \R^m $. Załóżmy, że dla pewnych $ \xx,\yy\in \Omega $ odcinek $ [\xx,\yy]\subset \Omega $ i $ f $ jest różniczkowalna we wszystkich punktach tego odcinka. Wówczas

\[ \begin{equation} 		\label{nier-wartsr} 		\norm{f(\yy)-f(\xx)}\le \norm{\yy-\xx}\cdot \sup_{\theta\in [0,1]}\|Df(\xx+\theta(\yy-\xx))\|\, . \end{equation} \]

Geometryczny sens tego twierdzenia jest następujący: jeśli różniczka $ Df(\pp) $ zwiększa długość wektorów co najwyżej $ k $-krotnie, to norma przyrostu funkcji wzdłuż odcinka $ [\xx,\yy] $, zawartego w dziedzinie, nie przekracza iloczynu liczby $ k $ i długości tego odcinka.

Dowód: Wprowadźmy dwie funkcje pomocnicze,

\[ \begin{eqnarray} 	g(t) & =& f(\xx+t(\yy-\xx))-f(\xx)\, , \qquad t\in [0,1]\, , \label{pomoc-g}\\    	\Phi(t) &=&\big\langle g(1),g(t)\big\rangle\, , \qquad t\in [0,1]\, . \end{eqnarray} \]

Dla $ t\in [0,1] $ punkt $ \xx+t(\yy-\xx)\in [\xx,\yy] $, zatem $ g $ jest funkcją różniczkowalną zmiennej $ t $ (jako złożenie funkcji różniczkowalnych). Podobnie, $ \Phi $ jest funkcją różniczkowalną. Ponadto, $ \Phi(1)=\|g(1)\|^2=\norm{f(\yy)-f(\xx)}^2 $ i $ \Phi(0)=0 $. Wyraźmy przyrost funkcji $ \Phi $, stosując twierdzenia Lagrange'a dla funkcji jednej zmiennej, a następnie obliczmy pochodną $ \Phi'(\theta) $, korzystając z twierdzeń o pochodnej iloczynu i różniczce złożenia. Otrzymamy

\[ \begin{eqnarray*} \norm{f(\yy)-f(\xx)}^2& =& \Phi(1)-\Phi(0)\\ & = & \Phi'(\theta)\qquad\mbox{dla pewnego $\theta\in (0,1)$}\\ & = & \big\langle g(1),g'(\theta)\big\rangle	\\ & = & \big\langle f(\yy)-f(\xx),Df(\xx+\theta(\yy-\xx))\cdot(\yy-\xx)\big\rangle \\ & \le & \norm{f(\yy)-f(\xx)}\cdot \norm{Df(\xx+\theta(\yy-\xx))\cdot{(\yy-\xx)}}\\ & \le & \norm{f(\yy)-f(\xx)}\cdot \norm{Df(\xx+\theta(\yy-\xx))}\cdot\norm{\yy-\xx}. \end{eqnarray*} \]

(Pierwsza nierówność to nierówność Schwarza; druga wynika z definicji normy przekształcenia liniowego). Jeśli $ \norm{f(\yy)-f(\xx)}=0 $, to teza jest oczywista. W przeciwnym przypadku dzielimy otrzymaną nierówność przez $ \norm{f(\yy)-f(\xx)}>0 $ i biorąc kres górny prawej strony względem $ \theta\in [0,1] $ otrzymujemy nier-wartsr. □

Podamy jeszcze drugi dowód tego ważnego twierdzenia. Wymaga on wprawdzie nieco mocniejszych założeń, jednak użyty w nim sposób postępowania jest bardzo naturalny iczęsto wykorzystywany w wielu działach analizy.

    Drugi dowód twierdzenia o wartości średniej. Niech $ g $ nadal oznacza funkcję pomocniczą, określoną wzorem pomoc-g. Założymy dodatkowo, że $ f\in C^1(\Omega,\R^m) $. Wtedy $ g'(t) $ jest funkcją ciągłą. Wyrazimy przyrost $ f $, tzn. przyrost $ g $ na odcinku $ [0,1] $, całkując $ g' $.

     Uwaga. Wartościami $ g' $ są wektory z przestrzeni $ \R^m $. Przyjmujemy naturalną umowę: całka oznaczona $ \int_a^b h(t)\, dt $ z (ciągłej) funkcji wektorowej $ h=(h_1,\ldots,h_m)\colon [a,b]\to\R^m $ jest wektorem o współrzędnych $ \int_a^b h_j(t)\, dt $. Zachodzi wtedy nierówność

\[ \begin{equation} 	\label{normint}  	\norm{\int_a^b h(t)\, dt}\le \int_a^b\norm{h(t)}\, dt\, ,  \end{equation} \]

którą Czytelnik może udowodnić samodzielnie. (Wskazówka: Całkę można przybliżać sumami Riemanna, a dla sum Riemanna mamy tu do czynienia po prostu z nierównością trójkąta dla normy.)

Mamy

\[ f(\yy)-f(\xx)=g(1)=g(1)-g(0)=\int_0^1g'(t)\, dt\, . \]

Korzystając z nierówności [link] i obliczając $ g' $ (jak w pierwszym dowodzie), otrzymujemy

\[ \begin{eqnarray*} \|f(\yy)-f(\xx)\| & = & \norm{\int_0^1g'(t)\, dt} \\ & \le & \int_0^1\norm{g'(t)}\, dt \\ & = & \int_0^1\norm{Df(\xx+t(\yy-\xx))\cdot{(\yy-\xx)}}\, dt   \\ & \le  & \int_0^1\norm{Df(\xx+t(\yy-\xx))}\cdot\norm{\yy-\xx}\, dt  \\ & =  & \norm{\yy-\xx}\cdot \int_0^1\norm{Df(\xx+t(\yy-\xx))}\, dt  \\                                                   & \le  &\norm{\yy-\xx}\cdot \sup_{t\in [0,1]} \norm{Df(\xx+t(\yy-\xx))}\, .                                                 \end{eqnarray*} \]

(Pisząc ostatnią nierówność, oszacowaliśmy całkę przez iloczyn kresu górnego funkcji idługości odcinka). □

Pochodne cząstkowe wyższych rzędów i wzór Taylora

Zajmiemy się teraz określeniem pochodnych cząstkowych rzędu wyższego niż pierwszy, różniczek wyższych rzędów, oraz uogólnieniem wzoru Taylora na funkcje wielu zmiennych. Podobnie jak w przypadku funkcji jednej zmiennej, wzór Taylora pozwala znajdować najlepsze przybliżenia wielomianowe funkcji, a także prowadzi do warunków dostatecznych, gwarantujących, że w punkcie krytycznym funkcja ma ekstremum lokalne.

Jak można się spodziewać, pochodne cząstkowe wyższych rzędów definiuje się indukcyjnie.

Definicja [pochodne cząstkowe drugiego rzędu] Załóżmy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $ ma na $ \Omega $ pochodną cząstkową $ \pcz f{x_i}\colon \Omega\to\R^m $. Jeśli funkcja $ D_i f=\pcz f{x_i} $ ma w punkcie $ \aa\in \Omega $ pochodną cząstkową względem $ x_j $, to przyjmujemy

\[ 	\frac{\partial^2 f}{\partial x_j\partial x_i}(\aa)= \frac{\partial}{\partial x_j}\left[\pcz f{x_i}\right](\aa)\, . 	\]

Będziemy też używać innych oznaczeń:

\[ \pczdwa f{x_i}{x_j}(\aa)=D_jD_i f(\aa)=f_{x_ix_j}(\aa)\, . \]

     Uwaga. Posługując się oznaczeniami $ f_{x_ix_j} $, przestrzegamy naturalnej mnemotechnicznej konwencji: najpierw różniczkujemy względem tej zmiennej, która jest zapisana bliżej $ f $.

Pochodne cząstkowe wyższych rzędów definiuje się analogicznie, np.

\[ \frac{\partial^3 f}{\partial x_k\partial x_j\partial x_i}(\aa)=  \frac{\partial}{\partial x_k}\left[\pczdwa f{x_i}{x_j}\right](\aa)\, ; \]

stosując inne oznaczenia, napisalibyśmy $ D_kD_jD_i f(\aa)=D_k(D_jD_i f)(\aa) $ oraz

\[   \big(f_{x_ix_j}\big)_{x_k}(\aa)=f_{x_ix_jx_k}(\aa)\, . \]

Stosowanie wszelkich oznaczeń tego typu dla pochodnych cząstkowych rzędu wyższego niż drugi jest w praktyce dość niewygodne. Dlatego później poznamy jeszcze inną, wygodną i bardzo skrótową konwencję notacyjną. Najpierw jednak omówimy najważniejsze własności pochodnych cząstkowych drugiego rzędu.

Przykład Peano i twierdzenie Schwarza o równości pochodnych mieszanych

Bardzo naturalne jest pytanie: czy, wprowadzając oznaczenia pochodnych cząstkowych drugiego rzędu, trzeba rzeczywiście koniecznie odróżniać $ f_{x_ix_j} $ od $ f_{x_jx_i} $? Czytelnik, oswojony już nieco z przykładami patologicznego zachowania funkcji wielu zmiennych, może spodziewać się, że odpowiedź jest twierdząca.

Przykład [G. Peano, 1884] Niech

\[ 	f(x,y)=\begin{cases} xy\dfrac{x^2-y^2}{x^2+y^2}\, , & (x,y)\not=(0,0),\\[8pt] 	0,          & (x,y)=(0,0). \end{cases} 	\]

W punktach $ \R^2\setminus\{(0,0)\} $ funkcja $ f $ jest różniczkowalna. Ponadto,

$$|f(x,y)|\le |xy|\le \frac 12 (x^2+y^2);$$

korzystając z tej nierówności, sprawdza się łatwo (wprost z definicji różniczki), że $ Df(0,0)=(0,0)\in L(\R^2,\R) $. Obliczymy teraz pochodne mieszane $ f_{xy}(0,0) $ i $ f_{yx}(0,0) $.

Mamy

\[ f_{xy}(0,0)= \bigl(f_x\bigr)_y(0,0)=\lim_{y\to 0}\frac{f_x(0,y)-f_x(0,0)}y =  \lim_{y\to 0}\frac{f_x(0,y)}y,  \]

gdyż $ f_y(0,0)=0 $ (pamiętajmy: różniczka $ f $ znika w zerze). Wartość $ f_x(0,y) $ obliczamy, posługując się definicją $ f $; aby nie wykonywać długich rachunków, zauważmy, że $ f(x)=x^2 $ ma w zerze pochodną $ 0 $ i dlatego

\[ f_x(0,y)=y \cdot  \left(\dfrac{x^2-y^2}{x^2+y^2}\right)_{|x=0}=-y\, . \]

Zatem $ f_{xy}(0,0)=-1 $. Zamieniając $ x,y $ rolami, otrzymujemy w ten sam sposób $ f_{y}(x,0)=x $ i$ f_{yx}(0,0)=1 $. Jest więc $ f_{xy}(0,0)\not=f_{yx}(0,0) $.

Podobny (bardziej skomplikowany) przykład podał H.A. Schwarz nieco wcześniej. Okazuje się jednak, że takie zachowanie jest wykluczone wówczas, gdy pochodne mieszane są ciągłe.

Twierdzenie [Schwarza o równości pochodnych mieszanych] Ustalmy $ i,j\in {1,\ldots, n} $. Jeśli funkcja $ f\colon \R^n\supset \Omega\to \R^m $ jest klasy $ C^1 $ i ma na $ \Omega $ ciągłą pochodną $ f_{x_ix_j} $, to pochodna $ f_{x_jx_i} $ istnieje we wszystkich punktach $ \Omega $ i $ f_{x_jx_i}=f_{x_ix_j} $. (#)

Dowód poprzedzimy kilkoma lematami.

Lemat Niech $ Q=[a,b]\times[c,d]\subset \R^2 $. Jeśli funkcja $ f\colon Q\to\R^m $ zmiennych $ (x,y)\in Q $ jest ciągła i ma ciągłą pochodną cząstkową $ f_y\colon Q\to \R^m $, to

\[ 	\Phi(y)=\int_a^b f(x,y)\, dx, \qquad y\in [c,d], 	\]

jest funkcją różniczkowalną i zachodzi wzór

\[ \begin{equation} 	\label{pochcalki} 	\Phi'(y)= \int_a^b f_y(x,y)\, dx\, . \end{equation} \]
Dowód: Z definicji całki oznaczonej,

\[ f(x,y+h)-f(x,y)=\int_0^1\frac{d}{ds}f(x,y+sh)\, ds = h\int_0^1f_y(x,y+sh)\, ds\, . \]

Dlatego iloraz różnicowy funkcji $ \Phi $ jest równy

\[ \begin{eqnarray*} \Delta_h\Phi(y) &\stackrel{\text{ozn.}}=& \frac{\Phi(y+h)-\Phi(y)}h\\ &=& \frac 1h \int_a^b \Bigl(f(x,y+h)-f(x,y)\Bigr)\, dx  =  \int_a^b \biggl(\int_0^1f_y(x,y+sh)\, ds\biggr)\, dx\, . \end{eqnarray*} \]

Oznaczmy literą $ I $ całkę po prawej stronie wzoru pochcalki. Ponieważ $ f_y(x,y)=\int_0^1 f_y(x,y)\, ds $, więc

\[ \begin{eqnarray} \norm{\Delta_h\Phi(y)-I}& = &\norm{\int_a^b \biggl(\int_0^1f_y(x,y+sh)\, ds\biggr)\, dx-   \int_a^b\biggl(\int_0^1 f_y(x,y)\, ds\biggr)\, dx}\nonumber\\ & = & \norm{\int_a^b \biggl(\int_0^1\big(f_y(x,y+sh)-f_y(x,y)\big)\, ds\biggr)\, dx}\nonumber\\ & \le &  \int_a^b \biggl(\int_0^1\norm{f_y(x,y+sh)-f_y(x,y)}\, ds\biggr)\, dx\, .  \label{lempomost} \end{eqnarray} \]

Funkcja $ f_y $ jest ciągła na zbiorze zwartym $ Q=[a,b]\times[c,d] $, a więc jest jednostajnie ciągła na $ Q $. Ustalmy $ \eps>0 $ i dobierzmy $ \delta>0 $ tak, aby $ \norm{f_y(\pp_1)-f_y(\pp_2)}<\eps/(b-a) $ dla $ \norm{\pp_1-\pp_2}<\delta $. Wówczas, dla $ |h|<\delta $, funkcja podcałkowa w lempomost jest w każdym punkcie mniejsza od $ \eps/(b-a) $ i otrzymujemy

\[ \norm{\Delta_h\Phi(y)-I}< \int_a^b \biggl(\int_0^1\frac{\eps}{b-a} ds\biggr)\, dx =    (b-a)\cdot\frac{\eps}{b-a} =\eps\, . \]

Wprost z definicji granicy, $ \Delta_h\Phi(y)\to I $ dla $ h\to 0 $, tzn. istotnie zachodzi wzór pochcalki. □

Uwaga Oczywiście, wzór analogiczny do pochcalki zachodzi także wtedy, gdy zmienne zamienimy rolami.
Lemat Niech $ \Omega\subset \R^2 $ będzie zbiorem otwartym i niech $ Q=[a,b]\times[c,d]\subset\Omega $. Jeśli $ f\in C^1(\Omega,\R^m) $ ma pochodną cząstkową $ f_{yx} $ ciągłą na $ Q $, to wówczas $ f_{xy} $ istnieje w punktach prostokąta $ Q $ i $ f_{xy}(x,y)=f_{yx}(x,y) $ dla $ (x,y)\in Q $. (#)
Dowód: Załóżmy najpierw, że $ m=1 $. Niech $ (x,y), (x,y_0)\in Q $. Napiszmy

\[ f(x,y)=f(x,y_0) +\int_{y_0}^y f_y(x,z)\, dz =  f(x,y_0) +\int_{y_0}^y g(x,z)\, dz\, , \]

gdzie funkcja $ g=f_y $ jest ciągła na $ \Omega $ i ma pochodną $ g_x=f_{yx} $ ciągłą na $ Q $. Różniczkując powyższy wzór względem $ x $ i stosując poprzedni lemat do $ g $, otrzymujemy

\[ f_x(x,y)=f_x(x,y_0)+\int_{y_0}^y g_x(x,z)\, dz=  f_x(x,y_0)+\int_{y_0}^y f_{yx}(x,z)\, dz\, . \]

Zatem

\[ \frac{f_x(x,y)-f_x(x,y_0)}{y-y_0}=\frac{1}{y-y_0}\int_{y_0}^y f_{yx}(x,z)\, dz\, . \]

Dla $ y\to y_0 $ lewa strona dąży do $ f_{xy}(x,y_0) $, prawa zaś do wartości funkcji podcałkowej wpunkcie$ y_0 $, tzn. do $ f_{yx}(x,y_0) $ (tu ponownie korzystamy z ciągłości $ f_{yx} $ i z twierdzenia owartości średniej dla całki). Dowód jest zakończony w przypadku $ m=1 $.

Gdy $ m>1 $, to z pierwszej części dowodu wynika, że wszystkie współrzędne pochodnej $ f_{xy} $ są dobrze określone i równe odpowiednim współrzędnym $ f_{yx} $. □

         Dowód Twierdzenia [link] Dla zbiorów $ \Omega\subset \R^2 $ twierdzenie wynika natychmiast z ostatniego lematu. Jeśli $ n>2 $, to zauważmy, że aby określić pochodne $ f_{x_ix_j} $ oraz $ f_{x_jx_i} $ w punkcie $ \aa\in \Omega\subset\R^n $, wystarczy znać wartości $ f $ jedynie na dwuwymiarowej płaszczyźnie afinicznej $ \aa+\mathrm{span}(\ee_i,\ee_j) $. Stosując Lemat [link] na przecięciach zbioru $ \Omega $ z takimi płaszczyznami, łatwo otrzymujemy tezę. □

Druga różniczka

Zacznijmy od objaśnienia, jakim obiektem matematycznym miałaby być druga różniczka $ D^2f $ funkcji wielu zmiennych. Przypuśćmy, że $ f\colon \R^n\supset\Omega\to\R^m $ jest różniczkowalna na $ \Omega $. Dla ustalonego $ \xx\in \Omega $ jej różniczka $ Df(\xx) $ jest elementem przestrzeni $ L(\R^n,\R^m) $, którą, ustaliwszy bazy w $ \R^n $ i$ \R^m $, można utożsamiać z $ M_{m\times n} $ lub $ \R^{mn} $. Inaczej mówiąc,

\[ Df\colon \R^n\supset \Omega\ni \xx\longmapsto Df(\xx)\in L(R^n,\R^m)\simeq \R^{mn}\, . \]

Naturalnie byłoby określić drugą różniczkę $ D^2 f $ jako $ D^2f=D(Df) $ (wszędzie tam, gdzie $ Df $ sama jest funkcją różniczkowalną). Zgodnie z definicją różniczki, powinno wtedy być

\[ D^2f=D(Df)\colon \R^n\supset\Omega\ni \xx\longmapsto D^2f(\xx)\ni L(\R^n,L(\R^n,\R^m)). \]

tzn. $ D^2f(\xx)=D(Df)(\xx) $ powinna być, dla ustalonego $ \xx $, przekształceniem liniowym z $ \R^n $ w przestrzeń, do której należą wartości różniczkowanej funkcji $ Df $, tzn. $ L(\R^n,\R^m) $. Brzmi to zawile i widać od razu, że definiowanie różniczek wyższych rzędów prowadziłoby do coraz dłuższych napisów (i coraz bardziej skomplikowanych przestrzeni liniowych). Dlatego korzysta się z naturalnego izomorfizmu

\[ L(\R^n,L(\R^n,\R^m)) \equiv L(\R^n,\R^n; \R^m) \]

między przestrzenią $ L(\R^n,L(\R^n,\R^m)) $ i przestrzenią $ L(\R^n,\R^n;\R^m) $ przekształceń dwuliniowych $ \R^n\times \R^n\to \R^m $. Jest to izomozfizm kanoniczny, tzn. zdefinowany bez odwoływania się do układu współrzędnych, za pomocą wzoru

\[ \begin{equation} 	\label{izoL2L-1}    	L(\R^n,L(\R^n,\R^m))\ni F\longmapsto B_F \in L(\R^n,\R^n;\R^m)  \end{equation} \]

gdzie

\[ \begin{equation} 	\label{izoL2L-2}    	B_F(\uu,\vv)=F(\uu)\vv \qquad\mbox{dla $\uu,\vv\in\R^n$.}  \end{equation} \]

Sprawdzenie, że to rzeczywiście izomorfizm, jest łatwym ćwiczeniem.

Definicja Przypuśćmy, że różniczka $ Df\colon \Omega\to L(\R^n,\R^m) $ funkcji $ f\colon \R^n\supset\Omega\to\R^m $ jest określona w każdym punkcie zbioru otwartego $ \Omega\subset\R^n $. Jeśli funkcja

\[ 	g=Df\colon \Omega\to L(\R^n,\R^m)\simeq M_{m\times n} 	\]

jest różniczkowalna w punkcie $ \aa\in \Omega $, to przekształcenie dwuliniowe

\[ D^2f(\aa)=D(Df)(\aa)=Dg(\aa)\in L(\R^n,L(\R^n,\R^m))  \equiv    L(\R^n,\R^n;\R^m) \]

nazywamy drugą różniczką funkcji $ f $ w punkcie $ \aa $.

Uwaga Dla $ m=1 $ różniczka $ Df(\xx)\in L(\R^n,\R)=(\R^n)^\ast\simeq \R^n $ ma jako współrzędne pochodne cząstkowe $ f_{x_i}(\xx) $. Dlatego przekształcenie dwuliniowe $ D^2f(\xx) $ ma, w standardowej bazie $ \R^n $, macierz, której wyrazami są pochodne cząstkowe drugiego rzędu funkcji $ f $; ponadto,

\[ 	D^2f(\xx)(\vv,\ww)=\vv^T D^2f(\xx)\ww\, , 	\]

gdzie lewą stronę interpretujemy jako wartość przekształcenia dwuliniowego dla pary wektorów $ \vv,\ww $, prawą zaś jako wynik mnożenia trzech macierzy, o rozmiarach (odpowiednio) $ 1\times n $, $ n\times n $ i $ n\times 1 $.

Z twierdzenia Schwarza o równości pochodnych mieszanych wynika natychmiast, że jeśli $ f\colon \Omega\to \R $ ma ciągłe pochodne cząstkowe do rzędu 2 włącznie, to $ Df\colon \Omega\to (\R^n)^\ast $ jest funkcją różniczkowalną i dla każdego $ \aa\in \Omega $ macierz przekształcenia dwuliniowego $ D^2f(\aa) $ jest macierzą symetryczną, gdyż $ f_{x_ix_j}=f_{x_jx_i} $. Okazuje się jednak, że tak jest również wtedy, gdy $ D^2 f(\aa) $ po prostu istnieje; nie trzeba zakładać ciągłości pochodnych mieszanych w pewnym otoczeniu punktu $ \aa $.

Twierdzenie [Schwarza o symetrii drugiej różniczki] Załóżmy, że różniczka $ Df\colon \Omega\to L(\R^n,\R^m) $ funkcji $ f\colon \R^n\supset\Omega\to\R^m $ jest określona w każdym punkcie zbioru otwartego $ \Omega $. Jeśli $ D^2f(\aa)\in L(\R^n,\R^n;\R^m) $ istnieje dla pewnego $ \aa\in \Omega $, to jest przekształceniem dwuliniowym symetrycznym, tzn.

\[ D^2f(\aa)(\vv,\ww)= D^2f(\aa)(\ww,\vv) \qquad\mbox{dla wszystkich $\vv,\ww\in \R^n$.} \]
Dowód: Ustalmy $ \vv,\ww\in \R^n $. Niech $ \max(\norm{\vv},\norm{\ww})=M $. Rozpatrzmy funkcję pomocniczą

\[ \phi(s,t)=f(\aa+t\ww+s\vv)-f(\aa+t\ww)-f(\aa+s\vv)+f(\aa)-ts\, D^2f(\aa)(\ww,\vv)\, , \]

określoną dla $ s,t $ w pewnym otoczeniu zera. Mamy $ \phi(0,t)=0 $; z twierdzenia o wartości średniej wynika, że \begin{multline} \|\phi(s,t)\|=\|\phi(s,t)-\phi(0,t)\|\le |s| \sup_{\sigma\in [0,s]}\norm{\phi_s(\sigma,t)} \\ = |s| \sup_{\sigma\in [0,s]}\norm{\Big(Df(\aa+t\ww+\sigma\vv)-Df(\aa+\sigma\vv) \Big)\cdot\vv - tD^2f(\aa)(\ww,\vv)}\, . (#) \end{multline} Ponieważ $ D^2f(\aa) $ istnieje, więc $ Df(\aa+\hh)=Df(\aa)+D^2f(\aa)\hh+\|h\| r(\hh) $, gdzie $ r(\hh)\to 0 $ dla $ \hh\to 0 $ (patrz Stwierdzenie [link]). Podstawiając w tej równości wektory $ \hh_1=t\ww+\sigma\vv $ i $ \hh_2=\sigma\vv $, otrzymujemy

\[ \begin{eqnarray*} Df(\aa+t\ww+\sigma\vv)&=&Df(\aa)+D^2f(\aa)\cdot (t\ww+\sigma\vv) +\|\hh_1\|r(\hh_1), \\ Df(\aa+\sigma\vv)&=&Df(\aa)+D^2f(\aa)\cdot \sigma\vv +\|\hh_2\|r(\hh_2)\, . \end{eqnarray*} \]

Odejmując oba wzory stronami i pamiętając o izomorfizmie przestrzeni $ L(\R^n,\R^n;\R^m) $ oraz $ L(\R^n,L(\R^n,\R^m)) $, sprawdzamy, że \begin{multline} \Big(Df(\aa+t\ww+\sigma\vv)-Df(\aa+\sigma\vv) \Big)\cdot\vv - tD^2f(\aa)(\ww,\vv) \\= \big(\|\hh_1\|r(\hh_1)-\|\hh_2\|r(\hh_2)\big) \cdot \vv\, . (#) \end{multline} Niech odtąd $ s=t $. Wtedy $ |\sigma|\le |s|=|t| $, co daje oszacowania $ \|h_i\|\le 2M|t| $ dla $ i=1,2 $ oraz

\[ \begin{equation} 	\label{resztaD2}  	\|r(\hh_i)\|\le \sup_{\norm{\mhh}\le 2Mt} \|r(\hh) \| = o(1)\, , \qquad t\to 0\, .   \end{equation} \]

Korzystając ze wzorów D22- resztaD2, przepisujemy dla $ s=t $ nierówność D21 w postaci

\[ \phi(t,t)\le |t| \cdot \big(2Mt \cdot 2 \sup_{\norm{\mhh}\le 2Mt} \|r(\hh) \|\big)\cdot \|v\|= t^2 o(1), \qquad t\to 0\, . \]

Innymi słowy, $ \phi(t,t)/t^2\to 0 $ dla $ t\to 0 $, lub równoważnie

\[ \begin{equation} 	\label{symetriaD2}    	D^2f(\ww,\vv)=\lim_{t\to 0}\frac{f(\aa+t\ww+t\vv)-f(\aa+t\ww)-f(\aa+t\vv)+f(\aa)}{t^2}\, .  \end{equation} \]

Prawa strona wzoru symetriaD2 nie zmienia się, gdy zamienimy wektory $ \ww,\vv $ rolami. Dlatego lewa strona też musi być symetryczną funkcją $ \ww $ i $ \vv $, tzn. $ D^2f(\ww,\vv)=D^2f(\vv,\ww) $. □

Przykład

    {\alph{enumi})}

  1. Jeśli $ f(\xx)=A\xx $, gdzie $ A\in L(\R^n,\R^m) $ jest ustalonym przekształceniem liniowym, to $ Df(\xx)=A $ jest przekształceniem stałym i dlatego $ D^2f(\xx) = \zero\in L(\R^n,\R^n;\R^m) $.
  2. Jeśli
    \[ 	f(\xx)=\langle A\xx,\xx\rangle \qquad\mbox{dla $\xx\in \R^n$,} 	\]

    gdzie $ A $ jest macierzą $ n\times n $, to ze wzoru na pochodną `iloczynu' otrzymujemy

    \[ Df(\xx)\hh =\langle A\hh, \xx\rangle + \langle A\xx, \hh \rangle =\langle A^T\xx, \hh\rangle + \langle A\xx, \hh\rangle = \big\langle (A+A^T)\xx,\hh\big\rangle\, , \]

    co oznacza, że $ Df(\xx)=(A+A^T)\xx $ dla wszystkich $ \xx\in \R^n $. (Pisząc wzór $ Df(\xx)=(A+A^T)\xx $, utożsamiamy funkcjonał liniowy $ Df(\xx) $ z wektorem $ (A+A^T)\xx $.) Zatem, $ Df $ zależy od $ \xx $ liniowo i mamy $ D^2f(\xx)=A+A^T $. Jeśli $ A=A^T $, tzn. macierz $ A $ jest symetryczna, to $ D^2f(\xx)=2A $.

Różniczki wyższych rzędów

Różniczki wyższych rzędów definiuje się indukcyjnie, wzorem

\[ D^k(f)(\aa)= D(D^{k-1}f)(\aa), \qquad \aa\in \Omega, \quad f\colon \Omega\to \R^m\, . \]

Aby definicja $ D^k(f)(\aa) $ miała sens, różniczka rzędu $ (k-1) $ powinna być funkcją określoną w otoczeniu punktu $ \aa $ i różniczkowalną w $ \aa $. Różniczka $ k $-tego rzędu, $ D^k(f)(\aa) $ jest przekształceniem $ k $-liniowym z $ \R^n\times\ldots\times\R^n $ w $ \R^m $, tzn.

\[ D^kf(\aa)\colon \underbrace{\R^n\times\ldots\times\R^n}_{k \text{ razy}}\ni (\vv_1,\ldots, \vv_k)\quad\longmapsto\quad D^kf(\aa)(\vv_1,\ldots,\vv_k)\in \R^m\, . \]

Wartość $ D^kf(\aa)(\vv_1,\ldots,\vv_k) $, która jest wektorem z $ \R^m $, zależy liniowo od każdego zwektorów $ \vv_i $ ($ i=1,\ldots, k $) z osobna. Taka interpretacja różniczki $ k $-tego rzędu jest rzeczą naturalną: jeśli

\[ D^{k-1}f\colon \Omega\ni \xx\longmapsto D^{k-1}f(\xx)\in L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\, , \]

gdzie

\[ L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m) \]

oznacza przestrzeń przekształceń $ (k-1) $-liniowych z $ \R^n\times\R^n $ w $ \R^m $, to zgodnie z definicją różniczki

\[ D^k f\colon \Omega\ni \xx \longmapsto D^kf(\xx)=D(D^{k-1} f)(\xx)\in L\big(\R^n, L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\big)\, . \]

Jednak przestrzenie

\[ V_1:=L\big(\R^n, L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\big) \qquad\mbox{oraz}\qquad V_2:=L(\underbrace{\R^n,\ldots,\R^n}_{k \text{ razy}},\R^m) \]

można utożsamić; ich naturalnym izomorfizem jest przekształcenie $ V_1\ni F\mapsto B_F\in V_2 $, gdzie $ F $ i $ B_F $ powiązane są zależnością

\[ F(\vv_1)(\vv_2,\ldots,\vv_k)=B_F(\vv_1,\vv_2,\ldots,\vv_k)\, . \]
Uwaga Jeśli $ D^kf(\aa) $ istnieje, to jest przekształceniem wieloliniowym symetrycznym, tzn.

\[ 	D^kf(\aa)(\vv_1,\ldots,\vv_k)  =D^kf(\aa)(\vv_{\sigma(1)},\ldots,\vv_{\sigma(k)})    	  \]

dla każdej permutacji $ \sigma\in S_k $ zbioru $ k $-elementowego. Mozna to udowodnić przez indukcję względem $ k $, posługując się twierdzeniem Schwarza o symetrii drugiej różniczki.

Uwaga Będziemy odtąd używać oznaczenia

\[ \begin{equation} 		Df(\aa)\hh^k = Df(\aa)(\underbrace{\hh,\ldots,\hh}_{k \text{ razy}}) \end{equation} \]

dla oznaczenia wartości $ k $-tej różniczki (która jest przekształceniem $ k $-liniowym) na układzie $ k $ identycznych wektorów.

Aby wszystkie rachunki w następnym podrozdziale Czytelnik mógł prześledzić ze zrozumieniem, wprowadzimy jeszcze jedną definicję.

Definicja [norma przekształcenia wieloliniowego] Normą przekształcenia $ k $-liniowego

\[ 	 B\in L(\underbrace{\R^n,\ldots,\R^n}_{k \text{ razy}},\R^m)  	\]

nazywamy najmniejszą stałą $ C=\|B\|\ge 0 $ taką, że

\[ \|B(\vv_1,\ldots,\vv_k)\|\le \|B\|\cdot \|\vv_1\|\cdot\ldots\cdot \|\vv_k\|        \qquad\mbox{dla wszystkich $\vv_1, \ldots, \vv_k\in \R^n$.} \]

Zapisywanie różniczek wyższych rzędów we współrzędnych jest zajęciem niewdzięcznym i nie będziemy tego robić. Wygodną metodę oznaczania pochodnych cząstkowych wyższych rzędów podamy w następnym podrozdziale.

Wzór Taylora. Funkcje klasy $ C^k $ i notacja wielowskaźnikowa.

Okazuje się, że przy odpowiedniej notacji, wprowadzonej wyżej, wzór Taylora w najprostszej wersji, z resztą w postaci Peano, wygląda zupełnie tak samo, jak dla funkcji jednej zmiennej.

Twierdzenie [wzór Taylora z resztą w postaci Peano] Załóżmy, że funkcja $ f\colon \R^n\supset\Omega\to\R^m $ jest $ (k-1) $-krotnie różniczkowalna na $ \Omega $, kula $ B(\aa,r)\subset \Omega $ dla pewnego $ r>0 $ i $ D^kf(\aa) $ istnieje. Wówczas, dla $ \|\hh\|<r $,

\[ \begin{equation} 		\label{Taylor-Peano-k}  		f(\aa+\hh)=f(\aa)+Df(\aa)\hh +\frac 1{2!} D^2f(\aa)\hh^2 + \cdots + \frac{1}{k!} D^kf(\aa)\hh^k  + R(\hh), \end{equation} \]

gdzie $ R(\hh)/\|\hh\|^k\to \zero $ dla $ \hh\to \zero $.

Dowód: Oszacujemy resztę

\[ R(\hh)= f(\aa+\hh)-\Big(f(\aa)+Df(\aa)\hh +\frac 1{2!} D^2f(\aa)\hh^2 + \cdots + \frac{1}{k!} D^kf(\aa)\hh^k \Big)\, , \]

stosując $ k-1 $ razy twierdzenie o wartości średniej. Zauważmy, że $ R(\zero)=\zero $, a ponadto

\[ \begin{eqnarray*} DR(\hh) & = & Df(\aa+\hh) - Df(\aa)-\frac 1{1!} D^2f(\aa)\hh  -\cdots-\frac 1{(k-1)!}D^{k}f(\aa)\hh^{k-1}\, ,\\   D^2R(\hh) & = & D^2f(\aa+\hh) - D^2f(\aa)- \cdots-\frac 1{(k-2)!}D^{k}f(\aa)\hh^{k-2}\,	, \\  & \vdots &      \\  [8pt] D^{k-1}R(\hh)   & = & D^{k-1}f(\aa+\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\hh\,     . \end{eqnarray*} \]

Mamy więc $ DR(\zero)=\zero $, \ldots, $ D^{k-1}R(\zero)=\zero $. Korzystając z Twierdzenia [link], otrzymujemy nierówności

\[ \begin{eqnarray} \|R(\hh)\| & = & \|R(\hh)-R(\zero)\|\le \|\hh\|\cdot \sup_{\theta\in [0,1]} \|DR(\theta\hh)\| \nonumber\\  & \le & \|\hh\|^2  \sup_{\theta\in [0,1]} \|D^2R(\theta\hh)\| \nonumber\\ & \vdots &\nonumber \\ [8pt] & \le  &  \|\hh\|^{k-1}  \sup_{\theta\in [0,1]} \|D^{k-1}R(\theta\hh)\|\, .    \label{TayDk-1} \end{eqnarray} \]

Normę $ \|D^{k-1}R(\theta\hh)\| $ trzeba oszacować inaczej, gdyż $ D^kf $ istnieje tylko w punkcie $ \aa $. Można jednak skorzystać po prostu z definicji różniczki; wobec wzoru na $ D^{k-1}R $ mamy

\[ \begin{multline*} \sup_{\theta\in [0,1]} \|D^{k-1}R(\theta\hh)\|=\sup_{\theta\in [0,1]} \biggl(|\theta|\cdot \|\hh\| \frac{\norm{D^{k-1}f(\aa+\theta\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\theta\hh}}{\norm{\theta\hh}} \biggr)\\ \le \|\hh\| \sup_{\theta\in [0,1]}  \frac{\norm{D^{k-1}f(\aa+\theta\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\theta\hh}}{\norm{\theta\hh}} = \|\hh\| \cdot o(1) \quad \mbox{dla $\hh\to \zero$.} \end{multline*} \]

Łącząc tę nierówność z TayDk-1, otrzymujemy $ \|R(\hh)\|=\|\hh\|^k o(1) $ dla $ \hh\to \zero $. □

W praktyce wygodnie jest znać także inne postacie wzoru Taylora. Jedną z nich, używającą tzw. notacji wielowskaźnikowej, podajemy niżej.

\subsubsection*{Notacja wielowskaźnikowa. Funkcje klasy $ C^k $.}

Definicja Wielowskaźnik $ \alpha=(\alpha_1,\ldots,\alpha_n) $ to wektor o współrzędnych $ \alpha_i $ całkowitych nieujemnych, lub równoważnie element zbioru $ \big(\N\cup\{0\}\big)^n $. Dla wielowskaźników $ \alpha,\beta $ i każdego punktu $ \xx=(x_1,\ldots,x_n)\in\R^n $ piszemy: \begin{gather} \alpha!=\alpha_1!\cdot\ldots\cdot\alpha_n!, \qquad |\alpha|=\alpha_1+\cdots +\alpha_n, \\ \xx^\alpha=x_1^{\alpha_1}x_2^{\alpha_2}\cdot\ldots\cdot x_n^{\alpha_n},\\ \beta\le \alpha    \Leftrightarrow     \beta_i\le \alpha_i    \mbox{dla wszystkich $ i=1,\ldots,n $,}\\ \binom{\alpha}{\beta}=\frac{\alpha!}{\beta!}{(\alpha-\beta)!} \qquad\mbox{dla $ \beta\le \alpha $,} \end{gather} gdzie $ \alpha-\beta=(\alpha_1-\beta_1,\ldots,\alpha_n-\beta_n) $.

Za pomocą wielowskaźników wygodnie jest oznaczać pochodne cząstkowe wyższych rzędów w takich sytuacjach, gdy kolejność wykonywania poszczególnych różniczkowań nie ma znaczenia.

Definicja Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $. Mówimy, że $ f\in C^k(\Omega,\R^m) $ wtedy i tylko wtedy, gdy $ f $ ma wszystkie pochodne cząstkowe rzędu $ k $ ciągłe na zbiorze $ \Omega $.
Uwaga Podobnie jak w przypadku funkcji klasy $ C^1 $, powyższa definicja jest równoważna temu, że $ f $ jest ciągła na $ \Omega $ i wszystkie przekształcenia $ j $-liniowe

\[ 	D^jf \colon \Omega\ni \xx\quad\longmapsto\quad D^jf(\xx)\in L(\underbrace{\R^n,\ldots,\R^n}_{j \text{ razy}},\R^m) \qquad (j=1,2,\ldots, k) 	\]

są dobrze określone i ciągłe na zbiorze $ \Omega $. Można to udowodnić, posługując się Twierdzeniem [link]. Jest to dość łatwe: rozumowanie wymaga tylko znajomości pojęć i nie są potrzebne żadne rachunki.

    Umowa. Dla funkcji $ f\in C^k(\Omega,\R^m) $ symbol

\[ \begin{equation} 	D^\alpha f(\xx) \stackrel{\text{ozn.}}= (D_1)^{\alpha_1}(D_2)^{\alpha_2}\ldots (D_n)^{\alpha_n} f(\xx)\, , \qquad\xx\in \Omega, \end{equation} \]

oznacza pochodną cząstkową tej funkcji, rzędu $ |\alpha|=\alpha_1+\cdots+\alpha_n $, przy czym różniczkowanie względem zmiennej $ x_i $ wykonujemy $ \alpha_i $-krotnie ($ i=1,2,\ldots,n $). Z twierdzenia Schwarza o równości pochodnych mieszanych wynika, że dla funkcji klasy $ C^k $ kolejność wykonywania różniczkowań nie odgrywa roli; można więc w ten sposób oznaczać wszystkie pochodne cząstkowe takiej funkcji, bez obawy, że nie wiadomo, o jaką pochodną chodzi. Przyjmujemy także

\[ D^{(0,0,\ldots,0)}f\equiv f\, . \]
Twierdzenie [wzór Taylora z resztą całkową] Załóżmy, że $ \Omega\subset\R^n $ jest zbiorem otwartym i $ f\in C^k(\Omega,\R^m) $. Jeśli kula $ B(\aa,\delta)\subset \Omega $ dla pewnego $ \delta>0 $, to wówczas

\[ \begin{equation} 	\label{Tay-calk} 	f(\aa+\hh)=\sum_{|\alpha|\le k} \frac 1{\alpha!} D^\alpha f(\aa)\hh^\alpha + R_k(\aa,\hh)\, , \end{equation} \]

dla $ \|\hh\|<\delta $, gdzie reszta

\[ \begin{equation} 	\label{resztacalk} 	R_k(\xx,\hh)=k\int_0^1(1-t)^{k-1}\sum_{|\alpha|=k}\frac{1}{\alpha!}\Big(D^\alpha f(\aa+t\hh)-D^\alpha f(\aa)\Big)\hh^\alpha\, dt\, . \end{equation} \]

    Uwaga. We wzorze Tay-calk sumowanie po prawej stronie odbywa się względem wszystkich wielowskaźników długości $ |\alpha|\le k $.

Dowód: Skorzystamy ze wzoru Taylora z resztą całkową dla funkcji jednej zmiennej rzeczywistej (patrz Skrypt z Analizy MatematycznejI). Ustalmy $ \aa\in \Omega $ i $ \hh=(h_1,\ldots,h_n) $, $ \norm{\hh}<\delta $. Niech $ g(t)=f(\aa+t\hh) $ dla $ t\in [0,1] $. Funkcja $ g $ jest klasy $ C^k $ na pewnym odcinku otwartym $ I\supset [0,1] $. Dlatego

\[ \begin{eqnarray} 	g(1) &=&\sum_{j=0}^{k-1}\frac{g^{(j)}(0)}{j!} +  \int_0^1\frac{(1-t)^{k-1}}{(k-1)!} g^{(k)}(t)\, dt\nonumber\\  &=&\sum_{j=0}^{k}\frac{g^{(j)}(0)}{j!} +  \int_0^1\frac{(1-t)^{k-1}}{(k-1)!} \big(g^{(k)}(t)-g^{(k)}(0)\big)\, dt\, . \label{Taylor-g} \end{eqnarray} \]

Aby zakończyć pracę, wyrazimy pochodne funkcji $ g $ przez pochodne cząstkowe funkcji $ f $. Posługując się wzorem na pochodną złożenia, dowodzimy przez indukcję, że

\[ g'(t)  =  \sum_{i=1}^n D_if(\aa+t\hh)h_i\, , \qquad g''(t)  =  \sum_{i_1,i_2=1}^n D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}   \]

itd.; ogólnie,

\[ \begin{equation} 	g^{(s)}(t)=\sum_{i_1,i_2,\ldots,i_s=1}^n D_{i_s}\ldots D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}\cdot\ldots\cdot h_{i_s}, \qquad s=1,\ldots, k. \label{gs-dluga}    \end{equation} \]

Ostatnią sumę zapiszemy, używając notacji wielowskaźnikowej. Ustalmy wielowskaźnik $ \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_n) $ taki, że $ |\alpha|=s\in [1,k] $. Liczba takich ciągów $ (i_1,i_2,\ldots,i_s) $ o wyrazach ze zbioru $ \{1,2,\ldots, n\} $, w których $ 1 $, $ 2 $, \ldots, $ n $ wystepują (odpowiednio) $ \alpha_1 $-krotnie, $ \alpha_2 $-krotnie, \ldots, $ \alpha_n $ krotnie, wynosi, zgodnie ze znanym wzorem kombinatorycznym,

\[ \binom {s}{\alpha_1}\cdot \binom{s-\alpha_1}{\alpha_2} \cdot \ldots\cdot \binom {s-(\alpha_1+\cdots+\alpha_{n-1})}{\alpha_n}=\frac{s!}{\alpha_1! \cdot \alpha_2!\cdot\ldots\cdot \alpha_n!} = \frac{s!}{\alpha!}\, . \]

Dla każdego z tych ciągów mamy

\[ D_{i_s}\ldots D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}\cdot\ldots\cdot h_{i_s}=D^\alpha f(\aa+t\hh)\hh^\alpha\, ,  \]

a więc wzór gs-dluga można przepisać w postaci

\[ \begin{equation} \label{gs-krotka} \frac{g^{(s)}(t)}{s!}=\sum_{|\alpha|=s} \frac 1{\alpha!}D^\alpha f(\aa+t\hh)\hh^\alpha\, , \qquad s=1,2,\ldots,k. \end{equation} \]

Podstawiając gs-krotka do wzoru Taylor-g, otrzymujemy tezę twierdzenia. □

W szczególnym przypadku $ k=2 $, dla funkcji $ f\colon \R^n\supset\Omega\to\R $ różniczkowalnej dwukrotnie w sposób ciągły, można podobnie (stosując wzór Taylora z resztą Lagrange'a dla funkcji $ g(t)=f(\aa+t\hh) $ jednej zmiennej $ t $) uzyskać następujący fakt.

Wniosek (#) Jeśli $ \Omega\subset\R^n $, $ f\in C^2(\Omega,\R) $ i odcinek $ [\aa,\aa+\hh]\subset \Omega $, gdzie $ \hh=(h_1,\ldots,h_n) $, to istnieje wówczas punkt $ \theta\in (0,1) $ taki, że

\[ \begin{equation} 		f(\aa+\hh) =f(\aa) + \sum_{i=1}^n f_{x_i}(\aa)h_i + \frac 12 \sum_{i,j=1}^n f_{x_ix_j} (\aa+\theta\hh) h_ih_j\, .  	 \label{Taylor-2rzad} \end{equation} \]
Dowód: Ćwiczenie dla Czytelnika.

Zadanie Wykazać, że dla każdego $ \xx=(x_1,\ldots,x_n)\in \R^n $ i dla każdego $ k\in \N $ jest

\[ 	(x_1+x_2+\cdots+x_n)^k=\sum_{|\alpha|=k}\frac{k!}{\alpha!}\xx^\alpha\, . 	\]

Wskazówka. Oznaczyć lewą stronę $ f(\xx) $ i zastosować wzór Taylora.

Ekstrema lokalne.

Wiemy już, że warunkiem koniecznym, by funkcja różniczkowalna $ f\colon \Omega\to\R $ miała ekstremum w punkcie $ \aa\in \Omega $, jest znikanie jej gradientu w tym punkcie. Zajmiemy się teraz sformułowaniem warunków dostatecznych istnienia ekstremum lokalnego funkcji klasy $ C^2 $. Wyrazimy je za pomocą własności drugiej różniczki.

Definicja Niech $ f\in C^2(\Omega,\R) $. Macierz

\[ 	H_f(\aa)=D^2f(\aa)=\big(f_{x_ix_j}(\aa)\big)_{i,j=1,2,\ldots,n}\in M_{n\times n} 	\]

nazywamy hesjanem funkcji $ f $ w punkcie $ \aa\in \Omega $.

Z twierdzenia Schwarza o równości pochodnych mieszanych wynika natychmiast, że $ H_f(\aa) $ jest macierzą symetryczną. Jak wiadomo z wykładów Algebry Liniowej, wszystkie wartości własne macierzy symetrycznej $ A $ są rzeczywiste, a w $ \R^n $ istnieje baza ortonormalna, złożona z wektorów własnych $ A $.

Przypomnijmy, że macierz symetryczna $ A\in M_{n\times n} $ nazywa się dodatnia (ujemna) wtedy i tylko wtedy, gdy $ \langle A\vv,\vv\rangle>0 $ dla $ \vv\in \R^n\setminus\{\zero\} $ (odpowiednio $ \langle A\vv,\vv\rangle<0 $ dla $ \vv\in \R^n\setminus\{\zero\} $). Macierze nieujemne i niedodatnie definiuje się analogicznie, za pomocą nierówności nieostrych. Jeśli $ A $ jest dodatnia (ujemna, nieujemna, niedodatnia), to piszemy $ A>0 $ (odpowiednio: $ A<0 $, $ A\ge 0 $, $ A\le 0 $).

Stwierdzenie Załóżmy, że $ \aa\in\Omega $ jest punktem krytycznym funkcji $ f\in C^2(\Omega,\R) $. Jeśli $ f $ ma w $ \aa $ minimum (odpowiednio: maksimum) lokalne, to $ H_f(\aa)\ge 0 $ (odpowiednio: $ H_f(\aa)\le 0 $).
Dowód: Dla ustalenia uwagi załóżmy, że $ f $ ma w $ \aa $ minimum lokalne. W punkcie krytycznym $ f_{x_i}(\aa)=0 $ dla $ i=1,2,\ldots,n $. Dlatego ze wzoru Taylora Taylor-2rzad (patrz Wniosek [link]) otrzymujemy

\[ \frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle=\frac 12 \sum_{1\le i,j\le n} f_{x_ix_j}(\aa+\theta\hh)h_ih_j  =f(\aa+\hh)-f(\aa)\ge 0 \]

dla wszystkich $ \norm{\hh} $ dostatecznie małych. Ustalmy $ \vv\in \R^n\setminus\{\zero\} $ i podstawmy w tej nierówności $ \hh=t\vv $, gdzie $ t\in\R $ i $ |t|\ll 1 $. Dzieląc obie strony przez $ \frac 12 t^2>0 $, otrzymujemy

\[ \big\langle H_f(\aa+\theta t\vv)\vv,\vv\big\rangle\ge 0\, . \]

Przechodząc do granicy $ t\to 0 $ i korzystając z ciągłości drugich pochodnych cząstkowych $ f $ otrzymujemy $ \langle H_f(\aa)\vv,\vv\rangle\ge 0 $.

Jeśli $ f $ ma w $ \aa $ maksimum lokalne, to rozpatrujemy funkcję $ -f $, która ma w tym punkcie minimum lokalne. □

Przydatna w praktyce jest oczywiście implikacja odwrotna.

Twierdzenie [warunki dostateczne ekstremów lokalnych](#) Niech $ \Omega\subset \R^n $ będzie zbiorem otwartym. Przypuśćmy, że $ f\in C^2(\Omega,\R) $ ma w $ \aa\in\Omega $ punkt krytyczny, tzn. $ \grad f(\aa)=\zero $. Wówczas:

    {(\roman{enumi})}

  1. Jeśli $ H_f(\xx)\ge 0 $ w pewnym otoczeniu punktu $ \aa $, to $ f $ ma w $ \aa $ minimum lokalne.
  2. Jeśli $ H_f(\aa)> 0 $, to $ f $ ma w $ \aa $ minimum lokalne właściwe.
  3. Jeśli $ H_f(\xx)\le 0 $ w pewnym otoczeniu punktu $ \aa $, to $ f $ ma w $ \aa $ maksimum lokalne.
  4. Jeśli $ H_f(\aa)< 0 $, to $ f $ ma w $ \aa $ maksimum lokalne właściwe.
Dowód: Ponieważ $ f_{x_i}(\aa)=0 $ dla $ i=1,2,\ldots,n $, więc ze wzoru Taylora Taylor-2rzad otrzymujemy

\[ \frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle =f(\aa+\hh)-f(\aa)\, , \]

gdzie $ \theta=\theta(\hh)\in (0,1) $. Z tej równości natychmiast wynikaja podpunkty (i) oraz (iii) Twierdzenia [link].

Załóżmy teraz, że $ A:=H_f(\aa)>0 $. Funkcja $ \S^{n-1}\ni \vv\mapsto  \phi(\vv)= \langle A\vv,\vv\rangle $ jest wtedy dodatnia i ciągła na sferze jednostkowej $ \S^{n-1} $, która jest zbiorem zwartym. Wobec twierdzenia Weierstrassa o przyjmowaniu kresów, istnieją stałe $ \alpha,\beta>0 $ takie, że

\[ \beta\ge \phi(\vv)= \langle A \vv,\vv\rangle \ge \alpha >0 \qquad\mbox{dla wszystkich $\vv\in \S^{n-1}$.}  \]

Podstawiając w tej nierówności $ \vv=\ww/\|\ww\| $, gdzie $ \ww\in\R^n $ jest dowolnym wektorem różnym od $ \zero $, otrzymujemy

\[ \beta\|\ww\|^2\ge \langle A \ww,\ww\rangle \ge \alpha \|\ww\|^2>0 \qquad\mbox{dla wszystkich $\ww\in \R^{n}\setminus\{\zero\}$.}  \]

Dlatego, z nierówności Schwarza i definicji normy macierzy,

\[ \begin{eqnarray}  \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle & = &   \langle A\hh,\hh\rangle + \big\langle \big(H_f(\aa+\theta\hh)-A\big)\hh,\hh\big\rangle \nonumber \\   & \ge & \alpha\|\hh\|^2- \norm{\big(H_f(\aa+\theta\hh)-A\big)\hh}\cdot \|\hh\|\label{nierHobok}\\ & \ge & \alpha \|\hh\|^2 - \norm{\big(H_f(\aa+\theta\hh)-A\big)}\cdot \|\hh\|^2  \nonumber    \end{eqnarray} \]

Ponieważ $ f\in C^2 $, więc wszystkie współrzędne macierzy $ H_f(\xx) $ zależą od $ \xx $ w sposób ciągły. Istnieje zatem liczba $ \delta>0 $ taka, że jeśli $ 0<\|\hh\|<\delta $ i $ \theta\in (0,1) $, to

\[ \norm{\big(H_f(\aa+\theta\hh)-H_f(\aa)\big)}=\norm{\big(H_f(\aa+\theta\hh)-A\big)}<\frac \alpha 2\, . \]

Wtedy jednak, wobec nierHobok,

\[ f(\aa+\hh)-f(\aa)=\frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle > \frac \alpha 4 \|\hh\|^2 >0\, . \]

To dowodzi punktu (ii). Dowód (iv) jest taki sam. □

Uwaga W dowodach podpunktów (ii) oraz (iv) w Twierdzeniu [link] nie trzeba zakładać, że $ f\in C^2 $. Wystarczy po prostu, żeby $ f $ była różniczkowalna na zbiorze $ \Omega $ i jej druga różniczka $ D^2f(\aa) $ istniała w punkcie krytycznym $ \aa $ i była w nim dodatnia (wtedy $ f $ ma w $ \aa $ minimum lokalne właściwe) bądź ujemna (wtedy $ f $ ma w $ \aa $ maksimum lokalne właściwe). W dowodzie wykorzystuje się wzór Taylora z resztą Peano. Zainteresowany Czytelnik zdoła sam uzupełnić szczegóły rozumowania.

Zanim przejdziemy do przykładów, przytoczymy jeszcze twierdzenie, które pozwala wnioskować, kiedy $ f $ z pewnością nie ma ekstremum lokalnego w punkcie krytycznym.

Twierdzenie Załóżmy, że $ f\in C^1(\Omega,\R) $ ma w $ \aa\in \Omega $ punkt krytyczny i $ D^2f(\aa) $ istnieje. Jeśli $ H_f(\aa)=D^2f(\aa) $ ma wartość własną $ \lambda_1 >0 $ i wartość własną $ \lambda_2 <0 $, to $ f $ nie ma ekstremum lokalnego w punkcie $ \aa $. (#)
Dowód: Niech $ \vv_i $ będzie unormowanym wektorem własnym macierzy $ H_f(\aa) $, odpowiadającym wartości własnej $ \lambda_i $, gdzie $ i=1,2 $. Dla dostatecznie małej liczby $ \delta>0 $ rozpatrzmy dwie funkcje pomocnicze,

\[ 	g_i(t)=f(\aa+t\vv_i), \qquad |t|<\delta\, , \quad i=1,2. 	\]

Mamy $ g_i'(t)=Df(\aa+t\vv_i)\vv_i $, tzn. $ g_i'(0)=0 $, oraz

\[ 	g''(t)= \langle D^2f(\aa +t\vv_i) \vv_i, \vv_i\rangle\, . 	\]

Zatem $ g_1''(0)= \langle D^2f (\aa)\vv_1,\vv_1\rangle=\lambda_1\|\vv_1\|^2=\lambda_1>0 $. Podobnie, $ g_2''(0)=\lambda_2<0 $. Dlatego $ g_1 $ ma minimum lokalne właściwe w zerze, a $ g_2 $ ma maksimum lokalne właściwe w zerze. Wynika stąd, że $ f $ nie ma ekstremum lokalnego w punkcie $ \aa $ (gdyby miała, to każda z funkcji $ g_{\mvv}=f(\aa+t\vv) $ miałaby w zerze ekstremum lokalne tego samego typu, co $ f $). □

To, czy macierz $ H_f(\aa)=D^2f(\aa) $ jest dodatnia (ujemna), można rozpoznawać za pomocą kryterium Sylvestera.

Twierdzenie [kryterium Sylvestera] Niech $ A=(a_{ij})\in M_{n\times n}(\R) $ i $ a_{ij}=a_{ji} $ dla wszystkich $ i,j=1,2,\ldots, n $. Oznaczmy

\[ d_\ell= \det\Big(a_{ij}\Big)_{i,j=1,\ldots,\ell}\, , \qquad \ell =1,2,\ldots, n\, . \]
    {(\roman{enumi})}

  1. Jeśli $ d_\ell>0 $ dla każdego $ \ell =1,2,\ldots, n $, to $ A>0 $.

  2. Jeśli $ (-1)^\ell d_\ell>0 $ dla każdego $ \ell =1,2,\ldots, n $, to $ A<0 $.
  3. Jeśli $ d_\ell\not=0 $ dla każdego $ \ell=1,\ldots,n $, ale nie zachodzi ani założenie(i), ani założenie(ii), to macierz $ A $ ma wartości własne różnych znaków.

Dowód Czytelnik miał okazję poznać na wykładach z Algebry Liniowej. Zainteresowanym polecam książkę A. Mostowskiego i M. Starka Elementy algebry wyższej.

Uwaga Jeśli $ f\colon \R^n\supset \Omega\to \R $ jest klasy $ C^2 $, ma punkt krytyczny $ \aa\in \Omega $ i wszystkie wartości własne macierzy $ D^2 f(\aa) $ są różne od zera, to mówimy, że $ \aa $ jest niezdegenrowanym punktem krytycznym. Z Twierdzeń [link] i [link] wynika, że o tym, czy funkcja $ f $ ma w niezdegenerowanym punkcie krytycznym ekstremum lokalne, można jednoznacznie przesądzić, badając znaki wartości własnych macierzy $ D^2 f(\aa) $.
Uwaga Podkreślmy wyraźnie: założenie ostrych nierówności w punktach (ii) i (iv) Twierdzenia [link] jest istotne. Każda z funkcji

\[ 	f_1(x,y)=x^4+y^4, \qquad f_2(x,y)=-x^4-y^4, \qquad f_3(x,y)=x^4-y^4\, ,\qquad (x,y)\in \R^2 	\]

ma (jedyny) punkt krytyczny w $ (0,0) $. Jest oczywiste, że dla funkcji $ f_1 $ ten punkt jest minimum lokalnym właściwym, dla $ f_2 $ - maksimum lokalnym właściwym, natomiast $ f_3 $ w ogóle nie ma tym punkcie ekstremum lokalnego. Mamy jednak

\[ D^2f_i(0,0)=\begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix}, \qquad i=1,2,3. \]

Biorąc

\[ f_4(x,y)=x^2+y^4, \qquad f_5(x,y)=x^2, \qquad f_6(x,y)=x^2-y^4,  \qquad  (x,y)\in \R^2 \]

otrzymamy

\[ \grad f_i(0,0) = (0,0) \quad\mbox{oraz}\quad D^2f_i(0,0)=\begin{pmatrix}2 & 0 \\ 0 & 0\end{pmatrix}, \qquad i=4,5,6. \]

Łatwo zauważyć, że w punkcie $ (0,0)\in\R^2 $ funkcja $ f_4 $ ma minimum lokalne właściwe, $ f_5 $ - minimum lokalne (które nie jest właściwe), natomiast $ f_6 $ w ogóle nie ma ekstremum.

Przykład (#) Niech $ h(x,y)=ay(e^x-1)+x\sin x+1-\cos y $ dla $ x,y\in \R $. Wykażemy, że $ h $ ma ekstremum lokalne w punkcie $ (0,0) $ wtedy i tylko wtedy, gdy $ a \in (-\sqrt{2},\sqrt{2}) $.

Pochodne cząstkowe funkcji $ h $ są równe

\[ h_x(x,y)=ay e^x+\sin x +x\cos x, \qquad h_y(x,y)=a (e^x-1)+\sin y\, ,   \]

więc (niezależnie od wartości parametru $ a\in \R $) jest $ h_x(0,0)=h_y(0,0)=0 $ i $ h $ ma w zerze punkt krytyczny. Dalej, obliczamy

TeX Embedding failed!

Podstawiając $ x=y=0 $ otrzymujemy

\[ D^2h(0,0)=\begin{pmatrix} 2 & a \\ a & 1\end{pmatrix}\, , \qquad\det\, D^2h(0,0)= 2- a^2\, . \]

Jeśli $ a\in (-\sqrt{2},\sqrt{2}) $, to $ \det\, D^2h(0,0)= 2- a^2>0 $ i z kryterium Sylvestera wynika, że macierz $ D^2h(0,0) $ jest dodatnio określona, a więc $ h $ ma minimum lokalne właściwe w punkcie $ (0,0) $ (patrz Twierdzenie [link](ii)).

Ilustracja do Przykładu [link]. Parametr $ a=\sqrt 2 $. Mamy wówczas $ h(x,y)=P(x,y)+ o(x^3)+ o(y^3) $ dla $ x,y\to 0 $, gdzie

\[ P(x,y)= \Big(x+\frac y{\sqrt 2}\Big)^2 + \frac{yx^2}{\sqrt 2} \]

jest wielomianem Taylora rzędu 3 funkcji $ h $ wokół zera. Po lewej: poziomice funkcji $ P $, narysowane na płaszczyźnie $ \R^2 $ (w dziedzinie funkcji). Zbiór punktów w $ \R^2 $, opisany równaniem $ P(x,y)=0 $, to krzywa z wyraźnym dziobkiem. Po prawej: fragment wykresu funkcji $ P $, tzn. powierzchnia w $ \R^3 $ o równaniu $ z=P(x,y) $.

Jeśli $ a\not\in [-\sqrt{2},\sqrt{2}] $, to $ \det\, D^2h(0,0)= 2- a^2<0 $. Macierz $ D^2h(0,0) $ ma więc wartości własne różnych znaków i wobec Twierdzenia [link] $ h $ nie ma w zerze ekstremum lokalnego.

Przypadek $ a=\pm \sqrt{2} $ trzeba rozpatrzeć osobno. Macierz $ D^2 h(0,0) $ ma wtedy wartości własne $ 3 $ i $ 0 $, więc nie jest dodatnia i nie wolno stosować Twierdzenia [link](ii); jak wynika z wcześniej przytoczonych przykładów, w takiej sytuacji funkcja może zarówno mieć ekstremum lokalne, jak i go nie mieć.

Dla ustalenia uwagi, niech $ a=\sqrt{2} $. Użyjemy wzoru Taylora (najprościej jest w tym przypadku wykorzystać znane rozwinięcia funkcji elementarnych) i napiszemy

\[ \begin{eqnarray*} h(x,y) & = & y\sqrt{2}\Big(x+\frac{x^2}2 + \frac{x^3}6+o(x^3)\Big) + x \Big(x- \frac{x^3}6+o(x^3)\Big) +\frac{y^2}2-\frac{y^4}{4!} + o(y^4) \\ & = & x^2 +xy\sqrt{2}+\frac {y^2}2 + \frac{yx^2}{\sqrt 2} + o(x^3) + o(y^3)\\ & = & \Big(x+\frac y{\sqrt 2}\Big)^2 + \frac{yx^2}{\sqrt 2}  + o(x^3) + o(y^3)\, . \end{eqnarray*} \]

Na prostej $ y=-x\sqrt{2} $ mamy więc \( h(x,-x\sqrt 2) = -x^3 + o(x^3),\) \( \ x\to 0. \) Zatem, $ h $ nie ma ekstremum w zerze: wyrazy trzeciego rzędu we wzorze Taylora powodują, że $ h(x,-x\sqrt 2) $ zmienia znak w każdym otoczeniu $ 0\in \R $, a przecież $ h(0,0)=0 $. Przypadek $ a=-\sqrt 2 $ sprawdza się tak samo; Czytelnik łatwo uzupełni szczegóły obliczeń.

Czytelnik może sprawdzić, że kierunek prostej $ y=-x\sqrt{2} $ jest wyznaczony przez wektor $ \vv\in\S^1 $ taki, że $ D^2h(0,0)(\vv,\vv)=0 $. W innych kierunkach hesjan ma dodatnie wartości. Sprawdzaliśmy więc w istocie, jak zachowuje się funkcja $ h $ wokół zera ``w podejrzanym kierunku'' - i to wystarczyło, by stwierdzić brak ekstremum lokalnego. □

Ilustracja do Przykładu [link]. Krzywe $ g(x,y)=\mathrm{const} $ na płaszczyźnie $ \R^2 $. W punkcie krytycznym $ (0,0) $ spotykają się dwa szerokie grzbiety i dwie wąskie, wygięte doliny. W Przykładzie [link] wystarczyło użyć twierdzeń [link] i [link] (dających automatyczne kryteria badania funkcji wokół punktu krytycznego), a w wątpliwym przypadku zbadać zachowanie funkcji na prostych, przechodzących przez punkt krytyczny. Pod\-kreślmy jednak, że z zachowania funkcji na poszczególnych takich prostych nie wolno wnioskować, że ma ona ekstremum lokalne!

Przykład (#) Niech

$$g(x,y)=(y-x^3)(y-3x^3)$$

dla $ (x,y)\in \R^2 $. Wtedy \begin{align*} g_x (x,y)&=18 x^5 - 12 x^2 y, \\ g_y(x,y)&=-4 x^3 + 2 y,\\ g_{xx}(x,y) &= 90 x^4 - 24 x y, \\ g_{xy}(x,y)&=-12x^2,\\ g_{yy}(x,y)&=2. \end{align*} Zatem funkcja $ g $ ma w zerze (jedyny) punkt krytyczny;

$$D^2g(0,0)=\begin{pmatrix}0, & 0 \\ 0 & 2 \end{pmatrix}\ge 0.$$

Na każdej prostej $ y=kx $ jest $ g(kx,x)=k^2x^2+ o(x^3) $ dla $ x\to 0 $, a więc obcięcie funkcji $ g $ do takiej prostej ma w zerze minimum lokalne (właściwe). Na prostej $ x=0 $ jest $ g(x,y)=g(0,y)=y^2 $ (tzn. znów mamy funkcję jednej zmiennej, która ma minimum w zerze). Jednak na krzywej $ y=2x^3 $ jest $ g(x,y)=g(x,2x^3)=-x^6 $, a więc w dowolnie małym otoczeniu zera funkcja $ g $ przyjmuje nie tylko wartości dodatnie, ale także ujemne.

Funkcje gładkie

Definicja Jeśli $ \Omega \subset \R^n $ jest zbiorem otwartym, to przyjmujemy

\[ C^\infty (\Omega,\R^m)= \bigcap_{k=1}^\infty C^k(\Omega,\R^m) \]

Funkcje $ f\in C^\infty(\Omega,\R^m) $ nazywamy funkcjami klasy $ C^\infty $ lub funkcjami gładkimi. Są to funkcje, które mają ciągłe pochodne cząstkowe wszystkich rzędów (a zatem, mają ciągłe różniczki wszystkich rzędów).

Dla krótkości, pisze się $ C^\infty(\Omega) $ zamiast $ C^\infty (\Omega,\R) $.

Definicja Nośnikiem $ \text{supp}\, f $ funkcji $ f\colon \R^n\to \R^m $ nazywamy domknięcie zbioru tych punktów, w których $ f $ ma wartości różne od zera:

\[ 	\text{supp}\, f= \overline{\{x\in \R^n\colon f(\xx)\not=\zero\}}\, . 	\]
Twierdzenie Istnieją funkcje klasy $ C^\infty (\R^n) $, których nośnik jest niepustym zbiorem zwartym. Ściślej mówiąc, dla każdego punktu $ \aa\in \R^n $ i każdych liczb $ 0<r<R $ istnieje funkcja $ f\in C^\infty (\R^n) $ taka, że $ f\equiv 1 $ na kuli $ B(\aa,r) $ i $ f\equiv 0 $ na $ R^n\setminus B(\aa,R) $.

    Szkic dowodu. Krok 1. Niech $ n=1 $. Nietrudno wykazać, że istnieje funkcja $ \varphi_1\colon \R\to \R $, która jest klasy $ C^\infty $ i znika poza przedziałem $ [-1,1] $, ale $ \varphi_1(0)=1 $. Taką funkcją jest np.

\[ \varphi_1(x)=\begin{cases} \exp\big({}-\tg^2 (\pi x/2)\big), & |x|<1,\\ 0, & |x|\ge 1. \end{cases}   \]

Sprawdzenie, że $ \varphi_1 $ istotnie spełnia podane warunki, pozostawiamy jako ćwiczenie dla Czytelnika.

Krok 2. Funkcja

\[ \varphi_2(x)=\int_{-\infty}^x\varphi_1(t)\, dt \]

jest dobrze określona (całkujemy tylko po przedziale skończonym), nieujemna i gładka. Mamy $ \varphi_2\equiv 0 $ na $ (-\infty,-1] $ i $ \varphi_2(x) \equiv c:=\int_{-1}^1\varphi_1 $ dla $ x\ge 1 $. Na przedziale $ [-1,1] $ funkcja $ \varphi_2 $ jest rosnąca.

Teraz wykorzystamy przesuwanie, skalowanie i mnożenie funkcji gładkich.

Krok 3. Ustalmy $ R>r>0 $. Dobierzmy $ a>0 $ tak, żeby $ \frac{a+2}a=\frac Rr $. Funkcja

\[ \varphi_3(x)=\frac{1}{c^2}\varphi_2(1+a+x)\varphi_2(1+a-x), \qquad x\in \R, \]

jest gładka, znika poza przedziałem $ [-a-2,a+2] $ i jest równa 1 na przedziale $ [-a,a] $ (patrz załączony rysunek). Funkcja

\[ \varphi_4(x)=\varphi_3\Big(\frac{(a+2)x}{R}\Big)  \]

też jest gładka. Wobec doboru $ a $, $ \varphi_4\equiv 1 $ na $ [-r,r] $ i $ \varphi_4\equiv 0 $ poza przedziałem $ [-R,R] $.

Krok 4. Funkcja $ f_1(\xx)=\varphi_4(\|\xx\|) $ spełnia warunki twierdzenia dla $ \aa=0 $. (Zauważmy, że dla $ \|\xx\|<r $ funkcja $ f $ ma stałą wartość 1, więc jej pochodne cząstkowe znikają wpunktach kuli otwartej $ B(0,r) $. Norma $ \|x\|=(x_1^2+\cdots+x_n^2)^{1/2} $ jest funkcją gładką na zbiorze $ \{\xx\colon \|\xx\|>r/2\} $, i dlatego $ f $ jest gładka na całej przestrzeni $ \R^n $.) Przesuwając $ f_1 $, tzn. biorąc $ f(\xx)=f_1(\xx-\aa) $, kończymy dowód w ogólnym przypadku. □

Uwaga Zbiór wszystkich funkcji gładkich o zwartym nośniku w $ \R^n $ oznacza się symbolem $ C^\infty_0(\R^n) $.

Samodzielne rozwiązanie poniższych zadań pozwoli Czytelnikowi lepiej oswoić się z pojęciem funkcji gładkiej.

Zadanie Niech $ K\subset \Omega\subset \R^n $. Załóżmy, że zbiór $ K $ jest zwarty, a zbiór $ \Omega $ jest otwarty. Wykazać, że istnieje funkcja $ f\in C_0^\infty (\R^n) $ taka, że $ f\equiv 1 $ na $ K $ i $ \text{supp}\, f\subset \Omega $.
Zadanie Niech $ F $ będzie dowolnym zbiorem domkniętym w $ \R^n $. Istnieje wówczas funkcja $ f\in C^\infty (\R^n) $ taka, że $ f\ge 0 $ i $ F=\{\xx\in \R^n\colon f(\xx)=0\} $.

Odwzorowania klasy $C^1$ i rozmaitości zanurzone

Twierdzenie Banacha o punkcie stałym

W tym podrozdziale $ (X,\varrho) $ oznacza przestrzeń metryczną.

Definicja [warunek Cauchy'ego] Mówimy, że ciąg $ (x_n)\subset X $ spełnia warunek Cauchy'ego wtedy i tylko wtedy, gdy dla każdej liczby $ \eps>0 $ istnieje $ n_0\in \N $ takie, że dla wszystkich $ n,m>n_0 $ jest $ \varrho(x_n,x_m)<\eps $.

Łatwo wykazać, że każdy ciąg spełniający warunek Cauchy'ego jest ograniczony.

Definicja [zupełność] Przestrzeń metryczna $ (X,\varrho) $ nazywa się zupełna wtedy ityl\-ko wtedy, gdy każdy ciąg $ (x_n)\subset X $ spełniający warunek Cauchy'ego jest zbieżny w $ X $.

Przykład

  1. Przestrzeń $ \R $ z metryką $ \varrho(x,y)=|x-y| $ jest zupełna. Podobnie, $ \R^n $ z metryką zadaną przez (jakąkolwiek) normę jest przestrzenią zupełną.
  2. $ Y=[0,1] $ z metryką $ \varrho(x,y)=|x-y| $ jest przestrzenią zupełną. Ogólnie, każdy domknięty podzbiór $ Y $ przestrzeni metrycznej zupełnej $ (X,\varrho) $, z odziedziczoną metryką $ \varrho $, jest przestrzenią metryczną zupełną. Natomiast podzbiór przestrzeni metrycznej zupełnej, który nie jest domknięty, nie jest zupełny (są w $ Y $ ciągi zbieżne, których granice nie należą do $ Y $).
  3. Przestrzeń funkcji ciągłych $ C([0,1],\R) $ z metryką
    \[ 	\varrho(f,g)=\sup_{x\in I} |f(x)-g(x)| 	\]

    jest zupełna. Zbieżność w metryce $ \varrho $ to zbieżność jednostajna; jeśli ciąg funkcji ciągłych spełnia jednostajny warunek Cauchy'ego, to jest jednostajnie zbieżny, a jego granica też jest funkcją ciągłą. (Patrz skrypt z Analizy Matematycznej I, rozdział 7.)

  4. Przestrzeń $ C^1_b(\R) $ tych funkcji $ f\colon \R\to\R $ klasy $ C^1 $, które są ograniczone i mają ograniczoną pochodną, wyposażona w metrykę
    \[ \varrho_1(f,g)=\sup_{x\in \R} |f(x)-g(x)| + \sup_{x\in \R} |f'(x)-g'(x)|\, , \]

    jest zupełna. Zbieżność ciągu funkcji $ (f_m) $ w metryce $ \varrho_1 $ to zbieżność jednostajna wraz z pochodnymi. Dowód zupełności $ C^1_b(\R) $ (wskazówka: skorzystać z twierdzenia o różniczkowaniu ciągów funkcyjnych) pozostawiamy Czytelnikowi jako ćwiczenie.

  5. Niech $ r>0 $ i $ B=B(\zero,r)\subset \R^n $. Przestrzeń $ C(\overline B, \R^m) $ wszystkich funkcji ciągłych $ f\colon \overline B\to \R^m $ z metryką
    \[ \varrho(f,g)=\sup_{\mxx\in \overline B} \|f(\xx)-g(\xx)\| \]

    jest zupełna. Formalny dowód tego faktu wymaga określenia zbieżności jednostajnej funkcji wielu zmiennych i powtórzenia dowodów twierdzeń, które poznaliśmy na I roku studiów. Jednak rozumowania są identyczne: zupełność prostej zastępuje się zupełnością $ \R^n $, a nierówność trójkąta dla modułu - nierównością trójkąta dla normy. Dlatego ten przykład nie różni się szczególnie od podanego w punkcie3.

Definicja Niech $ (X,\varrho) $ będzie przestrzenią metryczną i niech $ T\colon X\to X $. Mówimy, że odwzorowanie $ T $ jest zwężające (albo inaczej: jest kontrakcją) wtedy i tylko wtedy, gdy istnieje stała $ \lambda\in (0,1) $ taka, że

\[ 	\varrho\big(T(\xx), T(\yy)\big) \le \lambda \varrho(\xx,\yy) \qquad\mbox{dla wszystkich $\xx,\yy\in X$.} 	\]
Uwaga Każda kontrakcja jest ciągła na $ X $, gdyż spełnia warunek Lipschitza.
Definicja Punkt $ \xx\in X $ nazywa się punktem stałym odwzorowania $ T\colon X\to X $ wtedy i tylko wtedy, gdy $ T(\xx)=\xx $.
Twierdzenie [Banacha o punkcie stałym] Jeśli $ (X,\varrho) $ jest przestrzenią metryczną zupełną, zaś $ T\colon X\to X $ jest kontrakcją, to $ T $ ma dokładnie jeden punkt stały $ \xx\in X $. (#)

Dowód tego twierdzenia, nazywanego także zasadą odwzorowań zwężających, jest krótki i nietrudny, a samo twierdzenie -- opublikowane w wersji abstrakcyjnej w roku 1922, w pracy doktorskiej Banacha (Fundamenta Math., tom 3, rok 1922, str. 133-181.) -- ma mimo swojej prostoty wiele zastosowań, w których $ X $ bywa zwykle jakąś przestrzenią funkcyjną, a równanie $ T(\xx)=\xx $ -- równaniem różniczkowym lub całkowym.

Podamy jeszcze poglądową interpretacją twierdzenia Banacha: jeśli rozłożony plan miasta upuścimy na jednej z ulic w tym mieście, to jest dokładnie jeden taki punkt planu, który znalazł się idealnie wtym miejscu, które przedstawia. Czytelnik zechce zastanowić się nad prawdziwością tego zdania i dopiero później przeczytać poniższy dowód.

Dowód: Odwzorowanie zwężające nie może mieć dwóch różnych punktów stałych: gdyby $ T(\xx)=\xx $ i $ T(\yy)=\yy $, to mielibyśmy

\[ \varrho(\xx,\yy)=\varrho\big(T(\xx), T(\yy)\big) \le \lambda \varrho(\xx,\yy). \]

Ponieważ $ \lambda \in (0,1) $, więc musi zachodzić równość $ \varrho(\xx,\yy)=0 $, tzn. $ \xx=\yy $.

Pozostaje wykazać istnienie punktu stałego. Niech $ \xx_0\in X $ będzie dowolnym punktem. Rozpatrzmy zdefiniowany rekurencyjnie ciąg $ \xx_{n+1}=T(\xx_n) $, gdzie $ n=0,1,2,\ldots $. Ponieważ $ T $ jest kontrakcją, więc

\[ \begin{eqnarray} \varrho(\xx_{n+1},\xx_n)=  \varrho\big(T(\xx_n),T(\xx_{n-1})\big)& \le &  \lambda \varrho(\xx_n,x_{n-1})\\ &\le & \lambda^2 \varrho(\xx_{n-1},\xx_{n-2})\le \ldots \le \lambda^n \varrho(\xx_1,\xx_0)\, \nonumber  \end{eqnarray} \]

dla pewnej liczby $ \lambda\in (0,1) $. Jeśli $ m>n $, to na mocy nierówności trójkąta

\[ \begin{eqnarray*} \varrho(\xx_m,\xx_n) & \le & \varrho(\xx_m,\xx_{m-1})	+\cdots +\varrho(\xx_{n+1},\xx_n)\\ & \le & \sum_{j=n}^{m-1}\lambda^j \varrho (\xx_1,\xx_0) \le \sum_{j=n}^{\infty}\lambda^j \varrho (\xx_1,\xx_0) =\lambda^n  \frac{\varrho (\xx_1,\xx_0) }{1-\lambda}=C\lambda^n\, , \end{eqnarray*} \]

gdzie stała $ C $ nie zależy od $ n $. Zatem ciąg $ (\xx_n) $ spełnia warunek Cauchy'ego, a więc jest zbieżny, gdyż przestrzeń $ (X,\varrho) $ jest zupełna. Niech $ \xx=\lim \xx_n $. Wobec ciągłości $ T $,

\[ T(\xx)=T(\lim \xx_n) =\lim T(\xx_n) = \lim \xx_{n+1}=\xx. \]

Dowód jest zakończony. □

Okazuje się, że jeśli dwie kontrakcje są bliskie, to ich punkty stałe są bliskie. Z poniższego faktu skorzystamy w następnym podrozdziale.

Lemat (#) Jeśli $ (X,\varrho) $ jest przestrzenią metryczną zupełną, a $ T_1,T_2\colon X\to X $ spełniają warunek Lipschitza ze stałą $ \lambda<1 $ i ponadto

\[ 	\sup_{\mxx\in X}\varrho(T_1(\xx),T_2(\xx))< \eps 	\]

to punkty stałe $ \xx_j $ kontrakcji $ T_j $, gdzie $ j=1,2 $, spełniają nierówność $ \varrho(\xx_1,\xx_2)<\eps/(1-\lambda) $.

Dowód: Na mocy nierówności trójkąta,

\[ \varrho(\xx_1,\xx_2)=\varrho(T_1(\xx_1),T_2(\xx_2))\le   \varrho(T_1(\xx_1),T_1(\xx_2))+\varrho(T_1(\xx_2),T_2(\xx_2)) < \lambda \varrho(\xx_1,\xx_2) + \eps. \]

Przenosząc pierwszy składnik na lewą stronę, łatwo otrzymujemy tezę.□

Twierdzenie o funkcji odwrotnej

Udowodnimy w tym podrozdziale jedno z najważniejszych twierdzeń, jakie Czytelnik pozna w ciągu całego wykładu.

Twierdzenie [o funkcji odwrotnej] (#) Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $ i $ f\in C^1(\Omega, \R^n) $. Załóżmy, że dla pewnego $ \aa\in \Omega $ różniczka $ Df(\aa)\in L(\R^n,\R^n) $ jest izomorfizem liniowym. Istnieją wówczas liczba $ \delta>0 $ i zbiór otwarty $ V\subset \R^n $ takie, że

  1. $ f\colon B(\aa,\delta)\to V $ jest bijekcją;
  2. przekształcenie $ g=f^{-1}\colon V\to B(\aa,\delta)\subset \R^n $ jest klasy $ C^1 $ na $ V $;
  3. Jeśli $ \yy=f(\xx) $ i $ \xx\in B(\aa,\delta) $, to $ Dg(\yy)= \big(Df(\xx)\big)^{-1} $.

Zanim przejdziemy do dowodu, podkreślmy ważną rzecz: dla $ n=1 $ podobne twierdzenie ma charakter globalny. Jeśli $ f\in C^1(\R,\R) $ i $ f' $ nie znika w żadnym punkcie, to $ f' $ ma stały znak, a $ f $ jest ściśle monotoniczna na $ \R $. Zatem funkcja $ g=f^{-1} $ jest określona na przedziale otwartym $ I=f(\R) $. Dla $ n>1 $ jest inaczej: może się okazać, że różniczka $ Df(\xx)\in L(\R^n,\R^n) $ jest odwracalna dla każdego $ \xx\in \R^n $, ale $ f $ nie jest różnowartościowe!

Przykład (#) Niech

\[ 	\R^2\equiv \C \ni (x,y)=x+iy=z\longmapsto \exp z= \big(e^x\cos y, e^x\sin y) =: F(x,y)\in \R^2 	\]

To przekształcenie jest gładkie i oczywiście nie jest różnowartościowe, gdyż każda liczba $ 2\pi i k $, gdzie $ k\in \Z $, jest okresem funkcji wykładniczej w $ \C $. Jednak

\[ DF(x,y)=\begin{pmatrix} e^x\cos y & -e^x\sin y  \\ e^x\sin y & e^x\cos y \end{pmatrix}\ , \]

a więc $ \det DF(x,y)=e^{2x}(\cos^2y+\sin^2y)=e^{2x}>0 $. Dlatego $ DF(x,y) $ jest macierzą odwracalną dla każdego $ (x,y)\in \R^2 $.

    Dowód Twierdzenia [link] Krok 1. Niech $ A=Df(\aa) $. Rozpatrując zamiast $ f $ nową funkcję

\[ \Omega-\aa\ni \xx\longmapsto A^{-1}\cdot \Big(f(\xx+\aa) - f(\aa)\Big)\in \R^n\, , \]

można sprowadzić dowód do przypadku $ Df(\aa)=\mathrm{Id}\in L(\R^n,\R^n) $, $ \aa=f(\aa)=\zero\in \Omega $. Takie założenia odtąd przyjmujemy.

Krok 2: różnowartościowość $ f $ i odwracalność $ Df $ w otoczeniu zera. Zapiszmy $ f(\xx)=\xx+\varphi(\xx) $, gdzie $ \varphi\in C^1(\Omega,\R^n) $, $ \varphi(\zero)=\zero $. Zatem $ Df(\xx)=\mathrm{Id}+D\varphi(\xx) $ i $ D\varphi(\zero)=\zero $. Przekształcenie $ \pp\mapsto D\varphi(\pp) $ jest ciągłe na $ \Omega $, więc istnieje taka liczba $ \delta_1>0 $, że $ \|D\varphi(\pp)\|<\frac 12 $ dla wszystkich $ \pp\in B(\zero,2\delta_1) $. Wynika stąd, że $ Df(\pp) $ jest macierzą odwracalną dla wszystkich $ \pp\in B(\zero,2\delta_1) $. %Zatem, %

\[ \begin{eqnarray*} %\|Df(\xx)\vv_1-Df(\xx)\vv_2\| & =  &  %\|\vv_1-\vv_2+D\varphi(\xx)(\vv_1-\vv_2)\|\\ %& \ge & \|\vv_1-\vv_2\| %-\|D\varphi(\xx)\|\cdot \|\vv_1-\vv_2\|\ge \frac 12  %\|\vv_1-\vv_2\|\, , %\end{eqnarray*} \]

%tzn. $ Df(\xx) $ jest izomorfizmem liniowym dla $ \xx\in %B(\zero,2\delta_1) $.

Ponadto, wobec twierdzenia o wartości średniej,

\[ \begin{equation} 	\label{malefi} 	\|\varphi(\xx)- \varphi(\yy)\| \le  	\|\xx-\yy\| \sup_{\mpp\in [\mxx,\myy]} \|D\varphi(\pp)\|\le \frac 12 \|\xx-\yy\|, \qquad \xx,\yy\in \overline B(\zero,2\delta_1).    \end{equation} \]

(W szczególności, $ \|\varphi(\xx)\|\le \frac 12 \|x\| $ na kuli domkniętej $ \overline{B}(\zero,2\delta_1) $). Przeto

\[ \begin{eqnarray*} \|f(\xx)-f(\yy)\| & = &\big\|(\xx-\yy) + \varphi(\xx)- \varphi(\yy)\big\|  \\ & \ge & \|\xx-\yy\|-  \|\varphi(\xx)- \varphi(\yy)\| \ \ge\  \frac 12 \|\xx-\yy\|\,  \end{eqnarray*} \]

dla wszystkich $ \xx,\yy\in B(\zero,2\delta_1) $. Stąd wynika różnowartościowość $ f $ na kuli $ B(\zero,2\delta_1) $. Na obrazie tej kuli przekształcenie $ g=f^{-1} $ jest dobrze określone i spełnia warunek Lipschitza ze stałą 2, a więc jest ciągłe.

Kluczową trudnością dowodu jest wykazanie, że dla pewnego $ \delta>0 $ zbiór $ f\big(B(\zero,\delta)\big) $ jest otwarty w $ \R^n $. Aby ją pokonać, wykorzystamy twierdzenie Banacha o punkcie stałym.

Krok 3: funkcję $ g=f^{-1} $ można określić na pewnym zbiorze otwartym. Wykażemy, że istnieje funkcja ciągła

\[ \gamma \colon \overline B(\zero,\delta_1)\to \overline B(\zero,\delta_1) \]

taka, że

\[ \begin{equation} \label{efgamma}   	f\big(\yy+\gamma(\yy)\big)=\yy \qquad \mbox{dla wszystkich $\yy\in \overline B(\zero,\delta_1)$.} \end{equation} \]

Wyniknie stąd, że kula $ B(\zero,\delta_1) $ jest zawarta w obrazie $ f\big(B(\zero,2\delta_1)\big) $.

Funkcję $ g=f^{-1} $ można będzie określić wzorem $ g(\yy)=f^{-1}(\yy)=\yy+\gamma(\yy) $ właśnie na $ B(\zero,\delta_1) $. Zbiór $ U=f^{-1}(B(\zero,\delta_1)) $ jest otwarty w $ \R^n $, gdyż $ f $ jest ciągła. Ponadto, $ \zero\in U $, więc dla pewnego $ \delta_2>0 $ kula $ B(\zero,\delta_2)\subset U $. Biorąc $ V=g^{-1}\big(B(\zero,\delta_2))=f(B(\zero,\delta_2)) $, otrzymamy - wobec ciągłości $ g<img class="teximage" src="/sites/default/files/tex/4a077328ef24f87d86de72b4d22437702d319a7c.png" alt="ca66acbe0f0e7d6a7c9ab2d20e8636dc:2213:" />\R^n $. Zakończy to dowód punktu (i) oraz części punktu (ii) twierdzenia o funkcji odwrotnej. Pozostanie do wykazania, że $ g\in C^1 $ iróżniczki obu funkcji wiąże zależność (iii).

Mamy

\[ f(\underbrace{\yy+\gamma(\yy)}_{=\mxx})= \xx+\varphi(\xx) = \yy+\gamma(\yy)+ \varphi(\yy+\gamma(\yy))\, . \]

Zatem warunek efgamma zachodzi wtedy i tylko wtedy, gdy

\[ \begin{equation} \label{gammafi} 	\gamma(\yy)=-\varphi(\yy+\gamma(\yy)), \qquad \yy\in  \overline  B(0,\delta_1)\, .    \end{equation} \]

Ustalmy teraz $ \yy\in \overline B(\zero,\delta_1) $ i rozpatrzmy pomocnicze przekształcenie

\[ T_{\myy} (\zz) = -\varphi(\yy+\zz), \qquad \zz\in  \overline B(\zero,\delta_1)\, . \]

Ponieważ $ \varphi(\zero)=\zero $, więc na mocy malefi jest $ \|T_y(\zz)\|\le \|\varphi(\yy+\zz)\|\le \frac 12\|\yy+\zz\|\le \delta_1 $ dla $ \yy,\zz \in \overline B(\zero,\delta_1) $. Innymi słowy,

\[ T_{\myy} \colon \overline B(\zero,\delta_1)\rightarrow \overline B(\zero,\delta_1)\, . \]

Nietrudno też sprawdzić, że $ T $ jest kontrakcją, gdyż

\[ \|T_{\myy} (\zz_1)-T_{\myy} (\zz_2)\|= \|\varphi(\yy+\zz_1)-\varphi(\yy+\zz_2)\|\ \stackrel{\eqref{malefi}}\le \ \frac 12 \|(\yy+\zz_1)-(\yy+\zz_2)\|=\frac 12 \|\zz_1-\zz_2\|\, . \]

Na mocy Twierdzenia [link], $ T_{\myy} $ ma dokładnie jeden punkt stały $ \zz\in \overline B(\zero,\delta_1) $. Wobec Lematu [link] (jego założenia sprawdzamy łatwo, podobnie jak wyżej), przekształcenie

\[ \overline B(\zero,\delta_1)\ni \yy\longmapsto\gamma(\yy)= \zz=\text{punkt stały kontrakcji }T_{\myy}\in  \overline B(\zero,\delta_1)  \]

jest ciągłe. Oczywiście, $ T_{\myy}(\zz)=\zz=\gamma(\yy) $ wtedy i tylko wtedy, gdy zachodzi warunek gammafi, tzn. równoważny mu warunek efgamma.

Krok 4: różniczkowalność $ g $ i wzór $ Dg(\yy)=Df(\xx)^{-1} $ dla $ \yy=f(\xx) $. Przypuśćmy, że byłoby już wiadomo, że $ g=f^{-1} $ jest przekształceniem różniczkowalnym. Stosując twierdzenie o różniczce złożenia do funkcji

\[ g\circ f = \mathrm{Id}\colon B(\zero,\delta_2)\to \R^n \]

otrzymalibyśmy wtedy równość

\[ Dg\big(f(\xx)\big)\cdot Df(\xx)= \mathrm{Id} \qquad\mbox{dla $\xx\in B(\zero,\delta_2)$,\quad $\yy=f(\xx)\in V=f(B(\zero,\delta_2))$,} \]

tzn. $ Dg(f(\xx))=Df(\xx)^{-1} $ na $  B(\zero,\delta_2) $. Operacja odwracania macierzy jest ciągła na zbiorze macierzy odwracalnych w $ M_{n\times n}\simeq \R^{n^2} $ (przypomnijmy: jest to zbiór otwarty!), więc przekształcenie

\[ V\ni\yy \mapsto Dg(\yy) = \Big(Df\big(g(\yy)\big)\Big)^{-1}\in M_{n\times n} \]

jest ciągłe. Aby zakończyć cały dowód Twierdzenia [link], pozostaje więc wykazać, że $ Dg(\yy) $ istnieje, gdy $ \yy\in V $. Udowodnimy w tym celu następujący

Lemat [o różniczce przekształcenia odwrotnego] Niech $ U, V $ będą zbiorami otwartymi w $ \R^n $, a $ f\colon U\to V $ -- bijekcją różniczkowalną w punkcie $ \xx\in U $. Załóżmy, że różniczka $ Df(\xx)=A $ jest izomorfizmem liniowym. Jeśli funkcja $ g=f^{-1}\colon V\to U $ jest ciągła w punkcie $ \yy=f(\xx) $, to $ Dg(\yy) $ istnieje i jest równa $ A^{-1} $.

    Dowód lematu. Oznaczmy $ B=A^{-1}=(Df(\xx))^{-1} $ i $ M=\|A\|+2\|B\|+1 $. Różniczka $ Df(\xx)=A $ istnieje, więc

\[ \begin{equation} \label{df=a} f(\xx+\hh)-f(\xx)= A\hh + r(\hh), \qquad\mbox{gdzie}\quad  \lim_{\mhh\to\zero} \frac{r(\hh)}{\|\hh\|}=\zero\, . \end{equation} \]

Niech $ \vv\in\R^n $, $ \|\vv\|\ll 1 $. Wtedy $ \vv=f(\xx+\hh)-f(\xx) $ dla pewnego $ \hh\in\R^n $: wystarczy zapisać ostatnią równość jako $ f(\xx+\hh)=f(\xx)+\vv $, a stąd $ \hh=g(f(\xx)+\vv))-\xx $; wobec ciągłości $ g $ w $ \yy=f(\xx) $ jest $ \hh\to 0 $ dla $ \vv\to 0 $. Pokażemy, że w małym otoczeniu zera wektory $ \hh $ i $ \vv $ mają porównywalne długości. Wybierzmy $ \delta>0 $ tak, aby $ \|r(\hh)\|<\frac 1{2M} \|\hh\| $ dla $ \| \hh\|<\delta $. Po pierwsze,

\[ \|\vv\|=\|A\hh+r(\hh)\|\le \|A\|\cdot \|\hh\|+\frac 1{2M} \|\hh\| \le M\|\hh\|\, . \]

Po drugie, $ A\hh=\vv-r(\hh) $ na mocy df=a i dlatego

\[ \|\hh\|= \|B\cdot A\cdot \hh\|=\|B\vv -B\cdot r(\hh)\| \le \|B\|\Big(\|\vv\|+ \frac 1{2M} \|\hh\|\Big)\le \|B\|\cdot \|\vv\|+\frac {1}{2}\|\hh\|, \]

stąd zaś $ \|\hh\|\le 2\|B\|\cdot \|\vv\|\le M\|\vv\| $. Ostatecznie

\[ \begin{equation} 	\label{h-k} 	\frac{1}{M} \|\vv\|\le \|\hh\|\le M\|\vv\| \qquad \mbox{dla}\quad   \|\hh\|<\delta. \end{equation} \]

Ponieważ $ \yy=f(\xx) $, więc

\[ g(\yy+\vv)- g(\yy)=g(f(\xx)+\vv)- g(f(\xx))= \hh =B(A\hh) = B\vv - B(r(\hh)). \]

Częścią liniową przyrostu $ g $ jest $ B\vv $, zaś reszta $ r_1(\vv)=B(r(\hh)) $ spełnia warunek

\[ \frac{\norm{B(r(\hh))}}{\norm{\vv}}\le \frac{M \cdot \|r(\hh)\|}{\norm{\hh}} \cdot \frac{\norm{\hh}}{\norm{\vv}}\stackrel{}\le M^2 \frac{ \|r(\hh)\|}{\norm{\hh}}\to \zero\qquad\mbox{dla $\vv\to \zero$,}  \]

gdyż wobec h-k warunki $ \vv\to \zero $ i $ \hh\to \zero $ są równoważne. Z definicji różniczki, $ Dg(\yy)=B=A^{-1} $. Dowód lematu, a także dowód całego Twierdzenia [link], jest zakończony. □

Uwaga W dowodzie twierdzenia o lokalnej odwracalności twierdzenie Banacha o punkcie stałym można stosować do przestrzeni funkcyjnej $ X=C\big(\overline B(\zero,\delta_1),\overline B(\zero,\delta_1)\big) $ zmetryką `supremum'. Określamy przekształcenie

\[ T\colon X\to X, \qquad (T\gamma)(\yy)=-\varphi(\yy+\gamma(\yy))\, . \]

Sprawdzenie, że $ T\colon X\to X $ jest kontrakcją, wykonujemy tak samo, jak rachunki w 3. kroku dowodu. Funkcja $ \gamma $, która jest punktem stałym $ T $, spełnia równanie gammafi - i od razu, bez powoływania się na Lemat [link], wiadomo, że $ \gamma $ jest ciągła.

Czytelnik może się zastanowić, czy udałoby się stosować twierdzenie Banacha od razu do pewnego podzbioru funkcji klasy $ C^1 $.

Twierdzenie o funkcji uwikłanej

Poznamy teraz kolejne twierdzenie, które w ścisły sposób wypowiada naturalne oczekiwanie: jeśli mamy $ m $ równań, w których występuje $ n+m $ niewiadomych, to `zwykle' $ m $ spośród tych niewiadomych można wyznaczyć za pomocą pozostałych $ n $. (Oczywiście nie zawsze tak jest - równania mogą np. być sprzeczne).

Oznaczenia. W tym podrozdziale będziemy rozpatrywać funkcję

\[ F\colon \R^n\times \R^m\supset \Omega\longrightarrow \R^m, \qquad F\in C^1(\Omega,\R^m). \]

Punkty $ \R^n $ będziemy oznaczać literą $ \xx $, a punkty $ \R^m $ - literą $ \yy $. Różniczka $ DF(\xx,\yy) $ jest macierzą o $ m $ wierszach i $ n+m $ kolumnach; będziemy pisać

\[ \begin{equation} 	\label{DxDy} DF(\xx,\yy)= \big(D_{\mxx}F(\xx,\yy),D_{\myy}F(\xx,\yy)\big), \end{equation} \]

gdzie $ D_{\mxx}F(\xx,\yy)\in M_{m\times n} $ ma $ m $ wierszy i $ n $ kolumn, zaś $ D_{\myy}F(\xx,\yy)\in M_{m\times m} $ jest macierzą kwadratową o $ m $ wierszach i tyluż kolumnach. Inaczej mówiąc, zapis $ D_{\mxx}F\in M_{m\times n} $ oznacza, że chodzi o różniczkę $ F $ jako funkcji zmiennej $ \xx $, natomiast $ \yy $ traktujemy jako parametr; podobnie interpretujemy $ D_{\myy}F\in M_{m\times m} $.

Twierdzenie [o funkcji uwikłanej](#) Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n\times \R^m $ i niech $ (\aa,\bb)\in \Omega $. Załóżmy, że $ F\in C^1(\Omega,\R^m) $ i $ F(\aa,\bb)=\zero $. Niech wreszcie

\[ 	  \det D_{\myy}F(\aa,\bb) \not=0\, . 	\]

Istnieją wówczas zbiory otwarte $ U\subset \R^n $ i $ V\subset \R^m $ oraz funkcja $ h\in C^1(U,\R^m) $ takie, że $ \aa\in U $, $ \bb\in V $, zaś warunek

\[ \begin{equation} 	\label{rownanie-TFU}   	F(\xx,\yy)=\zero,   \qquad (\xx,\yy) \in U\times V \subset \Omega \end{equation} \]

zachodzi wtedy i tylko wtedy, gdy $ \yy=h(\xx) $ dla pewnego $ \xx\in U $. Ponadto,

\[ \begin{equation} 	\label{dh-TFU}  	Dh(\xx)=- \Big(D_{\myy}F(\xx,h(\xx))\Big)^{-1}\cdot D_{\mxx} F(\xx,h(\xx))\, . \end{equation} \]

Nazwa twierdzenia ma następujący sens: w małym otoczeniu takiego punktu $ (\aa,\bb)\in \R^{n+m} $, w którym spełnione są założenia, równanie $ F(\xx,h(\xx))=0 $ definiuje funkcję $ \yy=h(\xx) $ wsposób uwikłany. Zanim podamy dowód, spójrzmy na dwa proste przykłady (z wieloma innymi Czytelnik spotka się później).

Przykład (#) (i). Niech $ A_1\in M_{m\times n} $, $ A_2\in M_{m\times m} $ i $ \det A_2\not =0 $. Rozpatrzmy przekształcenie liniowe

\[ 	F\colon \R^{n+m}=\R^n\times \R^m\rightarrow \R^m 	\]

dane wzorem $ F(\xx,\yy)= A_1\xx+ A_2\yy $ dla $ \xx\in \R^n $ oraz $ \yy\in \R^m $. Równanie $ F(\xx,\yy)=\zero $ można rozwiązać; zachodzi ono wtedy i tylko wtedy, gdy

\[ \yy = h(\xx)= -\big(A_2\big)^{-1}\cdot A_1\xx, \qquad \xx\in \R^n\, . \]

Mamy też oczywiście $ D_{\mxx} F\equiv A_1 $ i $ D_{\myy}F\equiv A_2 $. Widać więc, że w tej sytuacji funkcja $ h $ jest określona na całej przestrzeni $ \R^n $ i jest liniowa; zachodzi też warunek dh-TFU, opisujący jej różniczkę.      (ii). Niech $ n=m=1 $, $ a,b>0 $ i niech $ F(x,y)=\frac{x^2}{a^2}+\frac{y^2}{b^2}-1 $. Równanie $ F(x,y)=0 $ opisuje elipsę $ E $ w $ \R^2 $. Mamy

\[ F_x(x,y)=\frac{2x}{a^2}\, , \qquad F_y(x,y)=\frac{2y}{b^2}\, . \]

W otoczeniu każdego punktu $ (x_0,y_0)\in E $, który ma współrzędną $ y_0\not = 0 $, spełnione są założenia Twierdzenia [link]. Zatem, istnieją przedziały otwarte $ U,V\subset \R $ takie, że $ x_0\in U $, $ y_0\in V $, a równanie $ F(x,y)=0 $, rozpatrywane dla $ (x,y)\in U\times V $, wyznacza zmienną $ y $ jako funkcję $ x $. W tym przykładzie też możemy napisać jawny wzór

\[ \begin{equation} 	\label{elipsa}     	y=h(x)=\pm b\cdot \sqrt{1-\frac{x^2}{a^2}}\,  .   \end{equation} \]

Wybór znaku zależy od położenia $ (x_0,y_0) $ na elipsie, tzn. od znaku $ y_0 $. Widać też, że ważny jest wybór dwóch małych otoczeń $ U $ i $ V $: jeśli nie ograniczymy się do małego otoczenia punktu $ y_0 $, to nie wiemy, jaki znak wybrać we wzorze elipsa.

Załóżmy na chwilę, że $ y_0>0 $. Można wtedy wybrać jako $ V $ np. przedział $ (0,2b) $. Zgodnie z wzorem dh-TFU, powinno być

\[ h'(x) = - (F_y(x,y))^{-1}\cdot F_x(x,y) = -\frac{b^2}{2y}\cdot \frac{2x}{a^2} = - \frac{b^2}{a^2} \cdot \frac{x}{y} = - \frac{b^2}{a^2} \cdot \frac{x}{h(x)}\, .  \]

Taki właśnie wynik uzyskujemy, różniczkując funkcję $ h(x)=b\sqrt{1-(x^2/a^2)} $, daną wzorem elipsa.

W otoczeniu punktu $ (x_0,y_0)\in E $, $ y_0>0 $, elipsa $ E $ o równaniu $ x^2/a^2 + y^2/b^2=1 $ jest wykresem funkcji $ y=b\sqrt{1-(x^2/a^2)} $. W otoczeniu punktu $ (-a,0) $ ta sama elipsa jest wykresem funkcji $ x=-a\sqrt{1-(y^2/b^2)} $ zmiennej $ y $.

Zauważmy jeszcze, że jeśli $ \pp\in (x_0,y_0)\in E $ i $ y_0=0 $, to wtedy w otoczeniu punktu $ \pp $ równanie elipsy wyznacza $ x $ jako funkcję zmiennej $ y $. Nie kłóci się to z Twierdzeniem [link]. Możemy wszak je zastosować, wybierając inny, nieznikający minor macierzy $ DF $. W tym przypadku $ x_0\not=0 $ i $ F_x(x_0,y_0)\not = 0 $.

    Dowód Twierdzenia [link] Krok 1: zastosowanie twierdzenia o funkcji odwrotnej. Rozpatrzmy funkcję pomocniczą

\[ H\colon \Omega\to \R^n\times \R^m=\R^{n+m}, \qquad H(\xx,\yy) = \big(\xx, F(\xx,\yy)\big)\in \R^{n+m}\, . \]

Ponieważ $ F\in C^1 $, więc także $ H\in C^1 $. Nietrudno zauważyć, że macierz różniczki funkcji $ H $ wygodnie zapisuje się w postaci blokowej,

\[ DH(\xx,\yy) = \begin{pmatrix}\mathrm{Id} & \zero \\ A & B\end{pmatrix}, \]

gdzie

\[ \begin{gather*} \mathrm{Id}\in M_{n\times n}\, , \qquad\zero \in M_{n\times m}\, ,\\ A=D_{\mxx} F(\xx,\yy)\in M_{m\times n}\, , \qquad B =D_{\myy} F(\xx,\yy)\in M_{m\times m}\, . \end{gather*} \]

Posługując się $ n $-krotnie rozwinięciem Laplace'a, stwierdzamy, że

\[ \det DH(\aa,\bb) = \det D_{\myy} F(\aa,\bb)\not= 0\, . \]

Zatem, w punkcie $ \pp=(\aa,\bb)\in \Omega $ spełnione są założenia Twierdzenia [link] (o funkcji odwrotnej). Istnieje więc kula $ (n+m) $-wymiarowa $ B(\pp,r) $ i zbiór otwarty $ W\subset \R^{n+m} $ takie, że $ H\colon B(\pp,r)\to W $ jest bijekcją i funkcja $ G=H^{-1}\colon W\to B(\pp,r) $ jest klasy $ C^1 $. Ponadto, dla $ (\xx,\yy)\in B(\pp,r) $ jest $ \det D_{\myy}F(\xx,\yy)\not=0 $.

    Krok 2: postać funkcji odwrotnej do $ H $. Zapiszmy

\[ G(\xx,\yy)=\big(G_1(\xx,\yy), G_2(\xx,\yy) \big), \]

gdzie $ G_1\colon W\to \R^n $ i $ G_2\colon W\to \R^m $. Przy tych oznaczeniach,

\[ (\xx,\yy)=H\big(G(\xx,\yy)\big)=  \Big(G_1(\xx,\yy), F \big(G_1(\xx,\yy), G_2(\xx,\yy) \big) \Big)\, , \qquad (\xx,\yy)\in W. \]

Porównując $ n $ początkowych współrzędnych tej równości, otrzymujemy $ G_1(\xx,\yy)=\xx $ dla $ (\xx,\yy)\in W $, a następnie

\[ \begin{equation} 	\label{postacH} 	H\big(G(\xx,\yy)\big)=  \Big(\xx, F (\xx, G_2(\xx,\yy)) \Big)\, , \qquad (\xx,\yy)\in W.                                  \end{equation} \]

    Krok 3: opis rozwiązań równania $ F=\zero $. Jeśli $ (\xx,\yy)\in B(\pp,r) $, to warunek $ F(\xx,\yy)=\zero $ zachodzi wtedy i tylko wtedy, gdy

\[ H(\xx,\yy)= (\xx,F(\xx,\yy))= (\xx,\zero) \in W\, , \]

tzn. wtedy i tylko wtedy, gdy $ (\xx,\yy)=G(\xx,\zero)=\big(G_1(\xx,\zero),G_2(\xx,\zero)\big) $, co oznacza, że $ \yy=G_2(\xx,\zero) $. Z równania $ F=\zero $ wyznaczyliśmy więc $ \yy $ jako pewną funkcję $ \xx $.

W kuli $ B(\pp,r) $ zawarty jest pewien produkt $ U\times V $, gdzie $ U\subset \R^n $ i $ V\subset \R^m $ są zbiorami otwartymi; można np. wziąć $ U=B(\aa,r/2) $ i $ V=B(\bb,r/2) $. Wtedy

\[ h= G_2(\cdot,\zero) \colon U\to \R^m \]

i na zbiorze $ U\times V $ równanie $ F(\xx,\yy)=\zero $ zachodzi wtedy i tylko wtedy, gdy $ \yy=h(\xx) $ i $ \yy\in V $. Zmniejszając w razie potrzeby $ U $, np. biorąc $ \rho>0 $ tak małe, żeby $ U_1=B(\aa,\rho)\subset h^{-1}\big(B(\bb,r/2)\big) $ (tu korzystamy z ciągłości $ h<img class="teximage" src="/sites/default/files/tex/9068687679b332aeabe5c4dd15b423c7b6303397.png" alt="ca66acbe0f0e7d6a7c9ab2d20e8636dc:2377:" />h(U)\subset V $. Ponieważ $ G\in C^1 $, więc $ G_1,G_2\in C^1 $ i dlatego $ h\in C^1 $. Udowodniliśmy więc całą tezę twierdzenia, wyjąwszy wzór dh-TFU.

    Krok 4: różniczka funkcji uwikłanej $ h $. Na zbiorze $ U\subset \R^n $ jest $ F(\xx,h(\xx))=\zero\in \R^m $. Różniczkując to równanie stronami i stosując wzór na pochodną złożenia

\[ \xx\longmapsto (\xx,h(\xx))\stackrel{F}\longmapsto F(\xx,h(\xx)) \]

(Czytelnik zechce sam narysować odpowiednie macierze, najlepiej w postaci blokowej), otrzymujemy

\[  D_{\mxx} F(\xx,h(\xx)) + D_{\myy} F(\xx,h(\xx))\cdot Dh(\xx)=\zero\in M_{m\times n}.  \]

Dla $ \xx\in U $ macierz $ D_{\myy}F(\xx,h(\xx)) $ jest odwracalna; przenosząc $ D_{\mxx} F(\ldots) $ na prawą stronę równania i mnożąc obie strony przez $ D_{\myy}F(\ldots)^{-1} $, otrzymujemy wzór dh-TFU. □

Uwaga (#) Jeśli w Twierdzeniu [link] o funkcji odwrotnej założymy dodatkowo, że $ f\in C^k $ dla pewnego $ k\in \N $, $ k>1 $, to wówczas także $ f^{-1}\in C^k $. Przypomnijmy: różniczka funkcji odwrotnej $ g=f^{-1} $ dana jest wzorem \( Dg(\yy) = \big(Df\big(g(\yy)\big)\big)^{-1}, \) tzn. jest złożeniem trzech odwzorowań:

\[ \begin{equation} 	\label{trzyfunkcje}    	\yy\mapsto g(\yy)=\zz, \qquad  \zz\mapsto Df(\zz), \qquad A\mapsto A^{-1}\, .  \end{equation} \]

To, że $ g=f^{-1}\in C^k $, gdy $ f\in C^k $, można więc łatwo wykazać przez indukcję względem $ k $. Dla $ k=1 $ udowodniliśmy to już w Twierdzeniu [link]. Jeśli $ f\in C^k $ i wiemy z założenia, że dowodzona własność zachodzi dla $ k-1 $, to pierwsze odwzorowanie w trzyfunkcje jest klasy $ C^{k-1} $ na mocy założenia indukcyjnego, drugie - też jest klasy $ C^{k-1} $, gdyż $ Df\in C^{k-1} $, trzecie zaś jest klasy $ C^\infty $ (wyrazy macierzy $ A^{-1} $ wyrażają się przez funkcje wymierne od wyrazów macierzy $ A $). Podobnie, jeśli w Twierdzeniu [link] o funkcji uwikłanej założymy, że $ F\in C^k $, to funkcja uwikłana $ h $, o której mowa w tezie, też jest klasy $ C^k $.□

Podamy teraz inne przykłady zastosowania twierdzenia o funkcji uwikłanej.

Przykład (#) Niech $ F(\xx)=\|\xx\|^2-1 = x_1^2+\cdots+x_n^2-1 $. Zbiór $ M=\{\xx\in\R^n\colon F(\xx)=0\} $ jest sferą $ \S^{n-1} $. Różniczka

\[ 	DF(\xx)=\big(F_{x_1}(\xx),\ldots F_{x_n}(\xx)\big) 	= 2(x_1,\ldots,x_n) =2\xx 	\]

nie znika w żadnym punkcie sfery. Dlatego w otoczeniu każdego punktu $ \pp=(p_1,\ldots,p_n)\in \S^{n-1} $ sferę $ \S^{n-1} $ można przedstawić jako wykres funkcji $ (n-1) $ zmiennych,

\[ x_i=\pm \biggl(1-\sum_{{\scriptsize 1\le j\le n}\atop{ \scriptsize j\not=i}} x_j^2\biggr)^{1/2}\, . \]

Jeśli $ p_i\not=0 $, to w pewnym otoczeniu $ \pp $ z równania sfery możemy wyznaczyć zmienną $ x_i $, dobierając odpowiednio znak w powyższym wzorze.

Przykład [torus jako poziomica pewnej funkcji](#) Niech $ R>r>0 $. Połóżmy

\[ 	F(x,y,z) = \Big(\sqrt{x^2+y^2}-R\Big)^2+z^2-r^2, \qquad  x^2+y^2>0,\ z\in \R. 	\]

Wtedy

\[ F_z(x,y,z)=2z, \qquad F_x(x,y,z)=2  \Big(\sqrt{x^2+y^2}-R\Big)\cdot \frac{x}{\sqrt{x^2+y^2}}, \]

a $ F_y $ otrzymujemy, zamieniając role $ x $ i $ y $. Zbiór $ M=\{(x,y,z)\in \R^3\colon F(x,y,z)=0\} $ jest domknięty, gdyż $ F $ jest ciągła; żaden punkt $ (0,0,z) $ nie należy do $ M $, gdyż $ R^2+z^2-r^2\ge R^2-r^2>0 $. Zatem $ M\subset \Omega=\{(x,y,z)\in \R^3\colon x^2+y^2>0\} $. Zbiór $ \Omega $ jest otwarty, a funkcja $ F\in C^1(\Omega,\R) $.

Sprawdzimy, że w każdym punkcie zbioru $ M $ różniczka funkcji $ F $ ma rząd równy $ 1 $. Niech $ (x,y,z)\in M $. Jeśli $ z\not=0 $, to $ F_z\not= 0 $. Jeśli $ z=0 $, ale $ x\not=0 $, to $ \sqrt{x^2+y^2}-R=\pm r\not =0 $ i $ F_x\not =0 $. Jeśli wreszcie $ z=x=0 $, to $ |y|=\sqrt{x^2+y^2}=R\pm r $ i wtedy $ F_y\not= 0 $. Zatem, w otoczeniu każdego punktu $ (x,y,z)\in M $ zbiór $ M $ można przedstawić jako wykres pewnej funkcji dwóch zmiennych, klasy $ C^1 $ (ustaliwszy $ (x,y,z)\in M $, łatwo jest rozwikłać równanie $ F=0 $ w sposób jawny - Czytelnik może to robić sam).

Zbiór $ M $ jest torusem obrotowym: %w płaszczyźnie $ (x,y) $ we współrzędnych biegunowych $ x= t\cos\theta $, $ y=t\sin\theta $ równanie $ F=0 $ zmienia się w $ (t-R)^2+z^2=r^2 $. Dla każdego kąta $ \theta\in [0,2\pi) $ przekrój $ M $ pionową półpłaszczyzną $ \{(t\cos\theta,t\sin\theta,z)\colon t>0, z\in \R\} $ jest więc okręgiem.

     Wskażemy jeszcze prosty przykład zastosowania Twierdzenia [link] dla $ n=1 $, $ m=2 $.

Przykład (#) Niech $ F\colon \R^3\to \R^2 $,

\[ 	F(x,y,z)= (x^2+2y^2+3z^2-6,x+y+z). 	\]

Zbiór $ M=\{(x,y,z)\in \R^3\colon F(x,y,z)=(0,0)\} $ jest częścią wspólną zbiorów $ M_i $ opisanych równaniami $ F_i=0 $, gdzie $ F_1 $ i $ F_2 $ są współrzędnymi $ F $, tzn. jest przecięciem elipsoidy trójosiowej i płaszczyzny. Minory $ 2\times 2 $ macierzy

\[ DF(x,y,z)=\begin{pmatrix} 2x & 4y & 6z \\ 1 & 1 & 1 \end{pmatrix} \]

znikają jednocześnie tylko wtedy, gdy $ x=2y=3z $. Na płaszczyźnie $ x+y+z=0 $ równości $ x=2y=3z $ zachodzą jedynie w punkcie $ (0,0,0)\not\in M $, a więc w każdym punkcie $ M $ co najmniej jeden z minorów macierzy $ DF $ nie znika. Wobec Twierdzenia [link], każdy punkt zbioru $ M $ ma takie otoczenie, w którym dwie spośród zmiennych $ (x,y,z) $ można wyznaczyć jako funkcję trzeciej zmiennej.

Dyfeomorfizmy zbiorów otwartych w $\mathbb{R}^n$

Definicja Jeśli $ \Omega\subset \R^n $ jest zbiorem otwartym, to przekształcenie $ f\colon \Omega\to \R^n $ nazywamy dyfeomorfizmem klasy $ C^1 $, gdy $ f\in C^1(\Omega,\R^n) $ jest przekształceniem różnowartościowym, zbiór $ f(\Omega) $ jest otwarty w $ \R^n $ i przekształcenie odwrotne $ f^{-1}\in C^1(f(\Omega),\R^n) $.

Z definicji wynika, że dyfeomorfizm jest homeomorfizmem. Czytelnik nie powinien jednak uważać, że dyfeomorfizm to homeomorfizm, który jest różniczkowalny: przekształcenie $ \R^n\ni x\mapsto x^3 \in \R $ jest bijekcją klasy $ C^\infty $, jednak przekształcenie doń odwrotne, $ \R\ni y\mapsto \sqrt[3]{y}\in \R $, nie jest klasy $ C^1 $ (z uwagi na zachowanie pochodnej w zerze).

Przekształcenie odwrotne do dyfeomorfizmu też jest dyfeomorfizmem.

Przykład

  1. Każde odwracalne przekształcenie liniowe $ \Omega\ni \xx\mapsto A\xx\in A(\Omega)\subset \R^n $ jest dyfeomorfizmem. Z odwracalności $ A $ wynika różnowartościowość tego przekształcenia. Przekształcenia liniowe $ \xx\mapsto f(\xx)=A\xx $ i $ \yy\mapsto f^{-1}(\yy)=A^{-1}\yy $ są ciągłe, a ich różniczki $ Df(\xx)=A $ i $ Df^{-1}(\yy)=A^{-1} $ są stałe, więc też są ciągłe.
  2. Przekształcenie
    \[ (-1,1)\times \R \ni (x,y)  \longmapsto f(x,y)=\big(x,\frac 2\pi\arctg y\big)\in (-1,1)\times (-1,1)\,  \]

    jest dyfeomorfizmem pasa $ (-1,1\times \R) $ na kwadrat $ (-1,1)^2 $. Obie współrzędne $ f $ są gładkie i różnowartościowe, więc $ f $ jest gładkie i różnowartościowe. Macierz

    \[ Df(x,y)=\begin{pmatrix} 1 & 0 \\ 0 & %\dfrac 2\pi     \dfrac{2/\pi}{1+y^2}\end{pmatrix} \]

    jest odwracalna dla każdego $ (x,y) $, więc funkcja $ f^{-1} $ - która, wobec różnowartościowości $ f $, określona jest globalnie na kwadracie $ (-1,1)^2 $ - jest klasy $ C^1 $ na mocy Twierdzenia [link]. Można zresztą wypisać $ f^{-1} $ wzorem.

  3. Niech $ \Omega_1=\R\times (0,\pi)\subset \R^2 $, $ \Omega_2=\{(x,y)\in \R^2\colon y>0\} $. Przekształcenie
    \[ \Omega_1\ni (x,y)\mapsto F(x,y) = (e^x\cos y, e^x\sin y)\in \Omega_2 \]

    jest dyfeomorfizmem pasa $ \Omega_1 $ na półpłaszczyznę $ \Omega_2=F(\Omega_1) $. Najprościej to zauważyć, odwołując się do własności funkcji wykładniczej w $ \C $. Sprawdzenie szczegółów pozostawiamy Czytelnikowi.

Stwierdzenie Złożenie dwóch dyfeomorfizmów jest dyfeomorfizmem. □
Zadanie Wykazać, że koło $ \{\xx\in \R^2\colon \|\xx\|<1\} $ i kwadrat $ \{\xx\in \R^2\colon \|\xx\|_1<1\} $ są dyfeomorficzne.

Z pojęciem dyfeomorfizmu spotkamy się wielokrotnie, także w drugim semestrze.

Rozmaitości zanurzone w $\mathbb{R}^n$

(#)

Definicja Zbiór $ M\subset \R^{n+m} $ nazywamy zanurzoną rozmaitością $ n $-wymiarową klasy $ C^1 $ wtedy i tylko wtedy, gdy dla każdego punktu $ \pp\in M $ istnieje kula $ B(\pp,r) $ w $ \R^{n+m} $, $ n $-wymiarowa podprzestrzeń liniowa $ P=\text{span}\, (\ee_{i_1},\ee_{i_2},\ldots,\ee_{i_n})\subset \R^{n+m} $, zbiór $ U $ otwarty w $ P\equiv\R^n $ i funkcja $ \varphi\in C^1(U,P^\perp) $ takie, że

\[ 	M\cap B(\pp, r)= \text{wykres}\, \varphi \cap B(\pp,r), 	\]

gdzie

\[ \text{wykres}\, \varphi=\{(\xx,\yy)\in \R^{n+m}= P\oplus P^\perp\colon \xx\in U, \ \yy=\varphi (\xx)\}\, . \]

Mówiąc krótko i potocznie, zanurzona rozmaitość $ n $-wymiarowa klasy $ C^1 $ w $ R^{n+m} $ to zbiór, który lokalnie, w otoczeniu każdego swojego punktu, jest wykresem pewnej funkcji klasy $ C^1 $ wybranych $ n $ zmiennych.

Liczbę $ m $ nazywamy kowymiarem rozmaitości $ M\subset \R^{n+m} $.

Twierdzenie (#) Niech $ \Omega \subset \R^{n+m} $ będzie zbiorem otwartym i niech $ F\in C^1(\Omega,\R^m) $. Jeśli $ \qq\in \Omega $ jest punktem takim, że $ DF(\zz) $ jest epimorfizmem liniowym dla każdego punktu $ \zz $, należącego do zbioru

\[ 	M=\{\zz\in \Omega\colon F(\zz)= F(\qq)\}%=F^{-1}\big(\{F(\qq)\}\big)\, , 	\]

to wówczas $ M $ jest rozmaitością $ n $-wymiarową klasy $ C^1 $.

Dowód: Niech $ \pp\in M $. Ponieważ $ DF(\zz) $ jest epimorfizmem w każdym punkcie zbioru $ M $, więc w punkcie $ \pp $ nie znika pewien minor rozmiaru $ m\times m $ macierzy $ DF(\pp) $. Dlatego, odpowiednio permutując zmienne, można zastosować Twierdzenie [link] (o funkcji uwikłanej) i wywnioskować, że w małym otoczeniu punktu $ \pp $ zbiór $ M $ pokrywa się z wykresem pewnej funkcji klasy $ C^1 $, określonej na otwartym podzbiorze $ \R^n $ iprowadzącej w $ \R^m $. □

Zastosowania tego twierdzenia spotkaliśmy już w przykładach [link](ii), [link], [link], [link]. Przykładami rozmaitości są więc elipsa (zarówno zanurzona w $ \R^2 $, jak i zanurzona w $ \R^3 $), sfera i torus.

Przykład [lemniskata i precel] Lemniskatą nazywamy zbiór

\[ 	L=\{(x,y)\in \R^2\colon x^4-x^2+y^2=0\}\, . 	\]

Równanie $ x^4-x^2+y^2=0 $, równoważnie $ y=\pm x\sqrt{1-x^2} $, opisuje w $ \R^2 $ krzywą w kształcie ósemki. Wykresy funkcji $ x\mapsto \pm x\sqrt{1-x^2} $ przecinają się pod kątem prostym w punkcie $ (0,0)\in L $, więc $ L $ nie jest rozmaitością jednowymiarową zanurzoną w $ \R^2 $.

Niech teraz $ F\colon \R^3\to \R $ będzie dana wzorem

\[ F(x,y,z)= \big(x^4-x^2+y^2\big)^2+z^2-\frac{1}{36} \]

i niech $ M=\{(x,y,z)\in \R^3\colon F(x,y,z)=0 $. Sprawdzimy, że spełnione są założenia Twierdzenia [link]. Pochodne cząstkowe $ F $ są równe

\[ \begin{gather*} F_x(x,y,z) =  2\big(x^4-x^2+y^2\big) \cdot (4x^3-2x)=4x(2x^2-1)\big(x^4-x^2+y^2\big), \\	   F_y(x,y,z)  = 4y\big(x^4-x^2+y^2\big), \qquad F_z(x,y,z)=2z\, .  \end{gather*} \]

W tych punktach $ M $, gdzie $ z\not=0 $, różniczka funkcji $ F $ jest epimorfizmem (tzn. ma rząd równy 1), gdyż tam $ F_z\not=0 $. Jeśli $ (x,y,z)\in M $ i $ z=0 $, to $ x^4-x^2+y^2=\pm \frac 16 $. Zatem, o ile $ y\not=0 $, to $ F_y(x,y,0)\not = 0 $ w punktach $ (x,y,0)\in M $.

Jeśli wreszcie $ (x,y,z)\in M $ i $ y=z=0 $, to $ x^4-x^2+y^2=x^4-x^2=\pm \frac 16 $. Inaczej mówiąc, liczba $ x $ jest pierwiastkiem wielomianu $ P(t)=t^4-t^2\mp \frac 16 $. Mamy $ P'(t)=4t^3-2t $; $ P' $ znika więc dla $ t=0 $ i $ t=\pm 1/\sqrt{2} $. Te punkty nie są jednak pierwiastkami $ P $, tzn. $ P $ ma pierwiastki jednokrotne i jeśli $ P(x)=0 $, to $ P'(x)\not=0 $. Ostatecznie więc,

\[ F_x(x,0,0)=  4x(2x^2-1)\big(x^4-x^2+y^2\big) = 2P'(x) \cdot \pm{1}{6} \not=0 \qquad\mbox{dla $(x,0,0)\in M$.} \]

Sprawdziliśmy więc, że we wszystkich punktach $ (x,y,z)\in M $ różniczka $ DF(x,y,z) $ jest epimorfizmem (ma maksymalny możliwy rząd, w tym przypadku równy $ 1 $).

Z lewej: wykres funkcji $ f(x,y)=x^4-x^2+y^2 $ widziany od dołu. Z prawej: precel o równaniu $ f(x,y)^2+z^2=\frac 1{36} $. (Oba rysunki poddano lekkiemu - afinicznemu - zniekształceniu.)

Jak wygląda zbiór $ M $? Wyobraźmy sobie, że zmienna $ z $ to wysokość. Cięcie zbioru $ M $ poziomą płaszczyzną $ \{z=c\} $, gdzie $ c\in [-\frac{1}{6},\frac{1}{6}] $, składa się z takich punktów $ (x,y,z) $, że

\[ x^4-x^2+y^2 =\pm a, \quad\mbox{gdzie } a= \sqrt{\frac{1}{36}-c^2}, \qquad z=c, \]

tzn. wygląda tak samo, jak dwa poziome przekroje wykresu funkcji $ f(x,y)=x^4-x^2+y^2 $, płaszczyznami $ \{z=\pm a\} $. Czytelnik zechce sprawdzić, że w punkcie $ (0,0) $ funkcja $ f $ ma siodło, a w punktach $ (\pm 1/\sqrt 2,0) $ dwa minima lokalne. Zatem, krzywe $ f=\mathrm{const} $ wyglądają tak, jak na załączonym rysunku, zaś sam zbiór $ M $ wygląda tak, jak powierzchnia precla z dwiema dziurami na wylot. (Ten konkretny sposób przedstawienia precla jako jednej) poziomicy pewnej funkcji klasy $ C^1 $ obmyślił Hermann Karcher, geometra z Uniwersytetu w Bonn.

Opiszemy teraz zbiór wektorów stycznych (w sensie Definicji [link]) do rozmaitości zanurzonej klasy $ C^1 $. Okazuje się, że jeśli $ M $ jest rozmaitością $ n $-wymiarową, to $ T_{\mpp}M $ jest przestrzenią liniową wymiaru $ n $. Oto jej opis, w dwóch wersjach, uzależnionych od tego, jak opisujemy rozmaitość $ M $.

Twierdzenie [przestrzeń styczna do rozmaitości, wersja I](#) Jeśli $ M\subset \R^{n+m} $ jest wykresem funkcji $ \varphi\in C^1(\Omega,\R^m) $, gdzie $ \Omega\subset \R^n $ jest zbiorem otwartym, to w każdym punkcie $ \pp=(\aa,\varphi(\aa))\in M $ mamy

\[ 	T_{\mpp} M = \{(\vv, D\varphi (\aa)\vv)\in \R^{n+m}\colon \vv\in \R^n\} = \mathrm{Im\,} D\Phi(\aa)\, , 	\]

gdzie $ \Phi(\xx)=(\xx,\varphi(\xx)) $, $ \Phi\colon \Omega\to \R^n\times \R^m=\R^{n+m} $.

Przekształcenie $ \Phi $, o którym mowa w powyższym twierdzeniu, nazywa się czasem naturalną parametryzacją wykresu funkcji $ \varphi $.

Twierdzenie [przestrzeń styczna do rozmaitości, wersja II](#) Jeśli $ \Omega\subset \R^{n+m} $ jest zbiorem otwartym, $ F\in C^1(\Omega,\R^m) $ i dla każdego punktu $ \pp\in M $, gdzie

\[ 	M=\{\zz\in \Omega\colon F(\zz)= \zero\}\, , 	\]

przekształcenie liniowe $ DF(\pp) $ jest epimorfizmem, to

\[ T_{\mpp} M=\ker DF(\pp)\qquad\mbox{dla $\pp\in M$.} \]

Udowodnimy najpierw pierwsze z tych twierdzeń, posługując się wprost Definicją [link]. Drugie twierdzenie wyprowadzimy później z pierwszego, posługując się twierdzeniem ofunkcji uwikłanej, żeby opisać lokalnie $ M $ jako wykres funkcji klasy $ C^1 $. Uważny Czytelnik spostrzegł przypuszczalnie, że z Twierdzeniem [link] spotkaliśmy się już w prostym przypadku $ m=1 $, dowodząc, że gradient funkcji jest prostopadły do poziomicy (patrz Twierdzenie [link]).

    Dowód Twierdzenia [link] Ustalmy $ \vv\in \R^n $. Niech $ \gamma(t)=(\aa+t\vv,\varphi(\aa+t\vv))=\Phi(\aa+t\vv) $. Wektor $ \gamma'(0) $ prędkości krzywej $ \gamma $ należy do zbioru $  T_{\gamma(0)}M=T_{\mpp}M $ (patrz Uwaga [link]), gdzie oczywiście $ \pp=(\aa,\varphi(\aa))=\Phi(\aa) $. Wobec wzoru na pochodną złożenia,

\[ \gamma'(0)=D\Phi(\aa+t\vv)\cdot \vv\Big|_{t=0} = D\Phi(\aa)\vv= (\vv,D\varphi(\aa)\vv). \]

Datego $ \mathrm{Im\,} D\Phi(\aa)\subset T_{\mpp}M $. Trzeba jeszcze tylko wykazać inkluzję przeciwną.

Niech zatem $ \ww\in T_{\mpp}M\subset \R^{n+m} $. Sprawdzimy, że $ \ww=D\Phi(\aa)\vv $ dla pewnego wektora $ \vv\in \R^n $. Bez zmniejszenia ogólności przyjmiemy, że $ \|\ww\|=1 $. Ponieważ $ M=\Phi(\Omega) $, więc zdefinicji wektora stycznego wynika, że istnieje ciąg $ (\xx_j)\subset \Omega $ zbieżny do $ \aa $ i taki, że

\[ \begin{equation} 	  \label{calosc} 	\lim_{j\to\infty}\frac{\Phi(\xx_j)-\Phi(\aa)}{\norm{\Phi(\xx_j)-\Phi(\aa)}}= \frac{\ww}{\norm{\ww}}=\ww\qquad \mbox{oraz}\qquad  	\lim_{j\to\infty}\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}=\zz\in \S^{n-1}; \end{equation} \]

drugie założenie nie zmniejsza ogólności, gdyż sfera $ \S^{n-1} $ jest zbiorem zwartym. Funkcja $ \varphi $ jest różniczkowalna w $ \aa $; dlatego, wobec ciągłości przekształceń liniowych,

\[ \begin{equation} 	\label{pion} \lim_{j\to\infty}\frac{\norm{\varphi(\xx_j)-\varphi(\aa)}}{\norm{\xx_j-\aa}} \stackrel{\eqref{calosc}}= \|D\varphi (\aa)\zz\|\, .   \end{equation} \]

Uwzględniając tę równość, otrzymujemy

\[ \begin{eqnarray*}  \lim_{j\to\infty}\frac{\norm{\xx_j-\aa}}{\norm{\Phi(\xx_j)-\Phi(\aa)}}  &=& \lim_{j\to\infty}\frac{\norm{\xx_j-\aa}}{\sqrt{\|\xx_j-\aa\|^2+\norm{\varphi(\xx_j)-\varphi(\aa)}^2}}\\ &=& \lim_{j\to\infty} \biggl(1+\frac{\norm{\varphi(\xx_j)-\varphi(\aa)}^2}{\norm{\xx_j-\aa}^2}\biggr)^{-1/2} \\ %\frac{\xx_j-\aa}{\norm{\xx_j-\aa}} \\ & = &   \Big(1+\norm{D\varphi(\aa)\zz}^2 \Big )^{-1/2}  \\ & = &   \Big(\|\zz\|^2+\norm{D\varphi(\aa)\zz}^2 \Big )^{-1/2}= \frac {1}{\|D\Phi(\aa)\zz\|}. \end{eqnarray*} \]

Teraz piszemy

\[ \begin{eqnarray*} \ww & = & \lim_{j\to\infty}\frac{\Phi(\xx_j)-\Phi(\aa)}{\norm{\Phi(\xx_j)-\Phi(\aa)}}\\ & = &\lim_{j\to\infty}\frac{D\Phi(\aa)(\xx_j-\aa)+ o(\|\xx_j-\aa\|)}{\norm{\Phi(\xx_j)-\Phi(\aa)}}\\ & = & \lim_{j\to\infty}  \frac{\norm{\xx_j-\aa}}{\norm{\Phi(\xx_j)-\Phi(\aa)}}  \biggl(D\Phi(\aa) \frac{\xx_j-\aa}{\norm{\xx_j-\aa}} + \frac{o(\|\xx_j-\aa\|)}{\norm{\xx_j-\aa}}\biggr) \\ & = & \frac{D\Phi(\aa)\zz}{\|D\Phi(\aa)\zz\|}         \end{eqnarray*} \]

Inaczej mówiąc, $ \ww=D\Phi(\aa)\vv $, gdzie wektor $ \vv=\|D\Phi(\aa)\zz\|^{-1}\zz $. Dowód Twierdzenia [link] jest zakończony. □

    Dowód Twierdzenia [link] Ustalmy $ \pp\in M $. Bez zmiany ogólności (permutując w razie potrzeby zmienne w $ \R^{n+m} $) przyjmiemy, że w małym otoczeniu $ \Omega_1\subset \Omega $ punktu $ \pp $ funkcja $ F $ zmiennej $ \zz=(\xx,\yy) $, gdzie $ \xx\in \R^n $ i $ \yy\in \R^m $, spełnia założenia Twierdzenia [link] ofunkcji uwikłanej, tzn.

\[ \det D_{\myy} F(\xx,\yy)\not=0, \qquad (\xx,\yy)\in U. \]

Istnieje wtedy funkcja $ \varphi\colon \R^n\supset U\to \R^m $ klasy $ C^1 $ taka, że zbiór $ M $ w otoczeniu punktu $ \pp $ jest wykresem funkcji $ \varphi $. Niech $ \pp=(\aa,\varphi(\aa)) $. Z poprzedniego twierdzenia wynika, że

\[ T_{\mpp}M = \{(\vv,D\varphi(\aa)\vv)\colon \vv\in \R^n\}. \]

Posłużymy się teraz wzorem dh-TFU na różniczkę funkcji uwikłanej $ \varphi $. Wynika zeń, że

\[ D_{\mxx}F(\pp)\vv + D_{\myy} F(\pp) D\varphi(\aa)\vv = 0,  \]

lub równoważnie, $ DF(\pp)\big(\vv,D\varphi(\aa)\vv\big)=0 $, tzn. każdy wektor $ \big(\vv,D\varphi(\aa)\vv\big) $ należy do jądra przekształcenia $ DF(\pp) $. Na odwrót, jeśli $ \ww=(\vv,\uu)\in \ker DF(\pp) $, gdzie $ \vv\in \R^n $ i $ \uu\in \R^m $, to

\[ 0=DF(\pp)\ww=  D_{\mxx}F(\pp)\vv + D_{\myy} F(\pp) \uu, \]

stąd zaś, wobec wzoru dh-TFU, otrzymujemy $ \uu=-\big(D_{\myy}F(\pp)\big)^{-1}D_{\mxx}F(\qq)\vv= D\varphi(\pp)\vv $. Zatem rzeczywiście $ \ww=(\vv,D\varphi(\aa)\vv)\in T_{\mpp}M $. □

Ekstrema warunkowe i mnożniki Lagrange'a

W wielu konkretnych zastosowaniach rachunku różniczkowego trzeba znajdować wartość największą lub najmniejszą pewnej funkcji $ n $ zmiennych, ale nie na zbiorze otwartym $ \Omega\subset \R^n $, tylko wtedy, gdy między poszczególnymi zmiennymi zachodzą dodatkowe związki. Np. obliczając odległość punktu $ (3,4,5) $ od powierzchni sfery $ \S^2 $, szukamy w istocie najmniejszej wartości funkcji

\[ g(x,y,z)=(x-3)^2+(y-4)^2+(z-5)^2, \qquad (x,y,z)\in \S^2, \]

na pewnej podrozmaitości w $ \R^3 $: na sferze. Gradient funkcji $ g\colon \R^3\to \R $, jak nietrudno stwierdzić, znika jedynie w punkcie $ (3,4,5) $, w którym $ g $ osiąga swój kres dolny na $ \R^3 $. Jednak $ (3,4,5)\not\in \S^2 $, gdzie jest więc osiągany kres dolny na sferze?

Akurat to zadanie można rozwiązać szkolnymi metodami, odwołując się do elementarnej geometrii. Problemy tego typu pojawiają się jednak w wielu dziedzinach, choćby w ekonomii, w różnych zadaniach związanych z optymalizacją kosztów i zysku, gdy wiadomo, że np. suma różnych rodzajów wydatków firmy (płace, reklama, środki produkcji, ubezpieczenie itp.) powinna być stała. Warto więc dysponować ogólnymi metodami rozwiązywania podobnych zadań.

Powiemy teraz, jak badać minima i maksima funkcji, określonych na $ n $-wymiarowych rozmaitościach zanurzonych w $ \R^{n+m} $. Równania, opisujące daną rozmaitość, traktujemy jako dodatkowe warunki, wiążące poszczególne zmienne w $ \R^{n+m} $. Stąd właśnie bierze się nazwa ekstrema warunkowe albo ekstrema związane.

Twierdzenie [warunek konieczny ekstremum warunkowego] (#) Załóżmy, że $ g\in C^1(\Omega,\R) $ i $ F=(F_1,\ldots,F_m)\in C^1(\Omega,\R^m) $, gdzie $ \Omega $ jest zbiorem otwartym w $ \R^{n+m}=\R^n\times\R^m $. Niech $ M=\{\zz\in \Omega\colon F(\zz)=\zero\} $. Niech $ \pp\in M $ i niech przekształcenie $ DF(\pp) $ będzie epimorfizem liniowym.

Jeśli $ g $ osiąga w punkcie $ \pp\in M $ swój kres górny lub dolny na zbiorze $ M $, to

\[ \langle \grad g (\pp), \ww\rangle =0  \qquad\mbox{dla każdego}\quad \ww\in T_{\mpp} M \]

i istnieją liczby $ \lambda_1,\ldots,\lambda_m\in \R $ takie, że

\[ \begin{equation} 	\label{mnozLagr}    	\grad g(\pp) = \sum_{i=1}^m \lambda_i \cdot \grad F_i (\pp)\, .  \end{equation} \]

Liczby $ \lambda_i $ nazywa się mnożnikami Lagrange'a. Geometryczny sens warunku mnozLagr jest następujący: gradient funkcji $ g $ w punkcie $ \pp $ jest prostopadły do przestrzeni stycznej $ T_{\mpp}M=\ker DF(\pp) $ do rozmaitości $ M $. To wynika z Twierdzenia [link]. Aby to łatwiej zrozumieć, Czytelnik może pomyśleć o przypadku $ m=1 $, $ n=2 $. Wtedy $ F $ ma wartości rzeczywiste i warunek mnozLagr oznacza, że $ \grad g(\pp)=\lambda\, \grad F(\pp) $, a wektor $ \grad F(\pp) $ jest wszak prostopadły do poziomicy funkcji $ F $.

Dowód: Pewien minor $ m\times m $ macierzy $ DF(\pp) $ nie znika. Bez zmniejszenia ogólności (permutując w razie potrzeby zmienne) załóżmy zatem, że $ DF(\pp)=(D_{\mxx}F(\pp),D_{\myy}F(\pp)) $, gdzie $ D_{\mxx}F(\pp) $ jest macierzą o $ n $ kolumnach i $ m $ wierszach, zaś $ D_{\myy}F(\pp) $ - odwracalną macierzą kwadratową $ m\times m $. Wobec Twierdzenia [link], dla pewnego $ r>0 $ zbiór $ M\cap B(\pp,r) $ jest wykresem funkcji $ \varphi\in C^1(U,\R^m) $, gdzie $ U $ jest zbiorem otwartym w $ \R^n $. Punkt $ \pp=(\aa,\varphi(\aa)) $ dla pewnego $ \aa\in U $. Oznaczmy jeszcze $ \Phi(\xx)=(\xx,\varphi(\xx)) $.

Funkcja $ G\colon U\to\R $ dana wzorem

\[ G(\xx) = g(\xx,\varphi(\xx)),  \qquad \mbox{gdzie } \xx\in U, \quad\mbox{tzn. } (\xx,\varphi(\xx))=\Phi(\xx)\in M\cap B(\pp,r),  \]

jest różniczkowalna na $ U $ i osiąga swój kres górny (lub dolny) w punkcie $ \aa\in U $. Dlatego, wobec wzoru na pochodną złożenia,

\[ \zero = DG(\aa) = Dg(\pp) D\Phi(\aa) = D_{\mxx} g(\pp) +  D_{\myy}g(\pp)D\varphi(\aa). \]

Innymi słowy, $ \langle \grad g(\pp), \ww\rangle = (D_{\mxx} g(\pp), D_{\myy}g(\pp)) \ww = 0 $ dla każdego wektora $ \ww=D\Phi(\aa)\vv\in \R^{n+m} $, gdzie $ \vv\in \R^n $ można wybrać dowolnie. Wobec Twierdzenia [link], obraz przekształcenia liniowego $ D\Phi(\aa)\colon \R^n\to \R^{n+m} $ to przestrzeń styczna $ T_{\mpp}M $, a więc otrzymaliśmy warunek

\[ \begin{equation}       \label{gradperp} \langle \grad g(\pp), \ww\rangle = 0 \qquad\mbox{dla każdego}\quad \ww\in T_{\mpp} M\, .    \end{equation} \]

Wyprowadzimy stąd warunek mnozLagr. W tym celu opiszemy bazę przestrzeni $ V=(T_{\mpp} M)^\perp $.

Twierdzenie [link] orzeka, iż $ T_{\mpp} M= \ker DF (\pp) $. Wymiar $ T_{\mpp}M $ jest równy $ n $, zatem $ \dim V=(n+m)-n=m $. Wiersze macierzy $ DF(\pp) $, tzn. wektory $ \grad F_i(\pp) $, są ortogonalne do $ \ker DF(\pp) $. Zatem, $ \grad F_i(\pp)\in V $ dla $ i=1,\ldots, m $. Ponadto, wektory $ \grad F_1(\pp) $, \ldots, $ \grad F_m(\pp) $ są liniowo niezależne, gdyż $ DF(\pp) $ jest epimorfizem. Zatem, $ (\grad F_i(\pp))_{i=1,\ldots, m} $ jest bazą $ V $. Warunek gradperp oznacza zaś, że wektor $ \grad g(\pp)\in V $; dlatego $ \grad g(\pp) $ jest kombinacją wektorów bazy $ V $, tzn. wektorów $ \grad F_i(\pp) $. □

Funkcję $ L(\zz)=g(\zz)-\sum_{i=1}^m\lambda_i F_i(\zz) $, gdzie liczby $ \lambda_i $ spełniają, przy założeniach ostatniego twierdzenia, warunek mnozLagr, nazywamy funkcją Lagrange'a (dla punktu $ \pp\in M $). Badając drugą różniczkę tej funkcji, można w wielu sytuacjach sprawdzić, czy $ g $ ma w punkcie $ \pp $ ekstremum lokalne związane na rozmaitości $ M $, czy go nie ma.

Definicja Załóżmy, że $ g\in C^1(\Omega,\R) $ i $ F=(F_1,\ldots,F_m)\in C^1(\Omega,\R^m) $, gdzie $ \Omega $ jest zbiorem otwartym w $ \R^{n+m}=\R^n\times\R^m $. Niech $ M=\{\zz\in \Omega\colon F(\zz)=\zero\} $. Mówimy, że $ g $ ma w punkcie $ \pp\in M $ minimum (odpowiednio: maksimum) lokalne związane na $ M $ wtedy i tylko wtedy, gdy dla pewnego $ r>0 $ jest $ g(\pp)\le g(\zz) $ (odpowiednio: $ g(\pp)\ge g(\zz) $) dla wszystkich $ \zz\in M $, $ \|\zz-\pp\|<r $. Jeśli nierówności są ostre, to mówi się, że ekstremum lokalne związane jest właściwe.
Twierdzenie [warunki dostateczne ekstremum lokalnego związanego] (#) $ \phantom{a} $ Niech $ g\in C^2(\Omega,\R) $ i $ F=(F_1,\ldots,F_m)\in C^2(\Omega,\R^m) $, gdzie $ \Omega $ jest zbiorem otwartym w$ \R^{n+m} $. Przypuśćmy, że w punkcie $ \pp\in M=\{z\in \Omega\colon F(\zz)=0\} $ przekształcenie $ DF(\pp) $ jest epimorfizem izachodzi mnozLagr, tzn.

\[ 	\grad g(\pp) = \sum_{i=1}^m \lambda_i \cdot \grad F_i (\pp)\, .        	\]

Niech $ L=g-\sum_{i=1}^m \lambda_i F_i\colon \Omega\to \R $. Wówczas:

  1. Jeśli $ D^2L(\pp) (\ww,\ww)>0 $ (odpowiednio, $ D^2L(\pp) (\ww,\ww)<0 $) dla wszystkich $ \ww\in T_{\mpp} M\setminus\{0\} $, to $ g $ ma w $ \pp\in M $ właściwe minimum (odpowiednio: maksimum) lokalne związane.

  2. Jeśli istnieją dwa wektory $ \vv,\ww\in T_{\mpp}M $ takie, że $  D^2L(\pp) (\ww,\ww)>0 > D^2L(\pp) (\vv,\vv)\, ,  $ to $ g $ nie ma w punkcie $ \pp $ ekstremum lokalnego związanego.
Dowód: Bez zmniejszenia ogólności (można przesunąć układ współrzędnych w $ \R^{n+m} $ idodać do $ g $ stałą) załóżmy, że $ \pp=\zero\in M $, $ L(\zero)=g(\zero)=F_1(\zero)=\ldots = F_m(\zero)=0 $. Załóżmy ponadto, przenumerowując w razie potrzeby zmienne istosując twierdzenie o funkcji uwikłanej, że $ M\cap B(\pp,r) $ jest wykresem funkcji

\[ \R^n\supset U \ni \xx\longmapsto \yy=\varphi (\xx)\in M\cap B(\pp,r). \]

Dla ustalenia uwagi, niech $ \varphi(\zero)=\zero $. Wobec Uwagi [link], $ \varphi $ jest klasy $ C^2 $. Niech $ \Phi $ będzie naturalną parametryzacją $ M $, tzn. $ \Phi(\xx)=(\xx,\varphi(\xx))\in M $ dla $ \xx\in U\subset \R^n $ i $ \Phi(\zero)=\zero=\pp $. Załóżmy, że $ D^2L(\zero)>0 $ na $ T_{\mpp}M $.

Aby wykazać tezę, zastosujemy wzór Taylora do funkcji $ L $. Z warunku mnozLagr wynika, że $ DL(\zero)=Dg(\zero)-\sum\lambda_i DF_i(\zero)= 0 $. Dlatego dla $ \zz\in B(\zero,r) $ jest

\[ L(\zz)= D^2L(\zero)(\zz,\zz) + r_1(\zz), \qquad\mbox{gdzie} \quad\lim_{\|\mzz\|\to 0}\,  \frac{r_1(\zz)}{\norm{\zz}^2}=\zero. \]

Podstawiając do tej równości

\[ M\ni \zz= \Phi(\xx) = \Phi(\zero)+ D\Phi(\zero)\xx + r_2(\xx)=D\Phi(\zero)\xx + r_2(\xx), \]

gdzie reszta $ r_2(\xx)/\|\xx\|\to \zero $ dla $ \xx\to \zero $, dzięki dwuliniowości $ D^2L(\zero) $ otrzymujemy

\[ \begin{equation} 	\label{d2l} 	L(\zz)= D^2 L(\zero)\big( D\Phi(\zero)\xx,D\Phi(\zero)\xx\big) + R(\xx),  \qquad \zz=\Phi(\xx)\in M\cap B(\zero,r), \end{equation} \]

gdzie

\[ \begin{equation} \label{trypreszta} R(\xx)=r_1(\Phi(\xx))+2D^2L(\zero)(D\Phi(\zero)\xx,r_2(\xx))+	D^2L(\zero)(r_2(\xx),r_2(\xx))\, . \end{equation} \]

Z założenia, forma $ D^2L(\zero) $ jest dodatnia na wektorach z przestrzeni stycznej. Istnieje więc stała $ \alpha>0 $ taka, że

\[ D^2 L(\zero)( \ww,\ww)\ge \alpha\|\ww\|^2\, . \]

Biorąc wektor $ \ww=D\Phi(\zero)\xx\in T_{\mpp}M $ (tu stosujemy Twierdzenie [link]!) otrzymujemy

\[ \begin{equation}   \label{d2l-dol}  D^2 L(\zero)( D\Phi(\zero)\xx,D\Phi(\zero)\xx)\ge \alpha \|D\Phi(\zero)\xx\|^2\ge \alpha \|\xx\|^2.	 \end{equation} \]

Nietrudno stwierdzić - nie będziemy podawać formalnego dowodu w języku $ \eps $-$ \delta $ - że reszta $ R(\xx) $, dana wzorem trypreszta, jest równa $ o(\|\xx\|^2) $ dla $ \xx\to\zero $, tzn. $ |R(\xx)|<\alpha\|\xx\|^2/2 $ dla $ \|\xx\| $ dostatecznie małych, $ \|\xx\|<\delta $. Ostatecznie więc ze wzorów d2l- d2l-dol otrzymujemy

\[ L(\zz)=L(\Phi(\xx))\ge \alpha \|\xx\|^2 + R(\xx)\ge \frac {\alpha\|\xx\|^2}2 \qquad\mbox{dla wszystkich $\zz=\Phi(\xx)\in M\cap B(\zero,\delta)$.}   \]

Ponieważ $ L(\zero)=0 $, więc $ L(\zz)>L(\zero) $ dla $ \zz\in M\cap B(\zero,\delta) $, $ \zz\not=\zero $. Jednak na rozmaitości $ M $ jest $ F_1=\ldots =F_m=0 $ i dlatego

\[ g(\zz)=L(\zz)+\sum_{i=1}^m \lambda_i F_i(\zz) = L(\zz)> L(\zero)=L(\zero)+\sum_{i=1}^m \lambda_i F_i(\zero) =g(\zero) \]

dla wszystkich punktów $ \zz\in M\cap B(\zero,\delta) $, $ \zz\not=\zero $. Dowód punktu (i) jest zakończony. Dowód punktu (ii) jest bardzo podobny. Szczegóły pozostawiamy Czytelnikowi jako zadanie. □

Przejdźmy do przykładów.

Przykład [długi, ale pouczający] Niech $ n=2 $, $ m=1 $. Znajdziemy wszystkie ekstrema lokalne związane funkcji $ g(x,y,z)=x^2+y^2+z^2 $ na powierzchni $ M $, opisanej równaniem

\[ 	F(x,y,z):=\frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4-1=0. 	\]

Jak zobaczymy, na $ M $ jest 26 punktów, w których dla pewnej liczby $ \lambda $ zachodzi warunek Lagrange'a $ \grad g=\lambda\, \grad F $. Stosując ostatnie twierdzenie, sprawdzimy, że w ośmiu znich $ g $ ma maksimum warunkowe na $ M $, a w sześciu - minimum warunkowe na $ M $. W dwunastu pozostałych `podejrzanych' punktach $ g $ nie ma ani minumum warunkowego, ani maksimum warunkowego.

Warunek mnozLagr i równanie $ F\equiv 0 $, opisujące $ M $, prowadzą do układu czterech równań:

\[ \begin{gather} 2x= 4 \lambda \frac{x^3}{3^4}\, , \qquad 	     2y= 4 \lambda \frac{y^3}{2^4}\, , \qquad  2z= 4 \lambda z^3 , \qquad   \label{Cartan1} \\ \frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4=1\, .  \label{Cartan2} \end{gather} \]

Mnożąc równania Cartan1 odpowiednio przez $ x $, $ y $, $ z $, a następnie dodając wyniki stronami, otrzymujemy

\[ \begin{equation} 	g(x,y,z)=x^2+y^2+z^2=2\lambda \left(\frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4\right) 	\stackrel{\eqref{Cartan2}}= 2\lambda >0, \label{g-lambda} \end{equation} \]

dla każdego punktu $ (x,y,z)\in M $, który spełnia warunek z tezy Twierdzenia [link]. Liczba $ \lambda\not=0 $, gdyż współrzędne punktu $ (x,y,z)\in M $ nie mogą jednocześnie znikać.

Wypiszmy jeszcze funkcję Lagrange'a, która pomoże nam określić charakter punktów krytycznych funkcji $ g\big|_M $. Mamy

\[ L(x,y,z)=g(x,y,z)-\lambda F(x,y,z)= x^2+y^2+z^2-\lambda\left(\frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4-1\right)\, . \]

Dlatego

\[ \begin{equation} 	\label{D2-Cartan} 	D^2L(x,y,z)=\begin{pmatrix}   	2-{12\lambda}\dfrac{x^2}{3^4} & 0 & 0 \\ 	0 & 2-{12\lambda}\dfrac{y^2}{2^4} & 0 \\ 	0 & 0 & 2-{12\lambda}z^2 \\  \end{pmatrix}\, . \end{equation} \]

Układ równań Cartan1- Cartan2 rozwiążemy, rozpatrując oddzielnie trzy przypadki.

    Przypadek 1: $ xyz\not= 0 $. Dzieląc równania Cartan1 odpowiednio przez $ 4\lambda x $, $ 4\lambda y $ i $ 4\lambda z $, otrzymujemy wtedy

\[ \begin{equation} 	\label{kwadratyxyz}  	x^2=\frac{3^4}{2\lambda}, \qquad y^2=\frac{2^4}{2\lambda}, \qquad z^2=\frac {1}{2\lambda}\, .  \end{equation} \]

Dlatego

\[ 2\lambda \stackrel{\eqref{g-lambda}}= x^2+y^2+z^2=\frac{3^4+2^4+1}{2\lambda}= \frac{98}{2\lambda}, \]

stąd zaś $  2\lambda=\sqrt{98}=7\sqrt{2}  $. Ostatecznie więc rozwiązaniami układu Cartan1- Cartan2 są w tym przypadku

\[ \begin{equation} 	\label{Cartan-przyp1}    	2\lambda=g(x,y,z)=7\sqrt{2} 	\, , \qquad x=\pm \frac{9}{\sqrt{7\sqrt 2}} 	\, , \qquad y=\pm \frac{4}{\sqrt{7\sqrt 2}} 	\, , \qquad z=\pm \frac{1}{\sqrt{7\sqrt 2}} \end{equation} \]

Ponieważ znaki $ \pm $ można dla każdej z trzech niewiadomych $ x,y,z $ wybrać oddzielnie, więc takich rozwiązań jest 8. Macierz drugiej różniczki funkcji Lagrange'a w każdym z tych punktów określamy, wstawiając kwadratyxyz do D2-Cartan; prowadzi to do wyniku

\[ D^2L(x,y,z)= -4\cdot \mathrm{Id} \qquad\mbox{dla $(x,y,z)\in M$ spełniających \eqref{Cartan-przyp1}.} \]

Forma $ D^2L(x,y,z) $ jest więc w każdym z tych ośmiu punktów ujemna (nie tylko na przestrzeni stycznej $ T_{(x,y,z)}M $, ale po prostu na całej przestrzeni $ \R^3 $). Wobec Twierdzenia [link] funkcja $ g\big|_M $ ma w każdym z tych punktów właściwe maksimum lokalne związane.

    Przypadek 2: jedna współrzędna punktu $ (x,y,z) $ jest równa zero, a dwie są różne od zera. Rozwiązań tego typu jest 12. Dla ustalenia uwagi przyjmijmy $ x=0 $, $ yz\not=0 $. (Są jeszcze analogiczne podprzypadki $ y=0 $ i $ xz\not=0 $ oraz $ z=0 $ i $ xy=0 $ - ich szczegółowe rozpatrzenie pozostawimy Czytelnikowi). Tym razem dzielimy drugie i trzecie z równań Cartan1 przez $ 4\lambda y $ i $ 4\lambda z $ odpowiednio; otrzymujemy

\[ \begin{equation} 	\label{kwadraty-yz}  	x=0, \qquad y^2=\frac{2^4}{2\lambda}, \qquad z^2=\frac {1}{2\lambda}\, .  \end{equation} \]

Dlatego

\[ 2\lambda \stackrel{\eqref{g-lambda}}= x^2+y^2+z^2=\frac{2^4+1}{2\lambda}= \frac{17}{2\lambda}, \]

stąd zaś $ 2\lambda=\sqrt{17} $. Rozwiązaniami układu Cartan1- Cartan2 są zatem

\[ \begin{equation} 	\label{Cartan-przyp2a}    	2\lambda=g(x,y,z)=\sqrt{17} 	\, , \qquad x=0 	\, , \qquad y=\pm \frac{4}{\sqrt{17}} 	\, , \qquad z=\pm \frac{1}{\sqrt{17}} \end{equation} \]

Takich rozwiązań jest 4. Podobnie otrzymujemy rozwiązania

\[ \begin{gather}  	\label{Cartan-przyp2b}    	2\lambda=g(x,y,z)=\sqrt{82} 	\, , \qquad x=\pm \frac{9}{\sqrt{82}} 	\, , \qquad y= 0 	\, , \qquad z=\pm \frac{1}{\sqrt{82}} \\ 	\label{Cartan-przyp2c}    	2\lambda=g(x,y,z)=\sqrt{97} 	\, , \qquad x=\pm \frac{9}{\sqrt{97}}   	\, , \qquad y=\pm \frac{4}{\sqrt{97}} 	\, , \qquad z=0 \end{gather} \]

Dla każdego z rozwiązań Cartan-przyp2a macierz

\[ D^2L(x,y,z)=   \begin{pmatrix}   2 & 0 & 0 \\ 0 & -4 & 0 \\ 0 & 0 & -4 \\  \end{pmatrix} \]

ma wartości własne $ 2 $ i $ -4 $, nie jest więc ani dodatnia, ani ujemna na $ \R^3 $. Aby posłużyć się Twierdzeniem [link], należy jednak sprawdzić, jak zachowuje się macierz $ D^2L(x,y,z) $ na przestrzeni stycznej $ T_{(x,y,z)}M $. Wobec Twierdzenia [link],

\[ T_{(x,y,z)}M=\ker DF(x,y,z)=\Big\{(u,w,v)\in \R^3\colon \frac{4x^3}{3^4}\cdot {u} + \frac{4y^3}{2^4}\cdot {w} + 4z^3\cdot {v}= 0 \Big\}\, , \]

a ponieważ w przypadku Cartan-przyp2a jest $ x=0 $, $ yz\not =0 $, więc

\[ \begin{gather*} T_{(x,y,z)}M= \{(u,w,v)\in \R^3\colon {u} \text{ jest dowolne, }  \frac{4y^3}{2^4}\cdot {w} + {4z^3}\cdot {v}= 0 \}\, ,\\ D^2L(x,y,z)\Big((u,w,v),(u,w,v)\Big)= 2u^2-4(w^2+v^2)\, . \end{gather*} \]

Ponieważ współrzędną $ u $ wektora $ (u,w,v) $ stycznego do $ M $ możemy manipulować dowolnie, więc druga różniczka funkcji Lagrange'a przybiera na przestrzeni stycznej do $ M $ zarówno wartości dodatnie, jak ujemne. Wobec Twierdzenia [link](ii), funkcja $ g $ nie ma w takich punktach ekstremum lokalnego związanego.

    Przypadek 2: dwie współrzędne punktu $ (x,y,z) $ są równe zero, a jedna jest różna od zera. Dla ustalenia uwagi przyjmijmy $ x=y=0 $, $ z\not=0 $. Wtedy z równań Cartan1- g-lambda otrzymujemy po łatwym rachunku

\[ \begin{equation} 	\label{Cartan-przyp3a} 	x=y=0, \qquad z=\pm 1, \qquad 2\lambda=z^2=1\, .    \end{equation} \]

Pozostałe rozwiązania tego typu to

\[ \begin{gather} 	x=z=0, \qquad y=\pm 2, \qquad 2\lambda = 4;\label{Cartan-przyp3b}\\ 	y=z=0, \qquad x=\pm 3, \qquad 2\lambda = 9.\label{Cartan-przyp3c} \end{gather} \]

W takich punktach (jest ich razem 6) funkcja $ g\big|_M $ ma właściwe minima lokalne związane. Rozpatrzmy np. zachowanie $ g $ w otoczeniu punktów Cartan-przyp3a. Mamy w nich $ DF(x,y,z)=(0,0,\pm 4) $ i

\[ T_{(x,y,z)}M=\ker DF (x,y,z) = \{(u,w,v)\in \R^3\colon v=0\}. \]

Tym razem

\[ D^2L(x,y,z)=   \begin{pmatrix}   2 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & -4 \\  \end{pmatrix}, \]

więc $  D^2L(x,y,z)\big((u,w,v),(u,w,v)\big)= 2(u^2+w^2)  $ dla $ (u,w,v)\in T_{(x,y,z)}M $, tzn. $ D^2L(\pp) $ jest dodatnia na $ T_{\mpp}M $. Podobnie jest w punktach Cartan-przyp3b- Cartan-przyp3c. Są to więc minima $ g\big|_M $.

Porównując wartości $ g(x,y,z)=2\lambda $ w znalezionych punktach, stwierdzimy łatwo, że $ \inf_M g =1 $ i $ \sup_M g=\sqrt{98} $.

Z lewej: powierzchnia $ M $ przypomina prostopadłościan o wyokrąglonych krawędziach i rogach. Czarnym kolorem zaznaczono poziomice funkcji $ g\big|_M $. Widać wyraźnie trzy minima lokalne związane $ g\big|_M $ i dwa jej maksima lokalne związane. W punktach skrzyżowań poziomic $ g\big|_M $ nie ma ekstremum związanego.

Z prawej: każda ze sfer, na których $ g\colon \R^3\to\R $ ma stałą wartość, przecina $ M $ wzdłuż poziomicy $ g\big|_M=\mathrm{const} $. Na rysunku wskazano poziomicę, odpowiadającą punktom Cartan-przyp2a, w których funkcja $ g\big|_M $ ma siodła.

Elementy teorii miary

Zajmiemy się teraz całkowaniem funkcji wielu zmiennych. Czytelnik wie już, że do ważnych zastosowań całki należy obliczanie pól i objętości. Okazuje się, że pytania jakie funkcje wolno (próbować) całkować? dla jakich podzbiorów przestrzeni można w ogóle określić ich objętość? są subtelne, a odpowiedzi na te pytania wymagają głębokiego wniknięcia w pogranicze teorii mnogości i topologii.

Zacznijmy od przykładu, który dobitnie wyjaśnia, że funkcji, która miałaby naturalne pożądane cechy miary\/, nie można określić na wszystkich podzbiorach prostej.

Przykład [G. Vitali](#) Nie istnieje funkcja $ \mu\colon 2^{\R}\to \rplus $, która spełniałaby następujące warunki:

  1. $ \mu([a,b])=b-a $ dla każdego przedziału $ [a,b]\subset{\R} $;
  2. $ \mu (\emptyset)=0 $;
  3. przeliczalna addytywność: Jeśli zbiory $ A_i\subset \R $, $ i=1,2,\ldots $, są parami rozłączne, to $ \mu (\bigcup_{i=1}^\infty A_i)=\sum_{i=1}^\infty\mu (A_i) $;
  4. niezmienniczość ze względu na przesunięcia: dla każdego zbioru $ V\subset \R $ i każdej liczby $ t\in \R $ jest $ \mu (t+V)=\mu(V) $.

Przypuśćmy, że taka funkcja $ \mu $ jednak istnieje. Określmy relację w zbiorze $ \R $: przyjmijmy, że $ x\sim y $ wtedy i tylko wtedy, gdy $ x-y\in \Q $. Łatwo zauważyć, że jest to relacja równoważności: $ x\sim x $ dla każdego $ x\in \R $, gdyż $ x-x=0 $, a $ 0\in \Q $; jeśli $ x\sim y $, to także $ y\sim x $, gdyż $ y-x=-(x-y) $ jest liczbą wymierną, gdy $ x-y\in \Q $; wreszcie, $ x\sim y $ i $ y\sim z $ pociąga za sobą $ x\sim z $, gdyż $ x-z=(x-y)+(y-z) $, a suma dwóch liczb wymiernych jest wymierna.

Każda klasa abstrakcji $ [x] $ ma reprezentanta $ y\in [0,1] $; to wynika stąd, że $ x\sim x+k $ dla każdego $ x\in\R $ i każdego $ k\in \Z $. Korzystając z aksjomatu wyboru, utwórzmy zbiór $ V\subset [0,1] $, który zawiera dokładnie jednego reprezentanta każdej klasy abstrakcji. Rozpatrzmy zbiór

\[ W=\bigcup_{t\in Q\cap [-1,1]} (t+V)\, , \]

tzn. sumę mnogościową przesunięć $ t+V $ zbioru $ V $ o wektory wymierne $ t $ z przedziału $ [-1,1] $. Ponieważ $ V\subset [0,1] $, więc $ W\subset [-1,2] $. Ponadto, dla różnych $ t_1,t_2 $ zbiory $ t_1+V $ i $ t_2+V $ są rozłączne: gdyby $ t_1+v_1=t_2+v_2 $ dla pewnych $ t_1\not=t_2\in \Q $ i $ v_1,v_2\in V $, to mielibyśmy $ v_1-v_2=t_2-t_1\in \Q $ i $ v_2\not=v_1 $, tzn. $ v_1\sim v_2 $ byłyby różnymi elementami tej samej klasy abstrakcji, wbrew definicji $ V $.

Jeśli $ \mu $ spełnia warunki (i)-(iv), to $ \mu (A)\le \mu(B) $ dla $ A\subset B\subset \R $. Dlatego \begin{align*} 3=\mu([-1,2])\ge \mu (W) &=\mu\biggl(\, \bigcup_{t\in Q\cap [-1,1]} (t+V)\biggr) \\ &\stackrel{\text{(iii)}}=\sum_{t\in Q\cap [-1,1]} \mu (t+V) \stackrel{\text{(iv)}}= \mu(V)+\mu(V)+\mu(V)+\cdots \end{align*} Gdyby $ \mu(V)>0 $, to prawa strona byłaby nieskończona. Otrzymujemy więc $ \mu (V)=0 $, stąd zaś $ \mu (W)=0+0+\cdots=0 $.

Z drugiej strony, zbiór $ W $ zawiera cały przedział $ [0,1] $. Istotnie, niech $ x\in [0,1] $ będzie dowolną liczbą. Wybierzmy $ v\in V $ tak, aby $ x\sim v $; jest to możliwe, gdyż zbiór $ V $ zawiera reprezentanta każdej klasy abstrakcji. Wtedy $ t=x-v\in \Q\cap [-1,1] $ i $ x=t+v\in t+V\subset W $.

Zatem

\[ 1=\mu([0,1])\le \mu(W)=0\, . \]

Ta sprzeczność dowodzi, że nie istnieje funkcja $ \mu $, spełniająca warunki (i)-(iv). □

W przestrzeni $ \R^3 $ nawet rezygnacja z przeliczalnej addytywności na rzecz skończonej addytywności nie pomaga: jak udowodnili Banach i Tarski, kulę jednostkową w $ \R^3 $ można podzielić na pięć (parami rozłącznych) zbiorów $ A_i $, $ 1\le i\le 5 $, a następnie wskazać pięć izometrii $ g_i $, $ 1\le i\le 5 $, przestrzeni $ \R^3 $ takich, że

\[ B(0,1)=g_1(A_1)\cup g_2(A_2)\cup g_3(A_3)= g_4(A_4)\cup g_5(A_5), \]

gdzie każda z dwóch sum jest sumą zbiorów parami rozłącznych. Gdyby więc istniała skończenie addytywna funkcja nieujemna $ \mu $, określona na wszystkich podzbiorach $ \R^3 $ i niezmiennicza ze względu na izometrie, to mielibyśmy

\[ \mu(B(0,1))=\sum_{i=1}^5 \mu (A_i)=\sum_{i=1}^5 \mu(g_i(A_i)) = 2\mu(B(0,1)). \]

(Konstrukcja takiego paradoksalnego rozkładu kuli wykorzystuje, prócz aksjomatu wyboru, fakt, że składanie obrotów w $ \R^3 $ nie jest przemienne, a grupa obrotów zawiera podgrupę wolną o dwóch generatorach.)

Podobne przykłady wskazują, że jakieś ograniczenie klasy zbiorów, dla których będziemy określać miarę, jest rzeczą konieczną.

Podstawowe pojęcia. Twierdzenie Caratheodory'ego

Niech $ X $ będzie dowolnym zbiorem. Będziemy używać oznaczenia $ [0,+\infty]=\rplus=\R_{+}\cup \{0,+\infty\} $.

{[0,+\infty]}

Definicja [ciało i $ \sigma $-ciało zbiorów] Powiemy, że rodzina zbiorów $ \F\subset 2^X $ jest ciałem wtedy i tylko wtedy, gdy

    \parskip 1pt {(\roman{enumi})}

  1. $ \emptyset\in \F $;
  2. Jeśli $ A\in \F $, to także $ X\setminus A\in \F $;
  3. Jeśli $ A,B\in \F $, to $ A\cup B\in \F $.

Gdy spełniony jest także warunek

    \parskip 1pt \setcounter{enumi}{3} {(\roman{enumi})}

  1. Dla wszystkich $ A_1,A_2,A_3,\ldots \in \F $ zbiór $ \bigcup_{i=1}^\infty A_i\in \F $,

to mówimy, że $ \F $ jest $ \sigma $-ciałem (lub: ciałem przeliczalnie addytywnym).

Uwaga (#) Korzystając ze wzorów De Morgana, łatwo jest wykazać, że jeśli $ \F\subset 2^X $ jest ciałem zbiorów i $ A,B\in \F $, to $ A\cap B\in F $ oraz $ A\setminus B\in F $. Istotnie,

\[ X\setminus(A\cap B)= (X\setminus A)\cup (X\setminus B) \in \F,  \]

a więc także $ A\cap B=X\setminus\big(X\setminus(A\cap B)\big)\in \F $. Dalej, $ A\setminus B=A\cap (X\setminus B)\in \F $. Podobnie dowodzi się, że każde $ \sigma $-ciało jest zamknięte ze względu na branie przeliczalnych przecięć.□

Nietrudno podać kilka prostych przykładów ciał i $ \sigma $-ciał. Rodzina $ 2^X $ wszystkich podzbiorów zbioru $ X $ jest zarówno ciałem, jak i $ \sigma $-ciałem. Rodzina

\[ \F=\{A\subset \N\colon A \text{ lub }  \N\setminus A \text{ jest zbiorem skończonym}\} \]

jest ciałem, ale nie jest $ \sigma $-ciałem: suma przeliczalnie wielu zbiorów skończonych może być zbiorem nieskończonym, którego uzupełnienie też jest nieskończone. Rodzina

\[ \F=\{A\subset \R\colon A \text{ lub } \R\setminus A \text{ jest zbiorem (co najwyżej) przeliczalnym}\} \]

jest $ \sigma $-ciałem (To łatwo wynika z twierdzenia, orzekającego, że suma przeliczalnie wielu zbiorów przeliczalnych jest zbiorem przeliczalnym.).

Przykład Niech $ (\F_i)_{i\in I} $ będzie dowolną rodziną $ \sigma $-ciał (odpowiednio: ciał) podzbiorów zbioru $ X $. Wtedy

\[ 	\F=\bigcap_{i\in I} \F_i\subset 2^X 	\]

też jest $ \sigma $-ciałem (odpowiednio: ciałem). To wynika wprost z definicji: każde z $ \F_i $ jest zamknięte ze względu na odpowiednie działania na zbiorach, więc część wspólna $ \F_i $ też jest zamknięta ze względu na te same działania.

Uwaga Z powyższego przykładu wynika, że dla każdej niepustej rodziny zbiorów $ \G \subset 2^X $ istnieje najmniejsze (ze względu na inkluzję) $ \sigma $-ciało $ \F\subset 2^X $ takie, że $ \G\subset \F $: jest to przecięcie rodziny wszystkich $ \sigma $-ciał, zawierających $ \G $ (jest to rodzina niepusta, gdyż należy do niej $ \sigma $-ciało $ 2^X $).
Definicja [zbiory borelowskie] Niech $ X $ będzie przestrzenią topologiczną. Najmniejsze $ \sigma $-ciało, zawierające wszystkie zbiory otwarte w przestrzeni $ X $, nazywamy $ \sigma $-ciałem zbiorów borelowskich w $ X $ i oznaczamy $ \B(X) $.

Z $ \sigma $-ciałem $ \B(\R^n) $ zbiorów borelowskich w $ \R^n $ zetkniemy się wielokrotnie.

Definicja [miara zewnętrzna] Funkcję $ \mu^\ast\colon 2^X\to\rplus $ nazywamy miarą zewnętrzną na $ X $, jeśli $ \mu^\ast(\emptyset)=0 $, $ \mu (A)\le \mu(B) $ dla wszystkich $ A\subset B\subset X $ i wreszcie

\[ \begin{equation} 	\mu^\ast\biggl(\bigcup_{i=1}^\infty A_i\biggr)\le\sum_{i=1}^\infty \mu^\ast(A_i)\qquad\mbox{dla wszystkich }\quad A_1,A_2,\ldots \in 2^X. \label{podadd}  \end{equation} \]

Własność podadd nazywa się przeliczalną podaddytywnością miary zewnętrzne.

Definicja [miara] Niech $ \F\subset 2^X $ będzie $ \sigma $-ciałem. Funkcję $ \mu\colon \F   \to\rplus $ nazywamy miarą na $ \F $, jeśli $ \mu(\emptyset)=0 $ oraz

\[ \begin{equation} 	\mu\biggl(\bigcup_{i=1}^\infty A_i\biggr)=\sum_{i=1}^\infty \mu(A_i)\qquad\mbox{dla wszystkich parami rozłącznych } A_1,A_2,\ldots \in \F. \label{add}  \end{equation} \]

Własność add nazywa się przeliczalną addytywnością miary.

Podamy teraz kilka prostych własności miary, wynikających łatwo z definicji, następnie zaś sformułujemy ważne twierdzenie, wskazujące, jak dla danej miary zewnętrznej $ \mu^\ast $ na $ X $ wyróżnić pewne $ \sigma $-ciało $ \F\subset 2^X $, na którym funkcja $ \mu^\ast $ - jak za dotknięciem czarodziejskiej różdżki - staje się miarą, tzn. spełnia nie tylko podadd, ale i mocniejszy, naturalny warunek add.

Stwierdzenie (#) Niech $ \F\subset 2^X $ będzie $ \sigma $-ciałem, a $ \mu $ - miarą na $ \F $. Wówczas:

  1. $ \mu(A)\le \mu(B)=\mu(A)+\mu(B\setminus A) $ dla wszystkich $ A\subset B\in \F $;
  2. jeśli $ A_1\subset A_2\subset A_3\subset \ldots $, $ A_i\in \F $, to
    \[ 	\mu\biggl(\bigcup_{i=1}^\infty A_i\biggr)=\lim_{i\to\infty}\mu (A_i)\, ; 	\]
  3. jeśli $ A_1\supset A_2\supset A_3\supset \ldots $, $ A_i\in \F $ i $ \mu(A_{1})<\infty  $, to
    \[ 	\mu\biggl(\bigcap_{i=1}^\infty A_i\biggr)=\lim_{i\to\infty}\mu (A_i)\, . 	\]
Dowód: Własność (i), tzw. monotoniczność miary, uzyskujemy, kładąc w add $ A_1=A $, $ A_2=B\setminus A\in \F $ i $ A_j=\emptyset $ dla $ j\ge 3 $. Wtedy $ \bigcup A_j=A\cup (B\setminus A)=B $ i zbiory $ A_j $ są parami rozłączne. Dlatego, wobec add,

\[ \mu(B)=\mu(A)+\mu(B\setminus A)+\mu (\emptyset)+\mu(\emptyset)+\cdots =\mu(A)+\mu(B\setminus A)\ge \mu (A). \]

Aby wykazać (ii), przyjmiemy $ P_1=A_1 $ i $ P_j=A_j\setminus A_{j-1} $ dla $ j=2,3,\ldots $. Wtedy $ \bigcup A_j=\bigcup P_j $, zaś wobec założenia $ A_1\subset A_2\subset A_3\subset\ldots $ zbiory $ P_j $ są parami rozłączne. Dlatego, wobec równości $ \mu(P_j)=\mu(A_j)-\mu(A_{j-1}) $, %która zachodzi dla $ j\ge 2 $ na mocy pierwszej części stwierdzenia,

\[ \begin{align*} \mu\biggl(\bigcup_{j=1}^\infty A_j\biggr)=\mu\biggl(\bigcup_{j=1}^\infty P_j\biggr)\ &=\sum_{j=1}^\infty \mu(P_j) \\ &= \mu(A_1) +\big(\mu(A_2)-\mu(A_1)) + \big(\mu(A_3)-\mu(A_2)\big) +\cdots\\[6pt] &=\lim_{j\to\infty}\mu (A_j)\, , \end{align*} \]

gdyż $ \mu (A_j) $ jest $ j $-tą sumą częściową szeregu $ \sum\mu(P_j) $.

Dla dowodu (iii) zauważmy, że na mocy wzorów De Morgana

\[ A_1\setminus \bigcap_{j=1}^\infty A_j = \bigcup_{j=1}^\infty B_j, \qquad\mbox{gdzie}\quad B_j=A_1\setminus A_j \]

Zbiory $ B_j $ tworzą ciąg wstępujący, tzn. $ B_1\subset B_2\subset B_3\subset\ldots $ Na mocy udowodnionych już punktów (i) oraz (ii),

\[ \mu (A_1)-  \mu\biggl(\bigcap_{j=1}^\infty A_j\biggr)  \stackrel{\text{(i)}}= \mu\biggl(A_1\setminus\bigcap_{j=1}^\infty A_j\biggr) =\mu \biggl(\bigcup_{j=1}^\infty B_j\biggr) \stackrel{\text{(ii)}}=\lim_{j\to\infty} \mu(B_j)\stackrel{\text{(i)}}=\mu(A_1)-\lim_{j\to\infty}\mu(A_j)\, . \]
Uwaga Założenie $ \mu(A_1)<\infty $ w Stwierdzeniu [link](iii) jest istotne. Jeśli np. na $ \F=2^{\N} $ weźmiemy miarę liczącą, która każdemu zbiorowi $ A\subset \N $ przypisuje liczbę jego elementów $ \# A $, to dla (nieskończonych) zbiorów $ A_j=\{j,j+1,j+2,\cdots\} $ jest $ \mu(A_j)=+\infty $, a zatem

\[ +\infty=\lim_{j\to\infty}\mu (A_j)> 0=\mu(\emptyset)=\mu\biggl(\bigcap_{j=1}^\infty A_j\biggr)\, . \]
Definicja [warunek Carath\'{eodory'ego}] Niech $ \mu^\ast $ będzie miarą zewnętrzną na $ X $. Powiemy, że zbiór $ A\subset X $ spełnia warunek Carath\'{eodory'ego} wtedy i tylko wtedy, gdy

\[ \begin{equation} 		\label{cara} 		\mu^\ast(Z)=\mu^\ast(Z\cap A)+\mu^\ast(Z\setminus A)\qquad\mbox{dla każdego zbioru $Z\subset X$.} \end{equation} \]
Twierdzenie [C. Carath\'{eodory}] Niech $ \mu^\ast $ będzie miarą zewnętrzną na $ X $. Rodzina $ \F\subset 2^X $ wszystkich zbiorów $ A\subset X $, spełniających warunek Carath\'{e}odory'ego, jest $ \sigma $-ciałem. Funkcja

\[    \mu= \mu^\ast\big|_{\F} \colon \F\to \rplus 	\]

jest miarą, tzn. spełnia warunek przeliczalnej addytywności add. (#)

Twierdzenie Carath\'{e}odory'ego jest bardzo ważne, gdyż ułatwia konstrukcję różnych miar. Wystarczy skonstruować miarę zewnętrzną $ \mu^\ast $ (co jest łatwiejsze, gdyż warunki wdefinicji są słabsze!) na $ X $, a następnie zawęzić dziedzinę funkcji $ \mu^\ast $ do rodziny tych zbiorów $ A $, które spełniają cara. W taki właśnie sposób skonstruujemy w następnym podrozdziale miarę Lebesgue'a\/ na $ \R^n $, tzn. naturalny i ogólny odpowiednik długości przedziału w $ \R $, pola wielokąta w $ \R^2 $ czy objętości wielościanu w $ \R^3 $, określony jednak dla bardzo szerokiej klasy podzbiorów przestrzeni.

Co ciekawe, twierdzenie Carath\'{e}odory'ego nie wydaje się łatwe, gdyż warunek cara nie jest szczególnie naturalny. Jednak, jak zobaczymy, dowód wprawdzie jest długi, ale nie jest zbyt trudny: w gruncie rzeczy polega na planowym i żmudnym, choć dość prostym sprawdzaniu kolejnych warunków.

Dowód: Krok 1: Zbiór pusty należy do $ \F $, gdyż dla każdego $ Z $ jest $ \mu^\ast (Z)=0+\mu^\ast(Z\setminus \emptyset)= \mu^\ast(Z\cap\emptyset) +\mu^\ast(Z\setminus \emptyset) $.

    Krok 2: rodzina $ \F $ jest zamknięta ze względu na branie dopełnień. To wynika z faktu, że warunek Carath\'{e}odory'ego można zapisać w symetrycznej postaci

\[  \mu^\ast(Z)=\mu^\ast(Z\cap A)+\mu^\ast(Z\setminus A)= \mu^\ast\big(Z\setminus (X\setminus A)\big)+\mu^\ast\big(Z\cap(X\setminus A)\big)\, . \]

    Krok 3: jeśli $ A,B\in \F $, to $ A\cup B\in \F $. Aby to wykazać, piszemy $ A\cup B=A\cup (B\setminus A) $ oraz

\[ \begin{gather} Z \cap (A\cup B)  = \big(Z\cap A\big) \cup \big((Z\setminus A)\cap B \big), \label{krok3-c1}\\   Z\setminus(A\cup B)  = (Z\setminus A)\setminus B,\label{krok3-c2} \end{gather} \]

następnie zaś szacujemy, korzystając z podaddytywności $ \mu^\ast $,

\[ \begin{align*} \mu^\ast(Z\cap(A\cup B)) & + \mu^\ast(Z\setminus (A\cup B)) \\  &\stackrel{\eqref{krok3-c1}}\le \mu^\ast\big(Z\cap A\big) +\mu^\ast \big((Z\setminus A)\cap B\big)  + \mu^\ast(Z\setminus (A\cup B))    \\ &\stackrel{\eqref{krok3-c2}}= \mu^\ast\big(Z\cap A\big) +\mu^\ast \big((Z\setminus A)\cap B\big)  + \mu^\ast((Z\setminus A)\setminus B) \\ & \stackrel{\eqref{cara}}= \mu^\ast\big(Z\cap A\big) + \mu^\ast(Z\setminus A) \stackrel{\eqref{cara}}= \mu^\ast(Z) \end{align*} \]

Nierówność przeciwna, $ \mu^\ast(Z)\le \mu^\ast(Z\cap(A\cup B))  + \mu^\ast(Z\setminus (A\cup B)) $, zachodzi na mocy podaddytywności funkcji $ \mu^\ast $. Zatem zbiór $ A\cup B $ spełnia warunek Carath\'{e}odory'ego.

    Krok 4. Wiemy już, że $ \F $ jest ciałem zbiorów. Dlatego (patrz Uwaga [link]) iloczyn oraz różnica dwóch zbiorów spełniających warunek Carath\'{e}odory'ego też spełnia warunek Carath\'{e}odory'ego.

    Krok 5: addytywność $ \mu^\ast $ na $ \F $. Niech $ A,B\in \F $ będą zbiorami rozłącznymi. Zamieniając w warunku Carath\'{e}dory'ego cara zbiór $ Z $ na $ Z\cap(A\cup B) $, otrzymujemy \begin{align} \mu^\ast(Z\cap(A\cup B))& = \mu^\ast(Z\cap (A\cup B)\cap A) + \mu^\ast((Z\cap (A\cup B))\setminus A)\notag \\ &= \mu^\ast(Z\cap A)+\mu^\ast(Z\cap B), (#) \end{align} gdyż dla $ A,B $ rozłącznych jest

\[ Z\cap (A\cup B)\cap A=Z\cap A, \qquad  (Z\cap (A\cup B))\setminus A = Z\cap B. \]

Dla $ Z=X $ otrzymujemy

\[ \mu^\ast(A\cup B) = \mu^\ast(A)+\mu^\ast(B). \]

Przez łatwą indukcję względem $ m $ dowodzimy, że suma skończonej liczby zbiorów z $ \F $ też należy do $ \F $. Ponadto, dla dowolnego $ Z\subset X $ zachodzi odpowiednik równości preprzelicz1, mianowicie

\[ \begin{equation} 	\label{krok5-c} 	\mu^\ast\biggl(Z \cap \bigcup_{j=1}^m A_j\biggr)= \sum_{j=1}^m\mu^\ast(Z\cap A_j)\qquad\mbox{dla $A_1,\ldots, A_m\in \F$ parami rozłącznych.}  \end{equation} \]

    Krok 6: rodzina $ \F $ jest $ \sigma $-ciałem. Wystarczy w tym celu sprawdzić, że

\[ \begin{equation} 	\label{krok6-cara} \bigcup_{j=1}^\infty A_j \in \F \qquad\mbox{dla $A_j\in \F$, $j=1,2,\ldots,$ parami rozłącznych,} \end{equation} \]

gdyż suma dowolnych zbiorów $ A_j\in \F $, $ j=1,2,\ldots $, jest równa sumie zbiorów

\[ P_1=A_1, \quad P_2=A_2\setminus A_1, \quad\ldots, \quad P_m=A_m\setminus(A_1\cup \ldots \cup A_{m-1}), \quad \ldots, \]

które już są parami rozłączne (i też należą do $ \F $, gdyż $ \F $ jest ciałem).

Niech więc odtąd $ A_j\in \F $, gdzie $ j\in \N $, będą parami rozłączne. Ustalmy $ m\in \N $. Niech $ Z\in 2^X $ będzie dowolnym zbiorem. Korzystając z krok5-c i monotoniczności $ \mu^\ast $, piszemy

\[ \begin{eqnarray*} \mu^\ast(Z) & = & \mu^\ast\biggl(Z \cap \bigcup_{j=1}^m A_j\biggr) + \mu^\ast\biggl(Z\setminus \bigcup_{j=1}^m A_j\biggr)\\  & \stackrel{\eqref{krok5-c}}= & \sum_{j=1}^m\mu^\ast(Z\cap A_j) + \mu^\ast\biggl(Z\setminus \bigcup_{j=1}^m A_j\biggr)  \ge  \sum_{j=1}^m\mu^\ast(Z\cap A_j) + \mu^\ast\biggl(Z\setminus \bigcup_{j=1}^\infty A_j\biggr)\, . \end{eqnarray*} \]

Zatem, wszystkie sumy częściowe szeregu $ \sum_{j=1}^\infty \mu^\ast(Z\cap A_j) $ o wyrazach dodatnich są ograniczone. Szereg ten jest więc zbieżny, a jego suma spełnia nierówność

\[ \mu^\ast(Z) \ge \sum_{j=1}^\infty\mu^\ast(Z\cap A_j) + \mu^\ast\biggl(Z\setminus \bigcup_{j=1}^\infty A_j\biggr)\, . \]

Wobec przeliczalnej podaddytywności miary zewnętrznej $ \mu^\ast $, otrzymujemy stąd %

TeX Embedding failed!

%\end{align*} \] Nierówność $ L\le P $ jest oczywista; dlatego $ \bigcup_{j=1}^\infty A_j $ spełnia warunek Carath\'{e}odory'ego.

    Krok 7: przeliczalna addytywność $ \mu^\ast $ na $ \F $. Załóżmy, że zbiory $ A_j\in \F $, gdzie $ j=1,2,\ldots, $ są parami rozłączne. Wobec krok5-c dla $ Z=X $ oraz monotoniczności $ \mu^\ast $,

\[ \mu^\ast\biggl( \bigcup_{j=1}^\infty A_j\biggr)\ge\mu^\ast\biggl(\bigcup_{j=1}^m A_j\biggr) \stackrel{\eqref{krok5-c}}= \sum_{j=1}^m\mu^\ast( A_j) \qquad\mbox{dla $m=1,2,\ldots$} \]

Przechodząc do granicy $ m\to \infty $ po prawej stronie tej nierówności, otrzymujemy

\[ \mu^\ast\biggl(\bigcup_{j=1}^\infty A_j\biggr)\ge \sum_{j=1}^\infty\mu^\ast(A_j). \]

Dzięki przeliczalnej podaddytywności miary zewnętrznej $ \mu^\ast $, ostatnia nierówność jest w istocie równością. Dowód całego Twierdzenia [link] jest zakończony. □

Stwierdzenie Jeśli $ \mu^\ast $ jest miarą zewnętrzną na $ X $ i $ \mu^\ast(A)=0 $ dla pewnego $ A\subset X $, to $ A $ spełnia warunek Carath\'{e}odory'ego.(#)
Dowód: Dla każdego $ Z\subset X $ mamy, przy tych założeniach, $ 0=\mu^\ast(A)\ge\mu^\ast(Z\cap A) =0  $ idlatego

\[ \mu^\ast(Z)\le \mu^\ast(Z\cap A) + \mu^\ast(Z\setminus A) =  \mu^\ast(Z\setminus A) \le \mu^\ast(Z). \]

To spostrzeżenie kończy dowód. □

Samo twierdzenie Carath\'{e}odory'ego nie orzeka wprawdzie, jak duża jest rodzina zbiorów $ \F $ spełniających warunek cara. Jednak przy pewnych łagodnych założeniach dodatkowych, nałożonych na $ \mu^\ast $, $ \sigma $-ciało $ \F $ jest dostatecznie obszerne.

Definicja Niech $ \mu^\ast $ będzie miarą zewnętrzną na $ X $. Każdy zbiór $ A\subset X $ spełniający warunek Carath\'{e}odory'ego, nazywamy zbiorem $ \mu^\ast $-mierzalnym, a $ \sigma $-ciało $ \F $, o którym mowa w Twierdzeniu [link], oznaczamy $ \F(\mu^\ast) $.
Definicja Niech $ (X,\varrho) $ będzie przestrzenią metryczną. Powiemy, że miara zewnętrzna $ \mu^\ast\colon 2^X\to \rplus $ jest miarą zewnętrzną metryczną, jeśli

\[  \mu^\ast(A\cup B)=\mu^\ast(A)+\mu^\ast(B) \]

dla wszystkich $ A,B\subset X $, których odstęp $ \dist (A,B)>0 $, gdzie

\[ \dist (A,B)=\inf_{x\in A}\big(\dist (x,B)\big), \qquad \dist(x,B)=\inf_{y\in B} \varrho(x,y). \]
Twierdzenie Niech $ (X,\varrho) $ będzie przestrzenią metryczną, zaś $ \mu^\ast $ - miarą zewnętrzną metryczną na $ X $. Wówczas $ \sigma $-ciało zbiorów borelowskich $ \B(X) $ jest zawarte w $ \sigma $-ciele $ \F(\mu^\ast) $.
Dowód: Z uwagi na definicję $ \B(X) $, wystarczy wykazać, że każdy zbiór otwarty $ \Omega\subset X $ należy do $ \F(\mu^\ast) $.

Ustalmy zbiór otwarty $ \Omega\subset X $ i niech

\[ \Omega_m=\Big\{x\in \Omega\colon \varrho(x,X\setminus \Omega)>\frac 1m\Big\}\qquad\mbox{dla $m=1,2,\ldots $}.  \]

Wtedy $ \dist (\Omega_m,X\setminus\Omega)\ge \frac 1m> 0 $. Dalej, niech

\[ P_m =  \Big\{x\in \Omega\colon \frac{1}{m}<\varrho(x,X\setminus \Omega)\le \frac 1{m-1}\Big\} \qquad\mbox{dla $m=2,3,\ldots $}.    \]

Zauważmy, że

\[ \begin{equation} 	\label{OOm}     \Omega\setminus\Omega_m= P_{m+1} \cup P_{m+2} \cup P_{m+3} \cup\ldots\qquad\mbox{dla $m=1,2,\ldots$,}    \end{equation} \]

a ponadto

\[ \begin{equation} 	\dist(P_i,P_j)\ge \frac{1}{j}-\frac{1}{i-1} \qquad\mbox{dla $i>j+1$, $j\ge 2$} 	\label{distpipj} \end{equation} \]

(to nietrudny wniosek z nierówności trójkąta). Aby sprawdzić, że zbiór $ \Omega $ spełnia warunek Carath\'{e}odory'ego, weźmy dowolny zbiór $ Z\subset X $. Wystarczy wykazać, że

\[ \begin{equation} 	\label{wystarczy-metr} 	\mu^\ast(Z)\ge \mu^\ast(Z\cap\Omega) +\mu^\ast(Z\setminus\Omega). \end{equation} \]

Jak widać, bez zmiany ogólności możemy przyjąć, że $ \mu^\ast(Z)<\infty $. Ponieważ $ \mu^\ast $ jest miarą zewnętrzną metryczną, więc na mocy distpipj otrzymujemy

\[ \sum_{j=1}^m \mu^\ast(Z\cap P_{2j-1})=\mu^\ast(Z\cap (P_1\cup P_3\cup\ldots\cup P_{2m-1}))\le \mu^\ast(Z) \]

oraz

\[ \sum_{j=1}^m \mu^\ast(Z\cap P_{2j})=\mu^\ast(Z\cap (P_2\cup P_4\cup\ldots\cup P_{2m}))\le \mu^\ast(Z)\, . \]

Zatem

\[ \sum_{j=1}^{2m} \mu^\ast(Z\cap P_{j})\le 2\mu^\ast(Z)<\infty\qquad \mbox{dla każdego $m=1,2,\ldots$,}    \]

tzn. szereg $ \sum \mu^\ast(Z\cap P_{j}) $ jest zbieżny. Dlatego dzięki OOm otrzymujemy

\[ \begin{equation} 	\label{resztkam}       	\mu^\ast(Z\cap (\Omega\setminus \Omega_m))\le \sum_{j=m+1}^\infty \mu^\ast (Z\cap P_j)\to 0 \qquad\mbox{dla $m\to\infty$.}   \end{equation} \]

Ponieważ $ \dist (\Omega_m,X\setminus\Omega)\ge \frac 1m> 0 $, więc

\[ \mu^\ast(Z\cap \Omega_m)+\mu^\ast\big(\underbrace{Z\cap (X\setminus \Omega)}_{=Z\setminus\Omega}\big) = \mu^\ast((Z\cap \Omega_m)\cup (Z\setminus\Omega))\le \mu^\ast(Z)\, . \]

Przeto

\[ \begin{align*} \mu^\ast(Z\cap \Omega) +\mu^\ast(Z\setminus \Omega)\ & \le  \mu^\ast(Z\cap \Omega_m)+\mu^\ast(Z\cap (\Omega\setminus\Omega_m)) +\mu^\ast(Z\setminus \Omega) \\ & \le \mu^\ast(Z)+  \mu^\ast(Z\cap (\Omega\setminus\Omega_m))                                                             \end{align*} \]

i w granicy $ m\to\infty $, dzięki warunkowi resztkam, $ \mu^\ast(Z\cap \Omega) +\mu^\ast(Z\setminus \Omega)\le \mu^\ast(Z) $. □

Konstrukcja i własności miary Lebesgue'a w $\mathbb{R}^n$

W tym podrozdziale przyjmiemy $ X=\R^n $. W przestrzeni $ \R^n $ rozpatrujemy metrykę euklidesową. Definiujemy także dwa porządki częsciowe w $ \R^n $: piszemy $ \xx\prec\yy $ wtedy i tylko wtedy, gdy $ x_i<y_i $ dla wszystkich $ i=1,\ldots,n $, zaś $ \xx\preccurlyeq\yy $ wtedy i tylko wtedy, gdy $ x_i\le y_i $ dla $ i=1,\ldots, n $.

Definicja [przedziały $ n $-wymiarowe] Załóżmy, że $ \xx,\yy\in \R^n $ i $ \xx\prec\yy $. Zbiory

\[ 	(\xx,\yy)_n=\{\zz\in \R^n \colon \xx\prec\zz\prec \yy\}\qquad \mbox{oraz} \qquad     [\xx,\yy]_n=\{\zz\in \R^n \colon \xx\preccurlyeq\zz\preccurlyeq \yy\} 	\]

nazywamy, odpowiednio, $ n $-wymiarowym przedziałem otwartym i $ n $-wymiarowym przedziałem domkniętym o końcach $ \xx $ i $ \yy $. Odcinki $ [x_i,y_i]\subset \R $ nazywamy krawędziami takich przedziałów.

Czytelnik zechce zauważyć, że przedziały $ 2 $-wymiarowe to prostokąty, a przedziały $ 3 $-wymiarowe to prostopadłościany. Przedział domknięty jest po prostu iloczynem kartezjańskim swoich krawędzi,

\[ [\xx,\yy]_n = [x_1,y_1]\times[x_2,y_2]\times\ldots\times [x_n,y_n].  \]
Uwaga Jeśli $ y_1-x_1=y_2-x_2=\ldots=y_n-x_n $, to przedział $ P=[\xx,\yy]_n $ nazywamy kostką (domkniętą).
Definicja [objętość przedziału $ n $-wymiarowego] Jeśli $ P $ jest przedziałem o końcach $ \xx,\yy\in \R^n $, $ \xx\prec\yy $, to liczbę

\[ \vol (P)=\prod_{i=1}^n(y_i-x_i) \]

nazywamy objętością przedziału $ P $.

Zdefiniujemy teraz miarę zewnętrzną Lebesgue'a w $ \R^n $.

Definicja Dla każdego $ A\subset \R^n $ kładziemy

\[ 	 \lebz_n(A)=\inf\biggl\{\sum_{j=1}^\infty \vol (P_j) \colon \   \{P_j\}_{j\in \N} \text{ jest rodziną przedziałów pokrywającą  } A \biggr\}. 	\]
Uwaga W powyższej definicji można rozpatrywać tylko przedziały domknięte, albo tylko przedziały otwarte, albo przedziały obu rodzajów. Nie wpływa to na wartość $ \lebz_n(A) $. Wnikliwy Czytelnik zechce się zastanowić, dlaczego tak jest.
Stwierdzenie Funkcja $ \lebz_n\,  $ jest miarą zewnętrzną na $ \R^n $.
Dowód: Po pierwsze, $ \lebz_n(\emptyset)=0 $, gdyż zbiór pusty można, dla każdego $ \eps>0 $, przykryć jednym przedziałem o objętości $ \eps^n $. Po drugie, dla $ A\subset B $ jest $ \lebz_n(A)\le \lebz_n(B) $; to wynika wprost z definicji kresu dolnego, gdyż każda przeliczalna rodzina, która pokrywa zbiór $ B $, pokrywa także $ A $.

Pozostaje sprawdzić przeliczalną podaddytywność $ \lebz_n\,  $. Niech $ A_j\subset \R^n $ dla $ j=1,2,\ldots $. Bez zmniejszenia ogólności niech $ \lebz_n(A_j)<\infty $ dla wszystkich $ j\in \N $. Ustalmy $ \eps>0 $. Dla każdego $ j\in \N $ dobierzmy taką rodzinę przedziałów $ \{P_{j,k}\}_{k\in \N} $ pokrywającą zbiór $ A_j $, żeby

\[ \sum_{k=1}^\infty \vol (P_{j,k})\le \lebz_n(A_j)+\frac{\eps}{2^j}, \qquad j=1,2,\ldots \]

Sumując te nierówności (kolejność sumowania nie gra roli, gdyż mamy do czynienia ze zbieżnymi szeregami o wyrazach dodatnich), otrzymujemy

\[ \sum_{j,k=1}^\infty   \vol (P_{j,k})\le \sum_{j=1}^\infty \lebz_n(A_j)+\sum_{j=1}^\infty\frac{\eps}{2^j} =\sum_{j=1}^\infty \lebz_n(A_j)+\eps\, . \]

Rodzina $ \{P_{j,k}\}_{j,k\in \N} $ jest przeliczalna i pokrywa zbiór $ A=\bigcup_{j=1}^\infty A_j $. Dlatego, z definicji,

\[ \lebz_n\biggl(\bigcup_{j=1}^\infty A_j\biggr)\le \sum_{j,k=1}^\infty   \vol (P_{j,k})\le \sum_{j=1}^\infty \lebz_n(A_j)+\eps\, .  \]

Przechodząc do granicy $ \eps\to 0 $, kończymy dowód. □

Twierdzenie Funkcja $ \lebz_n\,  $ jest miarą zewnętrzną metryczną na $ \R^n $.
Dowód: Niech $ A,B\subset \R^n $ i $ \dist(A,B)>2d>0 $. Aby wykazać, że $ \lebz_n(A\cup B)=\lebz_n(A)+\lebz_n(B) $, wystarczy sprawdzić nierówność

\[ \begin{equation} \lebz_n(A\cup B)\ge \lebz_n(A)+\lebz_n(B)\, ,  \label{lebznmetr}    \end{equation} \]

gdyż wiemy już, że $ \lebz_n\,  $ jest podaddytywna. Ustalmy $ \eps>0 $ oraz przeliczalną rodzinę $ \P $ przedziałów domkniętych pokrywającą zbiór $ A\cup B $ i taką, że

\[ \sum_{P\in \P} \vol(P)\le \lebz_n(A\cup B) + \eps. \]

Każdy przedział $ P\in \P $ możemy rozdrobnić, tzn. podzielić na $ m=k^n $ przystających przedziałów domkniętych $ P_1,\ldots, P_m $, dzieląc każdą krawędź $ P $ na $ k $ równych części. Czytelnik zechce samodzielnie sprawdzić, że wtedy

\[ \vol(P)=\sum_{i=1}^m\vol(P_i)=m\cdot \vol (P_1) = k^n\cdot \vol(P_1). \]

Dobierając do danego $ P $ odpowiednio dużą liczbę $ k=k(P) $, uzyskamy wszystkie przedziały $ P_i $ o średnicy mniejszej niż $ d $. Można więc bez zmniejszenia ogólności założyć, że $ \P $ składa się tylko z przedziałów o średnicy mniejszej niż $ d $. Każdy z tych przedziałów może przecinać co najwyżej jeden ze zbiorów $ A $ i $ B $, gdyż $ \dist(A,B)>2d $. Usuńmy z $ \P $ te przedziały, które nie mają punktów wspólnych z $ A\cup B $ i otrzymaną rodzinę podzielmy na dwie, $ \P_A $ i $ \P_B $, złożone odpowiednio z przedziałów, mających punkty wspólne z $ A $ i przedziałów, mających punkty wspólne z $ B $. Jest jasne, że $ \P_A $ pokrywa $ A $, zaś $ \P_B $ pokrywa $ B $. Dlatego

\[ \lebz_n(A)\le \sum_{P\in \P_A} \vol (P), \qquad \lebz_n(B)\le  \sum_{P\in \P_B} \vol (P). \]

Dodając te nierówności, otrzymujemy

\[ \lebz_n (A)+\lebz_n(B)\le\sum_{P\in \P_A} \vol (P)+\sum_{P\in \P_B} \vol (P) \le \sum_{P\in \P} \vol (P)  \le \lebz_n(A\cup B)+\eps.               \]

Przechodząc do granicy $ \eps\to 0 $, dostajemy warunek lebznmetr, co kończy dowód.□

Definicja Miara zewnętrzna $ \lebz_n\,  $ ograniczona do $ \sigma $-ciała $ \F(\lebz_n)=:\Leb(\R^n) $ podzbiorów $ \lebz_n\,  $-mierzalnych przestrzeni $ \R^n $ nazywa się miarą Lebesgue'a w $ \R^n $.

Elementy $ \sigma $-ciała $ \Leb(\R^n) $ nazywamy zbiorami mierzalnymi w sensie Lebesgue'a w $ \R^n $, lub krótko: zbiorami $ \lambda_n $-mierzalnymi. Dla $ A\in \Leb(\R^n) $ piszemy $ \lebz_n(A)=\lambda_n(A) $.

Aby opisać zbiory mierzalne w sensie Lebesgue'a nieco dokładniej, wprowadzimy dwie klasy podzbiorów $ \R^n $.

Definicja Zbiór $ G\subset \R^n $ nazywa się zbiorem klasy $ G_\delta $ wtedy i tylko wtedy, gdy istnieją zbiory otwarte $ \Omega_i\subset \R^n $, $ i=1,2,\ldots $, takie, że

\[ 	G=\bigcap_{i=1}^\infty \Omega_i. 	\]

Zbiór $ F $ jest klasy $ F_\sigma $ wtedy i tylko wtedy, gdy jego uzupełnienie $ \R^n\setminus F $ jest zbiorem klasy $ G_\delta $.

Inaczej mówiąc, zbiory klasy $ G_\delta $ to przeliczalne przecięcia zbiorów otwartych, a zbiory klasy $ F_\sigma $ to przeliczalne sumy zbiorów domkniętych. Każdy zbiór otwarty jest oczywiście klasy $ G_\delta $, a każdy zbiór domknięty jest klasy $ F_\sigma $. Zbiór liczb wymiernych jest klasy $ F_\sigma $, bo jest sumą przeliczalnie wielu zbiorów jednopunktowych, ale nie jest klasy $ G_\delta $ (to wynika z twierdzenia Baire'a, które Czytelnik poznał na wykładach z topologii). Każdy przedział w $ \R $ jest jednocześnie zbiorem klasy $ G_\delta $ i $ F_\sigma $.

Wprost z definicji wynika, że zarówno zbiory klasy $ G_\delta $, jak i zbiory klasy $ F_\sigma $, są zbiorami borelowskimi.

Twierdzenie [charakteryzacja zbiorów mierzalnych w sensie Lebesgue'a] Niech $ A\subset \R^n $. Następujące warunki są wówczas równoważne:

  1. $ A\in \Leb(\R^n) $;
  2. Dla każdego $ \eps>0 $ istnieje zbiór otwarty $ \Omega\subset \R^n $ taki, że $ A\subset \Omega $ i $ \lebz_n(\Omega\setminus A)<\eps $;
  3. Istnieje zbiór $ G\subset \R^n $ typu $ G_\delta $ taki, że $ A\subset G $ i $ \lambda_n^\ast(G\setminus A)=0 $;
  4. Dla każdego $ \eps>0 $ istnieje zbiór domknięty $ F\subset \R^n $ taki, że $ F\subset A $ i $ \lebz_n(A\setminus F)<\eps $;
  5. Istnieje zbiór $ F\subset \R^n $ typu $ F_\sigma $ taki, że $ F\subset A $ i $ \lambda_n^\ast(A\setminus F)=0 $.

(#)

Dowód: (i) $ \Rightarrow $ (ii). Przedstawmy zbiór $ A $ jako sumę zbiorów mierzalnych i ograniczonych,

\[ A=\bigcup_{j=1}^\infty A_j, \qquad A_1= A\cap B(\zero,1), \quad A_j=A\cap \big(B(\zero,j)\setminus B(\zero,j-1)\big) \mbox{ dla $j\ge 2.$} \]

Mierzalność $ A_j $ wynika z mierzalności kul otwartych (które należą do $ \B(\R^n)\subset \Leb(\R^n) $) i z faktu, że $ \Leb(\R^n) $ jest ciałem.

Ustalmy $ \eps>0 $. Dla każdego $ j\in \N $ wybierzmy rodzinę $ \P_j $ przedziałów otwartych\/ $ \{P_{j,k}\}_{k\in \N} $, pokrywającą $ A_j $ zbiór $ A_j $ i taką, że

\[ \begin{equation} 	\sum_{k=1}^\infty \vol(P_{j,k})\le \lebz_n (A_j)+\frac{\eps}{2^j}.  \end{equation} \]

Niech $ \Omega_j $ będzie sumą wszystkich przedziałów rodziny $ \P_j $. Oczywiście, $ \Omega_j $ jest zbiorem otwartym. Ponadto,

\[ \lambda_n(A_j)\le \lambda_n(\Omega_j) \le \sum_{k=1}^\infty \lambda_n(P_{j,k})\le \sum_{k=1}^\infty \vol (P_{j,k}) \le \lambda_n(A_j)+ \frac{\eps}{2^j} < \infty, \]

gdyż zbiór $ A_j $ zawiera się w pewnym przedziale, a miara Lebesgue'a każdego przedziału wprost z definicji jest mniejsza lub równa od jego objętości. Ponieważ $ \Omega_j $ ma miarę skończoną i $ A_j\subset \Omega_j $, więc

\[ \lambda_n(\Omega_j\setminus A_j) =\lambda_n(\Omega_j)-\lambda_j(A_j) < \frac{\eps}{2^j}. \]

Niech $ \Omega=\bigcup_{j=1}^\infty\Omega_j $; wboec otwartości wszystkich $ \Omega_j $ zbiór $ \Omega $ jest otwarty, a dzięki monotoniczności i przeliczalnej addytywności miary

\[ \lambda_n(\Omega\setminus A)  \le \sum_{j=1}^\infty \lambda_n(\Omega_j\setminus A_j)\le      \sum_{j=1}^\infty \frac{\eps}{2^j} =\eps. \]

    (ii) $ \Rightarrow $ (iii). Dla $ m=1,2,\ldots $ wybierzmy zbiór otwarty $ \Omega_m\supset A $ tak, aby $ \lebz_n(\Omega_m\setminus A)<1/m $. Zbiór $ G=\bigcap_{m=1}^\infty \Omega_m $ jest typu $ G_\delta $, $ A\subset G $ i mamy

\[ \lebz_n(G\setminus A) \le \lebz_n(\Omega_m\setminus A)\le \frac 1m\to 0 \qquad\mbox{dla $m\to\infty$.} \]

Zatem $ \lebz_n(G\setminus A)=0 $ i otrzymaliśmy warunek (iii).

    (iii) $ \Rightarrow $ (i). Każdy zbiór $ G $ typu $ G_\delta $ jest borelowski (jako przecięcie przeliczalnie wielu zbiorów otwartych), więc jest mierzalny w sensie Lebesgue'a. Mamy też $ \lambda_n^\ast(G\setminus A)=0 $, zbiór $ G\setminus A $ jest więc mierzalny na mocy Stwierdzenia [link]. Ponieważ $ A\subset G $, więc

\[ A=G\setminus (G\setminus A)\in \Leb(\R^n), \]

jako różnica dwóch zbiorów mierzalnych w sensie Lebesgue'a.

Aby zakończyć cały dowód, zauważmy, że (iv) zachodzi dla $ \R^n\setminus A $ wtedy i tylko wtedy, gdy (ii) zachodzi dla $ A $. Stąd i z praw De Morgana wynika równoważność (ii) oraz (iv). Podobnie uzyskuje się równoważność (iii) oraz (v). □

Wniosek Każdy zbiór $ A\in \Leb(\R^n) $ jest sumą pewnego zbioru borelowskiego i pewnego zbioru $ Z $ takiego, że $ \lambda_n(Z)=0 $
Dowód: Teza wynika z równoważności (i) $ \Leftrightarrow $ (v) w ostatnim twierdzeniu, gdyż każdy zbiór $ F $ typu $ F_\sigma $ należy do $ \sigma $-ciała zbiorów borelowskich $ \B(\R^n) $. □
Uwaga Wynika stąd, że $ \sigma $-ciało $ \Leb(\R^n) $ jest istotnie większe niż $ \B(\R^n) $: każdy podzbiór zbioru miary zero jest zbiorem mierzalnym, a ponieważ istnieją zbiory miary zero i mocy continuum (np. zbiór Cantora, z którym Czytelnik zetknął się podczas wykładów Analizy I), więc rodzina $ \Leb(\R^n) $ jest równoliczna z rodziną $ 2^{\R^n} $ wszystkich podzbiorów $ \R^n $, natomiast $ \B(\R^n) $ jest ``zaledwie'' mocy continuum. □

Znamy w tej chwili formalną definicję miary Lebesgue'a $ \lambda_n $ i $ \sigma $-ciała $ \Leb(\R^n) $, na którym jest określona. Nie potrafimy jednak obliczać miary zbyt wielu zbiorów (wyjąwszy, być może, zbiory miary zero). Zacznijmy od prostego stwierdzenia, potwierdzającego, że - zgodnie z naturalną intuicją - miara Lebesgue'a przedziału $ n $-wymiarowego jest równa jego objętości.

Stwierdzenie Dla każdego przedziału $ P $ jest $ \vol (P)=\lambda_n(P) $.
Dowód: Z konstrukcji wynika, że $ \lambda_n(P)\le \vol (P) $: przedział sam jest swoim (co najwyżej przeliczalnym) pokryciem, a miarę zewnętrzną definiujemy jako kres dolny sum objętości dla wszystkich pokryć. Wykażemy, że dla każdego $ \eps>0 $ zachodzi nierówność $ \vol (P)\le \lambda_n(P)+\eps $; to wystarczy, żeby zakończyć dowód.

Ustalmy $ \eps>0 $. Bez zmniejszenia ogólności załóżmy, że $ P $ jest przedziałem domkniętym. Dobierzmy rodzinę $ \eR $ przedziałów otwartych\/ $ R_i $, $ i=1,2,\ldots $ pokrywającą $ P $ i taką, że

\[ \sum_{R_i\in \eR} \vol (R_i)\le \lambda_n(P)+\eps. \]

Ponieważ $ P $ jest zbiorem zwartym, więc z rodziny $ \P $ można wybrać podrodzinę skończoną $ R_1,\ldots, R_N $, stanowiącą pokrycie $ P $. Mamy zatem

\[ \sum_{i=1}^N \vol (R_i)\le \sum_{R_i\in \eR} \vol (R_i)\le\lambda_n(P)+\eps. \]

Niech $ d>0 $ będzie liczbą Lebesgue'a pokrycia $ R_1,\ldots, R_N $ zbioru $ P $. Podzielmy przedział $ P $ na $ m=k^n $ przystających przedziałów $ P_j $, dzieląc każdą krawędź na $ k $ równych odcinków. Dla dostatecznie dużego $ k $ każdy z przedziałów $ P_j $ ma średnicę mniejszą niż $ d/2 $, więc jest zawarty w którymś z przedziałów $ R_1,\ldots, R_N $. Dlatego

\[ \vol (P)=\sum_{i=j}^m \vol (P_j) \le \sum_{i=1}^N \biggl(\sum_{\{j\colon P_j\subset R_i\}} \vol (P_j)\biggr)\le   \sum_{i=1}^N \vol (R_i)\le \lambda_n(P)+\eps.  \]

Przechodząc do granicy $ \eps\to 0 $, uzyskujemy nierówność $ \vol (P)\le \lambda_n(P) $. □

Stwierdzenie Dla każdego zbioru $ A\in \Leb(\R^n) $ i każdego $ \xx\in \R^n $ zbiór $ \xx+A $ jest mierzalny w sensie Lebesgue'a i $ \lambda_n(\xx+A)=\lambda_n(A) $.
Dowód: Mierzalność $ \xx+A $ uzyskujemy, korzystając z Twierdzenia [link]. Równość miar obu zbiorów łatwo wynika stąd, że objętość przedziału jest niezmiennicza ze względu na przesunięcia. Przesuwając każdy element pokrycia zbioru $ A $ o wektor $ \xx $, uzyskamy pokrycie zbioru $ \xx+A $; stąd wynika, że $ \lambda_n(\xx+A)\le \lambda_n(A) $, a ponieważ $ A= -\xx+ (\xx+A) $, to zachodzi także nierówność przeciwna. □

Wykażemy teraz, że niezmienniczość ze względu na przesunięcia charakteryzuje miarę Lebesgue'a z dokładnością do stałego czynnika. Ta charakteryzacja pozwoli nam później wyjaśnić, jak zmienia się miara Lebesgue'a, gdy zbiory mierzalne poddajemy przekształceniom liniowym (skądinąd, ta własność miary jest kluczem do wielowymiarowego twierdzenia o zamianie zmiennych w całce).

Twierdzenie (#) Załóżmy, że $ \mu $ jest miarą na $ \sigma $-ciele $ \Leb(\R^n) $ zbiorów mierzalnych w sensie Lebesgue'a. Jeśli $ \mu(A)=\mu(\xx+A) $ dla wszystkich $ A\in \Leb(\R^n) $, $ \xx\in \R^n $ i ponadto $ \mu(P) $ jest skończona i dodatnia dla każdego przedziału $ P $, to wówczas

\[ \begin{equation} 	\label{charmiara-1} 	\mu(A)=c\cdot \lambda_n(A),  \qquad A\in \Leb(\R^n), \end{equation} \]

gdzie $ c=\mu([0,1]^n) $.

W dowodzie tego twierdzenia posłużymy się dwoma lematami, które zasługują na oddzielne odnotowanie.

Lemat Jeśli $ H\subset \R^n $ jest podprzestrzenią afiniczną wymiaru $ k<n $, a $ \mu $ miarą niezmienniczą ze względu na przesunięcia, skończoną na przedziałach i określoną na pewnym $ \sigma $-ciele, zawierającym $ \B(\R^n) $, to $ \mu (H)=0 $. (#)
Lemat (#) Niech $ \Omega\subset \R^n $ będzie zbiorem otwartym. Oznaczmy przez $ \P_m $, gdzie $ m=0,1,2,\ldots $, rodzinę wszystkich kostek w $ \R^n $ o krawędziach długości $ 1/2^m $ i wszystkich wierzchołkach w punktach $ k/2^m $, gdzie $ k\in \Z $. Istnieje wtedy przeliczalna rodzina $ \{Q_i\}_{i\in I} $ kostek z $ \P_0\cup \P_1\cup \P_2\cup\ldots  $, o wnętrzach parami rozłącznych, taka, że

\[ 	\Omega = \bigcup_{i\in I} Q_i\, . 	\]

     Uwaga. Rodzinę $ \P_0\cup \P_1\cup \P_2\cup\ldots  $ nazywa się czasem kostkami diadycznymi. Kostki z $ \P_{m+1} $ (inaczej: tzw. kostki $ (m+1) $-szej generacji) powstają z kostek rodziny $ \P_m $, tj. kostek $ m $-tej generacji, przez podział wszystkich krawędzi na dwie równe części (jedna kostka z$ \P_m $ jest wtedy dzielona na $ 2^n $ kostek z $ \P_{m+1} $, mających parami rozłączne wnętrza).

    Dowód Lematu [link] Dla $ m=1,2,\ldots $ połóżmy $ H_m=H\cap B(\zero,m) $. Zbiór $ H_m $ jest $ \mu $-mierzalny (należy do dziedziny $ \mu $), gdyż $ H $ i kula $ B(\zero,m) $ są zbiorami borelowskimi.

Ponieważ $ \dim H<n $, więc istnieje wektor $ \vv\in \S^{n-1} $ prostopadły do $ H $. Niech

\[ H_{m,j} = H_m + \frac 1j \vv, \qquad m\in \N, \qquad j=1,2,\ldots \]

Przy ustalonym $ m $ zbiory $ H_{m,j} $ są parami rozłączne. Są też zawarte w kuli $ B(\zero,m+1) $; to wynika z nierówności trójkąta (do wektorów z $ H_m $ dodajemy wektor $ \vv / j $, którego norma nie przekracza 1). Miara $ \mu $ jest skończona na przedziałach i niezmiennicza ze względu na przesunięcia; dlatego

\[ \infty > \mu(B(\zero,m+1)) \ge \mu\Big(\bigcup_{j=1}^\infty H_{m,j}\Big) = \mu(H_{m,1})+  \mu(H_{m,2})+ \mu(H_{m,3})+ \cdots, \]

stąd zaś $  \mu(H_{m,1})= \mu(H_{m,2}) = \mu(H_{m,3})= \ldots=\mu(H_m) $ dla każdego $ m\in \N $. Wobec Stwierdzenia [link](ii), $ \mu(H)=\lim \mu(H_m)=0 $. □

    Dowód Lematu [link] Wybieramy kolejne kostki diadyczne zawarte w $ \Omega $ indukcyjnie, zaczynając od największych (o krawędzi 1), a potem przechodząc do kolejnych generacji i dokładając nowe, coraz drobniejsze kostki, które mieszczą się w $ \Omega $. Niech $ K_0 $ będzie sumą wszystkich kostek rodziny $ \P_0 $ zawartych w $ \Omega $. Jeśli $ m=0,1,2\ldots $ i zbiory $ K_0, \ldots, K_m\subset \Omega $ zostały już zdefiniowane, to przyjmujemy jako $ K_{m+1} $ sumę tych kostek z rodziny $ \P_{m+1} $, które są zawarte w $ \Omega $ i mają wnętrza rozłączne z $ K_0\cup\ldots \cup K_m $.

Zbiór $ K_0\cup K_1\cup K_2\cup\ldots  $ jest sumą przeliczalnie wielu kostek diadycznych o wnętrzach parami rozłącznych. Wprost z definicji $ K_m $ wynika, że $ K_m\subset \Omega $ dla $ m=0,1,2,\ldots $, więc oczywiście $ K_0\cup K_1\cup K_2\cup\ldots \subset \Omega $. Inkluzja przeciwna wynika z otwartości $ \Omega $; uzupełnienie nietrudnych szczegółów pozostawiamy Czytelnikowi jako zadanie.□

    Dowód Twierdzenia [link] Niech

\[ \xi(A)=\frac{\mu(A)}{\mu([0,1]^n)}, \qquad A\in \Leb(\R^n). \]

Wystarczy wykazać, że $ \xi=\lambda_n $ na $ \Leb(\R^n) $. Dowód przeprowadzimy, wzbogacając stopniowo klasę zbiorów, na której obie miary są równe.

    Krok 1. Miary $ \xi $ i $ \lambda_n $ pokrywają się na kostkach diadycznych. To łatwo wynika z niezmienniczności obu miar ze względu na przesunięcia i z Lematu [link]. (Można stosować ten lemat do miary $ \xi $, która jest niezmiennicza ze względu na przesunięcia.) Istotnie, ponieważ dla $ k=0,1,2,\ldots $ kostka $ [0,1]^n $ jest sumą $ 2^{kn} $ przystających kostek (o wnętrzach parami rozłącznych), które są obrazami $ [0,1/2^k]^n $ w odpowiednich przesunięciach, więc

\[ 1=\xi([0,1]^n)= 2^n\xi\big([0,\tfrac 12]^n\big)=2^{2n}\xi\big([0,\tfrac 14]^n\big)=\ldots=2^{kn}\xi\big([0,\tfrac 1{2^k}]^n\big)=\ldots,\qquad k=0,1,2,\ldots \]

Zatem $ \xi(Q)=2^{-kn}=\lambda_n(Q) $ dla wszystkich $ Q\in \P_k $, $ k=0,1,2,\ldots $.

    Krok 2. Miary $ \xi $ i $ \lambda_n $ pokrywają się na zbiorach otwartych. To wynika z poprzedniego kroku dowodu i z Lematu [link]. Jeśli $ \Omega=\bigcup_{i=1}^\infty Q_i $, to

\[ \xi (\Omega)=\sum_{i=1}^\infty \xi(Q_i) = \sum_{i=1}^\infty \lambda_n(Q_i) =\lambda_n(\Omega); \]

pierwsza i trzecia równość zachodzą, gdyż miary $ \xi $ i $ \lambda_n $ znikają na podprzestrzeniach afinicznych wymiaru mniejszego niż $ n $.

    Krok 3. Miary $ \xi $ i $ \lambda_n $ pokrywają się na zbiorach ograniczonych typu $ G_\delta $. Jeśli zbiór $ G $ jest ograniczony i typu $ G_\delta $, to $ G=\bigcap_{j=1}^\infty\Omega_j $, gdzie $ \Omega_j $ są zbiorami otwartymi, ograniczonymi. Dlatego, wobec Stwierdzenia [link](iii),

\[ \xi(G)=\lim_{j\to\infty} \xi (\Omega_j)=\lim_{j\to\infty} \lambda_n (\Omega_j)=  \lambda_n(G). \]

    Krok 4. Miary $ \xi $ i $ \lambda_n $ pokrywają się na zbiorach ograniczonych miary Lebesgue'a zero. Istotnie, jeśli $ \lambda_n(Z)=0 $, to na mocy Twierdzenia [link] istnieje $ G $ ograniczony i typu $ G_\delta $ taki, że $ Z\subset G $ i $ \lambda_n(G)=0 $. Wtedy jednak $ \xi (G)=0 $, więc $ 0\le \xi(Z)\le \xi(G)=0 $.

    Krok 5. Miary $ \xi $ i $ \lambda_n $ pokrywają się na zbiorach ograniczonych, mierzalnych w sensie Lebesgue'a. To wynika natychmiast z Twierdzenia [link]: wynika zeń łatwo, że każdy zbiór mierzalny i ograniczony jest sumą pewnego zbioru ograniczonego typu $ G_\delta $ i rozłącznego z nim zbioru miary zero.

Ponieważ każdy zbiór $ A\in \Leb(\R^n) $ jest sumą wstępującego ciągu zbiorów mierzalnych i ograniczonych (można np. wziąć $ A_j=A\cap B(0,j) $), więc na mocy Stwierdzenia [link](ii) miary $ \xi $ i $ \lambda_n $ są równe na całym $ \sigma $-ciele $ \Leb(\R^n) $.□

Omówimy teraz pewną charakteryzację wyznacznika macierzy, która pozwoli nam podać wzór na miarę Lebesgue'a liniowego obrazu zbioru mierzalnego.

Lemat Załóżmy, że funkcja $ c\colon GL(n,\R)\to \R_+ $ ma dwie własności: $ c(s\cdot \mathrm{Id})=|s|^n $ dla każdej liczby $ s\in \R $, $ s\not=0 $ i $ c(AB)=c(A)c(B) $ dla wszystkich macierzy $ A,B\in GL(n,\R) $. Wówczas

\[ 	c(A)=|\det A| \qquad\mbox{dla wszystkich $A\in GL(n,\R)$.}     \]

(#)

Dowód: Oznaczmy przez $ A_j $ macierz, która poza przekątną ma same zera, a na przekątnej same jedynki, z wyjątkiem $ j $-tego miejsca, gdzie znajduje się liczba $ -1 $. Mamy $ A_j^2=\mathrm{Id} $ i dla każdej liczby $ s\in \R\setminus\{0\} $ jest

\[ 	|s|^{2n}=c\big(s^2\cdot A_j^2\big) = \big(c(s \cdot A_j)\big)^2 \, . \]

Ponieważ $ c(A)\ge 0 $ dla każdej nieosobliwej macierzy $ A $, więc $ c(s\cdot A_j)=|s|^n $.

Niech teraz, dla $ 1\le k\not=l\le n $, $ \delta_{kl} $ oznacza macierz kwadratową, złożoną z samych zer, za wyjątkiem jedynki w $ k $-tym wierszu i $ l $-tej kolumnie. Połóżmy $ M_{kl}(s)=\mathrm{Id}+s\delta_{kl} $. Nietrudno sprawdzić (Czytelnik zechce uzupełnić szczegóły), że zachodzą równości $ \delta_{kl}\cdot A_k=\delta_{kl}=-A_k\cdot\delta_{kl} $. Dlatego

\[ A_k \cdot \delta_{kl}\cdot A_k = -\delta_{kl}, \]

stąd zaś $  A_k\cdot M_{kl}(s)\cdot A_k = M_{kl}(-s)  $ i wobec równości $ c(A_k)=1 $ jest

\[ \begin{equation} 	\label{cdkl} 	c\big(M_{kl}(-s)\big)=c(A_k)^2c(M_{kl}(s))=c\big(M_{kl}(s)\big). \end{equation} \]

Jednak

\[ M_{kl}(s)M_{kl}(-s)= (\mathrm{Id}+s\delta_{kl})(\mathrm{Id}-s\delta_{kl})= \mathrm{Id}-s^2\cdot \delta_{kl}^2=\mathrm{Id} \]

i dlatego równość cdkl, łącznie z założeniem $ c(AB)=c(A)c(B) $, pociąga za sobą warunek

\[ \begin{equation} c\big(M_{kl}(\pm s)\big)=1, \quad c\big(A\cdot M_{kl}(\pm s)\big)=c\big(M_{kl}(\pm s)\cdot A\big)=c(A)\qquad\mbox{dla  $A\in GL(n,\R)$}.    \end{equation} \]

Widać więc, że funkcja $ c(A) $ nie zmienia wartości, gdy daną macierz mnożymy przez $ M_{kl}(\pm s) $. Zauważmy jednak, że iloczyn

\[ M_{kl}(s)B=B + s\cdot\delta_{kl} \cdot B \]

powstaje w ten sposób, że do $ k $-tego wiersza macierzy $ B $ dodajemy $ l $-ty wiersz tej macierzy pomnożony przez $ s $, a pozostałe wiersze pozostawiamy bez zmian. Podobnie, iloczyn $ BM_{kl}(s)=B + s\cdot B\cdot \delta_{kl}  $ powstaje tak, że do $ l $-tej kolumny $ B $ dodajemy $ k $-tą kolumnę, pomnożoną przez $ s $ (a pozostałych kolumn nie zmieniamy).

Wiadomo z algebry liniowej, że za pomocą takich operacji na wierszach i kolumnach, tzn. za pomocą mnożenia przez $ M_{kl}(\pm s) $, można każdą macierz nieosobliwą przekształcić w macierz diagonalną $ s\cdot\mathrm{Id} $ lub $ s\cdot A_n $, gdzie $ s=\sqrt[n]{|\det A|} $. Ponieważ zaś

\[ c (s\cdot\mathrm{Id})=c(s\cdot A_n)=|s|^n \]

więc ostatecznie $ c(A)=|s|^n=|\det A| $. □

Twierdzenie (#) Niech $ A\in \Leb(\R^n) $ będzie zbiorem mierzalnym w sensie Lebesgue'a, a$ \Phi\colon \R^n\to\R^n $ - przekształceniem liniowym. Wówczas zbiór $ \Phi(A)\in \Leb (\R^n) $ i zachodzi równość

\[ \begin{equation} 		\label{moddet} \lambda_n(\Phi(A))=|\det \Phi|\cdot \lambda_n({A})\, .                \end{equation} \]
Dowód: Jeśli $ \det \Phi=0 $, to obraz $ \mathrm{im}\, \Phi=\Phi(\R^n) $ przekształcenia $ \Phi $ jest podprzestrzenią liniową wymiaru mniejszego niż $ n $. Z Lematu [link] wynika, że $ \lambda_n(\Phi(\R^n))=0 $, a więc dla każdego $ A\subset \R^n $ zbiór $ \Phi(A)\subset \Phi(\R^n) $ jest mierzalny i ma miarę zero. Innymi słowy, teza twierdzenia zachodzi, gdy $ \det \Phi=0 $.

Niech zatem odtąd $ \det \Phi\not=0 $. Przekształcenie $ \Phi  $ jest wtedy homeomorfizmem $ \R^n $ na $ \R^n $; obrazy zbiorów otwartych są więc otwarte (to wynika z ciągłości $ \Phi^{-1} $), obrazy zbiorów typu $ G_\delta $ są zbiorami typu $ G_\delta $, zaś obrazy zbiorów miary Lebesgue'a zero są zbiorami miary Lebesgue'a zero. (Czytelnik zechce samodzielnie przemyśleć ten fakt; należy pamiętać, że przekształcenie $ \Phi $ zwiększa długość każdego wektora co najwyżej $ \|\Phi\| $ razy.) Dlatego, wobec Twierdzenia [link], obrazy zbiorów mierzalnych są zbiorami mierzalnymi.

Pozostaje udowodnić wzór moddet. Połóżmy

\[ \begin{equation} 	\label{defmufi}     	\mu_\Phi(A) =\lambda_n(\Phi(A));   \end{equation} \]

łatwo sprawdzić, że $ \mu_\Phi $ jest miarą na $ \sigma $-ciele $ \Leb(\R^n) $, niezmienniczą ze względu na przesunięcia. Z Twierdzenia [link] wynika, że

\[ \begin{equation} 	\label{mufila}   	\mu_\Phi(A)=c(\Phi)\cdot \lambda_n(A)\qquad\mbox{dla $A\in \Leb(R^n)$,} \end{equation} \]

gdzie stała

\[ \begin{equation} 	\label{cefi}      	c(\Phi)=\mu_\Phi([0,1]^n)=\lambda_n(\Phi([0,1]^n)).   \end{equation} \]

Potraktujmy teraz $ c $ jako funkcję, określoną na grupie $ GL(n,\R) $ macierzy nieosobliwych $ n\times n $ (każdy izomorfizm liniowy utożsamiamy z jego macierzą w standardowych bazach). Sprawdzimy, że $ c $ spełnia założenia Lematu [link], co pozwoli zakończyć cały dowód twierdzenia.

Jeśli $ \Phi = s\cdot\mathrm{Id} $, to $ \Phi([0,1]^n) $ jest kostką o krawędzi $ |s| $, a więc ma miarę $ |s|^n $. Zatem $ c(s\cdot\mathrm{Id})=|s|^n $. Dla $ \Phi_1,\Phi_2\in GL(n,\R) $ mamy z definicji $ c $

\[ \mu_{\Phi_1 \Phi_2} ([0,1]^n)=  c(\Phi_1\Phi_2)\, ; \]

z drugiej strony, wobec definicji $ \mu_\Phi $ jest

\[ \begin{align*} \mu_{\Phi_1 \Phi_2} ([0,1]^n)&\stackrel{\eqref{cefi}}=\lambda_n\big(\Phi_1(\Phi_2([0,1]^n))\big) \\ & \stackrel{\eqref{defmufi}}=\mu_{\Phi_1}(\Phi_2([0,1]^n))\\ & \stackrel{\eqref{mufila}}=c({\Phi_1})\lambda_n(\Phi_2([0,1]^n)) \stackrel{\eqref{cefi}}= c(\Phi_1)c(\Phi_2). \end{align*} \]

Spełnione są więc oba założenia Lematu [link]. Wnioskujemy zeń, że $ c(\Phi)=|\det \Phi| $; wzory defmufi- mufila implikują, że

\[ \lambda_n(\Phi(A))=\mu_\Phi(A)=c(\Phi)\lambda_n(A)=|\det\Phi|\cdot \lambda_n(A)\, . \]

Dowód Twierdzenia [link] jest zakończony. □

Uwaga

  1. W przestrzeni $ \R^3 $ istnieją wielościany, które mają równe objętości, ale nie są równoważne przez podział skończony (tzn. jednego z nich nie można w żaden sposób podzielić na skończoną liczbę wielościennych klocków, z których dałoby się złożyć drugi wielościan). (Na płaszczyźnie każde dwa wielokąty o równych polach są) równoważne przez podział skończony. Pytanie, czy analogiczny fakt ma miejsce w $ \R^3 $, było w 1900 r. treścią trzeciego problemu Hilberta. W tym samym roku Max Dehn podał przykład dwóch ostrosłupów o równych objetościach, które nie są równoważne przez podział skończony. Zainteresowany Czytelnik może sięgnąć np. do rozdziału 7 książki M. Aignera i G.M. Zieglera \emph{Dowody z Księgi (wyd. PWN, Warszawa 2002).} Między innymi dlatego dowód równości $ \lambda_n(\Phi(A))=|\det\Phi|\lambda_n(A) $ wymaga kilkakrotnego odwołania się do charakteryzacji miary Lebesgue'a, podanej w Twierdzeniu [link].
  2. Jak przekonamy się później, równość moddet jest szczególnym przypadkiem twierdzenia o zamianie zmiennych w całce Lebesgue'a.
Twierdzenie (#) Załóżmy, że $ A\subset \R^n $ i $ B\subset \R^m $ są zbiorami mierzalnymi w sensie Lebesgue'a. Wówczas zbiór $ A\times B $ jest mierzalny w sensie Lebesgue'a w $ \R^n\times \R^m $ i zachodzi równość

\[ \begin{equation} 		\label{miaraproduktu}     		 \lambda_{n+m}(A\times B)= \lambda_n(A)\cdot \lambda_m(B)\, .  \end{equation} \]
Dowód: Będziemy postępować podobnie, jak w dowodzie Twierdzenia [link], stopniowo powiększając klasy zbiorów $ A,B $, dla których zachodzi teza. Dowód nie jest trudny, jednak jego zapisanie wymaga pewnej pracy.

    Krok 1. Jeśli $ A $ i $ B $ są przedziałami odpowiednio w $ \R^n $ i $ \R^m $, to ich iloczyn kartezjański jest przedziałem w $ \R^{n+m} $; mamy wtedy

\[ \lambda_{n+m}(A\times B)=\vol(A\times B)= \vol(A)\cdot \vol(B) = \lambda_n(A)\cdot \lambda_m(B)\, .  \]

(Środkowa równość wynika wprost z definicji objętości przedziału).

    Krok 2. Jeśli $ A $ i $ B $ są zbiorami otwartymi, to

\[ A=\bigcup_{j=1}^\infty Q_j, \qquad B=\bigcup_{k=1}^\infty R_k, \]

gdzie $ Q_j $ (odpowiednio, $ R_k $) są kostkami diadycznymi w $ R^n $ (odpowiednio, w $ \R^m $) o wnetrzach parami rozłącznych. Wtedy jednak

\[ A\times B= \bigcup_{j,k=1}^\infty Q_j\times R_k, \]

gdzie przedziały $ Q_j\times R_k $ mają wnętrza parami rozłączne. Ponieważ miara Lebesgue'a zeruje się na podprzestrzeniach, zawierających ściany tych przedziałów, więc

\[ \begin{align*} \lambda_{n+m}(A\times B)  &=\sum_{j,k=1}^\infty \lambda_{n+m}(Q_j\times R_k)\\ &=  \sum_{j,k=1}^\infty \lambda_{n}(Q_j) \lambda_{m}( R_k) \\ & = \biggl(\sum_{j=1}^\infty \lambda_{n}(Q_j)\biggr)  \biggl(\sum_{k=1}^\infty \lambda_{m}( R_k)\biggr)=\lambda_n(A)\lambda_m(B)\, . \end{align*} \]

    Krok 3. Załóżmy teraz, że $ A,B $ są zbiorami ograniczonymi typu $ G_\delta $, tzn.

\[ A=\bigcap_{j=1}^\infty U_j, \qquad B=\bigcap_{j=1}^\infty V_j, \]

gdzie $ U_1\supset U_2\supset U_3\supset \ldots $ są otwarte i ograniczone w $ \R^n $, zaś $ V_1\supset V_2\supset V_3\supset \ldots $ są otwarte i ograniczone w $ \R^m $. Wtedy

\[ A\times B=\bigcap_{j=1}^\infty (U_j\times V_j) \]

jest zbiorem ograniczonym typu $ G_\delta $ w $ \R^{n+m} $. Na mocy Stwierdzenia [link](iii) o mierze iloczynu ciągu zstępującego,

\[ \begin{multline*} \lambda_{n+m}(A\times B) =\lim_{j=1}\lambda_{n+m}(U_j\times V_j) =  \lim_{j=\infty}\lambda_{n}(U_j)\lambda_{m}(V_j) \\= \lim_{j=\infty}\lambda_{n}(U_j)\cdot \lim_{j=\infty}\lambda_{m}(V_j)  = \lambda_n(A)\cdot \lambda_m(B)\, . \end{multline*} \]

    Krok 4. Wzór miaraproduktu zachodzi, gdy $ A,B $ są ograniczone i $ \lambda_n(A)=0 $ lub $ \lambda_m(B)=0 $. Bez zmniejszenia ogólności niech $ \lambda_n(A)=0 $; w drugim przypadku dowód jest taki sam.

Zbiór $ B $ jest ograniczony, a więc jest zawarty w pewnej kuli otwartej $ V\subset \R^m $. Niech $ \eps>0 $. Wobec Twierdzenia [link], istnieje taki zbiór otwarty $ U\subset \R^n $, że $ A\subset U $ i $ \lambda_n(U)<\eps/\lambda_m(V) $. Zatem

\[ \lambda_{n+m}(A\times B)\le \lambda_{n+m}(U\times V)=\lambda_n(U)\lambda_m(V) < \eps\, ; \]

z dowolności $ \eps>0 $ wynika, że $ \lambda_{n+m}(A\times B)=0=\lambda_n(A)\times\lambda_n(B) $.

    Krok 5. Załóżmy teraz, że $ A\subset \R^n $ i $ B\subset \R^m $ są ograniczonymi zbiorami mierzalnymi. Znajdziemy zbiory $ Y\subset \R^n $ i $ Z\subset \R^m $ takie, że

\[ \begin{gather*}    \lambda_n(Y)=\lambda_m(Z)=0, \\ A\cap Y=B\cap Z=\emptyset, \\ \text{zbiory } G_A=A\cup Y \text{ oraz } B_B=B\cup Z \text{ są typu } G_\delta.    \end{gather*} \]

Wtedy

\[ G_A\times G_B= A\times B\cup \Big(Y\times B \, \cup \, A\times Z\, \cup\, Y\times Z\Big). \]

Z poprzedniego kroku dowodu wynika, że $ \lambda_{n+m}\big(Y\times B \, \cup \, A\times Z\, \cup\, Y\times Z\big)=0 $. Zbiór $ G_A\times G_B $ jest typu $ G_\delta $ w $ R^{n+m} $; dlatego zbiór $ A\times B $, który różni się odeń o zbiór miary zero, należy do $ \Leb(\R^{n+m}) $. Mamy też

\[ \lambda_{n+m}(A\times B)=\lambda_n(G_A\times G_B)=\lambda_n(G_A)\lambda_m(G_B)=\lambda_n(A)\lambda_m(B).      \]

    Krok 6 (przypadek ogólny). Jeśli $ A $ i $ B $ są dowolnymi zbiorami mierzalnymi, to biorąc $ A_j=A\cap B(0,j) $ w$ \R^n $ i$ B_j=B\cap B(0,j) $ w$ \R^m $, otrzymujemy na mocy Stwierdzenia [link](ii)

\[ \lambda_{n+m}(A\times B) = \lim_{j=\infty}\lambda_{n+m}(A_j\times B_j)=\lim_{j=\infty}\lambda_n(A_j)\lambda_m(B_j)= \lambda_n(A)\lambda_m(B). \]

Dowód całego Twierdzenia [link] jest zakończony. □

Funkcje mierzalne

Określimy teraz klasę funkcji, które można całkować względem danej miary. Niech $ X $ będzie dowolnym zbiorem, a $ \F $ - ustalonym $ \sigma $-ciałem podzbiorów $ X $, wyposażonym w przeliczalnie addytywną miarę $ \mu\colon \F\to [0,+\infty] $. Trójkę $ (X, \F,\mu) $ nazywa się przestrzenią z miarą\/. Najważniejszym modelem takiej sytuacji będzie dla nas na razie $ X=\R^n $, $ \F=\Leb(\R^n) $, $ \mu=\lambda_n $. Będziemy rozpatrywać funkcje $ f\colon X\to \overline \R=\R\cup\{-\infty, +\infty\} $.

Definicja (#) Mówimy, że funkcja $ f\colon X\to \overline \R $ jest mierzalna (względem $ \sigma $-ciała $ \F $) wtedy i tylko wtedy, gdy dla każdej liczby $ a\in \R $ zbiór

\[ 	f^{-1}\big((a,+\infty]\big)=\{x\in X\colon f(x)>a\} 	\]

należy do $ \F $.

Jeśli $ X=\R^n $, $ \F=\Leb(\R^n) $, $ \mu=\lambda_n $, to mówimy o funkcjach mierzalnych w sensie Lebesgue'a.

Stwierdzenie (#) Niech $ f\colon X\to \overline \R $. Następujące warunki są równoważne:

  1. funkcja $ f $ jest mierzalna;
  2. dla każdego $ a\in \R $ zbiór $ \{x\in X\colon f(x)\le a\}\in \F $;
  3. dla każdego $ a\in \R $ zbiór $ \{x\in X\colon f(x)< a\}\in \F $;
  4. dla każdego $ a\in \R $ zbiór $ \{x\in X\colon f(x)\ge a\}\in \F $.
Dowód: Skorzystamy z tego, że $ \sigma $-ciało $ \F $ jest zamknięte ze względu na branie dopełnień i przeliczalnych sum.

Zauważmy, że zbiór $ \{x\in X\colon f(x)\le a\} $ jest dopełnieniem $ \{x\in X\colon f(x)> a\} $. Dlatego (i) $ \Rightarrow  $ (ii). Następnie,

\[ \{x\in X\colon f(x)< a\}  =\bigcup_{m=1}^\infty \{x\in X\colon f(x)\le a-\tfrac 1m\}\, . \]

Dlatego drugi warunek pociąga za sobą trzeci.

Z warunku (iii) wynika (iv), gdyż $ \{x\in X\colon f(x)\ge a\}=X\setminus \{x\in X\colon f(x)< a\} $. Wreszcie,

\[ \{x\in X\colon f(x)> a\}=  \bigcup_{m=1}^\infty \{x\in X\colon f(x)\ge a+\tfrac 1m\}\, ;  \]

dlatego (iv) pociąga za sobą warunek, podany w definicji funkcji mierzalnej. □

Stwierdzenie (#) Jeśli $ f,g\colon X\to \overline\R $ są funkcjami mierzalnymi, to zbiory

\[    \{x\in X\colon f(x)>g(x)\}, \qquad   \{x\in X\colon f(x)\ge g(x)\},   \qquad \{x\in X\colon f(x)=g(x)\} 	\]

należą do $ \sigma $-ciała $ \F $.

Dowód: Ponieważ zbiór liczb wymiernych $ \Q $ jest gęsty w $ \R $, więc

\[ \begin{align*} \{x\in X\colon f(x)>g(x)\}&=\bigcup_{w\in \Q} \{x\in X\colon f(x)>w>g(x)\} \\&=  \bigcup_{w\in \Q} \{x\in X\colon f(x)>w\}\cap  \{x\in X\colon w>g(x)\}.  \end{align*} \]

Z poprzedniego stwierdzenia wynika więc, że $ \{f>g\}\in \F $. Przez symetrię, $ \{g>f\} $ też należy do $ \F $. Zbiory $ \{f\ge g\} $ i $ \{g\ge f\} $ są dopełnieniami zbiorów, odpowiednio, $ \{g>f\} $ i$ \{f>g\} $, więc także należą do $ \F $. Wreszcie,

\[ \{x\in X\colon f(x)=g(x)\}=\{x\in X\colon f(x)\ge g(x)\}\cap \{x\in X\colon g(x)\ge f(x)\}\in \F\, , \]

gdyż $ \F $ jest zamknięte ze względu na branie iloczynu zbiorów.□

Stwierdzenie Jeśli $ f\colon X\to \overline\R $ jest funkcją mierzalną, to przeciwobraz $ f^{-1}(B) $ każdego zbioru borelowskiego $ B\in \B(\R) $ jest mierzalny.
Dowód: Klasa $ \mathscr{K} $ wszystkich tych podzbiorów prostej, których przeciwobrazy należą do $ \sigma $-ciała $ \F $, sama jest $ \sigma $-ciałem (łatwe ćwiczenie). Ponadto, wszystkie przedziały otwarte należą do $ \mathscr{K} $; to wynika ze Stwierdzenia [link]. Dlatego $ \mathscr{K} $ zawiera najmniejsze $ \sigma $-ciało, zawierające wszystkie przedziały, tzn. $ \sigma $-ciało $ \B(\R) $. □
Twierdzenie (#) Niech $ f_j\colon X\to\overline\R $, $ j=1,2,\ldots $, będzie dowolnym ciągiem funkcji mierzalnych. Wówczas każda z funkcji

\[ \begin{gather*} 		\inf_{j\in \N} f_j, \qquad \sup_{j\in \N} f_j, \qquad\liminf_{j\to\infty} f_j, \qquad \limsup_{j\to\infty} f_j  	 	\end{gather*}     \]

jest mierzalna.

Zanim podamy dowód tego twierdzenia, sformułujmy oczywisty, ważny wniosek.

Wniosek (#) Jeśli ciąg funkcji mierzalnych $ f_j\colon X\to\overline\R $ jest zbieżny punktowo na $ X $, to $ f=\lim f_j $ jest funkcją mierzalną.

    Dowód Wniosku [link] Jeśli ciąg $ f_j $ jest zbieżny punktowo na $ X $, to $ f=\lim f_j=\liminf f_j $. □

    Dowód Twierdzenia [link] Wykorzystamy Stwierdzenie [link]. Przy ustalonym $ x\in X $ kres dolny zbioru $ \{f_n(x)\colon n=1,2,\ldots\} $ jest mniejszy od $ a\in \R $ wtedy i tylko wtedy, gdy dla pewnego $ n\in \N $ jest $ f_n(x)<a $. Innymi słowy,

\[ \left\{x\in X\colon  \inf_{n\in \N} f_n(x)<a\right\} = \bigcup_{n=1}^\infty \left\{x\in X\colon  f_n(x)<a\right\}\, .  \]

Ponieważ kazdy ze zbiorów $ \left\{x\in X\colon  f_n(x)<a\right\} $ należy do $ \F $, więc i zbiór po lewej stronie ostatniej równości należy do $ \F $, to zaś oznacza, że funkcja $ f=\inf_n f_n $ jest mierzalna.

Podobnie,

\[ \left\{x\in X\colon  \sup_{n\in \N} f_n(x)>a\right\} = \bigcup_{n=1}^\infty \left\{x\in X\colon  f_n(x)>a\right\} \in \F\, . \]

Dlatego $ \sup_n f_n $ jest funkcją mierzalną.

Aby wykazać mierzalność granicy dolnej i górnej, przypomnijmy (patrz np. skrypt wykładów z Analizy I, podrozdział 8.1), że

\[ \liminf_{j\to \infty} a_j=\sup_{j\in \N}\left(\inf_{n>j} a_n \right), \qquad  \limsup_{j\to \infty} a_j=\inf_{j\in \N}\left(\sup_{n>j} a_n \right).   \]

Z udowodnionej już części twierdzenia i tych wzorów wynika mierzalność funkcji $ \liminf f_n $ i $ \limsup f_n $. □

Okazuje się, że klasa funkcji mierzalnych jest zamknięta z uwagi na różne operacje algebraiczne.

Stwierdzenie (#) Załóżmy, że $ \alpha,\beta \in \R $, a funkcje $ f,g\colon X\to \overline\R $ są mierzalne. Wówczas mierzalna jest każda z funkcji

\[ 	\alpha\cdot f, \qquad \alpha f + \beta g, \qquad f^2, \qquad fg, \qquad |f|, \qquad\max (f,g), \qquad\min (f,g). 	\]
Uwaga

  1. Zakładamy milcząco, że podane wyżej funkcje są dobrze określone.
  2. W wielu sytuacjach można się nie przejmować powyższym zastrzeżeniem. Wyjaśnijmy to nieco bliżej. Najpierw wprowadzimy ważny termin: mówi się, że funkcja mierzalna $ f $ ma własność $ W $ prawie wszędzie na $ X $, jeśli zbiór tych punktów $ X $, gdzie własność $ W $ jest naruszona, jest zbiorem miary zero. Jeśli $ X=\R^n $ i $ \F=\Leb(\R^n) $, a funkcja $ f\colon \R^n\to \overline\R $ jest mierzalna, to każda funkcja $ g $, która jest równa $ f $ prawie wszędzie (tzn. jest taka, że $ \{f\not=g\} $ jest zbiorem miary Lebesgue'a zero), też jest funkcją mierzalną. To wynika z faktu, że każdy podzbiór zbioru miary zero jest mierzalny w sensie Lebesgue'a.

    Jeśli zatem funkcje $ f,g $prawie wszędzie skończone (tzn. zbiory $ Z_f=\{f=\pm \infty\} $ i$ Z_g=\{g=\pm\infty\} $ są zbiorami miary Lebesgue'a zero), to sumę $ f+g $ oraz iloczyn $ f\cdot g $ można bez kłopotu określić na zbiorze $ \R^n\setminus (Z_f\cup Z_g) $, a na zbiorze $ Z_f\cup Z_g $ nadać im jakąkolwiek wartość. To nie wpłynie na mierzalność.

    Dowód Stwierdzenia [link] Krok 1. Jeśli $ \alpha >0 $, to

\[ \{x\in X\colon \alpha f(x)>a\}=\Big\{x\in X\colon f(x)> \frac a \alpha \Big\}\in \F\qquad\mbox{ dla każdego $a\in \R$.} \]

Jeśli $ \alpha <0 $, to zmienia się kierunek jednej z nierówności w powyższym wzorze; mierzalność funkcji $ \alpha f $ wynika wtedy z równoważności warunków, podanych w Stwierdzeniu [link].

    Krok 2: mierzalność sumy dwóch funkcji. Mierzalność $ \alpha f+\beta g $ wystarczy udowodnić, gdy $ \alpha=\beta=1 $. Zauważmy najpierw, że jeśli $ h $ jest funkcją mierzalną, to $ h+\mathrm{const} $ też jest mierzalna, gdyż $ \{x\in X\colon h(x)+c>a\}=\{x\in X\colon h(x)>-c+a\} $. Dalej, dla każdego $ a\in \R $ mamy

\[ \{ x\in X\colon f(x)+g(x)>a\}=\{x\in X\colon f(x)>-g(x)+a\}\, ; \]

funkcja $ -g(x)+a= -1\cdot g(x)+a $ jest mierzalna, więc mierzalność zbioru $ \{f+g>a\} $ wynika ze Stwierdzenia [link].

    Krok 3: mierzalność kwadratu funkcji mierzalnej. Dla $ a\le 0 $ zbiór $ \{x\in X\colon f^2(x)\ge a\} $ jest po prostu równy $ X $, a więc należy do $ \F $. Dla $ a>0 $ mamy

\[ \{x\in X\colon f^2(x)\ge a\}=\left\{x\in X\colon f(x)\ge \sqrt{a}\,\right\}\cup \left\{x\in X\colon f(x)\le -\sqrt{a}\,\right\}\in \F\, . \]

    Krok 4: mierzalność iloczynu wynika teraz natychmiast ze wzoru

\[ fg= \frac 14 \big((f+g)^2-(f-g)^2\big)\, . \]

    Krok 5: mierzalność $ |f| $ sprawdzamy łatwo wprost z definicji; dla $ a\ge 0 $ jest

\[ \{x\in X\colon |f(x)|\ge a\}=\left\{x\in X\colon f(x)\ge a\,\right\}\cup \left\{x\in X\colon f(x)\le -{a}\,\right\} ,    \]

zaś dla $ a<0 $ mamy po prostu $ \{x\in X\colon |f(x)|\ge a\}=X $.

    Krok 6: aby zakończyć cały dowód, stosujemy wzory

\[ \max (f,g) = \frac{f+g}2 + \frac{|f-g|}2, \qquad \min (f,g) = \frac{f+g}2 - \frac{|f-g|}2\,  \]

i korzystamy z udowodnionej już mierzalności sumy, różnicy i wartości bezwzględnej funkcji mierzalnych. □

Stwierdzenie Jeśli $ f\colon X\to \R $ jest mierzalna, a $ g\colon \R\to \R $ jest ciągła, to $ g\circ f\colon X\to \R $ jest mierzalna.
Dowód: Dla dowolnych funkcji $ (g\circ f)^{-1}(Z)= f^{-1}\big(g^{-1}(Z)\big) $. Ponieważ $ g $ jest ciągła, więc zbiór $ Z_a=g^{-1}\big((a,+\infty)\big) $ jest zbiorem otwartym, tzn. jest sumą przeliczalnie wielu rozłącznych przedziałów otwartych. Dlatego

\[ \{x\in X\colon g\circ f(x)>a\}=(g\circ f)^{-1}\big((a,+\infty)\big)=f^{-1}(Z_a) \]

jest sumą przeliczalnie wielu zbiorów, należących do $ \F $. □

\subsection*{Funkcje proste}

Definicja Funkcję mierzalną $ f\colon X\to\overline\R $, która ma skończony zbiór wartości, nazywamy funkcją prostą.
Stwierdzenie Funkcja $ f\colon X\to\overline\R $ jest funkcją prostą wtedy i tylko wtedy, gdy istnieją parami rozłączne zbiory $ A_1,\ldots, A_k\in \F $ oraz różne elementy $ a_1,\ldots,a_k\in \overline\R $ takie, że

\[ \begin{equation} 		\label{fprosta}      f=\sum_{j=1}^k a_j\cdot \charfn_{A_j}       \end{equation} \]
Dowód: Proste ćwiczenie. Jeśli $ A\in \F $, to $ \charfn_A $ jest funkcją mierzalną, gdyż zbiór $ \{\charfn_A>a\} $ jest albo pusty, albo równy $ A $, albo równy $ X $. Dlatego mierzalność kombinacji liniowej funkcji charakterystycznych zbiorów mierzalnych wynika ze Stwierdzenia [link].

Załóżmy teraz, że $ a_1<a_2<\ldots<a_k\in \overline\R $ są wszystkimi wartościami funkcji mierzalnej $ f $. Dla $ j=1,2,\ldots, k $ niech $ A_j:=\{x\in X\colon f(x)=a_j\} $. Oczywiście,

\[ A_j=X\setminus \Big(\{x\in X\colon f(x)>a_j\}\cup \{x\in X\colon f(x)<a_j\}\Big)\, ;   \]

zbiory $ A_j $ są mierzalne, parami rozłączne i $ f=\sum a_j\charfn_{A_j} $. □

Uwaga Funkcja fprosta ma skończony zbiór wartości także wtedy, gdy zbiory $ A_j $ nie są parami rozłączne.
Wniosek Kombinacja liniowa skończonej liczby funkcji prostych jest funkcją prostą.
Twierdzenie Jeśli $ f\colon X\to [0,\infty] $ jest mierzalna, to istnieje niemalejący ciąg funkcji prostych $ f_n\colon X\to [0,\infty] $ zbieżny do $ f $ punktowo na $ X $. Jeśli ponadto $ f $ jest ograniczona, to istnieje niemalejący ciąg nieujemnych funkcji prostych zbieżny do $ f $ jednostajnie na $ X $.(#)
Dowód: Dla $ n=1,2,\ldots $ połóżmy

\[ \begin{gather*} A_{m,n}=\Big\{x\in X\colon f(x) \colon \frac m{2^n} \le f(x)< \frac{m+1}{2^n} \Big\}, \qquad m=0,1,\ldots, n\cdot 2^n-1, \\[5pt] A_{2^n,n}=\{x\in X\colon n\le f(x)\}. \end{gather*} \]

Zbiory $ A_{m,n} $ są mierzalne i są, przy ustalonym $ n $, parami rozłączne. Przyjmijmy

\[ f_n=\sum_{m=0}^{n\cdot 2^n} \frac m{2^n}\charfn_{A_{m,n}}\, . \]

(Intuicja jest prosta i naturalna: wykres $ f $ tniemy na części, prowadząc cięcia na wysokościach $ m/2^n $, gdzie $ m=0,1,\ldots, n2^n $; funkcja $ f_n $ jest stała między dwiema cięciami. Przechodząc od $ n $ do $ n+1 $, prowadzimy cięcia dwukrotnie gęściej i nieco wyżej - nie tylko do wysokości $ n $, ale aż do $ n+1 $).

Wprost z definicji $ f_n\le f $ na $ X $, gdyż $ f_n=m/2^n\le f $ na każdym ze zbiorów $ A_{m,n} $. Jeśli $ f(x)<\infty $, to dla wszystkich $ n>f(x) $ mamy $ f_n(x)\le f(x)< f(x) +2^{-n} $ i dlatego $ f_n(x)\to f(x) $ na zbiorze $ \{f<\infty\} $. Jeśli $ f(x)=\infty $, to $ f(x)\ge n $ dla każdego $ n\in \N $ i wtedy $ f_n(x)=n $, a więc również w tym przypadku $ f_n(x)=n\to f(x)=\infty $.

Wreszcie, nietrudno sprawdzić, że $ f_{n+1}\ge f_n $, gdyż

\[ \begin{gather*}  	A_{m,n}=A_{2m,n+1}\cup A_{2m+1,n+1}, \qquad   m=0,1,\ldots, n\cdot 2^n-1,\\ 	A_{2^n,n}=A_{n2^{n+1},n+1}\cup A_{n2^{n+1}+1,n+1}\cup\ldots  \cup A_{(n+1)2^{n+1},n+1}. \end{gather*} \]

(Szczegóły pozostawiamy Czytelnikowi).

Jeśli $ f $ jest ograniczona, to dla $ n>\sup f $ nierówność $ |f_n(x)-f(x)|\le 2^{-n} $ zachodzi na całym zbiorze $ X $. To oznacza, że $ f_n\rightrightarrows f $ na $ X $. □

Podamy teraz dwa twierdzenia, opisujące związek mierzalności z ciągłością.

Twierdzenie [N. Łuzin] Jeśli $ f\colon \R^n\to \R $ jest mierzalna w sensie Lebesgue'a, to dla każdego $ \eps>0 $ istnieje taki zbiór domknięty $ F\subset \R^n $, że $ \big.f\big|_F $ jest ciągła i $ \lambda_n(\R^n\setminus F)<\eps $.
Dowód: Ustalmy $ \eps>0 $. Niech $ h(x)=\frac \pi 2 +\arctg f(x) $. Funkcja $ h $ jest nieujemna i ograniczona na $ \R^n $, zatem wobec Twierdzenia [link] istnieje ciąg funkcji prostych $ h_k\rightrightarrows h $ na $ \R^n $, $ h-2^{-k}\le h_k\le h $. Niech $ h_k=\sum_{i=1}^{m_k}a_{k,i}\charfn_{A_{k,i}} $, gdzie $ A_{k,1}, A_{k,2}, \ldots, A_{k,m_k} $ są parami rozłączne. Można przyjąć, że $ a_{k,1}=0 $ dla wszystkich $ k $; wtedy $ \R^n $ jest sumą zbiorów $ A_{k,i} $.

Wobec Twierdzenia [link], charakteryzującego zbiory mierzalne, istnieją zbiory domknięte $ F_{k,i}\subset A_{k,i} $ takie, że $ \lambda_n(A_{k,i}\setminus F_{k,i})<\eps /(m_k2^{k}) $. Połóżmy

\[ F_k= F_{k,1}\cup F_{k,2} \cup \ldots \cup F_{k,m_k}, \]

jest to zbiór domknięty, gdyż suma skończenie wielu zbiorów domkniętych jest domknięta. Ponadto,

\[ \begin{equation} 	\label{miaraFkc}   	\lambda_n(\R^n\setminus F_k) =\sum_{i=1}^{m_k} \lambda_n(A_{k,i}\setminus F_{k,i}) < m_k \cdot \frac{\eps}{m_k2^k} = \frac{\eps}{2^k}   \end{equation} \]

Zbiór domknięty $ F=\bigcap_{k=1}^\infty F_k $ spełnia, wobec wzorów de Morgana,

\[ \lambda_n(\R^n\setminus F)=\lambda_n\biggl(\bigcup_{k=1}^\infty \R^n\setminus F_k \biggr)  \stackrel{\eqref{miaraFkc}}\le \sum_{k=1}^\infty \frac{\eps}{2^k}=\eps \]

Zauważmy, że $ h_k $ jest stała na każdym ze zbiorów $ F_{k,i} $, a więc jest ciągła na $ F_k $, tzn. jest ciągła także na $ F\subset F_k $. Ponadto, na zbiorze $ F $ jest $ |h_k-h|\le 2^{-k} $. Innymi słowy, na zbiorze $ F $ ciąg $ h_k\big|_F $ funkcji ciągłych jest zbieżny jednostajnie do $ h\big|_F $. Wynika stąd ciągłość $ h\big|_F $. Ponieważ $ f=\tg (h-\frac \pi 2) $, więc $ f\big|_F $ jest ciągła. □

Twierdzenie [M. Fr\'{echet}] Jeśli $ f\colon \R^n \to \R $ jest mierzalna w sensie Lebesgue'a, to istnieje ciąg funkcji ciągłych $ \phi_k\colon \R^n\to \R $ zbieżny do $ f $ prawie wszędzie na $ \R^n $.
Dowód: Skorzystajmy z twierdzenia Łuzina. Dla $ k\in \N $ niech $ F_k $ będzie takim zbiorem domkniętym, że $ f_k=f\big|_{F_k} $ jest ciągła i $ \lambda_n(\R^n\setminus F_k)< 2^{-k-1} $. Na mocy znanego z topologii twierdzenia Tietzego o przedłużaniu istnieje funkcja ciągła $ \phi_k\colon \R^n\to \R $ taka, że $ \phi_k=f_k $ na zbiorze $ F_k $.

Zbiory $ D_k=F_k\cap F_{k+1}\cap F_{k+2}\cap \ldots $ są domknięte; ponadto,

\[ \begin{equation} 	\label{miarauzupDk}   	\lambda_n(\R^n\setminus D_k)\le \sum_{j=k}^\infty \lambda_n(\R^n\setminus F_j)<\frac{1}{2^{k+1}}+\frac{1}{2^{k+2}}+\cdots = \frac 1{2^k}\, .        \end{equation} \]

Na zbiorze $ D_k $ jest $ \phi_j=f_j=f $ dla wszystkich $ j=k,k+1,k+2,\ldots $. Dlatego ciąg $ \phi_j $ jest zbieżny punktowo do $ f $ na sumie $ S=\bigcup_{k=1}^\infty D_k $ zbiorów $ D_k $. Z oszacowania miarauzupDk wynika, że

\[ \lambda_n(\R^n\setminus S)= \lambda_n\biggl(\bigcap_{k=1}^\infty \R^n\setminus D_k\biggr)= \lim_{k\to\infty }  \lambda_n(\R^n\setminus D_k) \stackrel{\eqref{miarauzupDk}}= 0\, . \]

To spostrzeżenie kończy cały dowód. □

Naturalne jest pytanie, dla jakich przestrzeni z miarą $ (X, \F,\mu) $ zachodzą odpowiedniki twierdzeń Łuzina i Fr\'{e}cheta. W dowodach wykorzystuje się tylko dwie szczególne własności przestrzeni $ \R^n $ i miary Lebesgue'a: charakteryzację zbiorów mierzalnych (ściślej: możliwość `przybliżania' zbiorów mierzalnych zbiorami domkniętymi) oraz twierdzenie Tietzego o przedłużaniu, które zachodzi dla każdej przestrzeni topologicznej normalnej (w szczególności: dla każdej przestrzeni metrycznej).

Definicja [miara regularna] Miara $ \mu $ na $ \sigma $-ciele $ \F $ przestrzeni topologicznej, zawierającym $ \sigma $-ciało $ \B(X) $ zbiorów borelowskich, nazywa się regularna wtedy i tylko wtedy, gdy dla każdego $ A\in \F $ i każdego $ \eps>0 $ istnieją zbiór otwarty $ \Omega\subset X $ i zbiór domknięty $ F\subset X $ takie, że $ F\subset A\subset \Omega $ i $ \mu(\Omega\setminus F)<\eps $.
Uwaga Twierdzenie Łuzina zachodzi dla każdej przestrzeni topologicznej z miarą regularną $ \mu $, natomiast twierdzenie Fr\'{e}cheta zachodzi dla każdej przestrzeni topologicznej normalnej, wyposażonej w miarę regularną $ \mu $.

Całka Lebesgue'a

W tym rodziale $ (X,\F,\mu) $ jest ustaloną przestrzenią z miarą. Elementy $ \sigma $-ciała $ \F $ nazywamy zbiorami mierzalnymi.

Ogólna idea, kryjąca się za definicją całki Lebesgue'a, jest bardzo prosta: dla funkcji $ f=c\charfn_A $, gdzie $ A $ jest zbiorem mierzalnym, przyjmujemy $ \int_X f\, d\mu=c\cdot \mu(A) $. Inaczej mówiąc, całka funkcji stałej na zbiorze $ A $ i równej zero poza $ A $ jest proporcjonalna do miary $ \mu(A) $. Oczywiście, byłoby rzeczą naturalną przyjąć umowę, że całka jest liniowa; wtedy całka z funkcji $ \sum a_i\charfn_{A_i} $ powinna być równa sumie $ \sum a_i\mu({A_i}) $. Funkcje nieujemne można przybliżać funkcjami prostymi, więc ich całki można próbować przybliżać całkami funkcji prostych. Natomiast dowolna funkcja mierzalna jest różnicą dwóch funkcji nieujemnych, więc dla takich funkcji całkę można określić jako różnicę całek tych funkcji nieujemnych.

Okazuje się, że ten plan można zrealizować. W dodatku, zachodzą wtedy naturalne, wygodne i ogólne twierdzenia o przechodzeniu do granicy pod znakiem całki. Opisaniem szczegółów tej konstrukcji zajmiemy się w podrozdziałach 5.1 i 5.2. Następnie, w kolejnych podrozdziałach, wyjaśnimy, jaki jest związek całki Lebesgue'a z całką Riemanna, a także omówimy dwa bardzo ważne wyniki: twierdzenie o zamianie zmiennych i twierdzenie Fubiniego. Znajomość tych narzędzi pozwala obliczać bardzo wiele konkretnych całek; przykłady pozna Czytelnik zarówno w trakcie wykładu, jak i na ćwiczeniach.

Całkowanie funkcji dowolnego znaku

Dla takich funkcji posługujemy się rozkładem $ f=\plus f-\minus f $, gdzie

\[ \plus f= \max (f,0), \qquad \minus f = -\min(f,0) \]

oznaczają część dodatnią i część ujemną funkcji mierzalnej $ f\colon X\to \overline \R $. (Zbiór $ X $, $ \sigma $-ciało $ \F\subset 2^X $ jego podzbiorów i miara $ \mu $ na $ \F $ są ustalone).

Definicja Jeśli $ f\colon X\to \overline \R $ jest funkcją mierzalną, zbiór $ E\subset X $ jest mierzalny i co najmniej jedna z całek $ \int_E \plus f\, d\mu $, $ \int_E \minus f\, d\mu $ jest skończona, to przyjmujemy

\[ \int_E f\, d\mu = \int_E \plus f\, d\mu-\int_E \minus f\, d\mu\, .	 	\]

Jeśli całka $ \int_E f\, d\mu $ jest skończona, to mówimy, że funkcja $ f $ jest całkowalna na $ E $.

Jeśli $ f\ge 0 $, to jej część ujemna $ \minus f=0 $; zatem dla funkcji nieujemnych powyższa definicja pokrywa się z przyjętą wcześniej.

Zanotujmy dłuższą listę elementarnych własności całki.

Stwierdzenie [własności całki](#) $ \phantom{a} $

  1. Jeśli $ f=c $ jest stała na zbiorze $ E $, to $ \int_E f\,d\mu=c\mu(E) $.
  2. Jeśli $ \mu(E)=0 $, to $ \int_Ef\,d\mu=0 $ dla każdej funkcji mierzalnej $ f\colon X\to \overline\R $.
  3. Funkcja $ f\colon X\to \overline\R $ jest całkowalna na zbiorze $ E\subset X $ wtedy i tylko wtedy, gdy funkcja $ |f| $ jest całkowalna na $ E $.
  4. Funkcja $ f $ całkowalna na $ E\subset X $ jest skończona prawie wszędzie w $ E $.
  5. Monotoniczność całki: jeśli $ f\le g $ na zbiorze $ E $ i całki z obu funkcji są określone, to $ \int_E f\, d\mu\le \int_Eg\, d\mu $.
  6. Własność wartości średniej: dla każdej funkcji $ f $ całkowalnej na $ E $ jest
    $$\inf_E f\cdot \mu(E)\le \int_E f\, d\mu\le \sup_E f\cdot \mu(E)\, .$$
  7. Nierówność trójkąta: jeśli $ \int_Ef\, d\mu $ jest określona, to
    \[ 		\left|\int_E f\, d\mu\right| \le \int_E |f|\, d\mu\, . 		\]
  8. Przeliczalna addytywność całki jako funkcji zbioru: Jeśli $ E $ jest sumą zbiorów $ E_i\in \F $ parami rozłącznych, a $ f $ jest całkowalna na $ E $, to
    \[ 		 \int_E f\, d\mu=\sum_{i=1}^\infty \int_{E_i} f\, d\mu\, . 		\]
  9. Liniowość całki: jeśli całki funkcji $ f,g $ są określone na $ E $ i ich suma też jest określona (tzn. nie jest wyrażeniem $ \infty-\infty $), to
    \[ 		\int_E (f+g)\, d\mu=\int_E f\, d\mu+\int_E g\, d\mu\, . 		\]
Dowód: Własności (i) oraz (ii) wynikają łatwo z definicji i odpowiednich własności całki funkcji nieujemnej. Mamy $ |f|=\plus f+\minus f $, dlatego wobec liniowości całki funkcji nieujemnej

\[ \int_E |f|\, d\mu=\int_E \plus f\, d\mu + \int_E \minus f\, d\mu <\infty \]

wtedy i tylko wtedy, gdy całki funkcji $ \plus f, \minus f $ są skończone, a więc wtedy i tylko wtedy, gdy ich różnica jest określona i skończona, tzn. gdy $ f $ jest całkowalna. Zatem zachodzi (iii).

Gdyby $ f=+\infty $ (odpowiednio, $ f=-\infty $) na zbiorze miary dodatniej w $ E $, to całka funkcji $ \plus f $ (odpowiednio, funkcji $ \minus f $) byłaby nieskończona. Stąd wynika własność (iv).

Dla dowodu (v) wystarczy zauważyć, że jeśli $ f\le g $, to $ \plus f\le \plus g $ i $ \minus f\ge \minus g  $, a następnie skorzystać z definicji całki i monotoniczności całki funkcji nieujemnej. Własności (vi) i (vii) wynikają od razu z (i), (v) oraz nierówności

\[ \inf f \le f \le \sup f\, , \qquad -|f| \le f\le |f|\, . \]

Przeliczalną addytywność całki funkcji całkowalnej otrzymujemy jako wniosek z Twierdzenia [link]: całka funkcji $ \plus f $ i całka $ \minus f $ - gdy traktować je jako funkcje zbioru - są miarami przeliczalnie addytywnymi.

Najbardziej kłopotliwy jest dowód (ix), gdyż całki mogą przyjmować wartość $ \pm \infty $. Rozważmy najpierw przypadek, gdy $ f,g $ są całkowalne. Ponieważ

\[ \int_E |f+ g|\, d\mu \le \int_E \big(|f|+ |g|\big)\, d\mu = \int_E |f|\, d\mu+ \int_E | g|\, d\mu\, ,   \]

więc $ f+g $ też jest całkowalna. Ponadto,

\[ \begin{equation} \plus f + \plus g-\plus {(f+g)}=\minus f+\minus g -\minus{ (f+g)} \ge 0  \label{znakifg} \end{equation} \]

oraz

\[ \begin{multline}   f+g= \plus f-\minus f +\plus g -\minus g  =\big(\plus f + \plus g\big )-\big(\minus f+\minus g\big)\\= \plus{(f+g)}+\big(\plus f + \plus g - \plus{(f+g)}\big) \ -\       \Big(\minus{(f+g)}+\big(\minus f + \minus g - \minus{(f+g)}\big)\Big)\, .   \end{multline} \]

Dzięki addytywności całki funkcji nieujemnych, otrzymujemy stąd

\[ \begin{eqnarray*} \int_E \plus f\, d\mu+\int_E\plus g\, d\mu = \int_E (\plus f +\plus g)\, d\mu &=& \int_E\, \plus{(f+g)}\, d\mu +\int_E \big(\plus f + \plus g - \plus{(f+g)}\big)  d\mu \notag \\ & \stackrel{\eqref{znakifg}}= &  \int_E\, \plus{(f+g)}\, d\mu +\int_E \big(\minus f + \minus g - \minus {(f+g)}\big)  d\mu \label{zplusem} \end{eqnarray*} \]

i podobnie

\[ \int_E \minus f\, d\mu  +\int_E \minus g\, d\mu =  \int_E\, \minus{(f+g)}\, d\mu +\int_E \big(\minus f + \minus g - \minus {(f+g)}\big)  d\mu\, .\label{zminusem}   \]

Odejmując te równości stronami, sprawdzamy, że $ \int_E f \, d\mu + \int_E g\, d\mu=\int_E(f+g)\, d\mu $.

Przypuśćmy teraz, że np. $ \int_E f\, d\mu=+\infty $, a $ \int_E g\, d\mu\in \R $. Wtedy musi być $ \int_E \plus f\, d\mu=+\infty $. Całki funkcji $ \minus f $, $ \plus g $, $ \minus g $ są liczbami rzeczywistymi. W takim razie, z pierwszej części dowodu,

\[ \begin{gather*} \infty > \int_E \minus f\, d\mu  +\int_E \minus g\, d\mu \stackrel{\eqref{znakifg}}\ge \int_E \minus {(f+g)}\, d\mu\ge 0\, ,   \\ \infty> \int_E\big(\minus f + \minus g - \minus{(f+g)}\big)\, d\mu\stackrel{\eqref{znakifg}}=\int_E\big(\plus f + \plus g - \plus{(f+g)}\big)\, d\mu\ge \int_E\big(\plus f - \plus{(f+g)}\big)\, d\mu\, .  \end{gather*}  \]

Gdyby $ \int_E \plus{(f+g)}\, d\mu $ była skończona, to dzięki wykazanej już liniowości całki funkcji całkowalnych, uzyskalibyśmy stąd $ \int_E \plus f\, d\mu<\infty $, wbrew założeniu. Dlatego $ \int_E \plus{(f+g)}\, d\mu=+\infty>\int_E \minus{(f+g)}\, d\mu $ i własność (ix) zachodzi w rozważanym przypadku.

Pozostałe przypadki można rozpatrzeć podobnie; szczegóły pozostawiamy Czytelnikowi jako ćwiczenie. □

Posługując twierdzeniem Lebesgue'a o zbieżności monotonicznej, udowodnimy teraz kolejne ważne twierdzenia o możliwości przechodzenia do granicy pod znakiem całki.

Twierdzenie [lemat Fatou](#) Jeśli funkcje $ f_j\colon X\to \overline \R $, $ j=1,2,\ldots $, są mierzalne i są nieujemne na zbiorze mierzalnym $ E\subset X $, to

\[ \begin{equation} 		\label{nierfatou}  		\int_{E} \liminf_{j\to\infty} f_j \, d\mu \le \liminf_{j\to\infty}   \int_{E}  f_j \, d\mu\, .  \end{equation} \]
Uwaga [przykład `wędrującego garbu'] Może się zdarzyć, że nierówność w lemacie Fatou jest ostra. Oto przykład dla jednowymiarowej miary Lebesgue'a. Warto go pamiętać, gdyż łatwo sobie wtedy przypomnieć, jaki jest kierunek nierówności w lemacie. Jeśli $ f_j=\charfn_{[j,j+1]}\colon \R\to\R $, to mamy $ \liminf f_j(t)=\lim_j f(t)=0 $ dla każdego $ t\in \R $, więc dla $ \mu=\lambda_1 $ lewa strona nierfatou jest zerem. Jednak $ \int_\R f_j\, d\lambda_1=1 $ dla każdego $ j\in \N $, więc prawa strona nierfatou jest jedynką. Czytelnik zechce samodzielnie podać podobny przykład dla $ E=[0,1] $, $ \mu=\lambda_1 $ na $ [0,1] $. Proszę zauważyć, że ten przykład świadczy również o tym, że założenie monotoniczności w Twierdzeniu [link] jest istotne. □

    Dowód lematu Fatou. Raz jeszcze przypomnijmy, że

\[ \liminf_{j\to\infty} f_j(x)=\sup_{m\in \N} \Big(\inf_{j\ge m} f_j(x)\Big) = \lim_{m\to \infty} \Big(\inf_{j\ge m} f_j(x)\Big) =  \lim_{m\to \infty} h_m(x),  \]

gdzie $ h_m(x)=\inf_{j\ge m} f_j(x) $ jest rosnącym ciągiem funkcji mierzalnych, nieujemnych na $ E $ i $ h_m\le f_m $ dla każdego $ m $. Dlatego, wobec Twierdzenia [link] o zbieżności monotonicznej,

\[ \begin{align*}  \int_{E} \liminf_{j\to\infty} f_j \, d\mu & = \int_E \lim_{m\to\infty} h_m\, d\mu \\ & = \lim_{m\to\infty} \int_E  h_m\, d\mu=  \liminf_{m\to\infty} \int_E  h_m\, d\mu\le \liminf_{m\to\infty} \int_E  f_m\, d\mu\, .    \end{align*} \]

Ostatnia nierówność wynika z monotoniczności całki i nierówności $ h_m\le f_m $. □

Twierdzenie [Lebesgue'a o zbieżności zmajoryzowanej](#) Załóżmy, że funkcje $ f_j,f\colon X\to \overline \R $, $ j=1,2,\ldots $, są mierzalne i $ |f_j|\le g $, gdzie $ g\colon X\to [0,\infty] $ jest funkcją całkowalną. Jeśli $ f_j(x)\to f(x) $ prawie wszędzie w $ X $, to

\[ \begin{equation}        	\label{wzor-TZZ} \lim_{j\to\infty} \int_X |f_j-f|\, d\mu =0\, , \qquad \lim_{j\to\infty}\int_X f_j\, d\mu= \int_X f\, d\mu\, . \end{equation} \]

Podany wcześniej przykład `wędrującego garbu' świadczy o tym, że założenie, iż $ |f_j| $ są wspólnie ograniczone przez jedną i tę samą funkcję $ g $ (czasem nazywaną majorantą), jest istotne!

    

Dowód: Skoro $ g\ge |f_j| $, to $ g \pm f_j\ge 0 $. Z lematu Fatou otrzymujemy więc

\[ \begin{gather} 	\int_{X} \liminf_{j\to\infty} (g\pm f_j) \, d\mu \le \liminf_{j\to\infty}   \int_{X}  (g\pm f_j) \, d\mu\, . \label{wnfatou}    \end{gather} \]

Zauważmy, że dla każdego ciągu liczbowego $ (a_j) $ i $ b\in\R $ jest

\[ \liminf_{j\to \infty} (b+a_j)= b +\liminf_{j\to \infty} a_j\, , \qquad \liminf_{j\to \infty} (b-a_j)= b - \limsup_{j\to \infty} a_j\, . \]

Funkcja $ g $, jako funkcja nieujemna całkowalna, jest skończona prawie wszędzie w $ X $. Dlatego z dwóch nierówności wnfatou, przytoczonej własności granicy dolnej i liniowości całki otrzymujemy

\[ \begin{gather*} \int_{X} \big(g+\liminf_{j\to\infty}  f_j \big)\, d\mu \le \int_X g\, d\mu  + \liminf_{j\to\infty} \int_X f_j\, d\mu\, ,\\ \int_{X} \big(g-\limsup_{j\to\infty}  f_j \big)\, d\mu \le \int_X g\, d\mu  - \limsup_{j\to\infty} \int_X f_j\, d\mu, \end{gather*} \]

stąd zaś, po odjęciu $ \int_X g\, d\mu $,

\[ \int_{X} \liminf_{j\to\infty}  f_j \, d\mu \le \liminf_{j\to\infty} \int_X f_j\, d\mu\ \le    \limsup_{j\to\infty} \int_X f_j\, d\mu \le \int_{X} \limsup_{j\to\infty}  f_j\,  d\mu \, . \]

Jednak $ \liminf f_j=\limsup f_j=\lim f_j=f $ na zbiorze pełnej miary w $ X $, więc prawa i lewa strona w powyższych nierównościach są równe $ \int_X f\, d\mu $. Stąd natychmiast wynika teza. (Dla dowodu pierwszej części p.w. i $ |f_j-f|\le |f_j|+|f|\le 2g $." title="TZZ) proszę zauważyć, że $ |f_j-f|\to 0 $ p.w. i $ |f_j-f|\le |f_j|+|f|\le 2g $.">TZZ) proszę zauważyć, że $ |f_j-f|\to 0 $ p.w. i $ |f_j-f|\le |f_j|+|f|\le 2g $.

Twierdzenie [bezwgzlędna ciągłość całki jako funkcji zbioru] Jeśli $ f $ jest funkcją całkowalną na zbiorze mierzalnym $ E $, to dla każdego $ \eps>0 $ istnieje liczba $ \delta>0 $ taka, że

\[ 	\int_A |f|\, d\mu <\eps 	\]

dla każdego zbioru mierzalnego $ A\subset E $ o mierze $ \mu(A)<\delta $.

Dowód: Wobec Twierdzenia [link],

\[ \nu(A)=\int_{A} |f|\, d\mu, \qquad A\subset E, \quad A\in \F \]

jest miarą (przeliczalnie addytywną) na $ \sigma $-ciele podzbiorów mierzalnych zbioru $ E $. Z założenia, $ \nu(E)=\int_E |f|\, d\mu<\infty $. Połóżmy

\[ E_m=\{x\in E\colon |f(x)|\ge m\}, \qquad m=1,2,\ldots\, ; \]

wtedy $ E_1\supset E_2 \supset E_3\supset\ldots $. Dzięki warunkowi $ \nu(E)<\infty $, ze Stwierdzenia [link](iii) otrzymujemy

\[ \nu\bigg(\bigcap_{m=1}^\infty E_m \bigg)=\lim_{m\to\infty } \nu(E_m)=0. \]

Ustalmy $ \eps>0 $. Dobierzmy $ m\in \N $ tak, aby $ \nu(E_m)<\eps/2 $. Wtedy, dla $ A\subset E $,

\[  \int_A |f|\, d\mu = \int_{A\cap E_m} |f|\,d\mu + \int_{A\setminus E_m} |f|\, d\mu\le \nu(E_m) + m\cdot \mu(A) < \frac \eps 2+ m\cdot \mu(A)<\eps, \]

o ile tylko $ \mu(A)<\delta=\eps/(2m) $.□

Związek całki Lebesgue'a z całką Riemanna

Pozostaje pytanie, jak obliczać całkę Lebesgue'a? Czy dla miary $ \mu=\lambda_1 $ na prostej rzeczywistej mamy do czynienia z tą samą całką, którą obliczaliśmy, znajdując funkcje pierwotne i posługując się twierdzeniem Newtona-Leibniza? Okazuje się, że tak. Wyjaśnijmy krótko związek obu całek. Będziemy posługiwać się terminologią, wprowadzoną podczas wykładów na I roku (patrz rozdział 9.5 skryptu z Analizy Matematycznej I).

Załóżmy, że funkcja $ f\colon [a,b]\to\R $ jest ograniczona i całkowalna w sensie Riemanna na $ [a,b] $. Z całkowalności w sensie Riemanna wynika mierzalność. (Funkcja ograniczona jest całkowalna w sensie Riemanna wtedy i tylko wtedy, gdy zbiór jej punktów nieciągłości jest zbiorem miary Lebesgue'a zero; nietrudno wykazać, że stąd wynika mierzalność: jeśli $ f $ jest ograniczona i całkowalna w sensie Riemanna, to zbiór $ \{x\in [a,b]\colon f(x)>t\} $ jest sumą pewnego zbioru otwartego i zbioru miary zero.) Oczywiście całka Lebesgue'a modułu takiej funkcji nie przekracza $ M(b-a) $, gdzie $ M=\sup |f| $. Niech $ P $ będzie dowolnym podziałem odcinka $ [a,b] $ i niech $ a=x_0<x_1<\ldots<x_N=b $ oznaczają końce odcinków tworzących ten podział. Wobec addytywności całki jako funkcji zbioru (patrz własność (viii) w Stwierdzeniu [link]) całka Lebesgue'a

\[ \begin{equation} \int_{[a,b]} f\, d\lambda_1=\sum_{i=1}^N \int_{J_i} f\, d\lambda_1, \qquad\mbox{gdzie $J_i=[x_{i-1},x_i]$ dla $i=1,\ldots,N$.}    \end{equation} \]

Z monotoniczności całki

\[ \begin{align*}     \sum_{i=1}^N (x_i-x_{i-1})\sup_{J_i} f &= \sum_{i=1}^N \sup_{J_i} f \cdot \lambda_1(J_i) \\ &\ge \sum_{i=1}^N \int_{J_i} f\, d\lambda_1\qquad\mbox{(ta suma jest całką Lebesgue'a $f$)} \\ &\ge \sum_{i=1}^N \inf_{J_i} f \cdot \lambda_1(J_i)=  \sum_{i=1}^N (x_i-x_{i-1})\inf_{J_i} f \end{align*} \]

Lewa i prawa strona powyższych nierówności są, odpowiednio, górną i dolną sumą całkową Riemanna dla podziału $ P $. Zatem $ G(f,P)\ge \int_{[a,b]}f\, d\lambda_1\ge D(f,P) $ dla każdego podziału $ P $. Biorąc kres dolny lewych stron i kres górny prawych stron względem wszystkich podziałów $ [a,b] $, sprawdzamy, że całka Lebesgue'a $ \int_{[a,b]}f\, d\lambda_1 $ jest nie większa od całki górnej Riemanna funkcji $ f $ i nie mniejsza od całki dolnej Riemanna funkcji $ f $:

\[ \int^b_a f(x)\, dx= \inf_P G(f,P)\ge  \int_{[a,b]}f\, d\lambda_1\ge \sup_P D(f,P) =\int^b_a f(x)\, dx\, ; \]

Ponieważ $ f $ jest całkowalna w sensie Riemanna, więc jej całka dolna i całka górna Riemanna są równe całce (Riemanna!) $ \int_a^b f(x)\, dx $. Dlatego całki Lebesgue'a i Riemanna funkcji $ f $ na $ [a,b] $ są równe.

Zachodzi zatem następujące twierdzenie.

Twierdzenie (#) Jeśli $ f\colon [a,b]\to\R $ jest funkcją ograniczoną, całkowalną w sensie Riemanna, to $ f $ jest całkowalna w sensie Lebesgue'a na $ [a,b] $. Obie całki - Riemanna iLebesgue'a - funkcji $ f $ są równe.
Wniosek Dla każdej funkcji ciągłej $ f\colon [a,b]\to \R $ zachodzi wzór

\[ 	\int_a^b f\, d\lambda_1 = F(b)-F(a), 	\]

gdzie $ F $ jest jakąkolwiek funkcją pierwotną $ f $.

Uwaga Nietrudno wywnioskować stąd, że jeśli $ f $ jest funkcją nieujemną na przedziale $ J\subset \R $ i jej całka niewłaściwa Riemanna jest skończona, to $ f $ jest całkowalna w sensie Lebesgue'a na $ J $. Natomiast dla funkcji, które zmieniają znak, jest inaczej: ze zbieżności całki niewłaściwej Riemanna nie wynika całkowalność w sensie Lebesgue'a. Powód jest prosty: nie każda całka niewłaściwa, która jest zbieżna, jest bezwzględnie zbieżna (patrz np. Przykład10.9 w skrypcie z Analizy Matematycznej I).

Całkowanie funkcji nieujemnych

W tym rodziale $ (X,\F,\mu) $ jest ustaloną przestrzenią z miarą. Elementy $ \sigma $-ciała $ \F $ nazywamy zbiorami mierzalnymi.

Ogólna idea, kryjąca się za definicją całki Lebesgue'a, jest bardzo prosta: dla funkcji $ f=c\charfn_A $, gdzie $ A $ jest zbiorem mierzalnym, przyjmujemy $ \int_X f\, d\mu=c\cdot \mu(A) $. Inaczej mówiąc, całka funkcji stałej na zbiorze $ A $ i równej zero poza $ A $ jest proporcjonalna do miary $ \mu(A) $. Oczywiście, byłoby rzeczą naturalną przyjąć umowę, że całka jest liniowa; wtedy całka z funkcji $ \sum a_i\charfn_{A_i} $ powinna być równa sumie $ \sum a_i\mu({A_i}) $. Funkcje nieujemne można przybliżać funkcjami prostymi, więc ich całki można próbować przybliżać całkami funkcji prostych. Natomiast dowolna funkcja mierzalna jest różnicą dwóch funkcji nieujemnych, więc dla takich funkcji całkę można określić jako różnicę całek tych funkcji nieujemnych.

Okazuje się, że ten plan można zrealizować. W dodatku, zachodzą wtedy naturalne, wygodne i ogólne twierdzenia o przechodzeniu do granicy pod znakiem całki. Opisaniem szczegółów tej konstrukcji zajmiemy się w podrozdziałach 5.1 i 5.2. Następnie, w kolejnych podrozdziałach, wyjaśnimy, jaki jest związek całki Lebesgue'a z całką Riemanna, a także omówimy dwa bardzo ważne wyniki: twierdzenie o zamianie zmiennych i twierdzenie Fubiniego. Znajomość tych narzędzi pozwala obliczać bardzo wiele konkretnych całek; przykłady pozna Czytelnik zarówno w trakcie wykładu, jak i na ćwiczeniach.

Całkowanie funkcji nieujemnych

Definicja całki Lebesgue'a przypomina definicję dolnej całki Riemanna. Różnica polega na tym, że rozbijamy dziedzinę funkcji nie na przedziały, tylko na przeliczalne rodziny dowolnych zbiorów mierzalnych. \def\rozb{\mathcal{R}}

Definicja [rozbicia zbioru mierzalnego] Załóżmy, że $ E\in \F $ jest mierzalnym podzbiorem $ X $. Mówimy, że skończona lub przeliczalna rodzina $ \P=\{E_1,E_2,\ldots\} $ zbiorów $ E_i $ jest rozbiciem $ E $ wtedy i tylko wtedy, gdy $ E_i $ są mierzalne, parami rozłączne i $ E=\bigcup E_i $. Zbiór wszystkich rozbić danego zbioru mierzalnego $ E $ oznaczamy $ \rozb(E) $.
Definicja [całka funkcji nieujemnej] (#) Załóżmy, że funkcja mierzalna $ f\colon X\to \overline\R $ jest nieujemna na zbiorze mierzalnym $ E\subset X $. Kładziemy wówczas

\[      \int_E f\, d\mu\equiv  \int_E f(x)d\mu(x)= \sup\biggl( \sum _{i=1}^\infty \inf_{x\in E_i} f(x) \cdot \mu(E_i)\biggr)\, , 	\]

gdzie kres górny jest wzięty po wszystkich rozbiciach $ \P=(E_1,E_2,\ldots) $ zbioru $ E $.

Z własności kresów wynika od razu, że

\[ \begin{equation} 	\label{calkaaf}  	\int_E \alpha f(x)\, d\mu(x)=\alpha \int_E f(x)\, d\mu (x) \end{equation} \]

dla wszystkich liczb $ \alpha\ge 0 $, nieujemnych funkcji mierzalnych $ f $ i zbiorów mierzalnych $ E $. Zauważmy ponadto, że jeśli $ f\colon X\supset E\to [0,\infty] $ przyjmuje wartość $ \infty $ na zbiorze $ A\subset E $ miary dodatniej, to z pewnością $ \int_E f\, d\mu=\infty $.

Stwierdzenie [monotoniczność całki] Jeśli $ 0\le f\le g $ na zbiorze mierzalnym $ E $ i $ f,g\colon X\to \overline\R $ są mierzalne, to

\[   \int_E f(x)\, d\mu(x)\le  \int_E g(x)\, d\mu(x)\, . 	\]
Dowód: Dla każdego zbioru $ A\subset E $ jest $ \inf_A f\le \inf_A g $, zatem dla każdego rozbicia $ \P=(E_1,E_2,\ldots) $ zbioru $ E $ mamy

\[ \sum _{i=1}^\infty \inf_{x\in E_i} f(x) \cdot \mu(E_i)\le \sum _{i=1}^\infty \inf_{x\in E_i} g(x) \cdot \mu(E_i)\, . \]

Biorąc kres górny względem wszystkich rozbić $ \P\in \rozb(E) $, otrzymujemy tezę. □

Stwierdzenie [o wartości średniej] Jeśli $ f\colon X\to \overline\R $ jest mierzalna i nieujemna na zbiorze $ E\in \F $, to

\[ \begin{equation} 	\label{warsredmu}  	 \mu(E)\cdot \inf_E f \le \int_E f(x)\, d\mu(x)\le  \mu(E)\cdot \sup_E f\, .   \end{equation} \]
Dowód: Ustalmy rozbicie $ \P=(E_1,E_2,\ldots) $ zbioru $ E $. Ponieważ $ \mu(E)=\sum \mu(E_i) $ oraz, dla każdego indeksu $ i $ z osobna, $ \inf_E f\le \inf_{E_i} f\le \sup_E f $, więc

\[ \mu(E)\cdot \inf_E f=\sum_{i=1}^\infty \mu(E_i) \inf_E f \le \sum_{i=1}^\infty \mu(E_i) \inf_{E_i} f \le \sup_E f \sum_{i=1}^\infty \mu (E_i) = \mu(E) \sup_E f.  \]

Stąd natychmiast wynika teza. □

Zanotujmy dwa łatwe wnioski z tego twierdzenia.

Wniosek Jeśli $ f=c $ jest funkcją stałą, to $ \int_E f\, d\mu=c\mu(E) $
Dowód: Mamy $ c=\sup_E f=\inf_E f $; obie strony nierówności warsredmu są więc równe $ c\mu(E) $.□
Wniosek Jeśli $ \mu(E)=0 $, to $ \int_E f\, d\mu=0 $ dla każdej funkcji mierzalnej $ f $, nieujemnej na $ E $. □

(#)

Twierdzenie (#) Jeśli $ f $ jest mierzalna i nieujemna na $ X $, to funkcja

\[ 	\nu(A)=\int_A f\, d\mu, \qquad A\in \F 	\]

jest miarą na $ \sigma $-ciele $ F $: gdy zbiór $ E\in \F $ jest sumą skończoną lub przeliczalną zbiorów mierzalnych i parami rozłącznych $ E_i $, to

\[ \begin{equation} 	\label{calkasumzbior}      	\int_E f\, d\mu=\sum_{i}\int_{E_i} f\, d\mu\, .  \end{equation} \]
Dowód: Własności $ \nu(A)\ge 0 $ i $ \nu(\emptyset)=0 $ są oczywiste. Wystarczy udowodnić wzór calkasumzbior. Zrobimy to dla rozbić przeliczalnych zbioru $ E $ na parami rozłączne zbiory $ E_i $ (dla rozbić skończonych zmieniają się tylko oznaczenia).

Niech $ E_i=\bigcup_{k=1}^\infty F_{ik} $, gdzie $ F_{ik}\in \F $, będzie rozbiciem $ E_i $ na zbiory $ F_{ik} $ parami rozłączne. Wtedy $ E=\bigcup_{i=1}^\infty\bigcup_{k=1}^\infty F_{ik} $ jest rozbiciem $ E $ i wprost z definicji całki

\[ \sum_{k=1}^\infty \inf_{F_{1k}} f \cdot \mu(F_{1k}) +\cdots + \sum_{k=1}^\infty \inf_{F_{Nk}} f \cdot \mu(F_{Nk})  \le   \sum_{i=1}^\infty \sum_{k=1}^\infty \inf_{F_{ik}} f \cdot \mu(F_{ik})\le \int_Ef\, d\mu \]

dla każdej liczby $ N\in \N $. Biorąc oddzielnie kres górny każdej ze skończenie wielu sum po lewej stronie względem wszystkich rozbić zbioru $ E_i $ ($ i=1,\ldots, N $), otrzymujemy

\[ \sum_{i=1}^N \int_{E_i}f\, d\mu \le \int_Ef\, d\mu , \]

stąd zaś, dla $ N\to \infty $,

\[ \sum_{i=1}^\infty \int_{E_i}f\, d\mu \le \int_Ef\, d\mu .   \]

Udowodnimy teraz nierówność przeciwną. Niech $ E=\bigcup_{k=1}^\infty A_k $, gdzie $ A_k $ są parami rozłączne. Ponieważ $ E=\bigcup E_i $ i zbiory $ E_i $ też są parami rozłączne, więc wobec przeliczalnej addytywności miary $ \mu $, otrzymujemy \begin{align} \sum_{k=1}^\infty \inf_{A_k} f\cdot \mu (A_k) & = \sum_{k=1}^\infty \inf_{A_k} f\cdot \sum_{i=1}^\infty \mu(A_k\cap E_i) \notag \\ & \le \sum_{i=1}^\infty \biggl(\sum_{k=1}^\infty \inf_{A_k\cap E_i} f\cdot \mu(A_k\cap E_i)\biggr)\notag\\ & \le \sum_{i=1}^\infty \int_{E_i} f\, d\mu.(#) \end{align} Ostatnia nierówność wynika wprost z definicji całki: rodzina $ A_k\cap E_i $, $ k=1,2,\ldots, $ jest rozbiciem zbioru $ E_i $. Biorąc teraz kres górny względem wszystkich rozbić $ E=\bigcup_{k=1}^\infty A_k $, otrzymujemy $ \int f\,d\mu \le \sum_i \int_{E_i}f\, d\mu $. □

Ponieważ miara jest monotoniczną funkcją zbioru, więc natychmiast otrzymujemy następujący wniosek.

Wniosek Jeśli $ f $ jest mierzalna i nieujemna na zbiorze $ E\in \F $, to $ \int_{E_1} f\, d\mu\le \int_E f\, d\mu $ dla każdego zbioru mierzalnego $ E_1\subset E $. □
Wniosek Jeśli funkcje mierzalne $ f,g $ są nieujemne i równe prawie wszędzie na zbiorze $ E\in \F $, to $ \int_E f\, d\mu=\int_E g\, d\mu $.
Dowód: Zbiór $ A=\{f\not=g\} $ jest mierzalny i $ \mu(A)=0 $. Dlatego $ \int_A f\, d\mu=\int_A g\, d\mu =0 $ wobec Wniosku [link]. Na zbiorze $ E\setminus A $ jest $ f=g $, więc zachodzi oczywisty ciąg równości

\[ \int_E f\, d\mu = \int_{E\setminus A}   f\, d\mu + \int_A f\, d\mu  = \int_{E\setminus A}   f\, d\mu = \int_{E\setminus A}   g\, d\mu   =  \int_{E\setminus A}   g\, d\mu + \int_A g\, d\mu =  \int_E g\, d\mu. \]
Wniosek Jeśli $ f $ jest mierzalna i nieujemna na $ E $, a $ \int_E f\, d\mu=0 $, to $ f=0 $ prawie wszędzie na $ E $.
Dowód: Zbiór $ \{x\in X\colon f(x)>0\} $ jest sumą wstępującego ciągu zbiorów mierzalnych $ E_m=\{x\in X\colon f(x)\ge 1/m\} $, $ m=1,2,\ldots $ Dlatego

\[ 0\le \frac 1m \mu(E_m) \le \int_{E_m}f\, d\mu \le \int_E f\, d\mu = 0, \]

skąd $ \mu(E_m)=0 $, a następnie, na mocy Stwierdzenia [link](ii), $ \mu(E)=\lim \mu(E_m)=0 $. □

Całka Lebesgue'a jest wygodnym narzędziem m.in. z uwagi na bardzo ogólne twierdzenia o możliwości przechodzenia do granicy pod znakiem całki. Oto pierwsze z nich.

Twierdzenie [Lebesgue'a o zbieżności monotonicznej](#) Załóżmy, że ciąg funkcji mierzalnych $ f_j\colon X\to \overline \R $ jest niemalejący i wszystkie funkcje $ f_j $ są nieujemne na zbiorze $ E\in \F $. Wówczas

\[ \begin{equation} 	\int_E \big(\lim_{j\to\infty } f_j\big)\, d\mu= \lim_{j\to\infty }  \int_E f_j\, d\mu\, . \end{equation} \]
Dowód: Ciąg $ f_j $ jest niemalejący, więc $ f=\lim f_j $ jest dobrze określona w każdym punkcie przestrzeni $ X $, a także mierzalna na mocy Twierdzenia [link]. Ponadto, $ f_j\le f $ na $ E $ dla każdego indeksu $ j $, więc wobec monotoniczności całki

\[ \int_E f_j\, d\mu\le  \int_E f\, d\mu, \qquad j=1,2,\ldots \]

i dlatego w granicy

\[ \lim_{j\to\infty }  \int_E f_j\, d\mu\le  \int_E f\, d\mu=  \int_E  \lim_{j\to\infty } f_j\, d\mu\, . \]

Wystarczy więc udowodnić nierówność przeciwną. Oznaczmy w tym celu

\[ E_0=\{x\in E\colon f(x)=0\}, \quad E_+=\{x\in E\colon 0<f(x)<\infty\},\quad  E_\infty=\{x\in E\colon f(x)=+\infty\}.  \]

Zbiory $ E_0,E_+,E_\infty $ są parami rozłączne i mierzalne, a ich suma jest równa $ E $.

    Krok 1. Na zbiorze $ E_0 $ jest $ 0\le f_j(x)\le f(x)=0 $ dla każdego $ j\in \N $, tzn. $ f_j\equiv 0\equiv f $ na $ E_0 $ i dlatego $ \lim\int_{E_0}f_j\, d\mu= 0=\int_{E_0}f\, d\mu $.

    Krok 2. Zajmijmy się teraz zbiorem $ E_+ $. Niech $ \theta\in (0,1) $ i $ E_m=\{x\in E_+ \colon f_m(x)\ge \theta f(x)\} $. Dla każdego $ x\in E_+ $ jest $ f(x)=\lim f_j(x) >\theta f(x) $, a więc istnieje liczba $ m_x $ taka, że $ x\in E_m $ dla wszystkich $ m>m_x $. Zatem $ E_+=\bigcup_{m=1}^\infty E_m $, a wobec monotoniczności ciągu $ f_m $ ciąg zbiorów $ E_m $ jest wstępujący. Wobec Twierdzenia [link], $ \nu(A)=\int_A f\, d\mu $ jest miarą na $ \sigma $-ciele podzbiorów mierzalnych zbioru $ E $. Korzystając z monotoniczności całki i Stwierdzenia [link](ii) dla miary $ \nu $, otrzymujemy

\[ \nu(E_+)=\int_{E_+} f\, d\mu \ge \int_{E_+} f_m\, d\mu \ge \int_{E_m} \theta f \, d\mu=\theta \nu(E_m) \to \theta \nu(E_+) \qquad\mbox{dla $m\to \infty$.} \]

Zatem

\[ \int_{E_+}f\, d\mu\ge \lim_{m\to\infty} \int_{E_+} f_m\, d\mu  \ge \theta\int_{E_+} f\, d\mu \]

Biorąc $ \theta \to 1 $, otrzymujemy

\[ \int_{E_+}f\, d\mu= \lim_{m\to\infty} \int_{E_+} f_m\, d\mu\, . \]

    Krok 3. Wreszcie, zbadajmy zachowanie całek funkcji $ f,f_m $ na zbiorze $ E_\infty $. Ustalmy $ M<\infty $. Niech $ A_m=\{x\in E_\infty\colon f_m(x) \ge M\} $. Wtedy

\[ \int_{E_\infty}f\, d\mu\ge \int_{E_\infty} f_m\, d\mu\ge \int_{A_m}f_m\, d\mu \ge M\mu(A_m)  \]

Ciąg zbiorów $ A_m $ jest wstępujący, a jego suma to zbiór $ E_\infty $, więc, podobnie jak wcześniej,

\[ \int_{E_\infty}f\, d\mu\ge \lim_{m\to\infty}\int_{E_\infty} f_m\, d\mu \ge M\mu(E_\infty)\, . \]

Dla $ M\to \infty $ otrzymujemy więc (Czytelnik zechce pamiętać o umowie $ \infty \cdot 0=0 $, którą przyjmujemy w teorii miary i całki.)

\[ \int_{E_\infty}f\, d\mu\ge \lim_{m\to\infty}\int_{E_\infty} f_m\, d\mu \ge\infty\cdot \mu(E_\infty) =\int_{E_\infty} f\, d\mu\, . \]

Dodając otrzymane wyżej nierówności, przekonujemy się, że

\[ \begin{align*} \lim_{m\to\infty}\int_E f_m\, d\mu &= \lim_{m\to\infty}\biggl(  \int_{E_0} f_m\, d\mu +\int_{E_+} f_m\, d\mu+\int_{E_\infty} f_m\, d\mu  \biggr) \\ &\ge \int_{E_0} f\, d\mu  +    \int_{E_+} f\, d\mu   + \int_{E_\infty} f\, d\mu =\int_E f\,d\mu. \end{align*} \]

Dowód twierdzenia o zbieżności monotonicznej jest zakończony. □

Stwierdzenie [liniowość całki] Dla wszystkich $ \alpha,\beta\ge 0 $ i wszystkich funkcji mierzalnych $ f,g $, nieujemnych na zbiorze $ E\in \F $, zachodzi wzór

\[ 	\int_E(\alpha f+\beta g)\, d\mu =\alpha \int_E f\, d\mu + \beta\int_E g\, d\mu. 	\]
Dowód: Z uwagi na równość calkaaf, wystarczy przeprowadzić dowód w szczególnym przypadku $ \alpha=1=\beta $. Ponadto, ponieważ wobec Twierdzenia [link] każda nieujemna funkcja mierzalna jest granicą niemalejącego ciągu funkcji prostych, więc z uwagi na twierdzenie Lebesgue'a o zbieżności monotonicznej wystarczy ograniczyć się do sytuacji, gdy $ f,g $ są funkcjami prostymi.

Z Twierdzenia [link] wynika, że całka z nieujemnej funkcji prostej $ h=\sum_{j=1}^N c_j\charfn_{C_j} $, gdzie zbiory $ C_j $ są mierzalne i parami rozłączne, a stałe $ c_j\ge 0 $ dla wszystkich $ j $, jest równa

\[ \sum_{j=1}^N\int_{C_j} h\, d\mu = \sum_{j=1}^N c_j \mu(C_j)\, . \]

Niech więc $ f=\sum_{j=1}^m {a_j}\charfn_{A_j} $, $ g=\sum_{i=1}^l {b_i}\charfn_{B_i} $, gdzie $ E=\bigcup_{j=1}^m A_j = \bigcup_{i=1}^l B_i $ (w każdej z tych sum zbiory są mierzalne i parami rozłączne). Wtedy $ f+g=a_j+b_i $ na $ A_j\cap B_i $, a zbiór $ E $ jest rozłączną sumą iloczynów $ A_j\cap B_i $. Dlatego na mocy Twierdzenia [link]

\[ \begin{align*} \int_E (f+g)\, d\mu & = \int_{\bigcup (A_j \cap B_i)} (f+g)\, d\mu   = \sum_{j=1}^k\sum_{i=1}^l \int_{A_j \cap B_i}  (f+g)\, d\mu \\ & =  \sum_{j=1}^k\sum_{i=1}^l (a_j+b_i) \mu({A_j \cap B_i})    \\ & =  \sum_{j=1}^k a_j \biggl(\sum_{i=1}^l\mu({A_j \cap B_i})\biggr)    +   \sum_{i=1}^l b_i \biggl( \sum_{j=1}^k \mu({A_j \cap B_i}) \biggr) \\ & = \sum_{j=1}^k a_j \mu({A_j })    +   \sum_{i=1}^l b_i   \mu({ B_i}) =\int_E f\, d\mu + \int_E g\, d\mu\, .    \end{align*} \]

Zamiana zmiennych. Twierdzenie Fubiniego

Podamy teraz dwa bardzo ważne twierdzenia, które w połączeniu z Twierdzeniem [link] umożliwiają obliczanie wielu całek. Pierwsze z nich, twierdzenie o zamianie zmiennych, jest naturalnym uogólnieniem Twierdzenia [link] (o mierze liniowego obrazu zbioru mierzalnego) na przypadek odwzorowań nieliniowych. Twierdzenie Fubiniego orzeka natomiast, że całkę z funkcji wielu zmiennych $ \xx=(x_1,\ldots, x_n) $ całkowalnej względem miary Lebesgue'a można obliczać, całkując kolejno względem zmiennych $ x_k $ imiary Lebesgue'a $ d\lambda_1(x_k) $ (a kolejność całkowań nie ma wpływu na wynik).

Podamy najpierw ścisłe sformułowania obu twierdzeń, następnie zaś omówimy kilka przykładów ich zastosowań.

Twierdzenie [o zamianie zmiennych](#) Niech $ \Omega\subset\R^n $ będzie zbiorem otwartym, a $ \Phi\colon \Omega\to \Phi(\Omega)\subset \R^n $ dyfeomorfizmem klasy $ C^1 $ zbioru $ \Omega $ na $ \Phi(\Omega) $. Załóżmy, że $ f $ jest funkcją całkowalną (lub mierzalną i nieujemną) względem miary Lebesgue'a $ \lambda_n $ na $ \Phi(\Omega) $. Wtedy $ (f\circ\Phi)\cdot |\det D\Phi| $ jest całkowalna (odpowiednio, mierzalna i nieujemna) na zbiorze $ \Omega $ i zachodzi równość

\[ \begin{equation} 	\int_{\Phi(\Omega)} f\, d\lambda_n = \int_\Omega (f\circ\Phi)\cdot |\det D\Phi|\,\, d\lambda_n\, . \label{rown-zamiana} \end{equation} \]

Biorąc $ f=\charfn_{\Phi(E)} $, gdzie $ E\subset \Omega $ jest zbiorem mierzalnym, otrzymujemy

Wniosek Jeśli $ \Omega\subset\R^n $ jest zbiorem otwartym, a $ \Phi\colon \Omega\to \Phi(\Omega)\subset \R^n $ dyfeomorfizmem klasy $ C^1 $, to

\[ \begin{equation} 	\label{m-dyfobr}      	\lambda_n\big(\Phi(E)\big)=\int_E |\det D\Phi|\,\, d\lambda_n  \end{equation} \]

dla każdego zbioru mierzalnego $ E\subset \Omega $.

Twierdzenie [Fubiniego](#) Niech $ f\colon \R^{n+m}=\R^n\times\R^m\to\overline \R $ będzie funkcją całkowalną (lub mierzalną w sensie Lebesgue'a i nieujemną). Wówczas:

  1. Dla $ \lambda_n $-prawie wszystkich $ \xx\in\R^n $ i $ \lambda_m $-prawie wszystkich $ \yy\in \R^m $ funkcje $ f_{\mxx}(\yy):=f(\xx,\yy) $ oraz $ f^{\myy}(\xx):=f(\xx,\yy) $ są mierzalne odpowiednio względem $ \Leb(\R^m) $ i $ \Leb(\R^n) $;
  2. Funkcje
    \[ 		\R^n\ni \xx\longmapsto \int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)\in\overline\R\, , \qquad \R^m\ni \yy\longmapsto \int_{\R^n} f(\xx,\yy)\, d\lambda_n(\xx)\in\overline\R 		\]

    są mierzalne odpowiednio względem $ \sigma $-ciał $ \Leb(\R^n) $ i $ \Leb(\R^m) $;

  3. Zachodzą równości
    \[ \begin{equation}  	\label{row:Fubini} 	\begin{split} 		\int_{\R^{n+m}} f\, d\lambda_{n+m} &= \int_{\R^n} \biggl(\int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx)\\      	  &= \int_{\R^m} \biggl(\int_{\R^n} f(\xx,\yy)\, d\lambda_n(\xx)\biggr)\, d\lambda_m(\yy) \, .         	\end{split} \end{equation} \]

    Uwaga. Dla $ m=n=1 $ i $ f=\charfn_P $, gdzie $ P $ jest przedziałem w $ \R^2 $, row:Fubini to po prostu wzór na pole prostokąta. Dla $ f=\charfn_{A\times B} $, gdzie $ A\in \Leb(\R^n) $ i $ B\in \Leb(\R^m) $, równość row:Fubini przybiera postać

\[ \lambda_{n+m}(A\times B)  =\int_{\R^{n+m}} \charfn_{A\times B} d\lambda_{n+m}  = \int_A \biggl(\int_B 1\, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx)=\lambda_n(A)\lambda_m(B)\, . \]

W Twierdzeniu [link] wykazaliśmy, że faktycznie tak jest.

Dowody obu twierdzeń na razie odłożymy i wskażemy kilka przykładów zastosowań.

Przykład Niech $ \Omega=\{(x,y)\in \R^2\colon 0<x<y<1\} $ i $ f(x,y)=x^2 y $. Obliczymy całkę $ \int_\Omega f\, d\lambda_2 $, korzystając z twierdzenia Fubiniego i związku między całkami Lebesgue'a iRiemanna. Czytelnik zechce naszkicować trójkąt $ \Omega $ i prześledzić rachunki, patrząc na rysunek. Otóż,

\[ \begin{align*}  \int_\Omega  f\, d\lambda_2 = \int_{\R^2} \charfn_\Omega\cdot f\, d\lambda_2 &=\int_{\R} \biggl(\int_{\R} \charfn_\Omega\cdot f \, d\lambda_1(x)\biggr)\, d\lambda_1(y) \\  &= \int_0^1 \biggl(\int_0^yx^2 y\, dx \biggr) dy\\   &= \int_0^1 y\biggl(\int_0^yx^2\, dx \biggr) dy\\    &= \int_0^1 y\cdot  \biggl. \frac{x^3}3\biggr|_0^y  \,\, dy = \frac{1}{3}\int_0^1 y^4\, dy= \frac 13 \cdot \biggl. \frac{y^5}{5}\, dx \biggr|_0^y = \frac 1{15}\, .  \end{align*} \]

Całkując najpierw względem $ y $, potem zaś względem $ x $, otrzymujemy

\[ \begin{align*}  \int_\Omega  f\, d\lambda_2 = \int_{\R^2} \charfn_\Omega\cdot f\, d\lambda_2 &=\int_{\R} \biggl(\int_{\R} \charfn_\Omega\cdot f  \,   d\lambda_1(y)\biggr)\, d\lambda_1(x) \\  &= \int_0^1 x^2\biggl(\int_x^1  y\, dy \biggr)\, dx \\ &= \frac{1}{2}\int_0^1 x^2\biggl(1-x^2\biggr)\, dx  = \bigg(\frac{x^3}{6}-\frac{x^5}{10}\bigg)\bigg|_0^1  =\frac{1}{15}\, . \end{align*} \]

Zgodnie z twierdzeniem Fubiniego, wynik jest za każdym razem taki sam. □

Przykład Pokażemy, że założenie całkowalności $ f $ w twierdzeniu Fubiniego jest istotne. Wybierzmy ciąg liczb $ 0=a_0<a_1<a_2<a_3<\ldots < 1 $, $ \lim a_j=1 $. Dla $ j\in \N $ niech $ g_j\colon [0,1]\to [0,\infty) $ będzie funkcją ciągłą na $ [0,1] $ (np. kawałkami liniową), znikającą poza przedziałem $ I_j=[a_{j-1},a_j] $ i taką, że całka $ \int_0^1 g_j(x)\, dx =1 $. Połóżmy

\[ f(x,y)=\sum_{j=1}^\infty \big(g_j(x)-g_{j+1}(x)\big)g_j(y)\, , \qquad (x,y)\in [0,1]^2.   \]

Zauważmy, że dla każdego punktu $ (x,y)\in [0,1]^2 $ szereg, określający $ f $, ma co najwyżej jeden\/ składnik niezerowy (trzeba dobrać $ j_0 $ tak, aby $ y\in [a_{j_0-1},a_{j_0}] $; dla $ j\not= j_0 $ jest $ g_j(y)=0 $). Dlatego $ f $ jest dobrze określoną funkcją mierzalną.

Nietrudno zauważyć (proszę na rysunku zaznaczyć w kwadracie $ [0,1]^2 $ zbiór, gdzie funkcja $ f\not=0 $, a następnie zbadać całki z $ f $ po odcinkach $ x=\mathrm{const} $ i $ y=\mathrm{const} $), że

\[ \int_0^1\biggl(\int_0^1f(x,y)\,d\lambda_1 (x)\biggr)\, d\lambda_1(y) =\sum_{j=1}^\infty\int_{I_j} g_j(y) \biggl(\int_0^1 \big(g_j(x)-g_{j+1}(x)\big)\, dx\biggr) \, dy = 0, \]

jednak

\[ \int_0^1\biggl(\int_0^1f(x,y)\,d\lambda_1 (y)\biggr)\, d\lambda_1(x) =\sum_{j=1}^\infty\int_{I_j} \biggl(\int_0^1 f(x,y) \, dy\biggr) \, dx = \int_{I_1}\int_{I_1} g_1(x)g_1(y)\,dx\, dy= 1. \]

Wyniki są różne, gdyż $ \int_{[0,1]^2}|f|\, d\lambda_2=\infty $, tzn. $ f $ nie jest całkowalna na kwadracie $ [0,1]^2 $.□

Przykład Sprawdzimy, że $ \int_\R \exp(-x^2)\, dx=\sqrt{\pi} $. Oznaczmy tę całkę literą $ I $. Z twierdzenia Fubiniego

\[ I^2=\int_\R \exp(-x^2)\, dx\cdot \int_\R \exp(-y^2)\, dy = \int_{\R^2} \exp(-x^2-y^2)\, d\lambda_2(x,y)\, .  \]

Wprowadzimy teraz zmienne biegunowe w $ \R^2 $. Niech

\[ (0,\infty)\times (0,2\pi)\ni (r,\theta)\ \longmapsto\  \Phi(r,\theta)=(r\cos\theta,r\sin\theta)\in \Phi(\Omega)=\R^2 \setminus \Big([0,\infty)\times \{0\}\Big)\, ;       \]

przekształcenie $ \Phi $ jest dyfeomorfizmem pasa $ \Omega=(0,\infty)\times (0,2\pi) $; uzupełnienie $ \R^2\setminus \Phi(\Omega) $ obrazu tego pasa jest półprostą, a więc ma miarę Lebesgue'a równą zero. Ponadto

\[ \det D\Phi(r,\theta)= \det \begin{pmatrix} \cos \theta & -r\sin\theta \\ \sin\theta & r\cos \theta \end{pmatrix} = r\, . \]

Dlatego, na mocy wzoru rown-zamiana i twierdzenia Fubiniego,

\[ \begin{multline*} 	I^2  	    = \int_{\Phi(\Omega)}  \exp(-x^2-y^2)\, d\lambda_2(x,y) 	    = \int_\Omega \exp(-r^2)\cdot r \, d\lambda_2(r,\theta)\\         = \int_0^\infty e^{-r^2}r\bigg(\int_0^{2\pi} 1\, d\theta\bigg)\, dr = 2\pi \cdot \int_0^\infty e^{-r^2}r\, dr=\pi \cdot  \left(-{e^{-r^2}}\right)\bigg|_0^\infty  =\pi. \end{multline*} \]

Przykład Obliczymy miarę Lebesgue'a kuli $ B(x,r)\subset\R^n $. Z uwagi na niezmienniczość miary Lebesgue'a względem przesunięć i Twierdzenie [link],

\[ \begin{equation} 		\label{kular} 	   \lambda_n\big(B(x,r)\big)=\lambda_n\big(B(0,r)\big)= |\det (r\cdot \mathrm{Id})|\cdot \lambda_n(B(0,1))=r^n\cdot \, \lambda_n(B(0,1)).  \end{equation} \]

Wystarczy więc obliczyć

\[ \begin{equation} 	\omega_n:=\lambda_n(B(0,1))\, . \end{equation} \]
Twierdzenie (#) Dla $ n=1,2,\ldots $ zachodzi wzór

\[ \begin{equation} 		\label{on}       		\omega_n=\frac{\pi^{n/2}}{\Gamma((n+2)/2)}    \end{equation} \]

gdzie

\[ \Gamma(\lambda)=\int_0^\infty t^{\lambda-1} e^{-t}\, dt  \]

jest funkcją gamma Eulera.

Dowód: Przekrój kuli $ B^n(0,1)\subset\R^n $ `płaszczyzną' afiniczną $ \{\xx\in \R^n \colon x_n=t\} $ jest $ (n-1) $-wymiarową kulą o promieniu $ (1-t^2)^{1/2} $. Dlatego z twierdzenia Fubiniego i wzoru kular wynika, że

\[ \omega_n = \int_{\R^n} \charfn_{B^n(0,1)} \, d\lambda_n = \int_{-1}^1 \omega_{n-1} (1-t^2)^{(n-1)/2}\, dt= 2\omega_{n-1} \int_{0}^1 (1-t^2)^{(n-1)/2}\, dt\, . \]

Dokonując teraz zamiany zmiennych $ s=t^2 $, $ dt =(\sqrt{s})'\, ds=\frac 12 s^{-1/2} \, ds $, otrzymujemy zależność rekurencyjną

\[ \begin{equation} 	\omega_n = \omega_{n-1} \int_0^1 (1-s)^{\frac{n+1}2-1}s^{\frac 12 - 1}\, ds =\omega_{n-1}\, \cdot \,  B\Big(\frac{n+1}2, \frac 12\Big)\, ,  \label{ononp1} \end{equation} \]

w której

\[ B(a,b)=\int_0^1 (1-s)^{a-1} s^{b-1}\, ds, \qquad a,b>0 \]

oznacza funkcję beta Eulera. Wiadomo (patrz wykłady Analizy Matematycznej zIroku, podrozdział10.2), że

\[ B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}, \qquad \Gamma(a+1)=a\Gamma(a), \qquad \Gamma(\tfrac 12) = \sqrt{\pi}\, , \qquad \Gamma(n)=(n-1)! \quad\mbox{dla $n\in \N$.} \]

Zatem rekurencję ononp1 można zapisać jako

\[ \begin{equation} 	\label{rekur-omega} 	\omega_n=\omega_{n-1}\cdot \pi^{1/2} \cdot \frac{\Gamma\big((n+1)/2\big)}{\Gamma\big((n+2)/2\big)}\, .       \end{equation} \]

Wzór on zachodzi dla $ n=1 $, gdyż

\[ \omega_1=\lambda_1\big((-1,1)\big)= 2 = \frac{\pi^{1/2}}{\frac 12 \pi^{1/2}}= \frac{\pi^{1/2}}{\frac 12 \Gamma(\frac 12)}=\frac{\pi^{1/2}}{\Gamma(3/2)}\, ; \]

dlatego teza twierdzenia łatwo wynika z rekur-omega przez indukcję. □

Dla $ n=2 $ i $ n=3 $ wzór on implikuje znane Czytelnikowi zależności

\[ \omega_2=\frac{\pi^{2/2}}{\Gamma(4/2)}=\frac{\pi}{(2-1)!}=\pi, \qquad \omega_3 = \frac{\pi^{3/2}}{\Gamma(5/2)}=\frac{\pi\sqrt{\pi}}{\frac 32 \cdot \frac 12 \cdot \Gamma\big(\frac 12 \big)}= \frac 43 \pi\, . \]
Uwaga Całkę $ \int_0^1 (1-t^2)^{(n-1)/2}\, dt $ można obliczyć różnymi sposobami, niekoniecznie odwołując się do funkcji $ \Gamma $ i $ B $ Eulera. Można np. podstawić $ t=\cos y $, $ y\in (0,\frac \pi 2) $ i potem przez części obliczać całki z potęg sinusa.

Ponadto, miarę $ \omega_n $ kuli $ B^n(0,1) $ można obliczyć inaczej, np. całkując we współrzędnych biegunowych w $ \R^n $. Czytelnik zechce rozwiązać następujące zadanie.

Zadanie Niech, dla $ r>0 $, $ \theta_2\in (0,2\pi) $ i $ |\theta_1|<\frac \pi 2 $,

\[ 	x=r\cos\theta_1 \cos \theta_2\, , \qquad y=r \cos\theta_1 \sin\theta_2\, , \qquad z=r \sin\theta_1\, . 	\]

Proszę sprawdzić, że przekształcenie $ \varphi\colon (r,\theta_1,\theta_2)\mapsto (x,y,z) $ określone powyższymi wzorami jest dyfeomorfizmem przedziału $ (0,1)\times (0,2\pi)\times (-\frac \pi 2, \frac \pi 2)\subset \R^3 $ na podzbiór otwarty pełnej miary w kuli $ B(0,1)\subset \R^3 $. Obliczyć wyznacznik macierzy Jacobiego tego dyfeomorfizmu i objętość kuli.

Dowód twierdzenia o zamianie zmiennych

Idea dowodu jest prosta: rozkłada się dziedzinę $ \Omega $ dyfeomorfizmu $ \Phi\colon \Omega\to \Phi(\Omega)\subset\R^n $ na drobne, parami rozłączne zbiory borelowskie, tak, aby na każdym z nich różniczka $ D\Phi $ tego dyfeomorfizmu była niemalże stała, równa z góry zadanemu automorfizmowi liniowemu przestrzeni $ \R^n $, z dokładnością do ustalonego marginesu błędu. Następnie, korzysta się zTwierdzenia [link] (o mierze liniowego obrazu zbioru mierzalnego), sumuje otrzymane wyniki i przechodzi do granicy z marginesem błędu.

Szczegóły wymagają pewnej staranności.

Lemat [o rozkładzie dziedziny dyfeomorfizmu](#) Jeśli $ \Phi\colon \R^n\supset \Omega\to \Phi(\Omega)\subset \R^n $ jest dyfeomorfizmem, a $ c>1 $ ustaloną liczbą, to dla $ j=1,2,\ldots $ istnieją zbiory otwarte $ U_j\subset \Omega $, których domknięcia $ \overline U_j $ są zwarte i $ \overline U_j\subset \Omega $ dla $ j\in \N $, oraz automorfizmy liniowe $ s_j\in GL(n,\R) $ przestrzeni $ \R^n $, które spełniają następujące warunki:

    {{\rm(\roman{enumi})}}

  1. $ \Omega=\bigcup_{j=1}^\infty U_j $;
  2. Zachodzą nierówności
    \[ \begin{equation} 			\label{det-z-dolu} |\det D\Phi(\xx)|\ge \frac 1c |\det s_j| \qquad\mbox{dla $\xx\in U_j$, $j=1,2,\ldots$} 	\end{equation} \]
  3. Dla każdego zbioru mierzalnego $ A\subset U_j $, gdzie $ j=1,2,\ldots $, zbiór $ \Phi(A) $ jest mierzalny, a ponadto
    \[ \begin{equation}  	  \label{niermiara} 	  \lambda_n(A) |\det s_j| \ge \frac 1c \lambda_n(\Phi(A)). \end{equation} \]

Intuicja jest prosta: $ U_i $ to zbiór tych punktów $ \xx $, dla których $ D\Phi(\xx)\approx s_i $, gdzie $ s_i $ są automorfizmami, wybieranymi z pewnego przeliczalnego, gęstego w $ GL(n,\R) $ podzbioru automorfizmów liniowych $ \R^n $. Liczba $ c>1 $ służy do kontroli błędu przybliżenia i wynikających zeń oszacowań det-z-dolu- niermiara. Dowód tego lematu zawiera kluczowe trudności dowodu twierdzenia o zamianie zmiennych.

    Dowód Lematu [link] Ustalmy $ c>1 $. Wybierzmy przeliczalny gęsty podzbiór $ \mathbb{S}\subset GL(n,\R) $; można np. wziąć wszystkie automorfizmy liniowe, których macierze w standardiowej bazie mają tylko wyrazy wymierne. Ustalmy automorfizm $ s\in \mathbb{S} $ i liczbę $ m\in \N $. Niech $ \eps>0 $ będzie małą liczbą, której wartość dobierzemy do $ c,s,n $ później.

Niech $ k>m $, $ k\in \N $. Określmy $ Z(s,m,k) $ jako zbiór tych punktów $ \xx\in \Omega $, dla których spełnione są trzy warunki, zsm-1- zsm-3 niżej: po pierwsze,

\[ \begin{equation} \dist (\xx, \R^n\setminus \Omega)>\frac 1m \qquad \mbox{oraz} \qquad \|\xx\|<m\, ,\label{zsm-1}      \end{equation} \]

a ponadto dla $ A=D\Phi(\xx) $ jest

\[ \begin{gather}  \big\|A\circ s^{-1}-\mathrm{Id}\big\|  +\big\|s^{-1}\circ A -\mathrm{Id}\big\|     +  \big\| s\circ A^{-1}-\mathrm{Id}\big\| + \big\| A^{-1} \circ  s  -\mathrm{Id}\big\| < \eps\, , \label{zsm-2}\\ \frac{\|\Phi(\xx+\vv)-\Phi(\xx)-D\Phi(\xx) \vv\|}{\|\vv\|} < {\eps} \quad\mbox{dla wszystkich $\zero\not=\vv\in B(\zero,1/k)$,}\label{zsm-3} \end{gather} \]

Następnie, niech $ Z(s,m)=\bigcup_{k>m} Z(s,m,k) $. Jest to zbiór otwarty\/: jeśli $ \xx\in Z(s,m) $, to warunki zsm-1- zsm-2 zachodzą w pewnej kuli wokół $ \xx $, gdyż nierówności są ostre, a $ \Phi $ jest dyfeomorfizmem klasy $ C^1 $. Jeśli warunek zsm-3 jest spełniony w punkcie $ \xx $ dla liczby $ k>m $, to jest spełniony na małej kuli wokół $ \xx $ dla pewnej liczby $ k_1>k $; nietrudno to uzasadnić, korzystając np. z ciągłości lewej strony nierówności zsm-3 jako funkcji pary zmiennych $ \xx,\vv $ (dla $ \vv=\zero $ oczywiście przyjmujemy wartość 0). (Osoby zainteresowane dogłębnym rozumieniem wykładu proszone są o uzupełnienie szczegółów.)

Ponieważ $ \Phi\in C^1 $, więc rodzina wszystkich $ Z(s,m) $ pokrywa zbiór $ \Omega $, a domknięcia zbiorów $ Z(s,m) $ są zwartymi podzbiorami $ \Omega $. Na zbiorze $ Z(s,m) $ funkcja $ \Phi $ nie tylko jest dyfeomorfizmem, ale spełnia warunek Lipschitza na każdej zawartej w nim kuli; stąd wynika, że dla mierzalnych $ A\subset Z(s,m) $ zbiór $ \Phi(A) $ jest mierzalny. (Proszę sprawdzić, że lipschitzowski obraz zbioru miary zero jest zbiorem miary zero, a homeomorficzny obraz zbioru borelowskiego jest borelowski.)

Z oszacowań normy zsm-2 otrzymujemy

\[ \begin{equation} 	\label{DP-s} 	\|D\Phi(\xx)\ww - s(\ww)\|\le \eps \|s(\ww)\|, \qquad    \| s(\ww)-D\Phi(\xx)\ww \|\le \eps \|D\Phi(\xx)(\ww)\| \end{equation} \]

dla $ \xx\in Z(s,m) $ i wszystkich $ \ww\in\R^n $. Stąd i z zsm-2 wynika, że obraz kuli $ B=B(0,1) $ pod działaniem przekształceń liniowych $ D\Phi(\xx) $ i $ s $ spełnia dla każdego $ \xx\in Z(s,m) $ zależności

\[ \begin{equation} 	D\Phi(\xx)(B)\subset (1+\eps)\cdot s(B), \qquad s(B)\subset (1+\eps)\cdot D\Phi(\xx)(B), \end{equation} \]

gdzie $ (1+\eps)\cdot X $ oznacza obraz zbioru $ X $ w jednokładności o środku w zerze i skali $ 1+\eps $. ZTwierdzenia [link] o mierze obrazu liniowego zbioru mierzalnego otrzymujemy więc

\[ \begin{equation} \frac{|\det s|}{(1+\eps)^n}	\le |\det D\Phi(\xx)|\le (1+\eps)^n |\det s|,  \qquad \xx\in Z(s,m). \end{equation} \]

Zatem dla $ 1<(1+\eps)^n\le c $ przeliczalna rodzina zbiorów $ Z(s,m) $ spełnia tezę lematu, za wyjątkiem warunku (iii), którego jeszcze nie sprawdziliśmy.

Dalej pracujemy przy ustalonych $ s $ i $ m $. Wybierzmy jeszcze $ M>1 $ tak, aby

\[ \begin{equation} 	\label{wyborM}  	 \qquad \|s\| + \|s^{-1}\| < M.   \end{equation} \]

Ustalmy $ k>m $. Oszacujemy miarę zbioru $ f(Z(s,m,k)\cap U) $, gdzie $ U $ jest dowolnym otwartym podzbiorem $ Z(s,m) $. Przedstawmy $ U $ jako sumę małych kostek domkniętych o wnętrzach parami rozłącznych. Niech $ Q $ będzie jedną z tych kostek, o krawędzi $ d\ll  1/k $. Wybierzmy $ \xx\in Z(s,m,k)\cap Q $. Porównamy wielkość zbiorów $ \Phi(Q) $ i $ s(Q) $. Niech $ \yy\in Q $ będzie dowolnym punktem. Z nierówności trójkąta,

\[ \begin{eqnarray*} \|\Phi(\yy)-\Phi(\xx) - s(\yy-\xx)\| & \le &  \|\Phi(\yy)- \Phi(\xx)  - D\Phi(\xx)(\yy-\xx)\|\\ & & {} +\|(D\Phi(\xx)-s)(\yy-\xx)\|\\ &\le & \eps\|\yy-\xx\| +\eps \|s(\yy-\xx_0)\| \qquad\mbox{wobec \eqref{zsm-3} i \eqref{DP-s}}\\ & \stackrel{\eqref{wyborM}}\le & 2\eps M \|\yy-\xx_0\|\le 2\eps M d\sqrt{n} .    \end{eqnarray*} \]

Zatem $ \Phi(\yy)-\Phi(\xx) - s(\yy-\xx)=\ww=s(\zz) $ dla punktu $ \zz $ takiego, że

\[\|\zz\|\le \|s^{-1}\|\cdot \|\ww\| \le 2\eps  M^2d\sqrt{n} \, .\]

Punkt $ \yy+\zz $ należy więc do kostki $ Q' $ współśrodkowej z $ Q $ i mającej krawędź $ d'=d+ 2\cdot 2\eps  M^2d\sqrt{n} $. Jest $ d' < c^{1/n} d $, gdy do ustalonych $ M>1 $ i $ c>1 $ dobierzemy $ \eps>0 $ dostatecznie małe. Punkt $ \Phi(\yy)= \Phi(\xx)-s(\xx)+ s(\yy+\zz)=\pp + s(\yy+\zz) $ należy do przesuniętego o ustalony wektor $ \pp $ obrazu zbioru $ s( Q') $. Stąd

\[ \lambda_n(\Phi(Q))\le\lambda_n( s(Q'))=|\det s|\cdot \lambda_n(Q') \le c \cdot |\det s|\cdot  \lambda_n(Q). \]

Sumując takie oszacowania, otrzymujemy

\[ \lambda_n(\Phi(Z(s,m,k)\cap U))\le  c \cdot |\det s|\cdot  \lambda_n(U), \qquad U\subset Z(m,s) \]

a następnie, przechodząc do granicy $ k\to \infty $ (zbiory $ Z(s,m,k) $ tworzą ciąg wstępujący!),

\[ \lambda_n(\Phi(U))\le  c \cdot |\det s|\cdot  \lambda_n(U)  \]

dla otwartych podzbiorów $ U\subset Z(s,m) $. Stąd już łatwo uzyskać warunek (iii) tezy lematu najpierw dla zbiorów borelowskich typu $ G_\delta $, potem zaś dla wszystkich mierzalnych. □

     Uwaga. Drugą część dowodu tego lematu można nieco uprościć; trzeba w tym celu wykazać, że na odpowiednio drobnych podzbiorach zbioru $ Z(s,m,k) $ funkcja $ \Phi\circ s^{-1} $ spełnia warunek Lipschitza ze stałą $ \theta $ odpowiednio bliską 1 (co jest dość łatwe) i wiedzieć, że wtedy $ \lambda_n(\Phi(Q))\le \theta^n \lambda_n(Q) $. Intuicyjnie to w miarę jasne, ale dowód nie jest zupełnie trywialny.

    Dowód twierdzenia o zamianie zmiennych. Wystarczy przeprowadzić dowód dla funkcji mierzalnych, nieujemnych; dla funkcji całkowalnych dowolnego znaku twierdzenie wyniknie stąd natychmiast. Ustalmy zbiór mierzalny $ E\subset \Omega $ i liczbę $ c>1 $. Niech $ U_i $ oraz $ s_i $ oznaczają zbiory iprzekształcenia z Lematu [link]. Biorąc $ A_1=U_1 $ i $ A_j=U_j\setminus (A_1\cup\ldots\cup A_{j-1}) $ dla $ j\ge 2 $, otrzymujemy rodzinę zbiorów borelowskich, parami rozłącznych, pokrywającą $ \Omega $. Jest

\[ E= \bigcup_{i=1}^\infty (E\cap A_i), \qquad \Phi(E)=\bigcup_{i=1}^\infty \Phi(E\cap A_i)\, ; \]

z Lematu [link] wynika, że wszystkie zbiory wyżej są mierzalne. Wobec addytywności całki i nierówności det-z-dolu- niermiara,

\[ \begin{align*} \int_E |\det D\Phi|\, d\lambda_n &= \sum_{i=1}^\infty \int_{E\cap A_i} |\det D\Phi|\, d\lambda_n \\ &\ge \frac 1c \sum_{i=1}^\infty |\det(s_i)|\cdot \lambda_n(E\cap A_i) \ge  \frac{1}{c^2}   \sum_{i=1}^\infty  \lambda_n\big(\Phi(E\cap A_i)\big) = \frac{1}{c^2}\lambda_n(\Phi(E)). \end{align*} \]

Przechodząc do granicy $ c\to 1 $, otrzymujemy stąd

\[ \begin{equation} \int_E |\det D\Phi|\, d\lambda_n\ge \lambda_n(\Phi(E))\, , 	 \end{equation} \]

lub równoważnie,

\[ \begin{equation} \label{prenierP} \int_\Omega (f\circ\Phi)\cdot |\det D\Phi|\, d\lambda_n \ge \int_{\Phi(\Omega)} f\, d\lambda_n\, ,	 \end{equation} \]

gdzie $ f=\charfn_{\Phi(E)} $ jest funkcją charakterysteryczną zbioru $ \Phi(E) $. Wobec liniowości całki, prenierP zachodzi nie tylko dla funkcji charakterystycznych, ale i dla wszystkich nieujemnych funkcji prostych. Z Twierdzenia [link] (Lebesgue'a o zbieżności monotonicznej) wynika natychmiast, że nierówność prenierP ma miejsce dla każdej funkcji mierzalnej $ f $ nieujemnej na $ \Phi(\Omega) $.

Dyfeomorfizm $ \Phi $ i zbiór otwarty $ \Omega $ też mogą być dowolne. Z tego teraz skorzystamy. Zapiszmy prenierP dla zbioru $ V=\Phi(\Omega) $, dyfeomorfizmu $ \Psi=\Phi^{-1}\colon V\to \Omega=\Psi(V) $, oraz funkcji

\[ g=(f\circ \Phi)\cdot |\det D\Phi|, \qquad g\ge 0 \quad\mbox{na $\Omega=\Psi(V)$}. \]

Otrzymamy

\[ \begin{equation} 	\label{odwrotka}    	\int_V (g\circ\Psi)\cdot |\det D\Psi|\, d\lambda_n \ge \int_{\Psi(V)} g\, d\lambda_n= \int_\Omega (f\circ \Phi)\cdot |\det D\Phi|\, d\lambda_n \, .        \end{equation} \]

Uprośćmy funkcję podcałkową po lewej stronie. Jest

\[ \begin{align*} (g\circ \Psi)(\xx)\cdot  |\det D\Psi(\xx)| & =  f\big(\Phi(\Psi(\xx))\big) \cdot \big|\det D\Phi\big(\Psi (\xx)\big)\big| \cdot  |\det D\Psi(\xx)|  \\ & =  f\big(\xx)\big) \cdot \Big|\det\big( D\Phi(\Psi (\xx))\cdot D\Psi(\xx) \big)\Big| \\ & =  f\big(\xx)\big) \cdot \Big|\det\big( D(\Phi\circ\Psi)(\xx)\big)\Big| = f(\xx)\, , \qquad \mbox{gdyż $\Phi\circ \Psi=\mathrm{Id}$.}   \end{align*} \]

Dlatego odwrotka jest w istocie nierównością przeciwną do prenierP. Znak nierówności można więc w obu warunkach zastąpić znakiem równości! Dowód twierdzenia o zmianie zmiennych jest zakończony. □

Dowód twierdzenia Fubiniego

%\texttt{- poczeka spokojnie do semestru letniego.}

Dowód Twierdzenia [link] przeprowadzimy dla funkcji mierzalnych, nieujemnych. Wersja dla funkcji całkowalnych wynika stąd łatwo; zainteresowany Czytelnik sam zechce uzupełnić odpowiednie szczegóły.

Podzielimy rozumowanie na kilka kroków, stopniowo poszerzając klasę funkcji, dla których zachodzą poszczególne części tezy. Będziemy dowodzić tylko pierwszej z równości row:Fubini i tych fragmentów pierwszego i drugiego punktu tezy, które są niezbędne do nadania sensu tej równości, tzn. mierzalności prawie wszystkich funkcji $ f_{\mxx}(\yy)=f(\xx,\yy) $ względem $ \sigma $-ciała $ \Leb(\R^m) $ i mierzalności funkcji

\[ \R^n\ni \xx\longmapsto \int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)\in\overline\R\, , \]

będących całkami $ f_{\mxx} $ względem $ \lambda_m $. Aby uzyskać drugą z równości row:Fubini i pozostałe fragmenty pierwszego i drugiego punktu tezy, wystarczy zamienić role zmiennych $ \xx $ i $ \yy $ w rozumowaniu.

    Krok 1. Niech $ f $ będzie funkcją charakterystyczną $ (n+m) $-wymiarowego przedziału domkniętego $ [\aa,\bb]_{n+m} $, otwartego $ (\aa,\bb)_{n+m} $ lub domknięto-otwartego

\[ [\aa,\bb)_{n+m}=\{\zz\in \R^{n+m} \colon \aa\preccurlyeq\zz\prec \bb\} \, . \]

Każdy taki przedział jest produktem $ I_n\times J_m $ pewnego przedziału $ n $-wymiarowego $ I_n $ ipewnego przedziału $ m $-wymiarowego $ J_m $. Dla każdego $ \xx\in \R^n $ funkcja $ \yy\mapsto f(\xx,\yy) $ jest albo równa $ \charfn_{J_m} $ (gdy $ \xx\in I_n $), albo jest funkcją stałą równą zero (gdy $ \xx\not\in I_n $), więc jest mierzalna względem $ \Leb(\R^m) $. Stąd wynika, że

\[ \R^n\ni \xx\longmapsto \int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)=\charfn_{I_n}(\xx)\cdot \lambda_m (J_m) \]

jest funkcją mierzalną względem $ \Leb(\R^n) $. Pierwsza z równości row:Fubini przybiera więc w tym przypadku postać

\[ \lambda_{n+m}(I_n\times J_m) = \lambda_n(I_n) \cdot \lambda_m (J_m)\, ,   \]

co jest prawdą na mocy Twierdzenia [link]. (Można też po prostu odwołać się do równości miary Lebesgue'a i objętości przedziału.)

    Krok 2. Niech teraz $ f $ będzie funkcją charakterystyczną zbioru otwartego $ \Omega\subset \R^{n+m} $. Wiemy, że każdy taki zbiór jest sumą przeliczalnej rodziny kostek domkniętych o wnętrzach parami rozłącznych; nietrudno stąd wywnioskować, że $ \Omega=\bigcup_{j=1}^\infty P_j $, gdzie $ P_j $ są przedziałami otwarto-domkniętymi i parami rozłącznymi. Zatem

\[ f=\charfn_\Omega=\sum_{j=1}^\infty f_j, \qquad\mbox{gdzie}\quad f_j=\charfn_{P_j}. \]

Funkcja $ \R^m\ni \yy\mapsto f(\xx,\yy) $ jest więc mierzalna dla każdego $ \xx\in\R^n $ (jako granica zbieżnego ciągu funkcji mierzalnych). Następnie, funkcja

\[ \R^n\ni \xx\longmapsto \int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)=\sum_{j=1}^\infty  \int_{\R^m} f_j(\xx,\yy)\, d\lambda_m(\yy) \]

(równość zachodzi wobec twierdzenia Lebesgue'a o zbieżności monotonicznej) jest mierzalna z tego samego powodu. Wreszcie,

\[ \begin{multline*} 	\int_{\R^{n+m}} f\, d\lambda_{n+m} = \sum_{j=1}^\infty  \int_{\R^{n+m}} f_j\, d\lambda_{n+m}    	= \sum_{j=1}^\infty   \int_{\R^n} \biggl(\int_{\R^m} f_j(\xx,\yy)\, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) \\ 	 =    \int_{\R^n}  \biggl( \sum_{j=1}^\infty \int_{\R^m} f_j(\xx,\yy)\, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx)    	 =    \int_{\R^n}  \biggl(\int_{\R^m} \underbrace{\sum_{j=1}^\infty  f_j(\xx,\yy)}_{=f(\mxx,    \myy)}, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) 	%\\    =  \int_{\R^n}  \biggl(\int_{\R^m}  f(\xx,\yy)\, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx)  \end{multline*} \]

na mocy pierwszego kroku dowodu i kilkakrotnie zastosowanego twierdzenia Lebesgue'a o zbieżności monotonicznej.     Krok 3. Teraz niech $ f=\charfn_G $, gdzie $ G\subset \R^{n+m} $ jest zbiorem ograniczonym typu $ G_\delta $. Wówczas $ G=\bigcap_{j=1}^\infty \Omega_j $ dla pewnego zstępującego ciągu zbiorów otwartych ograniczonych $ \Omega_j $. Niech $ f_j $ oznacza funkcję charakterystyczną $ \Omega_j $; wtedy oczywiście $ f_j\searrow f $ dla $ j\to\infty $. Ponownie więc funkcja $ \yy\mapsto f(\xx,\yy) = \lim_j f_j(\xx,\yy) $ jest dla każdego $ \xx\in \R^n $ mierzalna względem $ \Leb(\R^m) $. Ponadto, dla każdego $ \xx\in \R^n $ jest

\[ \int_{\R^m} f_1(\xx,\yy) \, d\lambda_m(\yy) < \infty \]

więc

\[ \lim_{j\to\infty} \int_{\R^m} f_j(\xx,\yy) \, d\lambda_m(\yy) =   \int_{\R^m} \lim_{j\to\infty}  f_j(\xx,\yy) \, d\lambda_m(\yy)  = \int_{\R^m} f(\xx,\yy) \, d\lambda_m(\yy)   \]

na mocy twierdzenia Lebesgue'a o zbieżności zmajoryzowanej. Dlatego, wobec poprzedniego kroku dowodu, funkcja $ \xx\mapsto \int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy) $ jest mierzalna jako granica funkcji mierzalnych. Wiemy już, że

\[ \int_{\R^{n+m}} f_j\, d\lambda_{n+m} = \int_{\R^n}\biggl(\int_{\R^m} f_j(\xx,\yy) \, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) \qquad\mbox{dla $j=1,2,\ldots$;} \]

przechodząc do granicy $ j\to \infty $ (trzeba w tym celu znów kilka razy skorzystać ztwierdzenia Lebesgue'a o zbieżności zmajoryzowanej), otrzymujemy równość row:Fubini dla $ f=\charfn_G=\lim f_j $.

    Krok 4. Teraz udowodnimy tezę dla $ f=\charfn_A $, gdzie $ A\in \Leb(\R^{n+m}) $ jest dowolnym zbiorem mierzalnym ograniczonym. Z charakteryzacji zbiorów mierzalnych w sensie Lebesgue'a (patrz Twierdzenie [link]) wynika, że $ A=G\setminus Z $, gdzie $ G $ jest ograniczonym zbiorem typu $ G_\delta $, zaś $ Z\subset G $ jest zbiorem miary $ \lambda_{n+m} $ zero. Zbiór $ Z $ jest zawarty w pewnym zbiorze $ H $ typu $ G_\delta $ i miary Lebesgue'a zero. (Można np. wziąć $ H=\bigcap U_j $, gdzie $ U_j $, dla każdego $ j=1,2,\ldots $, jest sumą rodziny przedziałów otwartych pokrywających $ Z $, o łącznej mierze $ < 1/j $.) Funkcja $ \charfn_H $ spełnia

\[ \int_{\R^n}\biggl(\int_{\R^m}\, \charfn_H (\xx,\yy)\,  d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) =\int_{\R^{n+m}}\charfn_H \, d\lambda_{n+m} =\lambda_{n+m}(H)=0, \]

więc

\[ \int_{\R^m}\, \charfn_H(\xx,\yy)\, d\lambda_m(\yy)=0\qquad\mbox{dla wszystkich $\xx\in X$, gdzie $\lambda_n(\R^n\setminus X)=0$.} \]

Stąd wynika, że dla każdego $ \xx\in X $ istnieje zbiór $ Y_{\mxx} $ taki, że

\[ \charfn_H(\xx,\yy)=0  \qquad\mbox{dla wszystkich $\yy\in Y_{\mxx}$, gdzie $\lambda_m(\R^m\setminus Y_{\mxx})=0$.}  \]

Jednak $ 0\le \charfn_Z\le \charfn_H $, więc

\[ \begin{equation} \label{chfnZ} \charfn_Z(\xx,\yy)=0 \qquad\mbox{dla wszystkich $x\in X$ i $\yy\in Y_{\mxx}$}.	 \end{equation} \]

Funkcja $ f=\charfn_A=\charfn_G-\charfn_Z $. Ustalmy $ x\in X $. Wobec chfnZ jest $ f(\xx,\yy)=\charfn_G(\xx,\yy) $ dla wszystkich $ \yy\in Y_{\mxx} $, tzn. na zbiorze pełnej miary w $ \R^m $. Funkcja, która jest $ \lambda_m $-prawie wszędzie równa funkcji mierzalnej, sama jest mierzalna; innymi słowy, $ f_{\mxx}(\cdot)=f(\xx,\cdot) $ jest mierzalna dla prawie wszystkich $ \xx $. Ponadto,

\[ \begin{equation} 	\label{naXdobrze}       	\int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)= \int_{\R^m}\charfn_G(\xx,\yy) \, d\lambda_m(\yy) 	\qquad\mbox{dla wszystkich $\xx\in X$.} \end{equation} \]

Wynika stąd, że lewa strona tej równości jest mierzalną funkcją zmiennej $ \xx\in \R^n $.

Wreszcie, ponieważ $ X $ jest zbiorem pełnej miary w $ \R^n $, więc

\[ \begin{multline*} \int_{\R^{n+m}} f\, d\lambda_{n+m}=\int_{\R^{n+m}}\charfn_G\, d\lambda_{n+m} =  \int_{\R^n}\biggl(\int_{\R^m} \charfn_G (\xx,\yy) \, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) \\ =  \int_{X}\biggl(\int_{\R^m} \charfn_G (\xx,\yy) \, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) \stackrel{\eqref{naXdobrze}}=  \int_{\R^n}\biggl(\int_{\R^m} f (\xx,\yy) \, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx)\, .   \end{multline*} \]

    Krok 5: przypadek ogólny. Niech $ f $ będzie dowolną funkcją mierzalną nieujemną. Istnieje wtedy ciąg funkcji prostych $ 0\le f_j\nearrow f $ dla $ j\to \infty $. Zauważmy, że wtedy

\[ 0\le g_j=f_j\cdot \charfn_{B(\zero,j)} \nearrow f\, . \]

Z poprzednich kroków dowodu i liniowości całki łatwo wynika, że teza twierdzenia Fubiniego zachodzi dla wszystkich funkcji prostych nieujemnych, które znikają poza pewną kulą w $ \R^{n+m} $, a więc w szczególności dla każdej z funkcji $ g_j $. Dlatego, dla każdego $ j=1,2,\ldots $ istnieje taki zbiór $ X_j\subset \R^n $, że

\[ \begin{equation} 	\label{wlas-gj} 	\lambda_n(\R^n\setminus X_j)=0, \qquad \yy\mapsto g_j(\xx,\yy) \text{ jest funkcją mierzalną dla $\xx\in X_j$.} \end{equation} \]

Ponadto, funkcje

\[ \begin{equation} 	\R^n\ni \xx\mapsto\int_{\R^m} g_j(\xx,\yy)\, d\lambda_m(\yy) \qquad\text{są mierzalne dla } j=1,2\ldots \end{equation} \]

Połóżmy $ X=\bigcap_{j=1}^\infty X_j $. Zbiór $ X $ jest pełnej miary w $ \R^n $ i wszystkie funkcje $ \yy\mapsto g_j(\xx,\yy) $ są mierzalne dla każdego $ \xx\in X $; dlatego $ \yy\mapsto f(\xx,\yy)=\lim_j g_j(\xx,\yy) $ jest funkcją mierzalną dla każdego $ \xx\in X $. Z twierdzenia Lebesgue'a o zbieżności monotonicznej otrzymujemy teraz mierzalność funkcji

\[ \begin{equation}  	\label{fgj-ust-x} 	\R^n\ni \xx\mapsto\int_{\R^m} f(\xx,\yy)\, d\lambda_m(\yy)=\lim_{j\to\infty} \int_{\R^m} g_j(\xx,\yy)\, d\lambda_m(\yy) \end{equation} \]

Ponieważ teza twierdzenia Fubiniego zachodzi dla każdej funkcji $ g_j $, więc

\[ \int_{\R^{n+m}} f\, d\lambda_{n+m}=\lim_{j\to\infty }\int_{\R^{n+m}} g_j \, d\lambda_{n+m} =\lim_{j\to\infty }  \int_{\R^n}\biggl(\int_{\R^m} g_j (\xx,\yy) \, d\lambda_m(\yy)\biggr)\, d\lambda_n(\xx) \, ; \]

stąd i z fgj-ust-x otrzymujemy, raz jeszcze stosując twierdzenie Lebesgue'a o zbieżności monotonicznej, równość row:Fubini dla funkcji $ f $. To kończy cały dowód. □

Wniosek Niech $ A\in \Leb(\R^{n+m}) $. Dla $ \xx\in \R^n $ i $ \yy\in \R^m $ niech

\[ \begin{equation} 		\label{przekroje} 		A_{\mxx}:=\{\yy\in \R^m\colon (\xx,\yy) \in A\}, \qquad A^{\myy}:=\{\xx\in \R^n\colon (\xx,\yy) \in A\} \end{equation} \]

oznaczają tak zwane przekroje pionowe i poziome zbioru $ A $. Wówczas $ A_{\mxx}\in \Leb(\R^m) $ dla prawie wszystkich $ \xx\in \R^n $ i $ A^{\myy}\in \Leb(\R^n) $ dla prawie wszystkich $ \yy\in\R^m $.

Dowód: Stosujemy pierwszy punkt tezy twierdzenia Fubiniego do $ f=\charfn_A $.□
Uwaga Jeśli $ A\in \Leb(\R^{n+m}) $, to dla pewnych $ \xx\in \R^n $ przekrój $ A_{\mxx} $ może być zbiorem niemierzalnym. Niech np. $ n=m=1 $ i niech $ V\subset [0,1] $ będzie zbiorem niemierzalnym, skonstruowanym w Przykładzie [link]. Zbiór $ A=\{0\}\times V $ jest elementem $ \sigma $-ciała $ \Leb(\R^2) $, gdyż $ \lambda_2(A)=0 $, jednak jego przekrój $ A_0=V $ nie jest mierzalnym podzbiorem $ \R<img class="teximage" src="/sites/default/files/tex/caa71b3ca5d429eee8c60fca89372f3577171a70.png" alt="ca66acbe0f0e7d6a7c9ab2d20e8636dc:4661:" />A,B\in \Leb(\R^{n+m}) $ i równość $ \lambda_m(A_{\mxx})=\lambda_m(B_{\mxx}) $ zachodzi dla prawie wszystkich $ \xx\in \R^n $, to wówczas $ \lambda_{n+m}(A)=\lambda_{n+m}(B) $. □

Tej równości dla $ n=1,m=2 $ i `przyzwoitych' brył $ A,B\subset \R^3 $ świadom był już Archimedes, który wiedział, że objętość kuli stanowi $ \frac 23 $ objętości opisanego na niej walca, dowodził zaś tego, rozpatrując poziome przekroje kuli i dwóch stożków wpisanych w walec.

Podamy kilka innych przykładów zastosowań twierdzenia Fubiniego i twierdzenia o zamianie zmiennych.

Przykład [miara stożka nad zbiorem $ n $-wymiarowym] Niech $ A\in \Leb(\R^n) $, gdzie $ R^n $ utożsamiamy z $ \R^n\times \{0\}\subset \R^{n+1} $, i niech $ \vv\in \R^{n+1}=\R^n\times\R $ będzie punktem o współrzędnej $ v_{n+1}\not=0 $. Stożkiem $ C(A,\vv) $ o podstawie $ A $ (inaczej: nad zbiorem $ A $) i o wierzchołku $ \vv $ nazywa się zwykle zbiór

\[ 	C(A,\vv)=\{\zz\in \R^{n+1}\colon\quad \zz=t \cdot (\xx,0)+(1-t)\cdot \vv, \ \xx\in A, \ t\in [0,1]\}, 	\]

będący sumą wszystkich odcinków o jednym końcu w punkcie $ \xx=(\xx,0)\in A $ i drugim końcu w punkcie $ \vv $. Wykażemy, że

\[ \begin{equation} 	\label{miarastozka} 	\lambda_{n+1}\big(C(A,\vv)\big) = \frac{1}{n+1}\cdot  |v_{n+1}|\cdot \lambda_n(A). \end{equation} \]

(Czytelnik zechce zauważyć, że gdy $ n=2 $ i $ A $ jest wielokątem w $ \R^2 $, to miarastozka jest znanym wzorem na objętość ostrosłupa.) Niech

\[ \Phi\colon \R^n\times (0,1)\ni (\xx,t)\mapsto \Phi(\xx,t)= t \cdot (\xx,0)+(1-t)\cdot \vv\in \R^{n+1}\, ; \]

macierzą różniczki $ D\Phi $ przekształcenia $ \Phi $ jest, jak łatwo zauważyć, następująca macierz $ (n+1)\times (n+1) $:

\[ \begin{pmatrix} 	t\cdot {\mathrm{Id}}_{n\times n} & B \\ \zero & -v_{n+1}  \\ \end{pmatrix}  , \]

gdzie $ B $ oznacza kolumnę liczb $ x_i-v_i $, $ i=1,2,\ldots, n $. Dlatego $ |\det D\Phi(\xx,t)|=t^n\cdot |v_{n+1}| $. Mamy

\[ \begin{align*} \lambda_{n+1}\big(C(A,\vv)\big)&=\int_{\R^{n+1}}\charfn_{C(A,\mvv)} \, d\lambda_{n+1} \\ & = \int_{\R^n\times (0,1)} \Big(\charfn_{C(A,\mvv)}\circ \Phi \Big)\cdot |\det D\Phi|\, d\lambda_{n+1} \qquad\mbox{wobec Twierdzenia\ref{tw:zamiana}}\\ & = \int_0^1\int_A t^n \cdot |v_{n+1}|\, d\lambda_n(\xx)\, dt \qquad\mbox{wobec Twierdzenia Fubiniego\ref{tw:Fubini}}\\ & = \frac{1}{n+1}\cdot  |v_{n+1}|\cdot \lambda_n(A)\, ,  \end{align*} \]

a więc istotnie zachodzi wzór miarastozka\, .

Przykład [zasada Cavalieri'ego, wersja II] Niech $ f $ będzie funkcją mierzalną nieujemną na $ \R^n $. Wówczas dla każdej liczby $ p\ge 1 $ zachodzi wzór

\[ \begin{equation} 	\label{cav2} \int_{\R^n} f^p\, d\lambda_n =p\int_0^\infty t^{p-1}\cdot \lambda_n\big(\{\xx\in \R^n\colon f(\xx)>t\}\big)\, dt\, . \end{equation} \]

Istotnie, dzięki równości $ z^p=p\int_0^z t^{p-1}\, dt $, stosując twierdzenie Fubiniego, żeby zamienić kolejność całkowania względem $ \xx\in \R^n $ i $ t>0 $, otrzymujemy

\[ \begin{align*} \label{cav2} \int_{\R^n} f^p\, d\lambda_n = \int_{\R^n} \biggl(p\int_0^f t^{p-1}\, dt\biggr)\, d\lambda_n & =\int_{\R^{n+1}}  p\, t^{p-1}\cdot \charfn_{\{(\mxx,t)\colon f(\xx)>t>0\}} (\xx,t)\, d\lambda_{n+1}(\xx,t)\\  & =p\int_0^\infty t^{p-1}\cdot \lambda_n\big(\{\xx\in \R^n\colon f(\xx)>t\}\big)\, dt\, .   \end{align*} \]

Innym przykładem zastosowania obu twierdzeń (o zamianie zmiennych i Fubiniego) do obliczania objętości brył obrotowych w $ \R^3 $ jest tzw. reguła Pappusa-Guldina (znana także jako reguła Guldina lub twierdzenie Pappusa o środku ciężkości).

Definicja Jeśli $ A $ jest zbiorem mierzalnym w $ \R^n $, a $ \mu $ miarą na $ \Leb(\R^n) $, dodatnią na