Odwzorowania klasy $C^1$ i rozmaitości zanurzone

Twierdzenie Banacha o punkcie stałym

W tym podrozdziale $ (X,\varrho) $ oznacza przestrzeń metryczną.

Definicja [warunek Cauchy'ego] Mówimy, że ciąg $ (x_n)\subset X $ spełnia warunek Cauchy'ego wtedy i tylko wtedy, gdy dla każdej liczby $ \eps>0 $ istnieje $ n_0\in \N $ takie, że dla wszystkich $ n,m>n_0 $ jest $ \varrho(x_n,x_m)<\eps $.

Łatwo wykazać, że każdy ciąg spełniający warunek Cauchy'ego jest ograniczony.

Definicja [zupełność] Przestrzeń metryczna $ (X,\varrho) $ nazywa się zupełna wtedy ityl\-ko wtedy, gdy każdy ciąg $ (x_n)\subset X $ spełniający warunek Cauchy'ego jest zbieżny w $ X $.

Przykład

  1. Przestrzeń $ \R $ z metryką $ \varrho(x,y)=|x-y| $ jest zupełna. Podobnie, $ \R^n $ z metryką zadaną przez (jakąkolwiek) normę jest przestrzenią zupełną.
  2. $ Y=[0,1] $ z metryką $ \varrho(x,y)=|x-y| $ jest przestrzenią zupełną. Ogólnie, każdy domknięty podzbiór $ Y $ przestrzeni metrycznej zupełnej $ (X,\varrho) $, z odziedziczoną metryką $ \varrho $, jest przestrzenią metryczną zupełną. Natomiast podzbiór przestrzeni metrycznej zupełnej, który nie jest domknięty, nie jest zupełny (są w $ Y $ ciągi zbieżne, których granice nie należą do $ Y $).
  3. Przestrzeń funkcji ciągłych $ C([0,1],\R) $ z metryką
    \[ 	\varrho(f,g)=\sup_{x\in I} |f(x)-g(x)| 	\]

    jest zupełna. Zbieżność w metryce $ \varrho $ to zbieżność jednostajna; jeśli ciąg funkcji ciągłych spełnia jednostajny warunek Cauchy'ego, to jest jednostajnie zbieżny, a jego granica też jest funkcją ciągłą. (Patrz skrypt z Analizy Matematycznej I, rozdział 7.)

  4. Przestrzeń $ C^1_b(\R) $ tych funkcji $ f\colon \R\to\R $ klasy $ C^1 $, które są ograniczone i mają ograniczoną pochodną, wyposażona w metrykę
    \[ \varrho_1(f,g)=\sup_{x\in \R} |f(x)-g(x)| + \sup_{x\in \R} |f'(x)-g'(x)|\, , \]

    jest zupełna. Zbieżność ciągu funkcji $ (f_m) $ w metryce $ \varrho_1 $ to zbieżność jednostajna wraz z pochodnymi. Dowód zupełności $ C^1_b(\R) $ (wskazówka: skorzystać z twierdzenia o różniczkowaniu ciągów funkcyjnych) pozostawiamy Czytelnikowi jako ćwiczenie.

  5. Niech $ r>0 $ i $ B=B(\zero,r)\subset \R^n $. Przestrzeń $ C(\overline B, \R^m) $ wszystkich funkcji ciągłych $ f\colon \overline B\to \R^m $ z metryką
    \[ \varrho(f,g)=\sup_{\mxx\in \overline B} \|f(\xx)-g(\xx)\| \]

    jest zupełna. Formalny dowód tego faktu wymaga określenia zbieżności jednostajnej funkcji wielu zmiennych i powtórzenia dowodów twierdzeń, które poznaliśmy na I roku studiów. Jednak rozumowania są identyczne: zupełność prostej zastępuje się zupełnością $ \R^n $, a nierówność trójkąta dla modułu - nierównością trójkąta dla normy. Dlatego ten przykład nie różni się szczególnie od podanego w punkcie3.

Definicja Niech $ (X,\varrho) $ będzie przestrzenią metryczną i niech $ T\colon X\to X $. Mówimy, że odwzorowanie $ T $ jest zwężające (albo inaczej: jest kontrakcją) wtedy i tylko wtedy, gdy istnieje stała $ \lambda\in (0,1) $ taka, że

\[ 	\varrho\big(T(\xx), T(\yy)\big) \le \lambda \varrho(\xx,\yy) \qquad\mbox{dla wszystkich $\xx,\yy\in X$.} 	\]
Uwaga Każda kontrakcja jest ciągła na $ X $, gdyż spełnia warunek Lipschitza.
Definicja Punkt $ \xx\in X $ nazywa się punktem stałym odwzorowania $ T\colon X\to X $ wtedy i tylko wtedy, gdy $ T(\xx)=\xx $.
Twierdzenie [Banacha o punkcie stałym] Jeśli $ (X,\varrho) $ jest przestrzenią metryczną zupełną, zaś $ T\colon X\to X $ jest kontrakcją, to $ T $ ma dokładnie jeden punkt stały $ \xx\in X $. (#)

Dowód tego twierdzenia, nazywanego także zasadą odwzorowań zwężających, jest krótki i nietrudny, a samo twierdzenie -- opublikowane w wersji abstrakcyjnej w roku 1922, w pracy doktorskiej Banacha (Fundamenta Math., tom 3, rok 1922, str. 133-181.) -- ma mimo swojej prostoty wiele zastosowań, w których $ X $ bywa zwykle jakąś przestrzenią funkcyjną, a równanie $ T(\xx)=\xx $ -- równaniem różniczkowym lub całkowym.

Podamy jeszcze poglądową interpretacją twierdzenia Banacha: jeśli rozłożony plan miasta upuścimy na jednej z ulic w tym mieście, to jest dokładnie jeden taki punkt planu, który znalazł się idealnie wtym miejscu, które przedstawia. Czytelnik zechce zastanowić się nad prawdziwością tego zdania i dopiero później przeczytać poniższy dowód.

Dowód: Odwzorowanie zwężające nie może mieć dwóch różnych punktów stałych: gdyby $ T(\xx)=\xx $ i $ T(\yy)=\yy $, to mielibyśmy

\[ \varrho(\xx,\yy)=\varrho\big(T(\xx), T(\yy)\big) \le \lambda \varrho(\xx,\yy). \]

Ponieważ $ \lambda \in (0,1) $, więc musi zachodzić równość $ \varrho(\xx,\yy)=0 $, tzn. $ \xx=\yy $.

Pozostaje wykazać istnienie punktu stałego. Niech $ \xx_0\in X $ będzie dowolnym punktem. Rozpatrzmy zdefiniowany rekurencyjnie ciąg $ \xx_{n+1}=T(\xx_n) $, gdzie $ n=0,1,2,\ldots $. Ponieważ $ T $ jest kontrakcją, więc

\[ \begin{eqnarray} \varrho(\xx_{n+1},\xx_n)=  \varrho\big(T(\xx_n),T(\xx_{n-1})\big)& \le &  \lambda \varrho(\xx_n,x_{n-1})\\ &\le & \lambda^2 \varrho(\xx_{n-1},\xx_{n-2})\le \ldots \le \lambda^n \varrho(\xx_1,\xx_0)\, \nonumber  \end{eqnarray} \]

dla pewnej liczby $ \lambda\in (0,1) $. Jeśli $ m>n $, to na mocy nierówności trójkąta

\[ \begin{eqnarray*} \varrho(\xx_m,\xx_n) & \le & \varrho(\xx_m,\xx_{m-1})	+\cdots +\varrho(\xx_{n+1},\xx_n)\\ & \le & \sum_{j=n}^{m-1}\lambda^j \varrho (\xx_1,\xx_0) \le \sum_{j=n}^{\infty}\lambda^j \varrho (\xx_1,\xx_0) =\lambda^n  \frac{\varrho (\xx_1,\xx_0) }{1-\lambda}=C\lambda^n\, , \end{eqnarray*} \]

gdzie stała $ C $ nie zależy od $ n $. Zatem ciąg $ (\xx_n) $ spełnia warunek Cauchy'ego, a więc jest zbieżny, gdyż przestrzeń $ (X,\varrho) $ jest zupełna. Niech $ \xx=\lim \xx_n $. Wobec ciągłości $ T $,

\[ T(\xx)=T(\lim \xx_n) =\lim T(\xx_n) = \lim \xx_{n+1}=\xx. \]

Dowód jest zakończony. □

Okazuje się, że jeśli dwie kontrakcje są bliskie, to ich punkty stałe są bliskie. Z poniższego faktu skorzystamy w następnym podrozdziale.

Lemat (#) Jeśli $ (X,\varrho) $ jest przestrzenią metryczną zupełną, a $ T_1,T_2\colon X\to X $ spełniają warunek Lipschitza ze stałą $ \lambda<1 $ i ponadto

\[ 	\sup_{\mxx\in X}\varrho(T_1(\xx),T_2(\xx))< \eps 	\]

to punkty stałe $ \xx_j $ kontrakcji $ T_j $, gdzie $ j=1,2 $, spełniają nierówność $ \varrho(\xx_1,\xx_2)<\eps/(1-\lambda) $.

Dowód: Na mocy nierówności trójkąta,

\[ \varrho(\xx_1,\xx_2)=\varrho(T_1(\xx_1),T_2(\xx_2))\le   \varrho(T_1(\xx_1),T_1(\xx_2))+\varrho(T_1(\xx_2),T_2(\xx_2)) < \lambda \varrho(\xx_1,\xx_2) + \eps. \]

Przenosząc pierwszy składnik na lewą stronę, łatwo otrzymujemy tezę.□

Twierdzenie o funkcji odwrotnej

Udowodnimy w tym podrozdziale jedno z najważniejszych twierdzeń, jakie Czytelnik pozna w ciągu całego wykładu.

Twierdzenie [o funkcji odwrotnej] (#) Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $ i $ f\in C^1(\Omega, \R^n) $. Załóżmy, że dla pewnego $ \aa\in \Omega $ różniczka $ Df(\aa)\in L(\R^n,\R^n) $ jest izomorfizem liniowym. Istnieją wówczas liczba $ \delta>0 $ i zbiór otwarty $ V\subset \R^n $ takie, że

  1. $ f\colon B(\aa,\delta)\to V $ jest bijekcją;
  2. przekształcenie $ g=f^{-1}\colon V\to B(\aa,\delta)\subset \R^n $ jest klasy $ C^1 $ na $ V $;
  3. Jeśli $ \yy=f(\xx) $ i $ \xx\in B(\aa,\delta) $, to $ Dg(\yy)= \big(Df(\xx)\big)^{-1} $.

Zanim przejdziemy do dowodu, podkreślmy ważną rzecz: dla $ n=1 $ podobne twierdzenie ma charakter globalny. Jeśli $ f\in C^1(\R,\R) $ i $ f' $ nie znika w żadnym punkcie, to $ f' $ ma stały znak, a $ f $ jest ściśle monotoniczna na $ \R $. Zatem funkcja $ g=f^{-1} $ jest określona na przedziale otwartym $ I=f(\R) $. Dla $ n>1 $ jest inaczej: może się okazać, że różniczka $ Df(\xx)\in L(\R^n,\R^n) $ jest odwracalna dla każdego $ \xx\in \R^n $, ale $ f $ nie jest różnowartościowe!

Przykład (#) Niech

\[ 	\R^2\equiv \C \ni (x,y)=x+iy=z\longmapsto \exp z= \big(e^x\cos y, e^x\sin y) =: F(x,y)\in \R^2 	\]

To przekształcenie jest gładkie i oczywiście nie jest różnowartościowe, gdyż każda liczba $ 2\pi i k $, gdzie $ k\in \Z $, jest okresem funkcji wykładniczej w $ \C $. Jednak

\[ DF(x,y)=\begin{pmatrix} e^x\cos y & -e^x\sin y  \\ e^x\sin y & e^x\cos y \end{pmatrix}\ , \]

a więc $ \det DF(x,y)=e^{2x}(\cos^2y+\sin^2y)=e^{2x}>0 $. Dlatego $ DF(x,y) $ jest macierzą odwracalną dla każdego $ (x,y)\in \R^2 $.

    Dowód Twierdzenia [link] Krok 1. Niech $ A=Df(\aa) $. Rozpatrując zamiast $ f $ nową funkcję

\[ \Omega-\aa\ni \xx\longmapsto A^{-1}\cdot \Big(f(\xx+\aa) - f(\aa)\Big)\in \R^n\, , \]

można sprowadzić dowód do przypadku $ Df(\aa)=\mathrm{Id}\in L(\R^n,\R^n) $, $ \aa=f(\aa)=\zero\in \Omega $. Takie założenia odtąd przyjmujemy.

Krok 2: różnowartościowość $ f $ i odwracalność $ Df $ w otoczeniu zera. Zapiszmy $ f(\xx)=\xx+\varphi(\xx) $, gdzie $ \varphi\in C^1(\Omega,\R^n) $, $ \varphi(\zero)=\zero $. Zatem $ Df(\xx)=\mathrm{Id}+D\varphi(\xx) $ i $ D\varphi(\zero)=\zero $. Przekształcenie $ \pp\mapsto D\varphi(\pp) $ jest ciągłe na $ \Omega $, więc istnieje taka liczba $ \delta_1>0 $, że $ \|D\varphi(\pp)\|<\frac 12 $ dla wszystkich $ \pp\in B(\zero,2\delta_1) $. Wynika stąd, że $ Df(\pp) $ jest macierzą odwracalną dla wszystkich $ \pp\in B(\zero,2\delta_1) $. %Zatem, %

\[ \begin{eqnarray*} %\|Df(\xx)\vv_1-Df(\xx)\vv_2\| & =  &  %\|\vv_1-\vv_2+D\varphi(\xx)(\vv_1-\vv_2)\|\\ %& \ge & \|\vv_1-\vv_2\| %-\|D\varphi(\xx)\|\cdot \|\vv_1-\vv_2\|\ge \frac 12  %\|\vv_1-\vv_2\|\, , %\end{eqnarray*} \]

%tzn. $ Df(\xx) $ jest izomorfizmem liniowym dla $ \xx\in %B(\zero,2\delta_1) $.

Ponadto, wobec twierdzenia o wartości średniej,

\[ \begin{equation} 	\label{malefi} 	\|\varphi(\xx)- \varphi(\yy)\| \le  	\|\xx-\yy\| \sup_{\mpp\in [\mxx,\myy]} \|D\varphi(\pp)\|\le \frac 12 \|\xx-\yy\|, \qquad \xx,\yy\in \overline B(\zero,2\delta_1).    \end{equation} \]

(W szczególności, $ \|\varphi(\xx)\|\le \frac 12 \|x\| $ na kuli domkniętej $ \overline{B}(\zero,2\delta_1) $). Przeto

\[ \begin{eqnarray*} \|f(\xx)-f(\yy)\| & = &\big\|(\xx-\yy) + \varphi(\xx)- \varphi(\yy)\big\|  \\ & \ge & \|\xx-\yy\|-  \|\varphi(\xx)- \varphi(\yy)\| \ \ge\  \frac 12 \|\xx-\yy\|\,  \end{eqnarray*} \]

dla wszystkich $ \xx,\yy\in B(\zero,2\delta_1) $. Stąd wynika różnowartościowość $ f $ na kuli $ B(\zero,2\delta_1) $. Na obrazie tej kuli przekształcenie $ g=f^{-1} $ jest dobrze określone i spełnia warunek Lipschitza ze stałą 2, a więc jest ciągłe.

Kluczową trudnością dowodu jest wykazanie, że dla pewnego $ \delta>0 $ zbiór $ f\big(B(\zero,\delta)\big) $ jest otwarty w $ \R^n $. Aby ją pokonać, wykorzystamy twierdzenie Banacha o punkcie stałym.

Krok 3: funkcję $ g=f^{-1} $ można określić na pewnym zbiorze otwartym. Wykażemy, że istnieje funkcja ciągła

\[ \gamma \colon \overline B(\zero,\delta_1)\to \overline B(\zero,\delta_1) \]

taka, że

\[ \begin{equation} \label{efgamma}   	f\big(\yy+\gamma(\yy)\big)=\yy \qquad \mbox{dla wszystkich $\yy\in \overline B(\zero,\delta_1)$.} \end{equation} \]

Wyniknie stąd, że kula $ B(\zero,\delta_1) $ jest zawarta w obrazie $ f\big(B(\zero,2\delta_1)\big) $.

Funkcję $ g=f^{-1} $ można będzie określić wzorem $ g(\yy)=f^{-1}(\yy)=\yy+\gamma(\yy) $ właśnie na $ B(\zero,\delta_1) $. Zbiór $ U=f^{-1}(B(\zero,\delta_1)) $ jest otwarty w $ \R^n $, gdyż $ f $ jest ciągła. Ponadto, $ \zero\in U $, więc dla pewnego $ \delta_2>0 $ kula $ B(\zero,\delta_2)\subset U $. Biorąc $ V=g^{-1}\big(B(\zero,\delta_2))=f(B(\zero,\delta_2)) $, otrzymamy - wobec ciągłości $ g<img class="teximage" src="/sites/default/files/tex/4a077328ef24f87d86de72b4d22437702d319a7c.png" alt="4be097eafd448e9dede8a71d434bce6b:104:" />\R^n $. Zakończy to dowód punktu (i) oraz części punktu (ii) twierdzenia o funkcji odwrotnej. Pozostanie do wykazania, że $ g\in C^1 $ iróżniczki obu funkcji wiąże zależność (iii).

Mamy

\[ f(\underbrace{\yy+\gamma(\yy)}_{=\mxx})= \xx+\varphi(\xx) = \yy+\gamma(\yy)+ \varphi(\yy+\gamma(\yy))\, . \]

Zatem warunek efgamma zachodzi wtedy i tylko wtedy, gdy

\[ \begin{equation} \label{gammafi} 	\gamma(\yy)=-\varphi(\yy+\gamma(\yy)), \qquad \yy\in  \overline  B(0,\delta_1)\, .    \end{equation} \]

Ustalmy teraz $ \yy\in \overline B(\zero,\delta_1) $ i rozpatrzmy pomocnicze przekształcenie

\[ T_{\myy} (\zz) = -\varphi(\yy+\zz), \qquad \zz\in  \overline B(\zero,\delta_1)\, . \]

Ponieważ $ \varphi(\zero)=\zero $, więc na mocy malefi jest $ \|T_y(\zz)\|\le \|\varphi(\yy+\zz)\|\le \frac 12\|\yy+\zz\|\le \delta_1 $ dla $ \yy,\zz \in \overline B(\zero,\delta_1) $. Innymi słowy,

\[ T_{\myy} \colon \overline B(\zero,\delta_1)\rightarrow \overline B(\zero,\delta_1)\, . \]

Nietrudno też sprawdzić, że $ T $ jest kontrakcją, gdyż

\[ \|T_{\myy} (\zz_1)-T_{\myy} (\zz_2)\|= \|\varphi(\yy+\zz_1)-\varphi(\yy+\zz_2)\|\ \stackrel{\eqref{malefi}}\le \ \frac 12 \|(\yy+\zz_1)-(\yy+\zz_2)\|=\frac 12 \|\zz_1-\zz_2\|\, . \]

Na mocy Twierdzenia [link], $ T_{\myy} $ ma dokładnie jeden punkt stały $ \zz\in \overline B(\zero,\delta_1) $. Wobec Lematu [link] (jego założenia sprawdzamy łatwo, podobnie jak wyżej), przekształcenie

\[ \overline B(\zero,\delta_1)\ni \yy\longmapsto\gamma(\yy)= \zz=\text{punkt stały kontrakcji }T_{\myy}\in  \overline B(\zero,\delta_1)  \]

jest ciągłe. Oczywiście, $ T_{\myy}(\zz)=\zz=\gamma(\yy) $ wtedy i tylko wtedy, gdy zachodzi warunek gammafi, tzn. równoważny mu warunek efgamma.

Krok 4: różniczkowalność $ g $ i wzór $ Dg(\yy)=Df(\xx)^{-1} $ dla $ \yy=f(\xx) $. Przypuśćmy, że byłoby już wiadomo, że $ g=f^{-1} $ jest przekształceniem różniczkowalnym. Stosując twierdzenie o różniczce złożenia do funkcji

\[ g\circ f = \mathrm{Id}\colon B(\zero,\delta_2)\to \R^n \]

otrzymalibyśmy wtedy równość

\[ Dg\big(f(\xx)\big)\cdot Df(\xx)= \mathrm{Id} \qquad\mbox{dla $\xx\in B(\zero,\delta_2)$,\quad $\yy=f(\xx)\in V=f(B(\zero,\delta_2))$,} \]

tzn. $ Dg(f(\xx))=Df(\xx)^{-1} $ na $  B(\zero,\delta_2) $. Operacja odwracania macierzy jest ciągła na zbiorze macierzy odwracalnych w $ M_{n\times n}\simeq \R^{n^2} $ (przypomnijmy: jest to zbiór otwarty!), więc przekształcenie

\[ V\ni\yy \mapsto Dg(\yy) = \Big(Df\big(g(\yy)\big)\Big)^{-1}\in M_{n\times n} \]

jest ciągłe. Aby zakończyć cały dowód Twierdzenia [link], pozostaje więc wykazać, że $ Dg(\yy) $ istnieje, gdy $ \yy\in V $. Udowodnimy w tym celu następujący

Lemat [o różniczce przekształcenia odwrotnego] Niech $ U, V $ będą zbiorami otwartymi w $ \R^n $, a $ f\colon U\to V $ -- bijekcją różniczkowalną w punkcie $ \xx\in U $. Załóżmy, że różniczka $ Df(\xx)=A $ jest izomorfizmem liniowym. Jeśli funkcja $ g=f^{-1}\colon V\to U $ jest ciągła w punkcie $ \yy=f(\xx) $, to $ Dg(\yy) $ istnieje i jest równa $ A^{-1} $.

    Dowód lematu. Oznaczmy $ B=A^{-1}=(Df(\xx))^{-1} $ i $ M=\|A\|+2\|B\|+1 $. Różniczka $ Df(\xx)=A $ istnieje, więc

\[ \begin{equation} \label{df=a} f(\xx+\hh)-f(\xx)= A\hh + r(\hh), \qquad\mbox{gdzie}\quad  \lim_{\mhh\to\zero} \frac{r(\hh)}{\|\hh\|}=\zero\, . \end{equation} \]

Niech $ \vv\in\R^n $, $ \|\vv\|\ll 1 $. Wtedy $ \vv=f(\xx+\hh)-f(\xx) $ dla pewnego $ \hh\in\R^n $: wystarczy zapisać ostatnią równość jako $ f(\xx+\hh)=f(\xx)+\vv $, a stąd $ \hh=g(f(\xx)+\vv))-\xx $; wobec ciągłości $ g $ w $ \yy=f(\xx) $ jest $ \hh\to 0 $ dla $ \vv\to 0 $. Pokażemy, że w małym otoczeniu zera wektory $ \hh $ i $ \vv $ mają porównywalne długości. Wybierzmy $ \delta>0 $ tak, aby $ \|r(\hh)\|<\frac 1{2M} \|\hh\| $ dla $ \| \hh\|<\delta $. Po pierwsze,

\[ \|\vv\|=\|A\hh+r(\hh)\|\le \|A\|\cdot \|\hh\|+\frac 1{2M} \|\hh\| \le M\|\hh\|\, . \]

Po drugie, $ A\hh=\vv-r(\hh) $ na mocy df=a i dlatego

\[ \|\hh\|= \|B\cdot A\cdot \hh\|=\|B\vv -B\cdot r(\hh)\| \le \|B\|\Big(\|\vv\|+ \frac 1{2M} \|\hh\|\Big)\le \|B\|\cdot \|\vv\|+\frac {1}{2}\|\hh\|, \]

stąd zaś $ \|\hh\|\le 2\|B\|\cdot \|\vv\|\le M\|\vv\| $. Ostatecznie

\[ \begin{equation} 	\label{h-k} 	\frac{1}{M} \|\vv\|\le \|\hh\|\le M\|\vv\| \qquad \mbox{dla}\quad   \|\hh\|<\delta. \end{equation} \]

Ponieważ $ \yy=f(\xx) $, więc

\[ g(\yy+\vv)- g(\yy)=g(f(\xx)+\vv)- g(f(\xx))= \hh =B(A\hh) = B\vv - B(r(\hh)). \]

Częścią liniową przyrostu $ g $ jest $ B\vv $, zaś reszta $ r_1(\vv)=B(r(\hh)) $ spełnia warunek

\[ \frac{\norm{B(r(\hh))}}{\norm{\vv}}\le \frac{M \cdot \|r(\hh)\|}{\norm{\hh}} \cdot \frac{\norm{\hh}}{\norm{\vv}}\stackrel{}\le M^2 \frac{ \|r(\hh)\|}{\norm{\hh}}\to \zero\qquad\mbox{dla $\vv\to \zero$,}  \]

gdyż wobec h-k warunki $ \vv\to \zero $ i $ \hh\to \zero $ są równoważne. Z definicji różniczki, $ Dg(\yy)=B=A^{-1} $. Dowód lematu, a także dowód całego Twierdzenia [link], jest zakończony. □

Uwaga W dowodzie twierdzenia o lokalnej odwracalności twierdzenie Banacha o punkcie stałym można stosować do przestrzeni funkcyjnej $ X=C\big(\overline B(\zero,\delta_1),\overline B(\zero,\delta_1)\big) $ zmetryką `supremum'. Określamy przekształcenie

\[ T\colon X\to X, \qquad (T\gamma)(\yy)=-\varphi(\yy+\gamma(\yy))\, . \]

Sprawdzenie, że $ T\colon X\to X $ jest kontrakcją, wykonujemy tak samo, jak rachunki w 3. kroku dowodu. Funkcja $ \gamma $, która jest punktem stałym $ T $, spełnia równanie gammafi - i od razu, bez powoływania się na Lemat [link], wiadomo, że $ \gamma $ jest ciągła.

Czytelnik może się zastanowić, czy udałoby się stosować twierdzenie Banacha od razu do pewnego podzbioru funkcji klasy $ C^1 $.

Twierdzenie o funkcji uwikłanej

Poznamy teraz kolejne twierdzenie, które w ścisły sposób wypowiada naturalne oczekiwanie: jeśli mamy $ m $ równań, w których występuje $ n+m $ niewiadomych, to `zwykle' $ m $ spośród tych niewiadomych można wyznaczyć za pomocą pozostałych $ n $. (Oczywiście nie zawsze tak jest - równania mogą np. być sprzeczne).

Oznaczenia. W tym podrozdziale będziemy rozpatrywać funkcję

\[ F\colon \R^n\times \R^m\supset \Omega\longrightarrow \R^m, \qquad F\in C^1(\Omega,\R^m). \]

Punkty $ \R^n $ będziemy oznaczać literą $ \xx $, a punkty $ \R^m $ - literą $ \yy $. Różniczka $ DF(\xx,\yy) $ jest macierzą o $ m $ wierszach i $ n+m $ kolumnach; będziemy pisać

\[ \begin{equation} 	\label{DxDy} DF(\xx,\yy)= \big(D_{\mxx}F(\xx,\yy),D_{\myy}F(\xx,\yy)\big), \end{equation} \]

gdzie $ D_{\mxx}F(\xx,\yy)\in M_{m\times n} $ ma $ m $ wierszy i $ n $ kolumn, zaś $ D_{\myy}F(\xx,\yy)\in M_{m\times m} $ jest macierzą kwadratową o $ m $ wierszach i tyluż kolumnach. Inaczej mówiąc, zapis $ D_{\mxx}F\in M_{m\times n} $ oznacza, że chodzi o różniczkę $ F $ jako funkcji zmiennej $ \xx $, natomiast $ \yy $ traktujemy jako parametr; podobnie interpretujemy $ D_{\myy}F\in M_{m\times m} $.

Twierdzenie [o funkcji uwikłanej](#) Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n\times \R^m $ i niech $ (\aa,\bb)\in \Omega $. Załóżmy, że $ F\in C^1(\Omega,\R^m) $ i $ F(\aa,\bb)=\zero $. Niech wreszcie

\[ 	  \det D_{\myy}F(\aa,\bb) \not=0\, . 	\]

Istnieją wówczas zbiory otwarte $ U\subset \R^n $ i $ V\subset \R^m $ oraz funkcja $ h\in C^1(U,\R^m) $ takie, że $ \aa\in U $, $ \bb\in V $, zaś warunek

\[ \begin{equation} 	\label{rownanie-TFU}   	F(\xx,\yy)=\zero,   \qquad (\xx,\yy) \in U\times V \subset \Omega \end{equation} \]

zachodzi wtedy i tylko wtedy, gdy $ \yy=h(\xx) $ dla pewnego $ \xx\in U $. Ponadto,

\[ \begin{equation} 	\label{dh-TFU}  	Dh(\xx)=- \Big(D_{\myy}F(\xx,h(\xx))\Big)^{-1}\cdot D_{\mxx} F(\xx,h(\xx))\, . \end{equation} \]

Nazwa twierdzenia ma następujący sens: w małym otoczeniu takiego punktu $ (\aa,\bb)\in \R^{n+m} $, w którym spełnione są założenia, równanie $ F(\xx,h(\xx))=0 $ definiuje funkcję $ \yy=h(\xx) $ wsposób uwikłany. Zanim podamy dowód, spójrzmy na dwa proste przykłady (z wieloma innymi Czytelnik spotka się później).

Przykład (#) (i). Niech $ A_1\in M_{m\times n} $, $ A_2\in M_{m\times m} $ i $ \det A_2\not =0 $. Rozpatrzmy przekształcenie liniowe

\[ 	F\colon \R^{n+m}=\R^n\times \R^m\rightarrow \R^m 	\]

dane wzorem $ F(\xx,\yy)= A_1\xx+ A_2\yy $ dla $ \xx\in \R^n $ oraz $ \yy\in \R^m $. Równanie $ F(\xx,\yy)=\zero $ można rozwiązać; zachodzi ono wtedy i tylko wtedy, gdy

\[ \yy = h(\xx)= -\big(A_2\big)^{-1}\cdot A_1\xx, \qquad \xx\in \R^n\, . \]

Mamy też oczywiście $ D_{\mxx} F\equiv A_1 $ i $ D_{\myy}F\equiv A_2 $. Widać więc, że w tej sytuacji funkcja $ h $ jest określona na całej przestrzeni $ \R^n $ i jest liniowa; zachodzi też warunek dh-TFU, opisujący jej różniczkę.      (ii). Niech $ n=m=1 $, $ a,b>0 $ i niech $ F(x,y)=\frac{x^2}{a^2}+\frac{y^2}{b^2}-1 $. Równanie $ F(x,y)=0 $ opisuje elipsę $ E $ w $ \R^2 $. Mamy

\[ F_x(x,y)=\frac{2x}{a^2}\, , \qquad F_y(x,y)=\frac{2y}{b^2}\, . \]

W otoczeniu każdego punktu $ (x_0,y_0)\in E $, który ma współrzędną $ y_0\not = 0 $, spełnione są założenia Twierdzenia [link]. Zatem, istnieją przedziały otwarte $ U,V\subset \R $ takie, że $ x_0\in U $, $ y_0\in V $, a równanie $ F(x,y)=0 $, rozpatrywane dla $ (x,y)\in U\times V $, wyznacza zmienną $ y $ jako funkcję $ x $. W tym przykładzie też możemy napisać jawny wzór

\[ \begin{equation} 	\label{elipsa}     	y=h(x)=\pm b\cdot \sqrt{1-\frac{x^2}{a^2}}\,  .   \end{equation} \]

Wybór znaku zależy od położenia $ (x_0,y_0) $ na elipsie, tzn. od znaku $ y_0 $. Widać też, że ważny jest wybór dwóch małych otoczeń $ U $ i $ V $: jeśli nie ograniczymy się do małego otoczenia punktu $ y_0 $, to nie wiemy, jaki znak wybrać we wzorze elipsa.

Załóżmy na chwilę, że $ y_0>0 $. Można wtedy wybrać jako $ V $ np. przedział $ (0,2b) $. Zgodnie z wzorem dh-TFU, powinno być

\[ h'(x) = - (F_y(x,y))^{-1}\cdot F_x(x,y) = -\frac{b^2}{2y}\cdot \frac{2x}{a^2} = - \frac{b^2}{a^2} \cdot \frac{x}{y} = - \frac{b^2}{a^2} \cdot \frac{x}{h(x)}\, .  \]

Taki właśnie wynik uzyskujemy, różniczkując funkcję $ h(x)=b\sqrt{1-(x^2/a^2)} $, daną wzorem elipsa.

W otoczeniu punktu $ (x_0,y_0)\in E $, $ y_0>0 $, elipsa $ E $ o równaniu $ x^2/a^2 + y^2/b^2=1 $ jest wykresem funkcji $ y=b\sqrt{1-(x^2/a^2)} $. W otoczeniu punktu $ (-a,0) $ ta sama elipsa jest wykresem funkcji $ x=-a\sqrt{1-(y^2/b^2)} $ zmiennej $ y $.

Zauważmy jeszcze, że jeśli $ \pp\in (x_0,y_0)\in E $ i $ y_0=0 $, to wtedy w otoczeniu punktu $ \pp $ równanie elipsy wyznacza $ x $ jako funkcję zmiennej $ y $. Nie kłóci się to z Twierdzeniem [link]. Możemy wszak je zastosować, wybierając inny, nieznikający minor macierzy $ DF $. W tym przypadku $ x_0\not=0 $ i $ F_x(x_0,y_0)\not = 0 $.

    Dowód Twierdzenia [link] Krok 1: zastosowanie twierdzenia o funkcji odwrotnej. Rozpatrzmy funkcję pomocniczą

\[ H\colon \Omega\to \R^n\times \R^m=\R^{n+m}, \qquad H(\xx,\yy) = \big(\xx, F(\xx,\yy)\big)\in \R^{n+m}\, . \]

Ponieważ $ F\in C^1 $, więc także $ H\in C^1 $. Nietrudno zauważyć, że macierz różniczki funkcji $ H $ wygodnie zapisuje się w postaci blokowej,

\[ DH(\xx,\yy) = \begin{pmatrix}\mathrm{Id} & \zero \\ A & B\end{pmatrix}, \]

gdzie

\[ \begin{gather*} \mathrm{Id}\in M_{n\times n}\, , \qquad\zero \in M_{n\times m}\, ,\\ A=D_{\mxx} F(\xx,\yy)\in M_{m\times n}\, , \qquad B =D_{\myy} F(\xx,\yy)\in M_{m\times m}\, . \end{gather*} \]

Posługując się $ n $-krotnie rozwinięciem Laplace'a, stwierdzamy, że

\[ \det DH(\aa,\bb) = \det D_{\myy} F(\aa,\bb)\not= 0\, . \]

Zatem, w punkcie $ \pp=(\aa,\bb)\in \Omega $ spełnione są założenia Twierdzenia [link] (o funkcji odwrotnej). Istnieje więc kula $ (n+m) $-wymiarowa $ B(\pp,r) $ i zbiór otwarty $ W\subset \R^{n+m} $ takie, że $ H\colon B(\pp,r)\to W $ jest bijekcją i funkcja $ G=H^{-1}\colon W\to B(\pp,r) $ jest klasy $ C^1 $. Ponadto, dla $ (\xx,\yy)\in B(\pp,r) $ jest $ \det D_{\myy}F(\xx,\yy)\not=0 $.

    Krok 2: postać funkcji odwrotnej do $ H $. Zapiszmy

\[ G(\xx,\yy)=\big(G_1(\xx,\yy), G_2(\xx,\yy) \big), \]

gdzie $ G_1\colon W\to \R^n $ i $ G_2\colon W\to \R^m $. Przy tych oznaczeniach,

\[ (\xx,\yy)=H\big(G(\xx,\yy)\big)=  \Big(G_1(\xx,\yy), F \big(G_1(\xx,\yy), G_2(\xx,\yy) \big) \Big)\, , \qquad (\xx,\yy)\in W. \]

Porównując $ n $ początkowych współrzędnych tej równości, otrzymujemy $ G_1(\xx,\yy)=\xx $ dla $ (\xx,\yy)\in W $, a następnie

\[ \begin{equation} 	\label{postacH} 	H\big(G(\xx,\yy)\big)=  \Big(\xx, F (\xx, G_2(\xx,\yy)) \Big)\, , \qquad (\xx,\yy)\in W.                                  \end{equation} \]

    Krok 3: opis rozwiązań równania $ F=\zero $. Jeśli $ (\xx,\yy)\in B(\pp,r) $, to warunek $ F(\xx,\yy)=\zero $ zachodzi wtedy i tylko wtedy, gdy

\[ H(\xx,\yy)= (\xx,F(\xx,\yy))= (\xx,\zero) \in W\, , \]

tzn. wtedy i tylko wtedy, gdy $ (\xx,\yy)=G(\xx,\zero)=\big(G_1(\xx,\zero),G_2(\xx,\zero)\big) $, co oznacza, że $ \yy=G_2(\xx,\zero) $. Z równania $ F=\zero $ wyznaczyliśmy więc $ \yy $ jako pewną funkcję $ \xx $.

W kuli $ B(\pp,r) $ zawarty jest pewien produkt $ U\times V $, gdzie $ U\subset \R^n $ i $ V\subset \R^m $ są zbiorami otwartymi; można np. wziąć $ U=B(\aa,r/2) $ i $ V=B(\bb,r/2) $. Wtedy

\[ h= G_2(\cdot,\zero) \colon U\to \R^m \]

i na zbiorze $ U\times V $ równanie $ F(\xx,\yy)=\zero $ zachodzi wtedy i tylko wtedy, gdy $ \yy=h(\xx) $ i $ \yy\in V $. Zmniejszając w razie potrzeby $ U $, np. biorąc $ \rho>0 $ tak małe, żeby $ U_1=B(\aa,\rho)\subset h^{-1}\big(B(\bb,r/2)\big) $ (tu korzystamy z ciągłości $ h<img class="teximage" src="/sites/default/files/tex/9068687679b332aeabe5c4dd15b423c7b6303397.png" alt="4be097eafd448e9dede8a71d434bce6b:268:" />h(U)\subset V $. Ponieważ $ G\in C^1 $, więc $ G_1,G_2\in C^1 $ i dlatego $ h\in C^1 $. Udowodniliśmy więc całą tezę twierdzenia, wyjąwszy wzór dh-TFU.

    Krok 4: różniczka funkcji uwikłanej $ h $. Na zbiorze $ U\subset \R^n $ jest $ F(\xx,h(\xx))=\zero\in \R^m $. Różniczkując to równanie stronami i stosując wzór na pochodną złożenia

\[ \xx\longmapsto (\xx,h(\xx))\stackrel{F}\longmapsto F(\xx,h(\xx)) \]

(Czytelnik zechce sam narysować odpowiednie macierze, najlepiej w postaci blokowej), otrzymujemy

\[  D_{\mxx} F(\xx,h(\xx)) + D_{\myy} F(\xx,h(\xx))\cdot Dh(\xx)=\zero\in M_{m\times n}.  \]

Dla $ \xx\in U $ macierz $ D_{\myy}F(\xx,h(\xx)) $ jest odwracalna; przenosząc $ D_{\mxx} F(\ldots) $ na prawą stronę równania i mnożąc obie strony przez $ D_{\myy}F(\ldots)^{-1} $, otrzymujemy wzór dh-TFU. □

Uwaga (#) Jeśli w Twierdzeniu [link] o funkcji odwrotnej założymy dodatkowo, że $ f\in C^k $ dla pewnego $ k\in \N $, $ k>1 $, to wówczas także $ f^{-1}\in C^k $. Przypomnijmy: różniczka funkcji odwrotnej $ g=f^{-1} $ dana jest wzorem \( Dg(\yy) = \big(Df\big(g(\yy)\big)\big)^{-1}, \) tzn. jest złożeniem trzech odwzorowań:

\[ \begin{equation} 	\label{trzyfunkcje}    	\yy\mapsto g(\yy)=\zz, \qquad  \zz\mapsto Df(\zz), \qquad A\mapsto A^{-1}\, .  \end{equation} \]

To, że $ g=f^{-1}\in C^k $, gdy $ f\in C^k $, można więc łatwo wykazać przez indukcję względem $ k $. Dla $ k=1 $ udowodniliśmy to już w Twierdzeniu [link]. Jeśli $ f\in C^k $ i wiemy z założenia, że dowodzona własność zachodzi dla $ k-1 $, to pierwsze odwzorowanie w trzyfunkcje jest klasy $ C^{k-1} $ na mocy założenia indukcyjnego, drugie - też jest klasy $ C^{k-1} $, gdyż $ Df\in C^{k-1} $, trzecie zaś jest klasy $ C^\infty $ (wyrazy macierzy $ A^{-1} $ wyrażają się przez funkcje wymierne od wyrazów macierzy $ A $). Podobnie, jeśli w Twierdzeniu [link] o funkcji uwikłanej założymy, że $ F\in C^k $, to funkcja uwikłana $ h $, o której mowa w tezie, też jest klasy $ C^k $.□

Podamy teraz inne przykłady zastosowania twierdzenia o funkcji uwikłanej.

Przykład (#) Niech $ F(\xx)=\|\xx\|^2-1 = x_1^2+\cdots+x_n^2-1 $. Zbiór $ M=\{\xx\in\R^n\colon F(\xx)=0\} $ jest sferą $ \S^{n-1} $. Różniczka

\[ 	DF(\xx)=\big(F_{x_1}(\xx),\ldots F_{x_n}(\xx)\big) 	= 2(x_1,\ldots,x_n) =2\xx 	\]

nie znika w żadnym punkcie sfery. Dlatego w otoczeniu każdego punktu $ \pp=(p_1,\ldots,p_n)\in \S^{n-1} $ sferę $ \S^{n-1} $ można przedstawić jako wykres funkcji $ (n-1) $ zmiennych,

\[ x_i=\pm \biggl(1-\sum_{{\scriptsize 1\le j\le n}\atop{ \scriptsize j\not=i}} x_j^2\biggr)^{1/2}\, . \]

Jeśli $ p_i\not=0 $, to w pewnym otoczeniu $ \pp $ z równania sfery możemy wyznaczyć zmienną $ x_i $, dobierając odpowiednio znak w powyższym wzorze.

Przykład [torus jako poziomica pewnej funkcji](#) Niech $ R>r>0 $. Połóżmy

\[ 	F(x,y,z) = \Big(\sqrt{x^2+y^2}-R\Big)^2+z^2-r^2, \qquad  x^2+y^2>0,\ z\in \R. 	\]

Wtedy

\[ F_z(x,y,z)=2z, \qquad F_x(x,y,z)=2  \Big(\sqrt{x^2+y^2}-R\Big)\cdot \frac{x}{\sqrt{x^2+y^2}}, \]

a $ F_y $ otrzymujemy, zamieniając role $ x $ i $ y $. Zbiór $ M=\{(x,y,z)\in \R^3\colon F(x,y,z)=0\} $ jest domknięty, gdyż $ F $ jest ciągła; żaden punkt $ (0,0,z) $ nie należy do $ M $, gdyż $ R^2+z^2-r^2\ge R^2-r^2>0 $. Zatem $ M\subset \Omega=\{(x,y,z)\in \R^3\colon x^2+y^2>0\} $. Zbiór $ \Omega $ jest otwarty, a funkcja $ F\in C^1(\Omega,\R) $.

Sprawdzimy, że w każdym punkcie zbioru $ M $ różniczka funkcji $ F $ ma rząd równy $ 1 $. Niech $ (x,y,z)\in M $. Jeśli $ z\not=0 $, to $ F_z\not= 0 $. Jeśli $ z=0 $, ale $ x\not=0 $, to $ \sqrt{x^2+y^2}-R=\pm r\not =0 $ i $ F_x\not =0 $. Jeśli wreszcie $ z=x=0 $, to $ |y|=\sqrt{x^2+y^2}=R\pm r $ i wtedy $ F_y\not= 0 $. Zatem, w otoczeniu każdego punktu $ (x,y,z)\in M $ zbiór $ M $ można przedstawić jako wykres pewnej funkcji dwóch zmiennych, klasy $ C^1 $ (ustaliwszy $ (x,y,z)\in M $, łatwo jest rozwikłać równanie $ F=0 $ w sposób jawny - Czytelnik może to robić sam).

Zbiór $ M $ jest torusem obrotowym: %w płaszczyźnie $ (x,y) $ we współrzędnych biegunowych $ x= t\cos\theta $, $ y=t\sin\theta $ równanie $ F=0 $ zmienia się w $ (t-R)^2+z^2=r^2 $. Dla każdego kąta $ \theta\in [0,2\pi) $ przekrój $ M $ pionową półpłaszczyzną $ \{(t\cos\theta,t\sin\theta,z)\colon t>0, z\in \R\} $ jest więc okręgiem.

     Wskażemy jeszcze prosty przykład zastosowania Twierdzenia [link] dla $ n=1 $, $ m=2 $.

Przykład (#) Niech $ F\colon \R^3\to \R^2 $,

\[ 	F(x,y,z)= (x^2+2y^2+3z^2-6,x+y+z). 	\]

Zbiór $ M=\{(x,y,z)\in \R^3\colon F(x,y,z)=(0,0)\} $ jest częścią wspólną zbiorów $ M_i $ opisanych równaniami $ F_i=0 $, gdzie $ F_1 $ i $ F_2 $ są współrzędnymi $ F $, tzn. jest przecięciem elipsoidy trójosiowej i płaszczyzny. Minory $ 2\times 2 $ macierzy

\[ DF(x,y,z)=\begin{pmatrix} 2x & 4y & 6z \\ 1 & 1 & 1 \end{pmatrix} \]

znikają jednocześnie tylko wtedy, gdy $ x=2y=3z $. Na płaszczyźnie $ x+y+z=0 $ równości $ x=2y=3z $ zachodzą jedynie w punkcie $ (0,0,0)\not\in M $, a więc w każdym punkcie $ M $ co najmniej jeden z minorów macierzy $ DF $ nie znika. Wobec Twierdzenia [link], każdy punkt zbioru $ M $ ma takie otoczenie, w którym dwie spośród zmiennych $ (x,y,z) $ można wyznaczyć jako funkcję trzeciej zmiennej.

Dyfeomorfizmy zbiorów otwartych w $\mathbb{R}^n$

Definicja Jeśli $ \Omega\subset \R^n $ jest zbiorem otwartym, to przekształcenie $ f\colon \Omega\to \R^n $ nazywamy dyfeomorfizmem klasy $ C^1 $, gdy $ f\in C^1(\Omega,\R^n) $ jest przekształceniem różnowartościowym, zbiór $ f(\Omega) $ jest otwarty w $ \R^n $ i przekształcenie odwrotne $ f^{-1}\in C^1(f(\Omega),\R^n) $.

Z definicji wynika, że dyfeomorfizm jest homeomorfizmem. Czytelnik nie powinien jednak uważać, że dyfeomorfizm to homeomorfizm, który jest różniczkowalny: przekształcenie $ \R^n\ni x\mapsto x^3 \in \R $ jest bijekcją klasy $ C^\infty $, jednak przekształcenie doń odwrotne, $ \R\ni y\mapsto \sqrt[3]{y}\in \R $, nie jest klasy $ C^1 $ (z uwagi na zachowanie pochodnej w zerze).

Przekształcenie odwrotne do dyfeomorfizmu też jest dyfeomorfizmem.

Przykład

  1. Każde odwracalne przekształcenie liniowe $ \Omega\ni \xx\mapsto A\xx\in A(\Omega)\subset \R^n $ jest dyfeomorfizmem. Z odwracalności $ A $ wynika różnowartościowość tego przekształcenia. Przekształcenia liniowe $ \xx\mapsto f(\xx)=A\xx $ i $ \yy\mapsto f^{-1}(\yy)=A^{-1}\yy $ są ciągłe, a ich różniczki $ Df(\xx)=A $ i $ Df^{-1}(\yy)=A^{-1} $ są stałe, więc też są ciągłe.
  2. Przekształcenie
    \[ (-1,1)\times \R \ni (x,y)  \longmapsto f(x,y)=\big(x,\frac 2\pi\arctg y\big)\in (-1,1)\times (-1,1)\,  \]

    jest dyfeomorfizmem pasa $ (-1,1\times \R) $ na kwadrat $ (-1,1)^2 $. Obie współrzędne $ f $ są gładkie i różnowartościowe, więc $ f $ jest gładkie i różnowartościowe. Macierz

    \[ Df(x,y)=\begin{pmatrix} 1 & 0 \\ 0 & %\dfrac 2\pi     \dfrac{2/\pi}{1+y^2}\end{pmatrix} \]

    jest odwracalna dla każdego $ (x,y) $, więc funkcja $ f^{-1} $ - która, wobec różnowartościowości $ f $, określona jest globalnie na kwadracie $ (-1,1)^2 $ - jest klasy $ C^1 $ na mocy Twierdzenia [link]. Można zresztą wypisać $ f^{-1} $ wzorem.

  3. Niech $ \Omega_1=\R\times (0,\pi)\subset \R^2 $, $ \Omega_2=\{(x,y)\in \R^2\colon y>0\} $. Przekształcenie
    \[ \Omega_1\ni (x,y)\mapsto F(x,y) = (e^x\cos y, e^x\sin y)\in \Omega_2 \]

    jest dyfeomorfizmem pasa $ \Omega_1 $ na półpłaszczyznę $ \Omega_2=F(\Omega_1) $. Najprościej to zauważyć, odwołując się do własności funkcji wykładniczej w $ \C $. Sprawdzenie szczegółów pozostawiamy Czytelnikowi.

Stwierdzenie Złożenie dwóch dyfeomorfizmów jest dyfeomorfizmem. □
Zadanie Wykazać, że koło $ \{\xx\in \R^2\colon \|\xx\|<1\} $ i kwadrat $ \{\xx\in \R^2\colon \|\xx\|_1<1\} $ są dyfeomorficzne.

Z pojęciem dyfeomorfizmu spotkamy się wielokrotnie, także w drugim semestrze.

Rozmaitości zanurzone w $\mathbb{R}^n$

(#)

Definicja Zbiór $ M\subset \R^{n+m} $ nazywamy zanurzoną rozmaitością $ n $-wymiarową klasy $ C^1 $ wtedy i tylko wtedy, gdy dla każdego punktu $ \pp\in M $ istnieje kula $ B(\pp,r) $ w $ \R^{n+m} $, $ n $-wymiarowa podprzestrzeń liniowa $ P=\text{span}\, (\ee_{i_1},\ee_{i_2},\ldots,\ee_{i_n})\subset \R^{n+m} $, zbiór $ U $ otwarty w $ P\equiv\R^n $ i funkcja $ \varphi\in C^1(U,P^\perp) $ takie, że

\[ 	M\cap B(\pp, r)= \text{wykres}\, \varphi \cap B(\pp,r), 	\]

gdzie

\[ \text{wykres}\, \varphi=\{(\xx,\yy)\in \R^{n+m}= P\oplus P^\perp\colon \xx\in U, \ \yy=\varphi (\xx)\}\, . \]

Mówiąc krótko i potocznie, zanurzona rozmaitość $ n $-wymiarowa klasy $ C^1 $ w $ R^{n+m} $ to zbiór, który lokalnie, w otoczeniu każdego swojego punktu, jest wykresem pewnej funkcji klasy $ C^1 $ wybranych $ n $ zmiennych.

Liczbę $ m $ nazywamy kowymiarem rozmaitości $ M\subset \R^{n+m} $.

Twierdzenie (#) Niech $ \Omega \subset \R^{n+m} $ będzie zbiorem otwartym i niech $ F\in C^1(\Omega,\R^m) $. Jeśli $ \qq\in \Omega $ jest punktem takim, że $ DF(\zz) $ jest epimorfizmem liniowym dla każdego punktu $ \zz $, należącego do zbioru

\[ 	M=\{\zz\in \Omega\colon F(\zz)= F(\qq)\}%=F^{-1}\big(\{F(\qq)\}\big)\, , 	\]

to wówczas $ M $ jest rozmaitością $ n $-wymiarową klasy $ C^1 $.

Dowód: Niech $ \pp\in M $. Ponieważ $ DF(\zz) $ jest epimorfizmem w każdym punkcie zbioru $ M $, więc w punkcie $ \pp $ nie znika pewien minor rozmiaru $ m\times m $ macierzy $ DF(\pp) $. Dlatego, odpowiednio permutując zmienne, można zastosować Twierdzenie [link] (o funkcji uwikłanej) i wywnioskować, że w małym otoczeniu punktu $ \pp $ zbiór $ M $ pokrywa się z wykresem pewnej funkcji klasy $ C^1 $, określonej na otwartym podzbiorze $ \R^n $ iprowadzącej w $ \R^m $. □

Zastosowania tego twierdzenia spotkaliśmy już w przykładach [link](ii), [link], [link], [link]. Przykładami rozmaitości są więc elipsa (zarówno zanurzona w $ \R^2 $, jak i zanurzona w $ \R^3 $), sfera i torus.

Przykład [lemniskata i precel] Lemniskatą nazywamy zbiór

\[ 	L=\{(x,y)\in \R^2\colon x^4-x^2+y^2=0\}\, . 	\]

Równanie $ x^4-x^2+y^2=0 $, równoważnie $ y=\pm x\sqrt{1-x^2} $, opisuje w $ \R^2 $ krzywą w kształcie ósemki. Wykresy funkcji $ x\mapsto \pm x\sqrt{1-x^2} $ przecinają się pod kątem prostym w punkcie $ (0,0)\in L $, więc $ L $ nie jest rozmaitością jednowymiarową zanurzoną w $ \R^2 $.

Niech teraz $ F\colon \R^3\to \R $ będzie dana wzorem

\[ F(x,y,z)= \big(x^4-x^2+y^2\big)^2+z^2-\frac{1}{36} \]

i niech $ M=\{(x,y,z)\in \R^3\colon F(x,y,z)=0 $. Sprawdzimy, że spełnione są założenia Twierdzenia [link]. Pochodne cząstkowe $ F $ są równe

\[ \begin{gather*} F_x(x,y,z) =  2\big(x^4-x^2+y^2\big) \cdot (4x^3-2x)=4x(2x^2-1)\big(x^4-x^2+y^2\big), \\	   F_y(x,y,z)  = 4y\big(x^4-x^2+y^2\big), \qquad F_z(x,y,z)=2z\, .  \end{gather*} \]

W tych punktach $ M $, gdzie $ z\not=0 $, różniczka funkcji $ F $ jest epimorfizmem (tzn. ma rząd równy 1), gdyż tam $ F_z\not=0 $. Jeśli $ (x,y,z)\in M $ i $ z=0 $, to $ x^4-x^2+y^2=\pm \frac 16 $. Zatem, o ile $ y\not=0 $, to $ F_y(x,y,0)\not = 0 $ w punktach $ (x,y,0)\in M $.

Jeśli wreszcie $ (x,y,z)\in M $ i $ y=z=0 $, to $ x^4-x^2+y^2=x^4-x^2=\pm \frac 16 $. Inaczej mówiąc, liczba $ x $ jest pierwiastkiem wielomianu $ P(t)=t^4-t^2\mp \frac 16 $. Mamy $ P'(t)=4t^3-2t $; $ P' $ znika więc dla $ t=0 $ i $ t=\pm 1/\sqrt{2} $. Te punkty nie są jednak pierwiastkami $ P $, tzn. $ P $ ma pierwiastki jednokrotne i jeśli $ P(x)=0 $, to $ P'(x)\not=0 $. Ostatecznie więc,

\[ F_x(x,0,0)=  4x(2x^2-1)\big(x^4-x^2+y^2\big) = 2P'(x) \cdot \pm{1}{6} \not=0 \qquad\mbox{dla $(x,0,0)\in M$.} \]

Sprawdziliśmy więc, że we wszystkich punktach $ (x,y,z)\in M $ różniczka $ DF(x,y,z) $ jest epimorfizmem (ma maksymalny możliwy rząd, w tym przypadku równy $ 1 $).

Z lewej: wykres funkcji $ f(x,y)=x^4-x^2+y^2 $ widziany od dołu. Z prawej: precel o równaniu $ f(x,y)^2+z^2=\frac 1{36} $. (Oba rysunki poddano lekkiemu - afinicznemu - zniekształceniu.)

Jak wygląda zbiór $ M $? Wyobraźmy sobie, że zmienna $ z $ to wysokość. Cięcie zbioru $ M $ poziomą płaszczyzną $ \{z=c\} $, gdzie $ c\in [-\frac{1}{6},\frac{1}{6}] $, składa się z takich punktów $ (x,y,z) $, że

\[ x^4-x^2+y^2 =\pm a, \quad\mbox{gdzie } a= \sqrt{\frac{1}{36}-c^2}, \qquad z=c, \]

tzn. wygląda tak samo, jak dwa poziome przekroje wykresu funkcji $ f(x,y)=x^4-x^2+y^2 $, płaszczyznami $ \{z=\pm a\} $. Czytelnik zechce sprawdzić, że w punkcie $ (0,0) $ funkcja $ f $ ma siodło, a w punktach $ (\pm 1/\sqrt 2,0) $ dwa minima lokalne. Zatem, krzywe $ f=\mathrm{const} $ wyglądają tak, jak na załączonym rysunku, zaś sam zbiór $ M $ wygląda tak, jak powierzchnia precla z dwiema dziurami na wylot. (Ten konkretny sposób przedstawienia precla jako jednej) poziomicy pewnej funkcji klasy $ C^1 $ obmyślił Hermann Karcher, geometra z Uniwersytetu w Bonn.

Opiszemy teraz zbiór wektorów stycznych (w sensie Definicji [link]) do rozmaitości zanurzonej klasy $ C^1 $. Okazuje się, że jeśli $ M $ jest rozmaitością $ n $-wymiarową, to $ T_{\mpp}M $ jest przestrzenią liniową wymiaru $ n $. Oto jej opis, w dwóch wersjach, uzależnionych od tego, jak opisujemy rozmaitość $ M $.

Twierdzenie [przestrzeń styczna do rozmaitości, wersja I](#) Jeśli $ M\subset \R^{n+m} $ jest wykresem funkcji $ \varphi\in C^1(\Omega,\R^m) $, gdzie $ \Omega\subset \R^n $ jest zbiorem otwartym, to w każdym punkcie $ \pp=(\aa,\varphi(\aa))\in M $ mamy

\[ 	T_{\mpp} M = \{(\vv, D\varphi (\aa)\vv)\in \R^{n+m}\colon \vv\in \R^n\} = \mathrm{Im\,} D\Phi(\aa)\, , 	\]

gdzie $ \Phi(\xx)=(\xx,\varphi(\xx)) $, $ \Phi\colon \Omega\to \R^n\times \R^m=\R^{n+m} $.

Przekształcenie $ \Phi $, o którym mowa w powyższym twierdzeniu, nazywa się czasem naturalną parametryzacją wykresu funkcji $ \varphi $.

Twierdzenie [przestrzeń styczna do rozmaitości, wersja II](#) Jeśli $ \Omega\subset \R^{n+m} $ jest zbiorem otwartym, $ F\in C^1(\Omega,\R^m) $ i dla każdego punktu $ \pp\in M $, gdzie

\[ 	M=\{\zz\in \Omega\colon F(\zz)= \zero\}\, , 	\]

przekształcenie liniowe $ DF(\pp) $ jest epimorfizmem, to

\[ T_{\mpp} M=\ker DF(\pp)\qquad\mbox{dla $\pp\in M$.} \]

Udowodnimy najpierw pierwsze z tych twierdzeń, posługując się wprost Definicją [link]. Drugie twierdzenie wyprowadzimy później z pierwszego, posługując się twierdzeniem ofunkcji uwikłanej, żeby opisać lokalnie $ M $ jako wykres funkcji klasy $ C^1 $. Uważny Czytelnik spostrzegł przypuszczalnie, że z Twierdzeniem [link] spotkaliśmy się już w prostym przypadku $ m=1 $, dowodząc, że gradient funkcji jest prostopadły do poziomicy (patrz Twierdzenie [link]).

    Dowód Twierdzenia [link] Ustalmy $ \vv\in \R^n $. Niech $ \gamma(t)=(\aa+t\vv,\varphi(\aa+t\vv))=\Phi(\aa+t\vv) $. Wektor $ \gamma'(0) $ prędkości krzywej $ \gamma $ należy do zbioru $  T_{\gamma(0)}M=T_{\mpp}M $ (patrz Uwaga [link]), gdzie oczywiście $ \pp=(\aa,\varphi(\aa))=\Phi(\aa) $. Wobec wzoru na pochodną złożenia,

\[ \gamma'(0)=D\Phi(\aa+t\vv)\cdot \vv\Big|_{t=0} = D\Phi(\aa)\vv= (\vv,D\varphi(\aa)\vv). \]

Datego $ \mathrm{Im\,} D\Phi(\aa)\subset T_{\mpp}M $. Trzeba jeszcze tylko wykazać inkluzję przeciwną.

Niech zatem $ \ww\in T_{\mpp}M\subset \R^{n+m} $. Sprawdzimy, że $ \ww=D\Phi(\aa)\vv $ dla pewnego wektora $ \vv\in \R^n $. Bez zmniejszenia ogólności przyjmiemy, że $ \|\ww\|=1 $. Ponieważ $ M=\Phi(\Omega) $, więc zdefinicji wektora stycznego wynika, że istnieje ciąg $ (\xx_j)\subset \Omega $ zbieżny do $ \aa $ i taki, że

\[ \begin{equation} 	  \label{calosc} 	\lim_{j\to\infty}\frac{\Phi(\xx_j)-\Phi(\aa)}{\norm{\Phi(\xx_j)-\Phi(\aa)}}= \frac{\ww}{\norm{\ww}}=\ww\qquad \mbox{oraz}\qquad  	\lim_{j\to\infty}\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}=\zz\in \S^{n-1}; \end{equation} \]

drugie założenie nie zmniejsza ogólności, gdyż sfera $ \S^{n-1} $ jest zbiorem zwartym. Funkcja $ \varphi $ jest różniczkowalna w $ \aa $; dlatego, wobec ciągłości przekształceń liniowych,

\[ \begin{equation} 	\label{pion} \lim_{j\to\infty}\frac{\norm{\varphi(\xx_j)-\varphi(\aa)}}{\norm{\xx_j-\aa}} \stackrel{\eqref{calosc}}= \|D\varphi (\aa)\zz\|\, .   \end{equation} \]

Uwzględniając tę równość, otrzymujemy

\[ \begin{eqnarray*}  \lim_{j\to\infty}\frac{\norm{\xx_j-\aa}}{\norm{\Phi(\xx_j)-\Phi(\aa)}}  &=& \lim_{j\to\infty}\frac{\norm{\xx_j-\aa}}{\sqrt{\|\xx_j-\aa\|^2+\norm{\varphi(\xx_j)-\varphi(\aa)}^2}}\\ &=& \lim_{j\to\infty} \biggl(1+\frac{\norm{\varphi(\xx_j)-\varphi(\aa)}^2}{\norm{\xx_j-\aa}^2}\biggr)^{-1/2} \\ %\frac{\xx_j-\aa}{\norm{\xx_j-\aa}} \\ & = &   \Big(1+\norm{D\varphi(\aa)\zz}^2 \Big )^{-1/2}  \\ & = &   \Big(\|\zz\|^2+\norm{D\varphi(\aa)\zz}^2 \Big )^{-1/2}= \frac {1}{\|D\Phi(\aa)\zz\|}. \end{eqnarray*} \]

Teraz piszemy

\[ \begin{eqnarray*} \ww & = & \lim_{j\to\infty}\frac{\Phi(\xx_j)-\Phi(\aa)}{\norm{\Phi(\xx_j)-\Phi(\aa)}}\\ & = &\lim_{j\to\infty}\frac{D\Phi(\aa)(\xx_j-\aa)+ o(\|\xx_j-\aa\|)}{\norm{\Phi(\xx_j)-\Phi(\aa)}}\\ & = & \lim_{j\to\infty}  \frac{\norm{\xx_j-\aa}}{\norm{\Phi(\xx_j)-\Phi(\aa)}}  \biggl(D\Phi(\aa) \frac{\xx_j-\aa}{\norm{\xx_j-\aa}} + \frac{o(\|\xx_j-\aa\|)}{\norm{\xx_j-\aa}}\biggr) \\ & = & \frac{D\Phi(\aa)\zz}{\|D\Phi(\aa)\zz\|}         \end{eqnarray*} \]

Inaczej mówiąc, $ \ww=D\Phi(\aa)\vv $, gdzie wektor $ \vv=\|D\Phi(\aa)\zz\|^{-1}\zz $. Dowód Twierdzenia [link] jest zakończony. □

    Dowód Twierdzenia [link] Ustalmy $ \pp\in M $. Bez zmiany ogólności (permutując w razie potrzeby zmienne w $ \R^{n+m} $) przyjmiemy, że w małym otoczeniu $ \Omega_1\subset \Omega $ punktu $ \pp $ funkcja $ F $ zmiennej $ \zz=(\xx,\yy) $, gdzie $ \xx\in \R^n $ i $ \yy\in \R^m $, spełnia założenia Twierdzenia [link] ofunkcji uwikłanej, tzn.

\[ \det D_{\myy} F(\xx,\yy)\not=0, \qquad (\xx,\yy)\in U. \]

Istnieje wtedy funkcja $ \varphi\colon \R^n\supset U\to \R^m $ klasy $ C^1 $ taka, że zbiór $ M $ w otoczeniu punktu $ \pp $ jest wykresem funkcji $ \varphi $. Niech $ \pp=(\aa,\varphi(\aa)) $. Z poprzedniego twierdzenia wynika, że

\[ T_{\mpp}M = \{(\vv,D\varphi(\aa)\vv)\colon \vv\in \R^n\}. \]

Posłużymy się teraz wzorem dh-TFU na różniczkę funkcji uwikłanej $ \varphi $. Wynika zeń, że

\[ D_{\mxx}F(\pp)\vv + D_{\myy} F(\pp) D\varphi(\aa)\vv = 0,  \]

lub równoważnie, $ DF(\pp)\big(\vv,D\varphi(\aa)\vv\big)=0 $, tzn. każdy wektor $ \big(\vv,D\varphi(\aa)\vv\big) $ należy do jądra przekształcenia $ DF(\pp) $. Na odwrót, jeśli $ \ww=(\vv,\uu)\in \ker DF(\pp) $, gdzie $ \vv\in \R^n $ i $ \uu\in \R^m $, to

\[ 0=DF(\pp)\ww=  D_{\mxx}F(\pp)\vv + D_{\myy} F(\pp) \uu, \]

stąd zaś, wobec wzoru dh-TFU, otrzymujemy $ \uu=-\big(D_{\myy}F(\pp)\big)^{-1}D_{\mxx}F(\qq)\vv= D\varphi(\pp)\vv $. Zatem rzeczywiście $ \ww=(\vv,D\varphi(\aa)\vv)\in T_{\mpp}M $. □

Ekstrema warunkowe i mnożniki Lagrange'a

W wielu konkretnych zastosowaniach rachunku różniczkowego trzeba znajdować wartość największą lub najmniejszą pewnej funkcji $ n $ zmiennych, ale nie na zbiorze otwartym $ \Omega\subset \R^n $, tylko wtedy, gdy między poszczególnymi zmiennymi zachodzą dodatkowe związki. Np. obliczając odległość punktu $ (3,4,5) $ od powierzchni sfery $ \S^2 $, szukamy w istocie najmniejszej wartości funkcji

\[ g(x,y,z)=(x-3)^2+(y-4)^2+(z-5)^2, \qquad (x,y,z)\in \S^2, \]

na pewnej podrozmaitości w $ \R^3 $: na sferze. Gradient funkcji $ g\colon \R^3\to \R $, jak nietrudno stwierdzić, znika jedynie w punkcie $ (3,4,5) $, w którym $ g $ osiąga swój kres dolny na $ \R^3 $. Jednak $ (3,4,5)\not\in \S^2 $, gdzie jest więc osiągany kres dolny na sferze?

Akurat to zadanie można rozwiązać szkolnymi metodami, odwołując się do elementarnej geometrii. Problemy tego typu pojawiają się jednak w wielu dziedzinach, choćby w ekonomii, w różnych zadaniach związanych z optymalizacją kosztów i zysku, gdy wiadomo, że np. suma różnych rodzajów wydatków firmy (płace, reklama, środki produkcji, ubezpieczenie itp.) powinna być stała. Warto więc dysponować ogólnymi metodami rozwiązywania podobnych zadań.

Powiemy teraz, jak badać minima i maksima funkcji, określonych na $ n $-wymiarowych rozmaitościach zanurzonych w $ \R^{n+m} $. Równania, opisujące daną rozmaitość, traktujemy jako dodatkowe warunki, wiążące poszczególne zmienne w $ \R^{n+m} $. Stąd właśnie bierze się nazwa ekstrema warunkowe albo ekstrema związane.

Twierdzenie [warunek konieczny ekstremum warunkowego] (#) Załóżmy, że $ g\in C^1(\Omega,\R) $ i $ F=(F_1,\ldots,F_m)\in C^1(\Omega,\R^m) $, gdzie $ \Omega $ jest zbiorem otwartym w $ \R^{n+m}=\R^n\times\R^m $. Niech $ M=\{\zz\in \Omega\colon F(\zz)=\zero\} $. Niech $ \pp\in M $ i niech przekształcenie $ DF(\pp) $ będzie epimorfizem liniowym.

Jeśli $ g $ osiąga w punkcie $ \pp\in M $ swój kres górny lub dolny na zbiorze $ M $, to

\[ \langle \grad g (\pp), \ww\rangle =0  \qquad\mbox{dla każdego}\quad \ww\in T_{\mpp} M \]

i istnieją liczby $ \lambda_1,\ldots,\lambda_m\in \R $ takie, że

\[ \begin{equation} 	\label{mnozLagr}    	\grad g(\pp) = \sum_{i=1}^m \lambda_i \cdot \grad F_i (\pp)\, .  \end{equation} \]

Liczby $ \lambda_i $ nazywa się mnożnikami Lagrange'a. Geometryczny sens warunku mnozLagr jest następujący: gradient funkcji $ g $ w punkcie $ \pp $ jest prostopadły do przestrzeni stycznej $ T_{\mpp}M=\ker DF(\pp) $ do rozmaitości $ M $. To wynika z Twierdzenia [link]. Aby to łatwiej zrozumieć, Czytelnik może pomyśleć o przypadku $ m=1 $, $ n=2 $. Wtedy $ F $ ma wartości rzeczywiste i warunek mnozLagr oznacza, że $ \grad g(\pp)=\lambda\, \grad F(\pp) $, a wektor $ \grad F(\pp) $ jest wszak prostopadły do poziomicy funkcji $ F $.

Dowód: Pewien minor $ m\times m $ macierzy $ DF(\pp) $ nie znika. Bez zmniejszenia ogólności (permutując w razie potrzeby zmienne) załóżmy zatem, że $ DF(\pp)=(D_{\mxx}F(\pp),D_{\myy}F(\pp)) $, gdzie $ D_{\mxx}F(\pp) $ jest macierzą o $ n $ kolumnach i $ m $ wierszach, zaś $ D_{\myy}F(\pp) $ - odwracalną macierzą kwadratową $ m\times m $. Wobec Twierdzenia [link], dla pewnego $ r>0 $ zbiór $ M\cap B(\pp,r) $ jest wykresem funkcji $ \varphi\in C^1(U,\R^m) $, gdzie $ U $ jest zbiorem otwartym w $ \R^n $. Punkt $ \pp=(\aa,\varphi(\aa)) $ dla pewnego $ \aa\in U $. Oznaczmy jeszcze $ \Phi(\xx)=(\xx,\varphi(\xx)) $.

Funkcja $ G\colon U\to\R $ dana wzorem

\[ G(\xx) = g(\xx,\varphi(\xx)),  \qquad \mbox{gdzie } \xx\in U, \quad\mbox{tzn. } (\xx,\varphi(\xx))=\Phi(\xx)\in M\cap B(\pp,r),  \]

jest różniczkowalna na $ U $ i osiąga swój kres górny (lub dolny) w punkcie $ \aa\in U $. Dlatego, wobec wzoru na pochodną złożenia,

\[ \zero = DG(\aa) = Dg(\pp) D\Phi(\aa) = D_{\mxx} g(\pp) +  D_{\myy}g(\pp)D\varphi(\aa). \]

Innymi słowy, $ \langle \grad g(\pp), \ww\rangle = (D_{\mxx} g(\pp), D_{\myy}g(\pp)) \ww = 0 $ dla każdego wektora $ \ww=D\Phi(\aa)\vv\in \R^{n+m} $, gdzie $ \vv\in \R^n $ można wybrać dowolnie. Wobec Twierdzenia [link], obraz przekształcenia liniowego $ D\Phi(\aa)\colon \R^n\to \R^{n+m} $ to przestrzeń styczna $ T_{\mpp}M $, a więc otrzymaliśmy warunek

\[ \begin{equation}       \label{gradperp} \langle \grad g(\pp), \ww\rangle = 0 \qquad\mbox{dla każdego}\quad \ww\in T_{\mpp} M\, .    \end{equation} \]

Wyprowadzimy stąd warunek mnozLagr. W tym celu opiszemy bazę przestrzeni $ V=(T_{\mpp} M)^\perp $.

Twierdzenie [link] orzeka, iż $ T_{\mpp} M= \ker DF (\pp) $. Wymiar $ T_{\mpp}M $ jest równy $ n $, zatem $ \dim V=(n+m)-n=m $. Wiersze macierzy $ DF(\pp) $, tzn. wektory $ \grad F_i(\pp) $, są ortogonalne do $ \ker DF(\pp) $. Zatem, $ \grad F_i(\pp)\in V $ dla $ i=1,\ldots, m $. Ponadto, wektory $ \grad F_1(\pp) $, \ldots, $ \grad F_m(\pp) $ są liniowo niezależne, gdyż $ DF(\pp) $ jest epimorfizem. Zatem, $ (\grad F_i(\pp))_{i=1,\ldots, m} $ jest bazą $ V $. Warunek gradperp oznacza zaś, że wektor $ \grad g(\pp)\in V $; dlatego $ \grad g(\pp) $ jest kombinacją wektorów bazy $ V $, tzn. wektorów $ \grad F_i(\pp) $. □

Funkcję $ L(\zz)=g(\zz)-\sum_{i=1}^m\lambda_i F_i(\zz) $, gdzie liczby $ \lambda_i $ spełniają, przy założeniach ostatniego twierdzenia, warunek mnozLagr, nazywamy funkcją Lagrange'a (dla punktu $ \pp\in M $). Badając drugą różniczkę tej funkcji, można w wielu sytuacjach sprawdzić, czy $ g $ ma w punkcie $ \pp $ ekstremum lokalne związane na rozmaitości $ M $, czy go nie ma.

Definicja Załóżmy, że $ g\in C^1(\Omega,\R) $ i $ F=(F_1,\ldots,F_m)\in C^1(\Omega,\R^m) $, gdzie $ \Omega $ jest zbiorem otwartym w $ \R^{n+m}=\R^n\times\R^m $. Niech $ M=\{\zz\in \Omega\colon F(\zz)=\zero\} $. Mówimy, że $ g $ ma w punkcie $ \pp\in M $ minimum (odpowiednio: maksimum) lokalne związane na $ M $ wtedy i tylko wtedy, gdy dla pewnego $ r>0 $ jest $ g(\pp)\le g(\zz) $ (odpowiednio: $ g(\pp)\ge g(\zz) $) dla wszystkich $ \zz\in M $, $ \|\zz-\pp\|<r $. Jeśli nierówności są ostre, to mówi się, że ekstremum lokalne związane jest właściwe.
Twierdzenie [warunki dostateczne ekstremum lokalnego związanego] (#) $ \phantom{a} $ Niech $ g\in C^2(\Omega,\R) $ i $ F=(F_1,\ldots,F_m)\in C^2(\Omega,\R^m) $, gdzie $ \Omega $ jest zbiorem otwartym w$ \R^{n+m} $. Przypuśćmy, że w punkcie $ \pp\in M=\{z\in \Omega\colon F(\zz)=0\} $ przekształcenie $ DF(\pp) $ jest epimorfizem izachodzi mnozLagr, tzn.

\[ 	\grad g(\pp) = \sum_{i=1}^m \lambda_i \cdot \grad F_i (\pp)\, .        	\]

Niech $ L=g-\sum_{i=1}^m \lambda_i F_i\colon \Omega\to \R $. Wówczas:

  1. Jeśli $ D^2L(\pp) (\ww,\ww)>0 $ (odpowiednio, $ D^2L(\pp) (\ww,\ww)<0 $) dla wszystkich $ \ww\in T_{\mpp} M\setminus\{0\} $, to $ g $ ma w $ \pp\in M $ właściwe minimum (odpowiednio: maksimum) lokalne związane.

  2. Jeśli istnieją dwa wektory $ \vv,\ww\in T_{\mpp}M $ takie, że $  D^2L(\pp) (\ww,\ww)>0 > D^2L(\pp) (\vv,\vv)\, ,  $ to $ g $ nie ma w punkcie $ \pp $ ekstremum lokalnego związanego.
Dowód: Bez zmniejszenia ogólności (można przesunąć układ współrzędnych w $ \R^{n+m} $ idodać do $ g $ stałą) załóżmy, że $ \pp=\zero\in M $, $ L(\zero)=g(\zero)=F_1(\zero)=\ldots = F_m(\zero)=0 $. Załóżmy ponadto, przenumerowując w razie potrzeby zmienne istosując twierdzenie o funkcji uwikłanej, że $ M\cap B(\pp,r) $ jest wykresem funkcji

\[ \R^n\supset U \ni \xx\longmapsto \yy=\varphi (\xx)\in M\cap B(\pp,r). \]

Dla ustalenia uwagi, niech $ \varphi(\zero)=\zero $. Wobec Uwagi [link], $ \varphi $ jest klasy $ C^2 $. Niech $ \Phi $ będzie naturalną parametryzacją $ M $, tzn. $ \Phi(\xx)=(\xx,\varphi(\xx))\in M $ dla $ \xx\in U\subset \R^n $ i $ \Phi(\zero)=\zero=\pp $. Załóżmy, że $ D^2L(\zero)>0 $ na $ T_{\mpp}M $.

Aby wykazać tezę, zastosujemy wzór Taylora do funkcji $ L $. Z warunku mnozLagr wynika, że $ DL(\zero)=Dg(\zero)-\sum\lambda_i DF_i(\zero)= 0 $. Dlatego dla $ \zz\in B(\zero,r) $ jest

\[ L(\zz)= D^2L(\zero)(\zz,\zz) + r_1(\zz), \qquad\mbox{gdzie} \quad\lim_{\|\mzz\|\to 0}\,  \frac{r_1(\zz)}{\norm{\zz}^2}=\zero. \]

Podstawiając do tej równości

\[ M\ni \zz= \Phi(\xx) = \Phi(\zero)+ D\Phi(\zero)\xx + r_2(\xx)=D\Phi(\zero)\xx + r_2(\xx), \]

gdzie reszta $ r_2(\xx)/\|\xx\|\to \zero $ dla $ \xx\to \zero $, dzięki dwuliniowości $ D^2L(\zero) $ otrzymujemy

\[ \begin{equation} 	\label{d2l} 	L(\zz)= D^2 L(\zero)\big( D\Phi(\zero)\xx,D\Phi(\zero)\xx\big) + R(\xx),  \qquad \zz=\Phi(\xx)\in M\cap B(\zero,r), \end{equation} \]

gdzie

\[ \begin{equation} \label{trypreszta} R(\xx)=r_1(\Phi(\xx))+2D^2L(\zero)(D\Phi(\zero)\xx,r_2(\xx))+	D^2L(\zero)(r_2(\xx),r_2(\xx))\, . \end{equation} \]

Z założenia, forma $ D^2L(\zero) $ jest dodatnia na wektorach z przestrzeni stycznej. Istnieje więc stała $ \alpha>0 $ taka, że

\[ D^2 L(\zero)( \ww,\ww)\ge \alpha\|\ww\|^2\, . \]

Biorąc wektor $ \ww=D\Phi(\zero)\xx\in T_{\mpp}M $ (tu stosujemy Twierdzenie [link]!) otrzymujemy

\[ \begin{equation}   \label{d2l-dol}  D^2 L(\zero)( D\Phi(\zero)\xx,D\Phi(\zero)\xx)\ge \alpha \|D\Phi(\zero)\xx\|^2\ge \alpha \|\xx\|^2.	 \end{equation} \]

Nietrudno stwierdzić - nie będziemy podawać formalnego dowodu w języku $ \eps $-$ \delta $ - że reszta $ R(\xx) $, dana wzorem trypreszta, jest równa $ o(\|\xx\|^2) $ dla $ \xx\to\zero $, tzn. $ |R(\xx)|<\alpha\|\xx\|^2/2 $ dla $ \|\xx\| $ dostatecznie małych, $ \|\xx\|<\delta $. Ostatecznie więc ze wzorów d2l- d2l-dol otrzymujemy

\[ L(\zz)=L(\Phi(\xx))\ge \alpha \|\xx\|^2 + R(\xx)\ge \frac {\alpha\|\xx\|^2}2 \qquad\mbox{dla wszystkich $\zz=\Phi(\xx)\in M\cap B(\zero,\delta)$.}   \]

Ponieważ $ L(\zero)=0 $, więc $ L(\zz)>L(\zero) $ dla $ \zz\in M\cap B(\zero,\delta) $, $ \zz\not=\zero $. Jednak na rozmaitości $ M $ jest $ F_1=\ldots =F_m=0 $ i dlatego

\[ g(\zz)=L(\zz)+\sum_{i=1}^m \lambda_i F_i(\zz) = L(\zz)> L(\zero)=L(\zero)+\sum_{i=1}^m \lambda_i F_i(\zero) =g(\zero) \]

dla wszystkich punktów $ \zz\in M\cap B(\zero,\delta) $, $ \zz\not=\zero $. Dowód punktu (i) jest zakończony. Dowód punktu (ii) jest bardzo podobny. Szczegóły pozostawiamy Czytelnikowi jako zadanie. □

Przejdźmy do przykładów.

Przykład [długi, ale pouczający] Niech $ n=2 $, $ m=1 $. Znajdziemy wszystkie ekstrema lokalne związane funkcji $ g(x,y,z)=x^2+y^2+z^2 $ na powierzchni $ M $, opisanej równaniem

\[ 	F(x,y,z):=\frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4-1=0. 	\]

Jak zobaczymy, na $ M $ jest 26 punktów, w których dla pewnej liczby $ \lambda $ zachodzi warunek Lagrange'a $ \grad g=\lambda\, \grad F $. Stosując ostatnie twierdzenie, sprawdzimy, że w ośmiu znich $ g $ ma maksimum warunkowe na $ M $, a w sześciu - minimum warunkowe na $ M $. W dwunastu pozostałych `podejrzanych' punktach $ g $ nie ma ani minumum warunkowego, ani maksimum warunkowego.

Warunek mnozLagr i równanie $ F\equiv 0 $, opisujące $ M $, prowadzą do układu czterech równań:

\[ \begin{gather} 2x= 4 \lambda \frac{x^3}{3^4}\, , \qquad 	     2y= 4 \lambda \frac{y^3}{2^4}\, , \qquad  2z= 4 \lambda z^3 , \qquad   \label{Cartan1} \\ \frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4=1\, .  \label{Cartan2} \end{gather} \]

Mnożąc równania Cartan1 odpowiednio przez $ x $, $ y $, $ z $, a następnie dodając wyniki stronami, otrzymujemy

\[ \begin{equation} 	g(x,y,z)=x^2+y^2+z^2=2\lambda \left(\frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4\right) 	\stackrel{\eqref{Cartan2}}= 2\lambda >0, \label{g-lambda} \end{equation} \]

dla każdego punktu $ (x,y,z)\in M $, który spełnia warunek z tezy Twierdzenia [link]. Liczba $ \lambda\not=0 $, gdyż współrzędne punktu $ (x,y,z)\in M $ nie mogą jednocześnie znikać.

Wypiszmy jeszcze funkcję Lagrange'a, która pomoże nam określić charakter punktów krytycznych funkcji $ g\big|_M $. Mamy

\[ L(x,y,z)=g(x,y,z)-\lambda F(x,y,z)= x^2+y^2+z^2-\lambda\left(\frac{x^4}{3^4}+\frac{y^4}{2^4}+z^4-1\right)\, . \]

Dlatego

\[ \begin{equation} 	\label{D2-Cartan} 	D^2L(x,y,z)=\begin{pmatrix}   	2-{12\lambda}\dfrac{x^2}{3^4} & 0 & 0 \\ 	0 & 2-{12\lambda}\dfrac{y^2}{2^4} & 0 \\ 	0 & 0 & 2-{12\lambda}z^2 \\  \end{pmatrix}\, . \end{equation} \]

Układ równań Cartan1- Cartan2 rozwiążemy, rozpatrując oddzielnie trzy przypadki.

    Przypadek 1: $ xyz\not= 0 $. Dzieląc równania Cartan1 odpowiednio przez $ 4\lambda x $, $ 4\lambda y $ i $ 4\lambda z $, otrzymujemy wtedy

\[ \begin{equation} 	\label{kwadratyxyz}  	x^2=\frac{3^4}{2\lambda}, \qquad y^2=\frac{2^4}{2\lambda}, \qquad z^2=\frac {1}{2\lambda}\, .  \end{equation} \]

Dlatego

\[ 2\lambda \stackrel{\eqref{g-lambda}}= x^2+y^2+z^2=\frac{3^4+2^4+1}{2\lambda}= \frac{98}{2\lambda}, \]

stąd zaś $  2\lambda=\sqrt{98}=7\sqrt{2}  $. Ostatecznie więc rozwiązaniami układu Cartan1- Cartan2 są w tym przypadku

\[ \begin{equation} 	\label{Cartan-przyp1}    	2\lambda=g(x,y,z)=7\sqrt{2} 	\, , \qquad x=\pm \frac{9}{\sqrt{7\sqrt 2}} 	\, , \qquad y=\pm \frac{4}{\sqrt{7\sqrt 2}} 	\, , \qquad z=\pm \frac{1}{\sqrt{7\sqrt 2}} \end{equation} \]

Ponieważ znaki $ \pm $ można dla każdej z trzech niewiadomych $ x,y,z $ wybrać oddzielnie, więc takich rozwiązań jest 8. Macierz drugiej różniczki funkcji Lagrange'a w każdym z tych punktów określamy, wstawiając kwadratyxyz do D2-Cartan; prowadzi to do wyniku

\[ D^2L(x,y,z)= -4\cdot \mathrm{Id} \qquad\mbox{dla $(x,y,z)\in M$ spełniających \eqref{Cartan-przyp1}.} \]

Forma $ D^2L(x,y,z) $ jest więc w każdym z tych ośmiu punktów ujemna (nie tylko na przestrzeni stycznej $ T_{(x,y,z)}M $, ale po prostu na całej przestrzeni $ \R^3 $). Wobec Twierdzenia [link] funkcja $ g\big|_M $ ma w każdym z tych punktów właściwe maksimum lokalne związane.

    Przypadek 2: jedna współrzędna punktu $ (x,y,z) $ jest równa zero, a dwie są różne od zera. Rozwiązań tego typu jest 12. Dla ustalenia uwagi przyjmijmy $ x=0 $, $ yz\not=0 $. (Są jeszcze analogiczne podprzypadki $ y=0 $ i $ xz\not=0 $ oraz $ z=0 $ i $ xy=0 $ - ich szczegółowe rozpatrzenie pozostawimy Czytelnikowi). Tym razem dzielimy drugie i trzecie z równań Cartan1 przez $ 4\lambda y $ i $ 4\lambda z $ odpowiednio; otrzymujemy

\[ \begin{equation} 	\label{kwadraty-yz}  	x=0, \qquad y^2=\frac{2^4}{2\lambda}, \qquad z^2=\frac {1}{2\lambda}\, .  \end{equation} \]

Dlatego

\[ 2\lambda \stackrel{\eqref{g-lambda}}= x^2+y^2+z^2=\frac{2^4+1}{2\lambda}= \frac{17}{2\lambda}, \]

stąd zaś $ 2\lambda=\sqrt{17} $. Rozwiązaniami układu Cartan1- Cartan2 są zatem

\[ \begin{equation} 	\label{Cartan-przyp2a}    	2\lambda=g(x,y,z)=\sqrt{17} 	\, , \qquad x=0 	\, , \qquad y=\pm \frac{4}{\sqrt{17}} 	\, , \qquad z=\pm \frac{1}{\sqrt{17}} \end{equation} \]

Takich rozwiązań jest 4. Podobnie otrzymujemy rozwiązania

\[ \begin{gather}  	\label{Cartan-przyp2b}    	2\lambda=g(x,y,z)=\sqrt{82} 	\, , \qquad x=\pm \frac{9}{\sqrt{82}} 	\, , \qquad y= 0 	\, , \qquad z=\pm \frac{1}{\sqrt{82}} \\ 	\label{Cartan-przyp2c}    	2\lambda=g(x,y,z)=\sqrt{97} 	\, , \qquad x=\pm \frac{9}{\sqrt{97}}   	\, , \qquad y=\pm \frac{4}{\sqrt{97}} 	\, , \qquad z=0 \end{gather} \]

Dla każdego z rozwiązań Cartan-przyp2a macierz

\[ D^2L(x,y,z)=   \begin{pmatrix}   2 & 0 & 0 \\ 0 & -4 & 0 \\ 0 & 0 & -4 \\  \end{pmatrix} \]

ma wartości własne $ 2 $ i $ -4 $, nie jest więc ani dodatnia, ani ujemna na $ \R^3 $. Aby posłużyć się Twierdzeniem [link], należy jednak sprawdzić, jak zachowuje się macierz $ D^2L(x,y,z) $ na przestrzeni stycznej $ T_{(x,y,z)}M $. Wobec Twierdzenia [link],

\[ T_{(x,y,z)}M=\ker DF(x,y,z)=\Big\{(u,w,v)\in \R^3\colon \frac{4x^3}{3^4}\cdot {u} + \frac{4y^3}{2^4}\cdot {w} + 4z^3\cdot {v}= 0 \Big\}\, , \]

a ponieważ w przypadku Cartan-przyp2a jest $ x=0 $, $ yz\not =0 $, więc

\[ \begin{gather*} T_{(x,y,z)}M= \{(u,w,v)\in \R^3\colon {u} \text{ jest dowolne, }  \frac{4y^3}{2^4}\cdot {w} + {4z^3}\cdot {v}= 0 \}\, ,\\ D^2L(x,y,z)\Big((u,w,v),(u,w,v)\Big)= 2u^2-4(w^2+v^2)\, . \end{gather*} \]

Ponieważ współrzędną $ u $ wektora $ (u,w,v) $ stycznego do $ M $ możemy manipulować dowolnie, więc druga różniczka funkcji Lagrange'a przybiera na przestrzeni stycznej do $ M $ zarówno wartości dodatnie, jak ujemne. Wobec Twierdzenia [link](ii), funkcja $ g $ nie ma w takich punktach ekstremum lokalnego związanego.

    Przypadek 2: dwie współrzędne punktu $ (x,y,z) $ są równe zero, a jedna jest różna od zera. Dla ustalenia uwagi przyjmijmy $ x=y=0 $, $ z\not=0 $. Wtedy z równań Cartan1- g-lambda otrzymujemy po łatwym rachunku

\[ \begin{equation} 	\label{Cartan-przyp3a} 	x=y=0, \qquad z=\pm 1, \qquad 2\lambda=z^2=1\, .    \end{equation} \]

Pozostałe rozwiązania tego typu to

\[ \begin{gather} 	x=z=0, \qquad y=\pm 2, \qquad 2\lambda = 4;\label{Cartan-przyp3b}\\ 	y=z=0, \qquad x=\pm 3, \qquad 2\lambda = 9.\label{Cartan-przyp3c} \end{gather} \]

W takich punktach (jest ich razem 6) funkcja $ g\big|_M $ ma właściwe minima lokalne związane. Rozpatrzmy np. zachowanie $ g $ w otoczeniu punktów Cartan-przyp3a. Mamy w nich $ DF(x,y,z)=(0,0,\pm 4) $ i

\[ T_{(x,y,z)}M=\ker DF (x,y,z) = \{(u,w,v)\in \R^3\colon v=0\}. \]

Tym razem

\[ D^2L(x,y,z)=   \begin{pmatrix}   2 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & -4 \\  \end{pmatrix}, \]

więc $  D^2L(x,y,z)\big((u,w,v),(u,w,v)\big)= 2(u^2+w^2)  $ dla $ (u,w,v)\in T_{(x,y,z)}M $, tzn. $ D^2L(\pp) $ jest dodatnia na $ T_{\mpp}M $. Podobnie jest w punktach Cartan-przyp3b- Cartan-przyp3c. Są to więc minima $ g\big|_M $.

Porównując wartości $ g(x,y,z)=2\lambda $ w znalezionych punktach, stwierdzimy łatwo, że $ \inf_M g =1 $ i $ \sup_M g=\sqrt{98} $.

Z lewej: powierzchnia $ M $ przypomina prostopadłościan o wyokrąglonych krawędziach i rogach. Czarnym kolorem zaznaczono poziomice funkcji $ g\big|_M $. Widać wyraźnie trzy minima lokalne związane $ g\big|_M $ i dwa jej maksima lokalne związane. W punktach skrzyżowań poziomic $ g\big|_M $ nie ma ekstremum związanego.

Z prawej: każda ze sfer, na których $ g\colon \R^3\to\R $ ma stałą wartość, przecina $ M $ wzdłuż poziomicy $ g\big|_M=\mathrm{const} $. Na rysunku wskazano poziomicę, odpowiadającą punktom Cartan-przyp2a, w których funkcja $ g\big|_M $ ma siodła.