Różniczkowanie funkcji wielu zmiennych

Pochodne cząstkowe, kierunkowe i różniczka zupełna

Definicja [pochodna cząstkowa] (#) Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie zbiór $ \Omega\subset \R^n $ jest otwarty, ma w punkcie $ \aa=(a_1,\ldots,a_n)\in \Omega $ pochodną cząstkową względem zmiennej $ x_i $ wtedy i tylko wtedy, gdy funkcja jednej zmiennej rzeczywistej

\[ \begin{equation} F_i(t) = f(a_1,\ldots, a_{i-1},t,a_{i+1},\ldots, a_n), \qquad F_i\colon (a_i-\delta,a_i+\delta) \to \R^m    \end{equation} \]

ma pochodną w punkcie $ a_i $, gdzie $ \delta>0 $ wybieramy tak, aby odcinek $ (\aa-\delta\ee_i,\aa+\delta\ee_i)\subset \Omega $. Przyjmujemy

\[ \begin{equation}  	\label{def-pcz} 	\pcz{f}{x_i}(\aa)=F_i'(a_i)=\lim_{h\to 0}\frac{f(\aa+h\ee_i)-f(\aa)}h\, . \end{equation} \]

Używa się także innych oznaczeń:

\[ D_i f(\aa) =  f_{x_i}(\aa)=\pcz{f}{x_i}(\aa)\, . \]

Jak widać, pochodną cząstkową $ \pcz{f}{x_i} $ obliczamy, traktując wszystkie zmienne oprócz $ x_i $ jako ustalone parametry i wykonując różniczkowanie względem $ x_i $. Obowiązują przy tym oczywiście wszystkie reguły, które Czytelnik poznał, ucząc się rachunku różniczkowego funkcji jednej zmiennej rzeczywistej. Np. jeśli

\[ f(x,y,z)= x^2 + x\cos (y z) + z\exp(x^2)\, , \]

to

\[  \begin{gather*} \pcz{f}{x}(x,y,z) = 2 x + \cos(y z)+2zx\exp(x^2)\, , \qquad   \pcz{f}{y}(x,y,z) = -xz\sin(y z)\, , \\ \pcz{f}{z}(x,y,z) = -xy\sin(y z) +\exp(x^2)\, .  \end{gather*}     \]
Uwaga Ze wzoru def-pcz wynika, że gdy wartości $ f $ są liczbami rzeczywistymi, tzn. $ m=1 $ w Definicji [link], to także $ \pcz{f}{x_i}(\aa) $ - tam, gdzie jest określona - jest liczbą rzeczywistą. Jeśli $ m>1 $, to $ \pcz{f}{x_i}(\aa) $ jest wektorem z przestrzeni $ \R^m $.

Podkreślmy od razu, że samo istnienie pochodnych cząstkowych funkcji $ f $ nie gwarantuje\/ ciągłości funkcji.

Przykład

  1. Niech $ f\colon\R^2\to \R $ bedzie funkcją charakterystyczną zbioru $ A=\{(x,y)\in \R^2: y=x^2, y\not=0\} $, tzn. niech $ f\equiv 1 $ na $ A $ i $ f\equiv 0 $ na $ \R^2\setminus A $. Na obu osiach układu współrzędnych mamy $ f\equiv 0 $ i dlatego, wprost z definicji,
    \[ \pcz{f}{x}(\zero)=0=\pcz{f}{y}(\zero)\, . \]

    Jednak $ f $ nie jest ciągła w zerze, gdyż $ f(\zero)=0\not=\lim_{j\to\infty} f(1/j,1/j^2) $.

  2. Rozpatrzmy ponownie funkcję z Przykładu [link]:
    \[ \begin{equation}  	\label{zlafunkcja}   f(x,y)=\left\{ 	\begin{array}{ll} 		\displaystyle\frac{yx^2}{y^2+x^4}\, , \qquad & (x,y)\not=(0,0),\\[12pt] 	   0, & (x,y)=(0,0).    \end{array}\right.  \end{equation} \]

    Jeśli $ (x,y)\not=(0,0)\in \R^2 $, to

    \[ \begin{eqnarray} \pcz{f}{x}(x,y)&=&\frac{2xy(y^2+x^4)-4x^3\cdot yx^2}{(y^2+x^4)^2}=\frac{2xy(y^2-x^4)}{(y^2+x^4)^2}\, , \\   \pcz{f}{y}(x,y)&=&\frac{x^2(y^2+x^4)-2y\cdot yx^2}{(y^2+x^4)^2} =\frac{-x^2(y^2-x^4)}{(y^2+x^4)^2}\, . \end{eqnarray} \]

    Podobnie jak w poprzednim przykładzie, $ f\equiv 0 $ na obu osiach układu współrzędnych mamy i dlatego

    \[ \pcz{f}{x}(\zero)=0=\pcz{f}{y}(\zero)\, . \]

    Jednak wiemy już, że $ f $ nie jest ciągła w punkcie $ \zero\in \R^2 $.

Przykład Niech $ f\colon \R\to \R $ będzie funkcją różniczkowalną i niech $ G(x)=(x,f(x)) $, $ G\colon \R\to \R^2 $. Wówczas $ \pcz{G}{x}=G'(x)=(1,f'(x)) $. Interpretacja geometryczna jest prosta: $ G'(x) $ jest wektorem stycznym do wykresu $ f $ w punkcie $ (x,f(x))\in \R^2 $.
Definicja [pochodna kierunkowa] Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie zbiór $ \Omega\subset \R^n $ jest otwarty, ma w punkcie $ \aa=(a_1,\ldots,a_n)\in \Omega $ pochodną kierunkową względem wektora $ \vv\in \R^n\setminus\{\zero\} $ wtedy i tylko wtedy, gdy funkcja jednej zmiennej rzeczywistej

\[ \begin{equation} F_{\mvv}(t) = f(\aa+t\vv), \qquad F_{\mvv}\colon (-\delta,\delta) \to \R^m    \end{equation} \]

ma pochodną w zerze. (Liczbę $ \delta>0 $ wybieramy tak, by odcinek $ (\aa-\delta\vv,\aa+\delta\vv)\subset \Omega $.) Przyjmujemy

\[ \begin{equation}  	\label{def-pkier} 	\pcz{f}{\vv}(\aa)=(F_{\mvv})'(0)=\lim_{h\to 0}\frac{f(\aa+h\vv)-f(\aa)}h\, . \end{equation} \]

Używa się także innych oznaczeń:

\[ D_{\mvv} f(\aa) =  f'_{\mvv}(\aa)=\pcz{f}{\vv}(\aa)\, . \]
Uwaga Zauważmy, że pochodna kierunkowa względem $ \ee_i $ jest tym samym, co pochodna cząstkowa względem $ \ee_i $:

\[ 	D_{\mee_i}f(\aa) =\pcz{f}{x_i}(\aa)\, . 	\]

Przykład Raz jeszcze rozpatrzmy funkcję z Przykładu [link], daną wzorem zlafunkcja. Dla $ \aa=\zero $ i dowolnego wektora $ \vv=(\xi,\eta)\in \R^2 $, gdzie $ \xi,\eta\not=0 $, iloraz

\[ \frac{f(\aa+h\vv)-f(\aa)}{h}= \frac 1h\cdot\frac{h^3\xi^2\eta}{h^2\eta^2+h^4\xi^4}= \frac{\xi^2\eta}{\eta^2+h^2\xi^4}  \to \frac{\xi^2}{\eta}\qquad\mbox{dla $h\to 0$.} \]

Zatem $ f $ ma w zerze wszystkie pochodne kierunkowe (sprawdzaliśmy już istnienie pochodnych cząstkowych). Nietrudno stwierdzić, że w pozostałych punktach $ \R^2 $ funkcja $ f $ też ma wszystkie pochodne kierunkowe. Wynika stąd, że nawet istnienie wszystkich pochodnych kierunkowych w każdym punkcie dziedziny nie gwarantuje ciągłości funkcji wielu zmiennych rzeczywistych.

Właściwym odpowiednikiem pojęcia pochodnej jest, dla funkcji wielu zmiennych, pojęcie różniczki.

Definicja [różniczkowalność funkcji wielu zmiennych] Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie $ \Omega\subset\R^n $ jest zbiorem otwartym, jest różniczkowalna w punkcie $ \aa\in \Omega $ wtedy i tylko wtedy, gdy istnieje przekształcenie liniowe $ A\colon \R^n\to\R^m $ takie, że

\[ \begin{equation}   	\label{defrozniczki} 		\lim_{\|h\|\to 0}\frac{\| f(\aa+\hh)-f(\aa)-A\hh\|}{\|\hh\|} = 0\, . \end{equation} \]

Przekształcenie $ A $ nazywamy różniczką (lub pochodną, lub różniczką zupełną) $ f $ w punkcie $ \aa $\/ i oznaczamy $ Df(\aa) $ lub $ f'(\aa) $.

Stwierdzenie (#) Niech $ f\colon \R^n\supset\Omega\to \R^m $, gdzie $ \Omega\subset\R^n $ jest zbiorem otwartym. Następujące warunki są równoważne:

  1. $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $;
  2. istnieją przekształcenie liniowe $ A\colon \R^n\to \R^m $ i funkcja
    \[ 		r\colon \Omega_{\maa}=\{\hh\in \R^n\colon \aa+\hh\in \Omega\}\to\R^m 	\]

    ciągła w punkcie $ \hh=\zero $, $ r(\zero)=\zero $, dla których zachodzi równość

    \[ \begin{equation} 			\label{A-i-r} 			f(\aa+\hh)=f(\aa)+A\hh+\|\hh\|\cdot r(\hh)\qquad\mbox{dla wszystkich $\hh\in \Omega_{\maa}$.} 	\end{equation} \]

    Jeśli zachodzi warunek (ii), to $ Df(\aa)=A $.

Dowód: Jeśli różniczka $ A=Df(\aa) $ istnieje, to wystarczy określić

\[ r(\hh)=\frac{ f(\aa+\hh)-f(\aa)-A\hh}{\|\hh\|}\quad\mbox{dla $\hh\not=\zero$}\, , \qquad r(\zero)= \zero\, .  \]

Funkcja $ r $ jest określona, gdy $ \aa+\hh\in \Omega $. Ponadto, dzięki warunkowi defrozniczki,

$$\|r(\hh)\|=\frac{\| f(\aa+\hh)-f(\aa)-A\hh\|}{\|\hh\|}\to 0, \qquad\mbox{dla } \|\hh\|\to 0, $$

tzn. równoważnie $ r(\hh)\to \zero $ dla $ \hh\to\zero $. Na odwrót, jeśli zachodzi (ii), to warunek $ r(\hh)\to \zero=r(\zero) $ dla $ \hh\to\zero $ implikuje, że granica we wzorze defrozniczki jest równa zero, tzn. $ A=Df(\aa) $.□

Uwaga Jeśli różniczka $ Df(\aa) $ istnieje, to jest określona jednoznacznie. Istotnie, gdyby wzór A-i-r zachodził dla $ A_i,r_i $, gdzie $ i=1,2 $, to mielibyśmy $ A_1\hh+ \|\hh\|r_1(\hh)=A_2\hh+\|h\|r_2(\hh) $ dla wszystkich $ \hh $ z pewnej kuli $ B(\zero,\delta)\subset \R^n $. Stąd, kładąc $ \hh=t\cdot \vv $, gdzie $ \|\vv\|=1 $ i $ t>0 $, a następnie dzieląc obie strony przez $ t $, otrzymujemy

\[  (A_1-A_2)\vv = r_2(t\vv)-r_1(t\vv)\to \zero\, , \qquad t\to 0. \]

Jednak lewa strona strona nie zależy od $ t $. Zatem przekształcenia liniowe $ A_1 $ i $ A_2 $ pokrywają się na całej sferze jednostkowej $ \S^{n-1}=\{\vv\in \R^n\colon \|\vv\|=1\} $, a więc są równe.

Wniosek (#) Jeśli $ f\colon \R^n\supset \Omega\to \R^m $ jest różniczkowalna w punkcie $ \aa\in\Omega $, to dla każdego niezerowego wektora $ \vv\in \R^n $ jest

\[ 	Df(\aa)\cdot \vv=\pcz{f}{\vv}(\aa)\, . 	\]

W szczególności, dla $ \vv=\ee_i $ jest

\[ Df(\aa)\cdot \ee_i=\pcz{f}{x_i}(\aa)\, , \qquad i=1,\ldots,n. \]
Dowód: Podstawiając w równości A-i-r wektor $ \hh=t\vv $, gdzie $ \vv $ jest ustalony i $ t\not=0 $, otrzymujemy

\[ Df(\aa)\cdot \vv =\frac 1t Df(\aa)\cdot \hh = \frac{f(\aa+t\vv)-f(\aa)}{t}\pm \|\vv\| r(t\vv)\to \pcz{f}{\vv}(\aa), \qquad t\to 0. \]

Lewa strona nie zależy od $ t $; dlatego zachodzi pierwsza równość z tezy wniosku. Druga równość to jej przypadek szczególny (wspominaliśmy już, że pochodna $ f $ w kierunku $ \ee_i $ ipochodna cząstkowa $ \pcz{f}{x_i} $ są równe).□

Wniosek (#) Niech $ \Omega\subset\R^n $ będzie zbiorem otwartym i niech

$$f=(f_1,\ldots,f_m)\colon \R^n\supset\Omega\to\R^m.$$

Następujące warunki są równoważne:

  1. funkcja $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $;
  2. każda z funkcji $ f_i\,  $ jest różniczkowalna w punkcie $ \aa\in \Omega $.

W standardowych bazach przestrzeni $ \R^n $ i $ \R^m $ macierz $ Df_i(\aa)\in M_{1\times n} $ jest wtedy $ i $-tym wierszem macierzy $ Df(\aa)\in M_{m\times n} $.

Dowód: Posługujemy się Stwierdzeniem [link]. Obie strony równości A-i-r są wektorami z $ \R^m $. Równość $ i $-tych współrzędnych tych wektorów ($ i=1,\ldots,m $) jest równoważna różniczkowalności $ f_i $ ($ i=1,\ldots,m $) w punkcie $ \aa\in A $ oraz równości $ Df_i(\aa)\hh=(Df(a)\hh)_i $ dla $ \hh\in \R^n $, tzn. - po utożsamieniu przekształceń liniowych z ich macierzami w standardowych bazach - temu, że $ Df_i(\aa) $ jest $ i $-tym wierszem macierzy $ Df(\aa) $. □
Uwaga [terminologia: macierz Jacobiego] Jak wiadomo z wykładów Algbry Liniowej, przekształcenie liniowe $ A\colon \R^n\to\R^m $ ma w standardowych bazach macierz (oznaczaną zwykle tą samą literą) o $ m $ wierszach i $ n $ kolumnach, której $ j $-tą kolumnę stanowi wektor $ A\ee_j\in \R^m $, gdzie $ \ee_j $ ($ j=1,\ldots, n $) są wektorami standardowej bazy w $ \R^n $. Z dwóch ostatnich wniosków wypływa zatem następująca obserwacja: jeśli

$$f=(f_1,\ldots,f_m)\colon \R^n\supset\Omega\to\R^m\, ,$$

gdzie $ f_i\colon \Omega\to\R $ dla $ i=1,\ldots,m $, jest różniczkowalna w punkcie $ \aa\in \Omega $, to jej różniczka ma w standardowych bazach przestrzeni $ \R^n $ i $ \R^m $ macierz

\[ \begin{equation} 	\label{JacobiM} 	Df(\aa)=\biggl(\pcz {f_i}{x_j}(\aa)\biggr)_{{1\le i\le m}, {1\le j \le n}} = 	\begin{pmatrix} 	\dpcz{f_1}{x_1}(\aa) & \ldots & \dpcz{f_1}{x_n}(\aa) \\ 	\vdots              &        & \vdots \\ 	\dpcz{f_m}{x_1}(\aa) & \ldots & \dpcz{f_m}{x_n}(\aa) \\               	\end{pmatrix} \, . \end{equation} \]

Kolumny tej macierzy to wektory

\[ Df(\aa)\ee_i = \pcz{f}{\ee_i}(\aa)= \pcz{f}{x_i}({\aa}) =  \begin{pmatrix} \dpcz{f_1}{x_i}(\aa) \\ \vdots              \\ \dpcz{f_m}{x_i}(\aa)\\               \end{pmatrix} \in \R^m\, , \qquad i=1\ldots, n. \]

Macierz JacobiM nazywamy macierzą Jacobiego przekształcenia różniczkowalnego $ f $. Dla $ n=m $ wyznacznik tej macierzy nazywamy jakobianem przekształcenia $ f $ w punkcie $ \aa $.

Wniosek Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ jest różniczkowalna w punkcie $ \aa\in \Omega $, to $ f $ jest ciągła w punkcie $ \aa $.
Dowód: Korzystamy ze Stwierdzenia [link](ii) oraz ciągłości przekształceń liniowych: dla $ \hh\to 0 $ jest

\[ f(\aa+\hh)-f(\aa)=Df(\aa)\hh+ \|\hh\|\cdot r(\hh)\to \zero\in \R^m\, , \]

to zaś oznacza, że $ f $ jest ciągła w punkcie $ \aa $. □

Uwaga Wiemy już zatem, że istnienie pochodnych cząstkowych funkcji $ f $ w danym punkcie jest warunkiem koniecznym różniczkowalności $ f $ w tym punkcie. Nie jest jednak warunkiem dostatecznym, gdyż z istnienia pochodnych cząstkowych (a nawet wszystkich pochodnych kierunkowych) nie wynika ciągłość! Poniżej podajemy warunek dostateczny różniczkowalności, wyrażony w języku pochodnych cząstkowych.
Twierdzenie Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ i wszystkie pochodne cząstkowe $ \pcz{f}{x_i} $ istnieją na całej kuli $ B(\aa,r)\subset\Omega $ i są ciągłe w punkcie $ \aa $, gdzie $ r>0 $, to $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $. Zachodzi wtedy wzór

\[ 	Df(\aa)\hh = \sum_{i=1}^nh_i\pcz{f}{x_i}(\aa)\, , \qquad \hh=(h_1,\ldots,h_n)\in \R^n\, . 	\]

(#)

Dowód: Wobec Stwierdzenia [link], wystarczy przeprowadzić dowód dla $ m=1 $.

Dla uproszczenia (Chodzi o uproszczenie zapisu, a nie istotnych trudności - Czytelnik zechce się nad tym zastanowić. W ogólnym przypadku mielibyśmy w dowodzie do czynienia z sumą $ n $ przyrostów, a nie dwóch. ) przyjmiemy $ n=2 $. Niech odtąd $ \hh=(h_1,h_2) $, $ \|\hh\|<  r $. Aby skorzystać z istnienia pochodnych cząstkowych, wyrazimy przyrost $ f $ na odcinku $ [\aa, \aa+\hh] $ jako sumę przyrostów wzdłuż dwóch odcinków równoległych do osi układu współrzędnych. Stosując twierdzenie Lagrange'a dla funkcji jednej zmiennej rzeczywistej o wartościach rzeczywistych do funkcji

\[ F_1(t)=f(a_1+t,a_2+h_2), \qquad t\in [0,h_1], \]

oraz

\[ F_2(t)=f(a_1,a_2+t), \qquad t\in [0,h_2] \]

sprawdzamy, że dla pewnych punktów posrednich $ \theta_i=\theta_i(\hh)\in [0,h_i] $ ($ i=1,2 $) jest

\[ \begin{eqnarray*} f(\aa+\hh)-f(\aa) & = & \Bigl(F_1(h_1) - F_1(0)\Bigr) + \Bigr(F_2(h_2)-F_2(0)\Bigr)\\  & = & h_1 F_1'(\theta_1) + h_2F_2'(\theta_2)  \\ & = & h_1\pcz{f}{x_1} (\underbrace{a_1+\theta_1,a_2+h_2}_{\text{punkt }\mpp_1})  + h_2\pcz{f}{x_2}(\underbrace{a_1,a_2+\theta_2}_{\text{punkt }\mpp_2})\\ & = & \underbrace{h_1\pcz{f}{x_1}(\aa) + h_2\pcz{f}{x_2}(\aa)}_{\text{część liniowa przyrostu}} + R(\hh), \end{eqnarray*} \]

gdzie reszta

\[ R(\hh)=  h_1\left(\pcz{f}{x_1}(\pp_1)-\pcz{f}{x_1}(\aa)\right) + h_2\left(\pcz{f}{x_2}(\pp_2)-\pcz{f}{x_2}(\aa)\right)\, . \]

Z nierówności Schwarza wynika, że dla $ \|\hh\|<\delta<r $ jest

\[ 0\le |R(\hh)|\le \sqrt{2} \|h\| \cdot \max_{i=1,2}\left(\sup_{\mpp\in B(\maa,\delta)} \left|\pcz{f}{x_i}(\pp)-\pcz{f}{x_i}(\aa)\right|\right)\, . \]

Jednak

\[ \sup_{\mpp\in B(\maa,\delta)} \left|\pcz{f}{x_i}(\pp)-\pcz{f}{x_i}(\aa)\right|\qquad \mbox{dla $\delta\to 0$} \]

dzięki ciągłości $ \pcz{f}{x_i} $ w punkcie $ \aa $. Zatem

\[ R(\hh)=\|\hh\|\cdot r(\hh), \]

gdzie $ r(\zero)=0 $ i $ r(\hh)\to 0 $ dla $ \hh\to \zero $. Ze Stwierdzenia [link] wynika teraz, że

\[ Df(\aa)=\Bigl(\, \pcz{f}{x_1}(\aa),\pcz{f}{x_2}(\aa)\Bigr)\, . \]

Dowód został zakończony.□

Na zakończenie tego podrozdziału podkreślmy jedno. Czytelnikowi może wydawać się, że pochodna cząstkowa i być może pochodna kierunkowa to pojęcia naturalniejsze od różniczki. Tak nie jest. Pochodne cząstkowe i kierunkowe określa się po to, żeby badać zachowanie funkcji na prostych. Z przytoczonych przykładów wynika jasno, że nie daje to dostatecznych informacji o zachowaniu funkcji w całym otoczeniu danego punktu. Naturalnym uogólnieniem pochodnej funkcji jednej zmiennej rzeczywistej jest właśnie różniczka. Jej istnienie oznacza, że odwzorowanie $ f $ można lokalnie przybliżać przekształceniami

\[ \xx\mapsto f(\aa)+ Df(\aa)\cdot (\xx-\aa) = f(\xx)+o(\|\xx-\aa\|) \approx f(\xx)\, . \]

Ponadto, przekształcenie liniowe $ Df(\aa) $ koduje w sobie pełną informację o pochodnych kierunkowych i cząstkowych $ f $.

Arytmetyczne własności różniczki

Stwierdzenie [różniczka sumy funkcji] Jeśli $ f,g\colon \R^n\supset\Omega\to\R^m $ są różniczkowalne w punkcie $ \aa\in\Omega $, to funkcja $ f+g\colon\Omega\to\R^m $ jest różniczkowalna w $ \aa $ i zachodzi wzór

\[ 	 D(f+g)(\aa)=Df(\aa)+Dg(\aa)\, . 	\]
Dowód: Stosujemy Stwierdzenie [link]. Wzory [link] dla funkcji $ f,g $ dodajemy stronami; ponieważ $ o(\|\hh\|)+o(\|\hh\|)=o(\|\hh\|) $, więc uzyskujemy warunek (ii) Stwierdzenia [link] dla funkcji $ f+g $. Szczegóły pozostawiamy Czytelnikowi jako proste ćwiczenie. □

Uogólnimy teraz wzór $ (fg)'=f'g +fg' $ na przypadek wielowymiarowy. Okazuje się, że jeśli można zdefiniować `iloczyn' przekształceń różniczkowalnych $ f $, $ g $ (to może być np. iloczyn funkcji o wartościach w $ \R $ i $ \R^m $, albo iloczyn skalarny wektorów z $ \R^m $, albo iloczyn wektorowy wektorów z $ \R^3 $, albo iloczyn macierzy o odpowiednich rozmiarach, gdy wartości $ f,g $ są macierzami itp.), to ów iloczyn jest różniczkowalny, a jego pochodną oblicza się podobnie, jak dla funkcji z $ \R $ w $ \R $.

Twierdzenie [różniczka `iloczynu'](#) Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ i $ g\colon \R^n\supset\Omega\to\R^k $ są różniczkowalne w punkcie $ \aa\in\Omega $, a przekształcenie

\[ B\colon \R^m\times\R^k\ni (\xx,\yy)\mapsto B[\xx,\yy]\in\R^l \]

jest dwuliniowe (Oznaczenie $ B[f,g] $ Czytelnik może zastąpić przez $ f\cdot g $ - wtedy analogia z przypadkiem jednowymiarowym będzie widoczna jak na dłoni.), to wówczas funkcja

\[ B[f,g]\colon \R^n\supset \Omega\ni \xx\mapsto B[f(\xx),g(\xx)]\in \R^l \]

jest różniczkowalna w punkcie $ \aa\in \Omega $ i zachodzi równość

\[ \begin{equation}  	\label{dwulin} DB[f,g](\aa)\hh=B[Df(\aa)\hh, g(\aa)] + B[f(\aa),Dg(\aa)\hh] \qquad\mbox{dla wszystkich $\hh\in\R^n$.}   \end{equation} \]
Uwaga Nie zakładamy, że $ B[f,g]=B[g,f] $ (bo np. mnożenie macierzy nie jest działaniem przemiennym). Dlatego we wzorze dwulin nie wolno zamieniać kolejności argumentów $ B $ w składnikach prawej strony.

    Dowód Twierdzenia [link] Wobec Stwierdzenia [link],

\[ \begin{eqnarray}  	f(\aa+\hh)-f(\aa) & =& Df(\aa)\hh + R_f(\hh)\, ,  \label{df}\\ 	g(\aa+\hh)-g(\aa) & =& D 	g(\aa)\hh + R_g(\hh)\, ,    \label{dg} \end{eqnarray} \]

gdzie $ \|R_f(\hh)\|=\|R_g(\hh)\|=o(\|\hh\|) $ dla $ \hh\to \zero $. %

\[ \begin{equation} %\label{oreszty}	    %\|R_f(\hh)\|=\|R_g(\hh)\|=o(\|\hh\|) \qquad\mbox{dla $\hh\to %\zero$.}  %\end{equation} \]

Ustalmy zatem liczbę $ \delta>0 $ tak, aby dla wszystkich $ \|\hh\|<\delta $ mieć

\[ \begin{equation} 	\label{malereszty}  \|R_f(\hh)\|+\|R_g(\hh)\|<\|\hh\|. \end{equation} \]

Korzystając z dwuliniowości $ B $, piszemy

\[ \begin{eqnarray*}   	\lefteqn{ 	B[f(\aa+\hh),g(\aa+\hh)]-B[f(\aa),g(\aa)] }\\ &=&  B[f(\aa+\hh),g(\aa+\hh)]-B[f(\aa),g(\aa+\hh)]\\ & & {}+B[f(\aa),g(\aa+\hh)]-B[f(\aa),g(\aa)]  \\ 	& = &  B[f(\aa+\hh)-f(\aa),g(\aa+\hh)] + B[f(\aa),g(\aa+\hh)-g(\aa)] \\ 	& = &  B[f(\aa+\hh)-f(\aa),g(\aa)] + B[f(\aa),g(\aa+\hh)-g(\aa)]  \\   & &{}  +  B[f(\aa+\hh)-f(\aa),g(\aa+\hh)-g(\aa)] \ \stackrel{\text{ozn.}}=\ S_1 + S_2 + S_3\, . \end{eqnarray*} \]

Do prawej strony wstawiamy teraz równości df i dg. Składnik

\[ S_1=  B[f(\aa+\hh)-f(\aa),g(\aa)] = B[Df(\aa)\hh, g(\aa)] + B[R_f(\hh),g(\aa)],  \]

gdzie $ B[R_f(\hh),g(\aa)]=o(\|\hh\|) $ dla $ \hh\to 0 $ (to łatwo wynika z dwuliniowości $ B $). Podobnie,

\[ S_2=  B[f(\aa), Dg(\aa)\hh] + B[f(\aa),R_g(\hh)] =  B[f(\aa), Dg(\aa)\hh] + o(\|\hh\|)\, , \qquad  \hh\to \zero. \]

Dlatego suma $ S_1+S_2 $ daje prawą stronę wzoru dwulin z tezy, z błędem $ o(\|\hh\|) $. Wreszcie, składnik $ S_3=o(\|\hh\|) $ dla $ \hh\to\zero $. Istotnie, każde przekształcenie dwuliniowe $ B $ spełnia nierówność

\[ \bigl\|B[\xx,\yy] \bigr\|\le C\|\xx\|\, \cdot \|\yy\| \]

z pewną stałą $ C $ zależną od $ B $. (Czytelnik może to udowodnić samodzielnie, naśladując dowód Stwierdzenia [link] Dlatego

\[ \begin{eqnarray*} \|S_3\|& \le &C\|Df(\aa)\hh+R_f(\hh)\|\cdot \|Dg(\aa)\hh+R_g(\hh)\| \\          & \le & C\cdot M^2\|\hh\|^2 \qquad\mbox{dla  $\|\hh\|<\delta$,} \end{eqnarray*} \]

gdzie, wobec oszacowania malereszty, można wziąć np. stałą $ M=\|Df(\aa)\|+\|Dg(\aa)\|+1 $. Ostatecznie więc

\[ \begin{multline*}     	B[f(\aa+\hh),g(\aa+\hh)]-B[f(\aa),g(\aa)]=\\ =S_1+S_2+S_3=\text{prawa strona wzoru \eqref{dwulin}} + o(\|\hh\|) \qquad\mbox{dla $\hh\to\zero$.} \end{multline*} \]

Wobec Stwierdzenia [link], dowód jest zakończony.□

Twierdzenie [różniczka złożenia funkcji](#) Niech $ \Omega_1\subset \R^n $ i $ \Omega_2\subset\R^m $ będą zbiorami otwartymi. Jeśli $ f\colon \Omega_1\to \R^m $ jest różniczkowalne w punkcie $ \aa\in \Omega_1 $, a $ \Omega_2\supset f(\Omega_1) $ i$ g\colon \Omega_2\to \R^k $ jest różniczkowalne w punkcie $ \bb=f(\aa) $, to złożenie $ g\circ f $ jest różniczkowalne w punkcie $ \aa $ i zachodzi wzór

\[ \begin{equation} 	 D(g\circ f)(\aa)= Dg(\bb)\circ Df(\aa)= Dg\bigl(f(\aa)\bigr) \circ Df(\aa)\, .  \end{equation} \]
Dowód: Wobec Stwierdzenia [link],

\[ \begin{eqnarray}  	f(\aa+\hh)-f(\aa) & =& Df(\aa)\hh + R_f(\hh)\, ,  \label{df-2}\\ 	g(\bb+\ww)-g(\bb) & =& D    g(\bb)\ww + R_g(\ww)\, ,    \label{dg-2} \end{eqnarray} \]

gdzie $ \|R_f(\hh)\|=o(\|\hh\|) $ dla $ \hh\to \zero $ i $ \|R_g(\ww)\|=o(\|\ww\|) $ dla $ \ww\to \zero $. Do dg-2 podstawmy $ \bb=f(\aa) $ oraz $ \ww=\ww(\hh)= f(\aa+\hh)-f(\aa) $. Korzystając z df-2, otrzymujemy

\[ \begin{eqnarray} g\circ f(\aa+\hh)-g\circ f(\aa) &= &  g(\bb+\ww)-g(\bb)\nonumber \\ & = & 	 D g(\bb)\ww + R_g(\ww)\nonumber \\ & = & Dg (\bb)\bigl(Df(\aa)\hh + R_f(\hh)\bigr) + R_g(\ww) \nonumber  \\ & = & \bigl[Dg (\bb)\circ Df(\aa)\bigr] \hh  + R,     \label{DgDf} \end{eqnarray} \]

gdzie reszta

\[ R =Dg (\bb)\bigl(R_f(\hh)\bigr) + R_g(\ww)\, . \]

Niech $ M=\|Dg(\bb)\|+\|Df(\aa)\|+1 $. Dla małych $ \|\hh\| $ jest $ \|R_f(\hh)\|< \|\hh\| $ i dlatego

\[ \|\ww\|=\|Df(\aa)\hh + R_f(\hh)\|\le \|Df(\aa)\|\cdot \|\hh\| + \|R_f(\hh)\|\le  M\|\hh\|\, . \]

Zatem $ \ww=\ww(\hh)\to\zero $, gdy $ \hh\to \zero $ i mamy

\[ \begin{eqnarray*} \frac{\|R\|}{\|\hh\|}  &\le & \frac{M \|R_f(\hh)\|+\|R_g(\ww)\|} {\|\hh\|}  \\                & = & M \frac{\|R_f(\hh)\|} {\|\hh\|}  + \frac{\|\ww\|}{\|\hh\|}\cdot \frac{\|R_g(\ww)\|} {\|\ww\|}\\ & \le & M \biggl(\frac{\|R_f(\hh)\|} {\|\hh\|}  +  \frac{\|R_g(\ww)\|} {\|\ww\|}\biggr) \longrightarrow 0 \quad \mbox{dla }\hh\to \zero, \end{eqnarray*} \]

tzn. $ R=o(\|\hh\|) $ dla $ \hh\to \zero $. Wobec równości DgDf i Stwierdzenia [link], zachodzi równość $ D(g\circ f)(\aa)=Dg(\bb)\circ Df(\aa) $.□

Uwaga Zgodnie z definicją różniczka $ D(g\circ f)(\aa) $ złożenia $ g\circ f\colon \R^n\supset \Omega_1\to \R^k $ powinna być przekształceniem liniowym z $ \R^n $ w $ \R^k $. Istotnie tak jest: $ Df(\aa)\colon \R^n\to \R^m $ i$ Dg(\bb)\colon \R^m\to \R^k $, więc ich złożenie jest przekształceniem liniowym z $ \R^n $ w $ \R^k $. Twierdzenie [link] ma następującą interpretację: macierz Jacobiego różniczki przekształcenia $ g\circ f $ jest iloczynem macierzy Jacobiego przekształceń $ g $ i $ f $, wziętych w odpowiednich punktach. Z wieloma zastosowaniami tej interpretacji Czytelnik spotka się wkonkretnych przykładach.

Gradient. Płaszczyzna styczna do wykresu funkcji i punkty krytyczne

Definicja [gradient funkcji wielu zmiennych] Gradientem funkcji różniczkowalnej $ f\colon \R^n\supset \Omega\to\R $ w punkcie $ \xx\in \Omega $ nazywamy wektor

\[ 	\text{grad}\, f(\xx) =\Bigl(\pcz f{x_1}(\xx),\ldots, \pcz f{x_n}(\xx)\Bigr)\, . 	\]

Z tej definicji oraz definicji macierzy Jacobiego wynika, że dla $ f\colon \Omega\to \R $ mamy

\[ \langle \grad f(\xx),\hh\rangle = Df(\xx)\hh = \sum_{i=1}^nh_i\pcz{f}{x_i}(\xx)\, . \]

Czytelnik może więc uważać, że rozróżnianie gradientu i różniczki to niepotrzebna maniera. Podkreślmy jednak, że $ \grad f(\xx)\in \R^n $, natomiast $ Df(\xx)\in L(\R^n,\R)=\bigl(\R^n\bigr)^\ast $. Przywykliśmy utożsamiać przestrzenie $ \bigl(\R^n\bigr)^\ast $ i $ \R^n $; to wymaga odwołania się do konkretnego układu współrzędnych. Na gładkich powierzchniach w $ \R^n $ - powiedzmy na torusie czy na sferze - nie sposób jednak zwykle wskazać jakiegoś wyróżnionego układu współrzędnych. Dlatego odróżnianie gradientu i różniczki ma sens. Czytelnik zetknie się z tym później w bieżącym roku, a także na zajęciach z geometrii różniczkowej.

Stwierdzenie Dla każdej funkcji różniczkowalnej $ f\colon \R^n\supset \Omega\to\R $ i każdego wektora $ \ww\in \R^n $ takiego, że

\[ \|\ww\|=\|\vv\|, \qquad\mbox{gdzie}\quad \vv=\grad f(\xx)\not =0, \quad \xx\in \Omega, \]

zachodzi nierówność

\[ \begin{equation} 	\label{gradspad}            	\pcz {f}{\ww} (\xx)\le  \pcz {f}{\vv} (\xx)\, . \end{equation} \]

Ponadto, równość w gradspad zachodzi jedynie dla $ \ww=\vv $.

Dowód: Wobec Wniosku [link] i nierówności Schwarza, mamy

\[ \pcz {f}{\ww} (\xx)=Df(\xx)\ww =\langle \grad f(\xx), \ww\rangle =\langle \vv, \ww\rangle \le \|\vv\| \|\ww\| = \|\vv\|^2, \]

natomiast

\[ \pcz {f}{\vv}(\xx) =Df(\xx)\vv =\langle \grad f(\xx), \vv\rangle = \|\vv\|^2\, . \]

Stąd już wynika nierówność gradspad.

W nierówności Schwarza $ |\langle \vv,\ww\rangle|\le \|\vv\| \|\ww\| $ dla wektorów $ \vv,\ww $ o równych długościach równość zachodzi wtedy i tylko wtedy, gdy $ \vv=\pm \ww $. Jednak dla $ \ww=-\vv $ jest

\[ \pcz {f}{\ww} (\xx) =   \langle \vv, \ww\rangle  =-\|\vv\|^2 < 0 < \|\vv\|^2 = \pcz{f}{\vv}(\xx)\, . \]

Ta obserwacja kończy dowód. □

    

Powyższe stwierdzenie ma następującą interpretację geometryczną: gradient funkcji w punkcie wyznacza kierunek najszybszego wzrostu funkcji w tym punkcie. Długość wektora gradientu odpowiada za tempo wzrostu w tym kierunku.

Definicja [płaszczyzna styczna do wykresu funkcji] Jeśli $ f\colon \Omega\to\R $ jest różniczkowalna w punkcie $ \aa $, to płaszczyzną styczną do wykresu $ f $ w punkcie $ (\aa,f(\aa))\in \R^{n+1} $ nazywamy zbiór

\[ 	T=\{(\xx,x_{n+1})\in \R^n\times\R=\R^{n+1}\colon Df(\aa)(\xx-\aa)=x_{n+1}-f(\aa)\} 	\]

(#)

Płaszczyzna styczna do wykresu funkcji różniczkowalnej $ f\colon \R^2\supset\Omega\to \R $ w punkcie $ (\pp,f(\pp))\in \R^3 $ ma równanie

\[  f_{x_1}(\pp) (x_1-p_1)   + f_{x_2}(\pp)\cdot (x_2-p_2) = x_3-f(\pp) \]

Wektor $ (-f_{x_1}(\pp),-f_{x_2}(\pp),1)\in \R^3 $ jest prostopadły do płaszczyzny stycznej.

Po lewej: w punkcie ekstremum lokalnego $ f_x=f_y=0 $ i tam płaszczyzna styczna jest pozioma.

Innymi słowy, zbiór $ T $ jest wykresem odwzorowania afinicznego

\[ \R^n\ni \xx\longmapsto \phi(\xx)= f(\aa) + Df(\aa)(\xx-\aa)\in \R\, . \]

Wprost z definicji różniczki wynika, że dla $ \xx\to \aa $ jest $ f(\xx)-\phi(\xx)=o(\|\xx-\aa\|) $. Widzieliśmy też, że ten warunek określa odwzorowanie $ \phi $ jednoznacznie. To uzasadnia nazwę płaszczyzna styczna. Zauważmy, że jeśli $ Df(\aa)=\zero $, to przekształcenie $ \phi $ jest stałe, a więc jego wykresem jest hiperpłaszczyzna $ x_{n+1}=\mathrm{const} $.

Podamy teraz warunek konieczny istnienia ekstremum (Definicja maksimum (minimum) lokalnego jest analogiczna, jak w wymiarze 1; trzeba tylko przedział wokół danego punktu w dziedzinie zastąpić kulą o środku w tym punkcie.) funkcji w punkcie wewnętrznym dziedziny.

Stwierdzenie [lemat Fermata] Jeśli funkcja $ f\colon \R^n\supset\Omega\to \R $ ma ekstremum lokalne w punkcie $ \aa\in \Omega $ i jest w tym punkcie różniczkowalna, to

\[ 	Df(\aa)=0\, , 	\]

lub równoważnie $ \pcz{f}{x_i}(\aa)=0 $ dla $ i=1,2\ldots, n $.

Dowód: Jeśli $ f $ ma ekstremum lokalne w $ \aa $, to dla każdego $ i=1,\ldots, n $ funkcja

\[ F_i(t) = f(a_1,\ldots, a_{i-1},t,a_{i+1},\ldots, a_n)\, , \]

określona w pewnym przedziale $ (a_i-\delta,a_i+\delta)\subset\R $, ma ekstremum lokalne w $ a_i $. Dlatego $ F_i'(a_i)=\pcz{f}{x_i}(\aa)=Df(\aa)\ee_i=0 $.□

W wielu sytuacjach wykorzystywane jest następujące ogólne pojęcie.

Definicja Przypuśćmy, że odwzorowanie $ f\colon \R^n\supset \Omega\to \R^m $ jest różniczkowalne na $ \Omega $. Powiemy, że $ \aa\in \Omega $ jest punktem krytycznym $ f $ wtedy i tylko wtedy, gdy przekształcenie liniowe $ Df(\aa)\colon \R^n\to\R^m $ ma rząd mniejszy, niż $ \min (m,n) $. (Zauważmy: $ k=\min(m,n) $ jest maksymalnym) możliwym rzędem przekształcenia liniowego z $ \R^n $ w $ \R^m $.

Gdy $ m=1 $, to $ \aa\in \Omega $ jest punktem krytycznym funkcji $ f\colon \R^n\supset\Omega\to \R $ wtedy i tylko wtedy, gdy $ Df(\aa)\colon \R^n\to\R $ ma rząd mniejszy, niż $ \min(n,1)=1 $, tzn. wtedy i tylko wtedy, gdy $ Df(\aa) $ jest przekształceniem zerowym. Jest to równoważne temu, że wszystkie pochodne cząstkowe $ \pcz{f}{x_i} $ znikają w punkcie $ \aa $. Zachodzi zatem następujące:

Stwierdzenie Wszystkie ekstrema lokalne funkcji różniczkowalnej $ f\colon\R^n\supset \Omega\to \R $ są jej punktami krytycznymi. □

Po lewej: wykres funkcji $ f(x,y)=xy $. Płaszczyzna styczna przecina wykres funkcji wzdłuż osi $ x $ i $ y $. Po prawej: tzw. małpie siodło, wykres funkcji $ g(x,y)=x^3-3y^2 x $. Płaszczyzna styczna przecina wykres wzdłuż trzech prostych. Na obu rysunkach brzegi kolorowych pasów to poziomice (linie, na których funkcja ma stałą wartość).

Oczywiście nie zachodzi implikacja odwrotna. Funkcja $ f(x,y)=xy $ ma pochodne cząstkowe $ f_x(x,y)=y $ i $ f_y(x,y) =x $, które znikają jednocześnie wtedy i tylko wtedy, gdy $ x=y=0 $. Jednak w punkcie $ (0,0) $ funkcja $ f $ nie ma ani minimum, ani maksimum lokalnego (równego zero), gdyż w każdym otoczeniu tego punktu przyjmuje zarówno wartości dodatnie, jak i ujemne. Podobnie,

\[ \begin{equation}    \label{malpie}     g(x,y)=x^3-3y^2 x = x(x-y\sqrt3)(x+y\sqrt 3)     \end{equation} \]

ma pochodne cząstkowe $ g_x(x,y)=3x^2-3y^2 $ i $ g_y(x,y)=6xy $. Łatwo zauważyć, że jedynym punktem krytycznym tej funkcji jest $ (0,0) $, jednak w każdym otoczeniu tego punktu $ f $ przyjmuje zarówno wartości dodatnie, jak i ujemne.

Nawet dla $ n=2 $ zachowanie funkcji różniczkowalnych $ f\colon \R^n\to \R $ potrafi odbiegać od naiwnych oczekiwań, jakie Czytelnik mógłby mieć dzięki wcześniejszym jednowymiarowym intuicjom. Należy o tym pamiętać, szukając kresów zbioru wartości funkcji.

Przykład Istnieją funkcje różniczkowalne $ f\colon \R^2\to\R $ (o ciagłych pochodnych cząstkowych), które spełniają dwa warunki:

    \parskip -1pt

  • $ f $ ma na $ \R^2 $ tylko jeden punkt krytyczny, w którym jest jej ekstremum lokalne;
  • $ f $ nie jest ograniczona ani z góry, ani z dołu.

Taka funkcja w punkcie jedynego swego ekstremum lokalnego nie osiąga ani kresu dolnego, ani kresu górnego! Spójrzmy na dwa konkretne przykłady takich sytuacji.

Wykres funkcji $ f(x,y)=x^2(1+y)^3+y^2 $. Zaznaczone linie to poziomice. W środku widoczne minimum lokalne. Dla $ x=\mathrm{const}>0 $ funkcja $ f(\mathrm{const},y) $ jest wielomianem stopnia 3; proszę zwrócić uwagę na kształt przedniej krawędzi tego fragmentu wykresu $ f $.

Niech

\[ \begin{equation}  	\label{1min} 	f(x,y)=x^2(1+y)^3+y^2\, . \end{equation} \]

Funkcja $ f $ jest wielomianem, więc ma ciągłe pochodne cząstkowe. Wyznaczymy teraz jej punkty krytyczne. Łatwo obliczamy

\[ \pcz fx (x,y)=2x(1+y)^3, \qquad \pcz fy (x,y)=3x^2(1+y)^2+2y. \]

Jeśli $ \pcz fx =0 $, to $ x=0 $ lub $ y=-1 $. Jednak dla $ y=-1 $ jest $ \pcz fy \equiv -2\not=0 $, tzn. $ f $ nie ma żadnych punktów krytycznych postaci $ (a,-1) $. Natomiast $ \pcz fy (0,y)=2y=0 $ dla $ y=0 $. Dlatego jedynym punktem krytycznym $ f $ jest $ (0,0)\in \R^2 $.

Nietrudno zauważyć, że dla $ |y|<1/2 $ jest $ 2\ge 1+y\ge 1/2 $ i dlatego

\[ 8(x^2+y^2)\ge f(x,y)\ge \frac 18 (x^2+y^2), \qquad |y|<\frac 12, \quad x\in\R. \]

Stąd wynika, że $ f $ ma w punkcie $ (x,y)=(0,0) $ minimum lokalne właściwe. Jednak $ f $ nie jest na $ \R^2 $ ograniczona ani z góry, ani z dołu, gdyż funkcja

\[ h(y)= f(1,y)=(1+y)^3+y^2, \qquad y\in \R, \]

jest wielomianem trzeciego stopnia, a więc nie jest ograniczona ani z góry, ani z dołu.

Innego przykładu tego zjawiska dostarcza funkcja

\[ \begin{equation} 	g(x,y)=3xe^y-x^3-e^{3y}, 	\label{1max} \end{equation} \]

która jest nieograniczona z góry i z dołu na $ \R^2 $, gdyż $ g(x,0)=3x-x^3-1 $ jest wielomianem trzeciego stopnia zmiennej $ x $. Mamy

\[ \pcz{g}{x}(x,y)=3(e^y-x^2), \qquad \pcz gy (x,y)=3e^y(x-e^{2y})\, . \]

Z równań $ \pcz gx=\pcz gy =0 $ otrzymujemy $ y=\ln x^2 $ i $ x=e^{2y}=x^4 $, stąd zaś $ x=1 $ i $ y=0 $ (innych rozwiązań nie ma). Zachowanie funkcji $ g $ w otoczeniu punktu $ (1,0) $ można przeanalizować, korzystając ze wzoru Taylora. (Nie znamy jeszcze wprawdzie wzoru Taylora dla funkcji wielu zmiennych, tu jednak nietrudno jest znaleźć najpierw rozwinięcie Taylora względem $ x $ (traktując $ y $ jako parametr), potem zaś skorzystać ze znanego rozwinięcia $ e^y=1+y+y^2/2!+\cdots $.) Wskażemy tylko kroki w rachunkach; Czytelnik zechce sprawdzić (nietrudne) szczegóły samodzielnie. Najpierw piszemy

\[ g(x,y)=3(x-1)e^y-x^3+3e^y-e^{3y}, \]

podstawiamy $  x^3=\bigl(1+(x-1)\bigr)^3=1 + 3 (x - 1) + 3 (x - 1)^2 + (x - 1)^3  $ i otrzymujemy

\[ g(x,y)=3e^y-e^{3y}-1 +3(x-1)(e^y-1) -3(x-1)^2-(x-1)^3\, . \]

Następnie wykorzystujemy rozwinięcie Taylora-Maclaurina funkcji wykładniczej. Prowadzi to do wyniku

\[ \begin{multline*}  g(x,y)=1 - 3(x-1)^2-3y^2 \\{}+ 3y(x-1) + \frac 32y^2 (x-1) + o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$.} \end{multline*} \]

Jednak $ |3y(x-1)|\le \frac 32 \bigl(y^2+(x-1)^2\bigr) $, a z nierówności Younga $ ab\le a^p/p + b^q/q $ (gdzie $ a,b\ge 0 $, $ p,q>1 $ i $ \frac 1p+\frac 1q=1 $, patrz wykłady Analizy Matematycznej z I roku) zastosowanej dla $ p=3/2 $ i $ q=3 $ otrzymujemy

\[ \frac 32 |y^2(x-1)|\le |y|^3 +\frac 12 |x-1|^3= o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$.} \]

Dlatego

\[ g(x,y)\ge 1-\frac 32\Bigl( y^2+(x-1)^2\Bigr ) + o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$,} \]

stąd zaś wynika, że $ g $ ma w punkcie $ (1,0) $ maksimum lokalne właściwe. Odpowiedni fragment wykresu funkcji $ g $ przedstawiony jest na rysunku. □

Wykres funkcji $ g(x,y)=3xe^y-x^3-e^{3y} $. Widoczny garb to jedyne maksimum lokalne tej funkcji. Innych punktów krytycznych $ g $ nie ma. Pomysł na prezentację wykresu zaczerpnięty z książki: Stan Wagon, Mathematica in action, wydanie 3, Springer Verlag 2010.

Przykład [Nierówność między średnimi raz jeszcze] Udowodnimy ponownie nierówność między średnią arytmetyczną i geometryczną. Jak wcześniej w Przykładzie [link], założymy, że

\[ 	x_1+x_2+\cdots+x_n=n, \qquad x_i\ge 0\, . 	\]

Wykażemy, że $ x_1x_2\cdot\ldots\cdot x_n\le 1 $ (przy czym równość zachodzi jedynie wtedy, gdy wszystkie $ x_i $ są równe).

Tym razem niech

\[ f(x_1,x_2,\ldots,x_{n-1})= x_1x_2\ldots x_{n-1}\underbrace{\big(n-(x_1+x_2+\cdots+x_{n-1})\big)}_{=x_n\ge 0} \]

dla

\[ \xx=(x_1,\ldots,x_{n-1})\in K=\{\xx\in \R^{n-1}\colon x_i\ge 0, \quad   x_1+\cdots+x_{n-1}\le n\}\, . \]

Zbiór $ K $ jest zwarty w $ \R^{n-1} $, a funkcja $ f $ jest ciągła na $ K $, zatem $ f $ osiąga swój kres górny. Na brzegu $ K $ jest $ f\equiv 0 $, a $ f $ przyjmuje wartości dodatnie, np. w punkcie $ (1,\ldots, 1) $, dlatego $ \sup f=f(\aa) $ dla pewnego punktu $ \aa $ należącego do wnętrza zbioru $ K $. W tym punkcie musi być $ \grad f(\aa)=0 $.

Stosując wzór na pochodną iloczynu, łatwo sprawdzić, że wewnątrz $ K $

\[ \pcz f{x_i}(\aa) =\frac{f(\aa)}{a_i}-a_1\ldots a_{n-1}, \qquad i=1,\ldots, n-1. \]

Dlatego układ równań $ \grad f(\aa)=0 $ jest równoważny innemu:

\[ n-\sum_{j=1}^{n-1} a_j - a_i=0, \qquad  i=1,\ldots, n-1.   \]

Sumując te równania, otrzymujemy $ n(n-1)=(n-1)\sum a_j + (a_1+a_2+\cdots+a_{n-1}) $, a stąd $ \sum a_j=n-1 $ i dlatego

\[ n-\sum_{j=1}^{n-1} a_j - a_i =1-a_i,  \]

ostatecznie więc $ \grad f(a)=0 $ jedynie wtedy, gdy $ a_i=1 $ dla wszystkich $ i=1,\ldots, n-1 $. Właśnie w punkcie $ (1,\ldots,1) $ funkcja $ f $ przyjmuje więc swój kres górny, równy 1. □

.

Opisaliśmy już geometryczną interpretację gradientu: jest to kierunek, w którym funkcja rośnie najszybciej. Okazuje się, że można powiedzieć więcej: przy nieznacznych dodatkowych założeniach funkcja ``jest stała w kierunkach prostopadłych do gradientu''. Aby wyjaśnić to bliżej i ściślej, będziemy potrzebowali dwóch definicji.

Definicja [poziomica funkcji] Poziomicą funkcji $ f\colon \R^n\supset \Omega\to \R^m $ nazywamy zbiór

\[ 	M=\{\xx\in \Omega\colon f(\xx)=f(\aa)\}\, , 	\]

gdzie $ \aa\in \Omega $ jest ustalonym punktem.

Innymi słowy, poziomica składa się z tych punktów, gdzie funkcja przybiera konkretną, ustaloną wartość (równą $ f(\aa) $ dla danego punktu $ \aa\in\Omega $).

Definicja [wektory styczne do zbioru w punkcie](#) Mówimy, że wektor $ \ww\in\R^n\setminus\{\zero\} $ jest styczny do zbioru $ A\subset \R^n $ w punkcie $ \aa\in A $ (i piszemy $ \ww\in T_{\maa}A $) wtedy itylko wtedy, gdy istnieje ciąg punktów $ \xx_j\in A\setminus\{\aa\} $ taki, że $ \xx_j\to \aa $ dla $ j\to\infty $, a ponadto

\[ \begin{equation} \label{defTaA} \frac{\ww}{\norm{\ww}}=\lim_{j\to\infty}\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\, .  \end{equation} \]

Przyjmiemy także, że wektor $ \zero\in \R^n $ jest, dla dowolnych $ A $ i $ \aa\in A $, styczny do zbioru $ A $ w punkcie $ \aa $. Zbiór $ T_{\maa}A $ nazywamy przestrzenią styczną do $ A $ w punkcie $ \aa $ (lub, czasem, stożkiem stycznym do $ A $ w punkcie $ \aa $).

W literaturze matematycznej można spotkać różne (niekoniecznie równoważne) definicje wektora stycznego do zbioru. Przytoczona wyżej ma tę zaletę, że można się nią posługiwać, nie przyjmując żadnych\/ dodatkowych założeń o zbiorze $ A $.

Uwaga (#) Lewa strona wzoru defTaA nie zmienia się, gdy wektor $ \ww $ mnożymy przez liczbę $ t>0 $. Dlatego jeśli $ \ww\in T_{\maa}A $, to $ t\cdot \ww\in T_{\maa}A $ dla $ t>0 $. To przestaje być prawdą dla $ t<0 $: jeśli zbiór $ A\subset \R^2 $ jest wykresem funkcji $ y=|x|^{1/2} $ i $ \aa=(0,0) $, to nietrudno sprawdzić, że $ \ww=(0,1)\in T_{\maa}A $, natomiast $ -\ww\not\in T_{\maa}A $.
Uwaga (#) Przypuśćmy, że $ \gamma\colon \R\supset I\to A\subset \R^n $ jest funkcją różniczkowalną zmiennej jednej zmiennej rzeczywistej $ t\in I $, gdzie $ I $ jest jakimś przedziałem otwartym wokół zera. Wówczas wektor $ \gamma'(0) $ jest styczny do zbioru $ A $ w punkcie $ \aa=\gamma(0) $. Jeśli $ \gamma'(0)=0 $, to nie ma czego dowodzić. Przypuśćmy więc, że $ \ww\equiv\gamma'(0)\not=0 $. Z definicji pochodnej

\[ \ww=\gamma'(0)=\lim_{j\to\infty}\frac{\gamma(1/j)-\gamma(0)}{1/j}\, . \]

Ponieważ norma jest funkcją ciągłą, więc

\[ 0\not=\|\ww\|=\lim_{j\to\infty}\frac{\norm{\gamma(1/j)-\gamma(0)}}{1/j} \]

(i wyrazy ciagu po prawej stronie są różne od zera dla dużych $ j $). Dlatego

\[ \frac{\ww}{\norm{\ww}}=\lim_{j\to\infty}  \left(\frac{\gamma(1/j)-\gamma(0)}{1/j}\cdot    \frac{1/j}{\norm{\gamma(1/j)-\gamma(0)}}              \right) =\lim _{j\to\infty}  \frac{\gamma(1/j)-\gamma(0)}{\norm{\gamma(1/j)-\gamma(0)}}\, , \]

a więc warunek defTaA jest spełniony w punkcie $ \aa=\gamma(0) $ dla punktów $ \xx_j=\gamma(1/j) $.

Interpretacja fizyczna powyższego spostrzeżenia jest jasna: jeśli podróżujemy w zbiorze $ A\subset\R^n $ (i położenie jest różniczkowalną funkcją czasu $ t $), to wektor prędkości jest cały czas styczny do zbioru $ A $.

Twierdzenie [prostopadłość gradientu do poziomicy](#) Załóżmy, że $ f\colon \R^n\supset \Omega\to \R $ jest różniczkowalna w punkcie $ \aa\in \Omega $ i ciągła na pewnej kuli $ B(\aa, r)\subset \Omega $, gdzie $ r>0 $. Niech

\[ A=\{x\in \Omega\colon f(\xx)=f(\aa)\}\, . \]

Jeśli $ \vv:=\grad f(\aa)\not=0 $, to następujące warunki są równoważne:

    {(\roman{enumi})}

  1. $ \ww\in T_{\maa} A $;
  2. wektor $ \ww $ jest prostopadły do $ \vv=\grad f(a) $, tzn. $ \langle \ww,\vv\rangle=0 $.
Dowód: Jeśli $ \ww=\zero $, to oba warunki są spełnione. Niech więc odtąd $ \ww\not= 0 $. Załóżmy także, że $ f(\aa)=0 $; to nie zmniejsza ogólności rozważań, gdyż dodając do $ f $ stałą, nie zmieniamy gradientu.

Najpierw wykażemy, że (i) $ \Rightarrow $ (ii). Niech $ \xx_j\in A\setminus\{\aa\} $ będzie zbieżnym do $ \aa $ ciągiem punktów, dla którego zachodzi warunek defTaA. Ponieważ $ \xx_j\in A $, więc z definicji $ f(\xx_j)=0 $. Wobec różniczkowalności $ f $ w $ \aa $, mamy

\[ \begin{eqnarray*} 0=f(\xx_j)=f\bigr(\aa+(\xx_j-\aa)\bigl)& =& f(\aa) + Df(\aa)(\xx_j-\aa) + o(\|\xx_j-\aa\|) \\ & = & \underbrace{f(\aa)}_{= 0}+\langle\grad f(\aa),\xx_j-\aa\rangle  + o(\|\xx_j-\aa\|) \\ & = & \langle\grad f(\aa),\xx_j-\aa\rangle  + o(\|\xx_j-\aa\|), \qquad j\to\infty, \end{eqnarray*} \]

a zatem

\[ 0=\left\langle \grad f(a),\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\right\rangle +\frac{o(\|\xx_j-\aa\|)}{\norm{\xx_j-\aa}}\, . \]

Zgodnie z defTaA, $ ({\xx_j-\aa})/{\norm{\xx_j-\aa}}\to \ww/\|\ww\| $, gdy $ j\to \infty $. Zatem

\[ 0=\lim_{j\to\infty}\left\langle \grad f(a),\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\right\rangle =\left\langle \grad f(a),\frac{\ww}{\norm{\ww}}\right\rangle =\langle \grad f(a),\ww\rangle\, . \]

Dowód implikacji (ii) $ \Rightarrow $ (i) jest nieco trudniejszy. Niech $ \vv=\grad f(a)\not=0 $. Ustalmy najpierw, posługując się wprost definicją różniczki i gradientu, liczbę $ t>0 $ tak, aby mieć

\[ f(\aa+t\cdot \vv) > 0=f(\aa)> f(\aa-t\cdot \vv)\qquad\mbox{oraz}\qquad t\cdot\|\vv\|< \frac r2\, ; \]

można to zrobić, gdyż $ Df(\aa)\hh= \langle\grad f(\aa),\hh\rangle=\langle \vv,\hh\rangle $ i dla małych $ |t| $ jest

\[    f(\aa+t\vv)=f(\aa)+Df(\aa)(t\vv)+o(|t|)= Df(\aa)(t\vv)+o(|t|)=t\|v\|^2 + o(|t|), \]

a więc znak liczby $ f(\aa+t\vv) $ jest taki, jak znak $ t $. Dalszy ciąg dowodu polega na tym, by wybrać punkty $ \xx_j\in A $, dla których zachodzi warunek z definicji wektora stycznego. Kluczowy krok pod koniec rozumowania wykonujemy nie wprost; w dowodzie istotną rolę odgrywa ciągłość $ f $ w całym otoczeniu $ \aa $. (Czytelnik zechce wykonać rysunek, zakładając, że płaszczyzna kartki jest rozpięta na $ \vv $ i $ \ww $, i zaznaczać położenia kolejnych rozpatrywanych punktów).

Niech $ j\in \N $, $ 0<\frac 1j<t $. Korzystając z ciągłości $ f $ w punktach $ \aa\pm \frac 1j \vv $, wybierzmy liczbę $ \delta_j\in (0,1/j) $ tak, aby

\[ \begin{equation} 	\label{zprawejdod} 	f(\aa+\frac 1j \vv+s\ww)>0 \qquad\mbox{dla wszystkich $|s|\le\delta_j$} \end{equation} \]

i jednocześnie

\[ \begin{equation}  	\label{zlewejuj} 	f(\aa-\frac 1j \vv+s\ww)< 0 \qquad\mbox{dla wszystkich $|s|\le\delta_j$.} \end{equation} \]

Założymy też, że punkty $ \aa\pm \frac 1j\vv +\delta_j \ww\in B(\aa,r) $.

Dla każdego dostatecznie dużego $ j\in \N $ funkcja

\[ [-1/j,1/j]\ni \theta\longmapsto \phi_j(\theta) = f(\aa+\theta\vv+\delta_j\ww) \in \R \]

jest ciągła i na końcach odcinka $ [-1/j,1/j] $ ma wartości różnych znaków, zatem istnieje punkt $ \theta_j\in (-1/j,1/j) $ taki, że $ \phi_j(\theta_j)=0 $, lub równoważnie

\[ \xx_j\stackrel{\text{ozn.}}=\aa+\theta_j\vv +\delta_j \ww\in A=\{f=0\}\, . \]

Ponieważ $ \delta_j\in (0,1/j) $ i $ |\theta_j|<1/j $, więc $ \xx_j\not= \aa $ i $ \xx_j\to \aa $ dla $ j\to \infty $. Korzystając ze zwartości sfery jednostkowej $ \S^{n-1}=\{\uu\colon \|\uu\|=1\} $, możemy założyć (przechodząc w razie potrzeby do odpowiedniego podciągu), że

\[ \frac{\xx_j-\aa}{\norm{\xx_j-\aa}} =\alpha_j\vv+\beta_j\ww \longrightarrow \uu_0= \alpha \vv +\beta \ww\in \S^{n-1}\, ,  \qquad j\to \infty \]

gdzie współczynniki $ \alpha_j\to \alpha $, $ \beta_j\to \beta $ dla $ j\to\infty $. Zauważmy, że $ \beta_j=\delta_j/\|\xx_j-\aa\|>0 $. Dlatego $ \beta=\lim\beta_j\ge 0 $.

Z definicji, wektor $ \uu_0\in T_{\maa}A $. Gdyby $ \alpha\not=0 $, to mielibyśmy

\[ \langle\uu_0,\vv\rangle=\alpha \|\vv\|^2+\beta\langle \ww,\vv\rangle\stackrel{\text{(i)}}= \alpha \|\vv\|^2\not=0. \]

Byłoby więc $ \uu_0\in T_{\maa}A $ i nie zachodziłby warunek (ii), co przeczyłoby udowodnionej już implikacji (i) $ \Rightarrow $(ii).

Dlatego musi być $ \alpha=0 $. Ponieważ $ \uu_0\not=0 $, więc $ \beta\not=0 $, czyli $ \beta>0 $. Wykazaliśmy zatem, że

\[ \uu_0=\beta \ww\in T_{\maa} A, \qquad \beta>0\, . \]

Zgodnie z Uwagą [link], $ \ww\in T_{\maa} A $. □

Zadanie Wskazać przykład funkcji $ f\colon \R^2\to\R $ różniczkowalnej w $ \aa=(0,0)\in \R^2 $, $ \grad f(0,0)=(1,0) $, dla której nie zachodzi implikacja (ii) $ \Rightarrow $ (i) w ostatnim twierdzeniu.

     Wskazówka. Podzielić płaszczyznę na trzy obszary (dolną półpłaszczyznę $ y<0 $ i dwie ćwiartki górnej półpłaszczyzny); na jednym z nich przyjąć $ f(x,y)=x $, a na dwóch pozostałych $ f(x,y)=x\pm y^2 $, tak, aby zbiór $ A=\{f=0\} $ był półprostą domkniętą o końcu wpunkcie $ \aa $.

Przykład [styczna do okręgu] Niech $ f(x,y)=x^2+y^2-R^2 $, gdzie $ R>0 $. Zbiór $ \{f=0\} $ to okrąg $ \gamma_R $ o promieniu $ R>0 $. Gradient funkcji $ f $ w punkcie $ (x,y)\in \gamma_R $ to wektor $ 2(x,y) $, współliniowy z promieniem okręgu $ \gamma_R $, prowadzącym do punktu $ (x,y) $. Twierdzenie [link] implikuje więc, że styczna do okręgu jest prostopadła do promienia, poprowadzonego w punkcie styczności.
Zadanie Proszę wykazać, że jeśli $ P $ jest płaszczyzną styczną (w sensie Definicji [link]) do wykresu funkcji różniczkowalnej $ f\colon \R^n\supset\Omega\to\R $ w punkcie $ (\aa,f(\aa)) $, to dla każdego punktu $ (\xx,x_{n+1})\in P $ wektor

\[ 	\vv=(\xx,x_{n+1}) - (\aa,f(\aa))\in \R^{n+1} 	\]

jest styczny (w sensie Definicji [link]) do wykresu funkcji $ f $. Można posłużyć się Twierdzeniem [link], tzn. przedstawić wykres funkcji $ n $ zmiennych jako poziomicę pewnej funkcji $ n+1 $ zmiennych.

Twierdzenie o wartości średniej

Definicja [Funkcje klasy $ C^1 $] Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $. Mówimy, że $ f\in C^1(\Omega,\R^m) $, jeśli $ f\colon \Omega\to\R^m $ ma na $ \Omega $ ciągłe pochodne cząstkowe $ \pcz f{x_j} $, $ j=1,2,\ldots,n $. (#)
Uwaga Jeśli $ f\in C^1(\Omega,\R^m) $, to wobec twierdzenia [link] $ f $ jest różniczkowalna w każdym punkcie $ \Omega $, a ponadto odwzorowanie

\[ 	\Omega\ni \xx\longmapsto Df(\xx)\in L(\R^n,\R^m)\simeq M_{m\times n} 	\]

jest ciągłe (tu korzystamy ze Stwierdzenia [link]). Ponieważ z istnienia różniczki wynika ciągłość funkcji, więc funkcje klasy $ C^1 $ są ciągłe.

Na odwrót, jeśli założymy, że $ f\colon \R^n\supset \Omega\to \R^m $ jest ciągła i ma ciągłą różniczkę $ Df\colon \R^n\supset \Omega\to L(\R^n,\R^m) $, to oczywiście spełnione są warunki Definicji [link]. To wynika ze Stwierdzenia [link].

Podamy teraz odpowiednik twierdzenia Lagrange'a o wartości średniej dla funkcji wielu zmiennych.

Twierdzenie [o wartości średniej](#) Niech $ f\colon \R^n\supset\Omega\to \R^m $. Załóżmy, że dla pewnych $ \xx,\yy\in \Omega $ odcinek $ [\xx,\yy]\subset \Omega $ i $ f $ jest różniczkowalna we wszystkich punktach tego odcinka. Wówczas

\[ \begin{equation} 		\label{nier-wartsr} 		\norm{f(\yy)-f(\xx)}\le \norm{\yy-\xx}\cdot \sup_{\theta\in [0,1]}\|Df(\xx+\theta(\yy-\xx))\|\, . \end{equation} \]

Geometryczny sens tego twierdzenia jest następujący: jeśli różniczka $ Df(\pp) $ zwiększa długość wektorów co najwyżej $ k $-krotnie, to norma przyrostu funkcji wzdłuż odcinka $ [\xx,\yy] $, zawartego w dziedzinie, nie przekracza iloczynu liczby $ k $ i długości tego odcinka.

Dowód: Wprowadźmy dwie funkcje pomocnicze,

\[ \begin{eqnarray} 	g(t) & =& f(\xx+t(\yy-\xx))-f(\xx)\, , \qquad t\in [0,1]\, , \label{pomoc-g}\\    	\Phi(t) &=&\big\langle g(1),g(t)\big\rangle\, , \qquad t\in [0,1]\, . \end{eqnarray} \]

Dla $ t\in [0,1] $ punkt $ \xx+t(\yy-\xx)\in [\xx,\yy] $, zatem $ g $ jest funkcją różniczkowalną zmiennej $ t $ (jako złożenie funkcji różniczkowalnych). Podobnie, $ \Phi $ jest funkcją różniczkowalną. Ponadto, $ \Phi(1)=\|g(1)\|^2=\norm{f(\yy)-f(\xx)}^2 $ i $ \Phi(0)=0 $. Wyraźmy przyrost funkcji $ \Phi $, stosując twierdzenia Lagrange'a dla funkcji jednej zmiennej, a następnie obliczmy pochodną $ \Phi'(\theta) $, korzystając z twierdzeń o pochodnej iloczynu i różniczce złożenia. Otrzymamy

\[ \begin{eqnarray*} \norm{f(\yy)-f(\xx)}^2& =& \Phi(1)-\Phi(0)\\ & = & \Phi'(\theta)\qquad\mbox{dla pewnego $\theta\in (0,1)$}\\ & = & \big\langle g(1),g'(\theta)\big\rangle	\\ & = & \big\langle f(\yy)-f(\xx),Df(\xx+\theta(\yy-\xx))\cdot(\yy-\xx)\big\rangle \\ & \le & \norm{f(\yy)-f(\xx)}\cdot \norm{Df(\xx+\theta(\yy-\xx))\cdot{(\yy-\xx)}}\\ & \le & \norm{f(\yy)-f(\xx)}\cdot \norm{Df(\xx+\theta(\yy-\xx))}\cdot\norm{\yy-\xx}. \end{eqnarray*} \]

(Pierwsza nierówność to nierówność Schwarza; druga wynika z definicji normy przekształcenia liniowego). Jeśli $ \norm{f(\yy)-f(\xx)}=0 $, to teza jest oczywista. W przeciwnym przypadku dzielimy otrzymaną nierówność przez $ \norm{f(\yy)-f(\xx)}>0 $ i biorąc kres górny prawej strony względem $ \theta\in [0,1] $ otrzymujemy nier-wartsr. □

Podamy jeszcze drugi dowód tego ważnego twierdzenia. Wymaga on wprawdzie nieco mocniejszych założeń, jednak użyty w nim sposób postępowania jest bardzo naturalny iczęsto wykorzystywany w wielu działach analizy.

    Drugi dowód twierdzenia o wartości średniej. Niech $ g $ nadal oznacza funkcję pomocniczą, określoną wzorem pomoc-g. Założymy dodatkowo, że $ f\in C^1(\Omega,\R^m) $. Wtedy $ g'(t) $ jest funkcją ciągłą. Wyrazimy przyrost $ f $, tzn. przyrost $ g $ na odcinku $ [0,1] $, całkując $ g' $.

     Uwaga. Wartościami $ g' $ są wektory z przestrzeni $ \R^m $. Przyjmujemy naturalną umowę: całka oznaczona $ \int_a^b h(t)\, dt $ z (ciągłej) funkcji wektorowej $ h=(h_1,\ldots,h_m)\colon [a,b]\to\R^m $ jest wektorem o współrzędnych $ \int_a^b h_j(t)\, dt $. Zachodzi wtedy nierówność

\[ \begin{equation} 	\label{normint}  	\norm{\int_a^b h(t)\, dt}\le \int_a^b\norm{h(t)}\, dt\, ,  \end{equation} \]

którą Czytelnik może udowodnić samodzielnie. (Wskazówka: Całkę można przybliżać sumami Riemanna, a dla sum Riemanna mamy tu do czynienia po prostu z nierównością trójkąta dla normy.)

Mamy

\[ f(\yy)-f(\xx)=g(1)=g(1)-g(0)=\int_0^1g'(t)\, dt\, . \]

Korzystając z nierówności [link] i obliczając $ g' $ (jak w pierwszym dowodzie), otrzymujemy

\[ \begin{eqnarray*} \|f(\yy)-f(\xx)\| & = & \norm{\int_0^1g'(t)\, dt} \\ & \le & \int_0^1\norm{g'(t)}\, dt \\ & = & \int_0^1\norm{Df(\xx+t(\yy-\xx))\cdot{(\yy-\xx)}}\, dt   \\ & \le  & \int_0^1\norm{Df(\xx+t(\yy-\xx))}\cdot\norm{\yy-\xx}\, dt  \\ & =  & \norm{\yy-\xx}\cdot \int_0^1\norm{Df(\xx+t(\yy-\xx))}\, dt  \\                                                   & \le  &\norm{\yy-\xx}\cdot \sup_{t\in [0,1]} \norm{Df(\xx+t(\yy-\xx))}\, .                                                 \end{eqnarray*} \]

(Pisząc ostatnią nierówność, oszacowaliśmy całkę przez iloczyn kresu górnego funkcji idługości odcinka). □

Pochodne cząstkowe wyższych rzędów i wzór Taylora

Zajmiemy się teraz określeniem pochodnych cząstkowych rzędu wyższego niż pierwszy, różniczek wyższych rzędów, oraz uogólnieniem wzoru Taylora na funkcje wielu zmiennych. Podobnie jak w przypadku funkcji jednej zmiennej, wzór Taylora pozwala znajdować najlepsze przybliżenia wielomianowe funkcji, a także prowadzi do warunków dostatecznych, gwarantujących, że w punkcie krytycznym funkcja ma ekstremum lokalne.

Jak można się spodziewać, pochodne cząstkowe wyższych rzędów definiuje się indukcyjnie.

Definicja [pochodne cząstkowe drugiego rzędu] Załóżmy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $ ma na $ \Omega $ pochodną cząstkową $ \pcz f{x_i}\colon \Omega\to\R^m $. Jeśli funkcja $ D_i f=\pcz f{x_i} $ ma w punkcie $ \aa\in \Omega $ pochodną cząstkową względem $ x_j $, to przyjmujemy

\[ 	\frac{\partial^2 f}{\partial x_j\partial x_i}(\aa)= \frac{\partial}{\partial x_j}\left[\pcz f{x_i}\right](\aa)\, . 	\]

Będziemy też używać innych oznaczeń:

\[ \pczdwa f{x_i}{x_j}(\aa)=D_jD_i f(\aa)=f_{x_ix_j}(\aa)\, . \]

     Uwaga. Posługując się oznaczeniami $ f_{x_ix_j} $, przestrzegamy naturalnej mnemotechnicznej konwencji: najpierw różniczkujemy względem tej zmiennej, która jest zapisana bliżej $ f $.

Pochodne cząstkowe wyższych rzędów definiuje się analogicznie, np.

\[ \frac{\partial^3 f}{\partial x_k\partial x_j\partial x_i}(\aa)=  \frac{\partial}{\partial x_k}\left[\pczdwa f{x_i}{x_j}\right](\aa)\, ; \]

stosując inne oznaczenia, napisalibyśmy $ D_kD_jD_i f(\aa)=D_k(D_jD_i f)(\aa) $ oraz

\[   \big(f_{x_ix_j}\big)_{x_k}(\aa)=f_{x_ix_jx_k}(\aa)\, . \]

Stosowanie wszelkich oznaczeń tego typu dla pochodnych cząstkowych rzędu wyższego niż drugi jest w praktyce dość niewygodne. Dlatego później poznamy jeszcze inną, wygodną i bardzo skrótową konwencję notacyjną. Najpierw jednak omówimy najważniejsze własności pochodnych cząstkowych drugiego rzędu.

Przykład Peano i twierdzenie Schwarza o równości pochodnych mieszanych

Bardzo naturalne jest pytanie: czy, wprowadzając oznaczenia pochodnych cząstkowych drugiego rzędu, trzeba rzeczywiście koniecznie odróżniać $ f_{x_ix_j} $ od $ f_{x_jx_i} $? Czytelnik, oswojony już nieco z przykładami patologicznego zachowania funkcji wielu zmiennych, może spodziewać się, że odpowiedź jest twierdząca.

Przykład [G. Peano, 1884] Niech

\[ 	f(x,y)=\begin{cases} xy\dfrac{x^2-y^2}{x^2+y^2}\, , & (x,y)\not=(0,0),\\[8pt] 	0,          & (x,y)=(0,0). \end{cases} 	\]

W punktach $ \R^2\setminus\{(0,0)\} $ funkcja $ f $ jest różniczkowalna. Ponadto,

$$|f(x,y)|\le |xy|\le \frac 12 (x^2+y^2);$$

korzystając z tej nierówności, sprawdza się łatwo (wprost z definicji różniczki), że $ Df(0,0)=(0,0)\in L(\R^2,\R) $. Obliczymy teraz pochodne mieszane $ f_{xy}(0,0) $ i $ f_{yx}(0,0) $.

Mamy

\[ f_{xy}(0,0)= \bigl(f_x\bigr)_y(0,0)=\lim_{y\to 0}\frac{f_x(0,y)-f_x(0,0)}y =  \lim_{y\to 0}\frac{f_x(0,y)}y,  \]

gdyż $ f_y(0,0)=0 $ (pamiętajmy: różniczka $ f $ znika w zerze). Wartość $ f_x(0,y) $ obliczamy, posługując się definicją $ f $; aby nie wykonywać długich rachunków, zauważmy, że $ f(x)=x^2 $ ma w zerze pochodną $ 0 $ i dlatego

\[ f_x(0,y)=y \cdot  \left(\dfrac{x^2-y^2}{x^2+y^2}\right)_{|x=0}=-y\, . \]

Zatem $ f_{xy}(0,0)=-1 $. Zamieniając $ x,y $ rolami, otrzymujemy w ten sam sposób $ f_{y}(x,0)=x $ i$ f_{yx}(0,0)=1 $. Jest więc $ f_{xy}(0,0)\not=f_{yx}(0,0) $.

Podobny (bardziej skomplikowany) przykład podał H.A. Schwarz nieco wcześniej. Okazuje się jednak, że takie zachowanie jest wykluczone wówczas, gdy pochodne mieszane są ciągłe.

Twierdzenie [Schwarza o równości pochodnych mieszanych] Ustalmy $ i,j\in {1,\ldots, n} $. Jeśli funkcja $ f\colon \R^n\supset \Omega\to \R^m $ jest klasy $ C^1 $ i ma na $ \Omega $ ciągłą pochodną $ f_{x_ix_j} $, to pochodna $ f_{x_jx_i} $ istnieje we wszystkich punktach $ \Omega $ i $ f_{x_jx_i}=f_{x_ix_j} $. (#)

Dowód poprzedzimy kilkoma lematami.

Lemat Niech $ Q=[a,b]\times[c,d]\subset \R^2 $. Jeśli funkcja $ f\colon Q\to\R^m $ zmiennych $ (x,y)\in Q $ jest ciągła i ma ciągłą pochodną cząstkową $ f_y\colon Q\to \R^m $, to

\[ 	\Phi(y)=\int_a^b f(x,y)\, dx, \qquad y\in [c,d], 	\]

jest funkcją różniczkowalną i zachodzi wzór

\[ \begin{equation} 	\label{pochcalki} 	\Phi'(y)= \int_a^b f_y(x,y)\, dx\, . \end{equation} \]
Dowód: Z definicji całki oznaczonej,

\[ f(x,y+h)-f(x,y)=\int_0^1\frac{d}{ds}f(x,y+sh)\, ds = h\int_0^1f_y(x,y+sh)\, ds\, . \]

Dlatego iloraz różnicowy funkcji $ \Phi $ jest równy

\[ \begin{eqnarray*} \Delta_h\Phi(y) &\stackrel{\text{ozn.}}=& \frac{\Phi(y+h)-\Phi(y)}h\\ &=& \frac 1h \int_a^b \Bigl(f(x,y+h)-f(x,y)\Bigr)\, dx  =  \int_a^b \biggl(\int_0^1f_y(x,y+sh)\, ds\biggr)\, dx\, . \end{eqnarray*} \]

Oznaczmy literą $ I $ całkę po prawej stronie wzoru pochcalki. Ponieważ $ f_y(x,y)=\int_0^1 f_y(x,y)\, ds $, więc

\[ \begin{eqnarray} \norm{\Delta_h\Phi(y)-I}& = &\norm{\int_a^b \biggl(\int_0^1f_y(x,y+sh)\, ds\biggr)\, dx-   \int_a^b\biggl(\int_0^1 f_y(x,y)\, ds\biggr)\, dx}\nonumber\\ & = & \norm{\int_a^b \biggl(\int_0^1\big(f_y(x,y+sh)-f_y(x,y)\big)\, ds\biggr)\, dx}\nonumber\\ & \le &  \int_a^b \biggl(\int_0^1\norm{f_y(x,y+sh)-f_y(x,y)}\, ds\biggr)\, dx\, .  \label{lempomost} \end{eqnarray} \]

Funkcja $ f_y $ jest ciągła na zbiorze zwartym $ Q=[a,b]\times[c,d] $, a więc jest jednostajnie ciągła na $ Q $. Ustalmy $ \eps>0 $ i dobierzmy $ \delta>0 $ tak, aby $ \norm{f_y(\pp_1)-f_y(\pp_2)}<\eps/(b-a) $ dla $ \norm{\pp_1-\pp_2}<\delta $. Wówczas, dla $ |h|<\delta $, funkcja podcałkowa w lempomost jest w każdym punkcie mniejsza od $ \eps/(b-a) $ i otrzymujemy

\[ \norm{\Delta_h\Phi(y)-I}< \int_a^b \biggl(\int_0^1\frac{\eps}{b-a} ds\biggr)\, dx =    (b-a)\cdot\frac{\eps}{b-a} =\eps\, . \]

Wprost z definicji granicy, $ \Delta_h\Phi(y)\to I $ dla $ h\to 0 $, tzn. istotnie zachodzi wzór pochcalki. □

Uwaga Oczywiście, wzór analogiczny do pochcalki zachodzi także wtedy, gdy zmienne zamienimy rolami.
Lemat Niech $ \Omega\subset \R^2 $ będzie zbiorem otwartym i niech $ Q=[a,b]\times[c,d]\subset\Omega $. Jeśli $ f\in C^1(\Omega,\R^m) $ ma pochodną cząstkową $ f_{yx} $ ciągłą na $ Q $, to wówczas $ f_{xy} $ istnieje w punktach prostokąta $ Q $ i $ f_{xy}(x,y)=f_{yx}(x,y) $ dla $ (x,y)\in Q $. (#)
Dowód: Załóżmy najpierw, że $ m=1 $. Niech $ (x,y), (x,y_0)\in Q $. Napiszmy

\[ f(x,y)=f(x,y_0) +\int_{y_0}^y f_y(x,z)\, dz =  f(x,y_0) +\int_{y_0}^y g(x,z)\, dz\, , \]

gdzie funkcja $ g=f_y $ jest ciągła na $ \Omega $ i ma pochodną $ g_x=f_{yx} $ ciągłą na $ Q $. Różniczkując powyższy wzór względem $ x $ i stosując poprzedni lemat do $ g $, otrzymujemy

\[ f_x(x,y)=f_x(x,y_0)+\int_{y_0}^y g_x(x,z)\, dz=  f_x(x,y_0)+\int_{y_0}^y f_{yx}(x,z)\, dz\, . \]

Zatem

\[ \frac{f_x(x,y)-f_x(x,y_0)}{y-y_0}=\frac{1}{y-y_0}\int_{y_0}^y f_{yx}(x,z)\, dz\, . \]

Dla $ y\to y_0 $ lewa strona dąży do $ f_{xy}(x,y_0) $, prawa zaś do wartości funkcji podcałkowej wpunkcie$ y_0 $, tzn. do $ f_{yx}(x,y_0) $ (tu ponownie korzystamy z ciągłości $ f_{yx} $ i z twierdzenia owartości średniej dla całki). Dowód jest zakończony w przypadku $ m=1 $.

Gdy $ m>1 $, to z pierwszej części dowodu wynika, że wszystkie współrzędne pochodnej $ f_{xy} $ są dobrze określone i równe odpowiednim współrzędnym $ f_{yx} $. □

         Dowód Twierdzenia [link] Dla zbiorów $ \Omega\subset \R^2 $ twierdzenie wynika natychmiast z ostatniego lematu. Jeśli $ n>2 $, to zauważmy, że aby określić pochodne $ f_{x_ix_j} $ oraz $ f_{x_jx_i} $ w punkcie $ \aa\in \Omega\subset\R^n $, wystarczy znać wartości $ f $ jedynie na dwuwymiarowej płaszczyźnie afinicznej $ \aa+\mathrm{span}(\ee_i,\ee_j) $. Stosując Lemat [link] na przecięciach zbioru $ \Omega $ z takimi płaszczyznami, łatwo otrzymujemy tezę. □

Druga różniczka

Zacznijmy od objaśnienia, jakim obiektem matematycznym miałaby być druga różniczka $ D^2f $ funkcji wielu zmiennych. Przypuśćmy, że $ f\colon \R^n\supset\Omega\to\R^m $ jest różniczkowalna na $ \Omega $. Dla ustalonego $ \xx\in \Omega $ jej różniczka $ Df(\xx) $ jest elementem przestrzeni $ L(\R^n,\R^m) $, którą, ustaliwszy bazy w $ \R^n $ i$ \R^m $, można utożsamiać z $ M_{m\times n} $ lub $ \R^{mn} $. Inaczej mówiąc,

\[ Df\colon \R^n\supset \Omega\ni \xx\longmapsto Df(\xx)\in L(R^n,\R^m)\simeq \R^{mn}\, . \]

Naturalnie byłoby określić drugą różniczkę $ D^2 f $ jako $ D^2f=D(Df) $ (wszędzie tam, gdzie $ Df $ sama jest funkcją różniczkowalną). Zgodnie z definicją różniczki, powinno wtedy być

\[ D^2f=D(Df)\colon \R^n\supset\Omega\ni \xx\longmapsto D^2f(\xx)\ni L(\R^n,L(\R^n,\R^m)). \]

tzn. $ D^2f(\xx)=D(Df)(\xx) $ powinna być, dla ustalonego $ \xx $, przekształceniem liniowym z $ \R^n $ w przestrzeń, do której należą wartości różniczkowanej funkcji $ Df $, tzn. $ L(\R^n,\R^m) $. Brzmi to zawile i widać od razu, że definiowanie różniczek wyższych rzędów prowadziłoby do coraz dłuższych napisów (i coraz bardziej skomplikowanych przestrzeni liniowych). Dlatego korzysta się z naturalnego izomorfizmu

\[ L(\R^n,L(\R^n,\R^m)) \equiv L(\R^n,\R^n; \R^m) \]

między przestrzenią $ L(\R^n,L(\R^n,\R^m)) $ i przestrzenią $ L(\R^n,\R^n;\R^m) $ przekształceń dwuliniowych $ \R^n\times \R^n\to \R^m $. Jest to izomozfizm kanoniczny, tzn. zdefinowany bez odwoływania się do układu współrzędnych, za pomocą wzoru

\[ \begin{equation} 	\label{izoL2L-1}    	L(\R^n,L(\R^n,\R^m))\ni F\longmapsto B_F \in L(\R^n,\R^n;\R^m)  \end{equation} \]

gdzie

\[ \begin{equation} 	\label{izoL2L-2}    	B_F(\uu,\vv)=F(\uu)\vv \qquad\mbox{dla $\uu,\vv\in\R^n$.}  \end{equation} \]

Sprawdzenie, że to rzeczywiście izomorfizm, jest łatwym ćwiczeniem.

Definicja Przypuśćmy, że różniczka $ Df\colon \Omega\to L(\R^n,\R^m) $ funkcji $ f\colon \R^n\supset\Omega\to\R^m $ jest określona w każdym punkcie zbioru otwartego $ \Omega\subset\R^n $. Jeśli funkcja

\[ 	g=Df\colon \Omega\to L(\R^n,\R^m)\simeq M_{m\times n} 	\]

jest różniczkowalna w punkcie $ \aa\in \Omega $, to przekształcenie dwuliniowe

\[ D^2f(\aa)=D(Df)(\aa)=Dg(\aa)\in L(\R^n,L(\R^n,\R^m))  \equiv    L(\R^n,\R^n;\R^m) \]

nazywamy drugą różniczką funkcji $ f $ w punkcie $ \aa $.

Uwaga Dla $ m=1 $ różniczka $ Df(\xx)\in L(\R^n,\R)=(\R^n)^\ast\simeq \R^n $ ma jako współrzędne pochodne cząstkowe $ f_{x_i}(\xx) $. Dlatego przekształcenie dwuliniowe $ D^2f(\xx) $ ma, w standardowej bazie $ \R^n $, macierz, której wyrazami są pochodne cząstkowe drugiego rzędu funkcji $ f $; ponadto,

\[ 	D^2f(\xx)(\vv,\ww)=\vv^T D^2f(\xx)\ww\, , 	\]

gdzie lewą stronę interpretujemy jako wartość przekształcenia dwuliniowego dla pary wektorów $ \vv,\ww $, prawą zaś jako wynik mnożenia trzech macierzy, o rozmiarach (odpowiednio) $ 1\times n $, $ n\times n $ i $ n\times 1 $.

Z twierdzenia Schwarza o równości pochodnych mieszanych wynika natychmiast, że jeśli $ f\colon \Omega\to \R $ ma ciągłe pochodne cząstkowe do rzędu 2 włącznie, to $ Df\colon \Omega\to (\R^n)^\ast $ jest funkcją różniczkowalną i dla każdego $ \aa\in \Omega $ macierz przekształcenia dwuliniowego $ D^2f(\aa) $ jest macierzą symetryczną, gdyż $ f_{x_ix_j}=f_{x_jx_i} $. Okazuje się jednak, że tak jest również wtedy, gdy $ D^2 f(\aa) $ po prostu istnieje; nie trzeba zakładać ciągłości pochodnych mieszanych w pewnym otoczeniu punktu $ \aa $.

Twierdzenie [Schwarza o symetrii drugiej różniczki] Załóżmy, że różniczka $ Df\colon \Omega\to L(\R^n,\R^m) $ funkcji $ f\colon \R^n\supset\Omega\to\R^m $ jest określona w każdym punkcie zbioru otwartego $ \Omega $. Jeśli $ D^2f(\aa)\in L(\R^n,\R^n;\R^m) $ istnieje dla pewnego $ \aa\in \Omega $, to jest przekształceniem dwuliniowym symetrycznym, tzn.

\[ D^2f(\aa)(\vv,\ww)= D^2f(\aa)(\ww,\vv) \qquad\mbox{dla wszystkich $\vv,\ww\in \R^n$.} \]
Dowód: Ustalmy $ \vv,\ww\in \R^n $. Niech $ \max(\norm{\vv},\norm{\ww})=M $. Rozpatrzmy funkcję pomocniczą

\[ \phi(s,t)=f(\aa+t\ww+s\vv)-f(\aa+t\ww)-f(\aa+s\vv)+f(\aa)-ts\, D^2f(\aa)(\ww,\vv)\, , \]

określoną dla $ s,t $ w pewnym otoczeniu zera. Mamy $ \phi(0,t)=0 $; z twierdzenia o wartości średniej wynika, że \begin{multline} \|\phi(s,t)\|=\|\phi(s,t)-\phi(0,t)\|\le |s| \sup_{\sigma\in [0,s]}\norm{\phi_s(\sigma,t)} \\ = |s| \sup_{\sigma\in [0,s]}\norm{\Big(Df(\aa+t\ww+\sigma\vv)-Df(\aa+\sigma\vv) \Big)\cdot\vv - tD^2f(\aa)(\ww,\vv)}\, . (#) \end{multline} Ponieważ $ D^2f(\aa) $ istnieje, więc $ Df(\aa+\hh)=Df(\aa)+D^2f(\aa)\hh+\|h\| r(\hh) $, gdzie $ r(\hh)\to 0 $ dla $ \hh\to 0 $ (patrz Stwierdzenie [link]). Podstawiając w tej równości wektory $ \hh_1=t\ww+\sigma\vv $ i $ \hh_2=\sigma\vv $, otrzymujemy

\[ \begin{eqnarray*} Df(\aa+t\ww+\sigma\vv)&=&Df(\aa)+D^2f(\aa)\cdot (t\ww+\sigma\vv) +\|\hh_1\|r(\hh_1), \\ Df(\aa+\sigma\vv)&=&Df(\aa)+D^2f(\aa)\cdot \sigma\vv +\|\hh_2\|r(\hh_2)\, . \end{eqnarray*} \]

Odejmując oba wzory stronami i pamiętając o izomorfizmie przestrzeni $ L(\R^n,\R^n;\R^m) $ oraz $ L(\R^n,L(\R^n,\R^m)) $, sprawdzamy, że \begin{multline} \Big(Df(\aa+t\ww+\sigma\vv)-Df(\aa+\sigma\vv) \Big)\cdot\vv - tD^2f(\aa)(\ww,\vv) \\= \big(\|\hh_1\|r(\hh_1)-\|\hh_2\|r(\hh_2)\big) \cdot \vv\, . (#) \end{multline} Niech odtąd $ s=t $. Wtedy $ |\sigma|\le |s|=|t| $, co daje oszacowania $ \|h_i\|\le 2M|t| $ dla $ i=1,2 $ oraz

\[ \begin{equation} 	\label{resztaD2}  	\|r(\hh_i)\|\le \sup_{\norm{\mhh}\le 2Mt} \|r(\hh) \| = o(1)\, , \qquad t\to 0\, .   \end{equation} \]

Korzystając ze wzorów D22- resztaD2, przepisujemy dla $ s=t $ nierówność D21 w postaci

\[ \phi(t,t)\le |t| \cdot \big(2Mt \cdot 2 \sup_{\norm{\mhh}\le 2Mt} \|r(\hh) \|\big)\cdot \|v\|= t^2 o(1), \qquad t\to 0\, . \]

Innymi słowy, $ \phi(t,t)/t^2\to 0 $ dla $ t\to 0 $, lub równoważnie

\[ \begin{equation} 	\label{symetriaD2}    	D^2f(\ww,\vv)=\lim_{t\to 0}\frac{f(\aa+t\ww+t\vv)-f(\aa+t\ww)-f(\aa+t\vv)+f(\aa)}{t^2}\, .  \end{equation} \]

Prawa strona wzoru symetriaD2 nie zmienia się, gdy zamienimy wektory $ \ww,\vv $ rolami. Dlatego lewa strona też musi być symetryczną funkcją $ \ww $ i $ \vv $, tzn. $ D^2f(\ww,\vv)=D^2f(\vv,\ww) $. □

Przykład

    {\alph{enumi})}

  1. Jeśli $ f(\xx)=A\xx $, gdzie $ A\in L(\R^n,\R^m) $ jest ustalonym przekształceniem liniowym, to $ Df(\xx)=A $ jest przekształceniem stałym i dlatego $ D^2f(\xx) = \zero\in L(\R^n,\R^n;\R^m) $.
  2. Jeśli
    \[ 	f(\xx)=\langle A\xx,\xx\rangle \qquad\mbox{dla $\xx\in \R^n$,} 	\]

    gdzie $ A $ jest macierzą $ n\times n $, to ze wzoru na pochodną `iloczynu' otrzymujemy

    \[ Df(\xx)\hh =\langle A\hh, \xx\rangle + \langle A\xx, \hh \rangle =\langle A^T\xx, \hh\rangle + \langle A\xx, \hh\rangle = \big\langle (A+A^T)\xx,\hh\big\rangle\, , \]

    co oznacza, że $ Df(\xx)=(A+A^T)\xx $ dla wszystkich $ \xx\in \R^n $. (Pisząc wzór $ Df(\xx)=(A+A^T)\xx $, utożsamiamy funkcjonał liniowy $ Df(\xx) $ z wektorem $ (A+A^T)\xx $.) Zatem, $ Df $ zależy od $ \xx $ liniowo i mamy $ D^2f(\xx)=A+A^T $. Jeśli $ A=A^T $, tzn. macierz $ A $ jest symetryczna, to $ D^2f(\xx)=2A $.

Różniczki wyższych rzędów

Różniczki wyższych rzędów definiuje się indukcyjnie, wzorem

\[ D^k(f)(\aa)= D(D^{k-1}f)(\aa), \qquad \aa\in \Omega, \quad f\colon \Omega\to \R^m\, . \]

Aby definicja $ D^k(f)(\aa) $ miała sens, różniczka rzędu $ (k-1) $ powinna być funkcją określoną w otoczeniu punktu $ \aa $ i różniczkowalną w $ \aa $. Różniczka $ k $-tego rzędu, $ D^k(f)(\aa) $ jest przekształceniem $ k $-liniowym z $ \R^n\times\ldots\times\R^n $ w $ \R^m $, tzn.

\[ D^kf(\aa)\colon \underbrace{\R^n\times\ldots\times\R^n}_{k \text{ razy}}\ni (\vv_1,\ldots, \vv_k)\quad\longmapsto\quad D^kf(\aa)(\vv_1,\ldots,\vv_k)\in \R^m\, . \]

Wartość $ D^kf(\aa)(\vv_1,\ldots,\vv_k) $, która jest wektorem z $ \R^m $, zależy liniowo od każdego zwektorów $ \vv_i $ ($ i=1,\ldots, k $) z osobna. Taka interpretacja różniczki $ k $-tego rzędu jest rzeczą naturalną: jeśli

\[ D^{k-1}f\colon \Omega\ni \xx\longmapsto D^{k-1}f(\xx)\in L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\, , \]

gdzie

\[ L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m) \]

oznacza przestrzeń przekształceń $ (k-1) $-liniowych z $ \R^n\times\R^n $ w $ \R^m $, to zgodnie z definicją różniczki

\[ D^k f\colon \Omega\ni \xx \longmapsto D^kf(\xx)=D(D^{k-1} f)(\xx)\in L\big(\R^n, L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\big)\, . \]

Jednak przestrzenie

\[ V_1:=L\big(\R^n, L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\big) \qquad\mbox{oraz}\qquad V_2:=L(\underbrace{\R^n,\ldots,\R^n}_{k \text{ razy}},\R^m) \]

można utożsamić; ich naturalnym izomorfizem jest przekształcenie $ V_1\ni F\mapsto B_F\in V_2 $, gdzie $ F $ i $ B_F $ powiązane są zależnością

\[ F(\vv_1)(\vv_2,\ldots,\vv_k)=B_F(\vv_1,\vv_2,\ldots,\vv_k)\, . \]
Uwaga Jeśli $ D^kf(\aa) $ istnieje, to jest przekształceniem wieloliniowym symetrycznym, tzn.

\[ 	D^kf(\aa)(\vv_1,\ldots,\vv_k)  =D^kf(\aa)(\vv_{\sigma(1)},\ldots,\vv_{\sigma(k)})    	  \]

dla każdej permutacji $ \sigma\in S_k $ zbioru $ k $-elementowego. Mozna to udowodnić przez indukcję względem $ k $, posługując się twierdzeniem Schwarza o symetrii drugiej różniczki.

Uwaga Będziemy odtąd używać oznaczenia

\[ \begin{equation} 		Df(\aa)\hh^k = Df(\aa)(\underbrace{\hh,\ldots,\hh}_{k \text{ razy}}) \end{equation} \]

dla oznaczenia wartości $ k $-tej różniczki (która jest przekształceniem $ k $-liniowym) na układzie $ k $ identycznych wektorów.

Aby wszystkie rachunki w następnym podrozdziale Czytelnik mógł prześledzić ze zrozumieniem, wprowadzimy jeszcze jedną definicję.

Definicja [norma przekształcenia wieloliniowego] Normą przekształcenia $ k $-liniowego

\[ 	 B\in L(\underbrace{\R^n,\ldots,\R^n}_{k \text{ razy}},\R^m)  	\]

nazywamy najmniejszą stałą $ C=\|B\|\ge 0 $ taką, że

\[ \|B(\vv_1,\ldots,\vv_k)\|\le \|B\|\cdot \|\vv_1\|\cdot\ldots\cdot \|\vv_k\|        \qquad\mbox{dla wszystkich $\vv_1, \ldots, \vv_k\in \R^n$.} \]

Zapisywanie różniczek wyższych rzędów we współrzędnych jest zajęciem niewdzięcznym i nie będziemy tego robić. Wygodną metodę oznaczania pochodnych cząstkowych wyższych rzędów podamy w następnym podrozdziale.

Wzór Taylora. Funkcje klasy $ C^k $ i notacja wielowskaźnikowa.

Okazuje się, że przy odpowiedniej notacji, wprowadzonej wyżej, wzór Taylora w najprostszej wersji, z resztą w postaci Peano, wygląda zupełnie tak samo, jak dla funkcji jednej zmiennej.

Twierdzenie [wzór Taylora z resztą w postaci Peano] Załóżmy, że funkcja $ f\colon \R^n\supset\Omega\to\R^m $ jest $ (k-1) $-krotnie różniczkowalna na $ \Omega $, kula $ B(\aa,r)\subset \Omega $ dla pewnego $ r>0 $ i $ D^kf(\aa) $ istnieje. Wówczas, dla $ \|\hh\|<r $,

\[ \begin{equation} 		\label{Taylor-Peano-k}  		f(\aa+\hh)=f(\aa)+Df(\aa)\hh +\frac 1{2!} D^2f(\aa)\hh^2 + \cdots + \frac{1}{k!} D^kf(\aa)\hh^k  + R(\hh), \end{equation} \]

gdzie $ R(\hh)/\|\hh\|^k\to \zero $ dla $ \hh\to \zero $.

Dowód: Oszacujemy resztę

\[ R(\hh)= f(\aa+\hh)-\Big(f(\aa)+Df(\aa)\hh +\frac 1{2!} D^2f(\aa)\hh^2 + \cdots + \frac{1}{k!} D^kf(\aa)\hh^k \Big)\, , \]

stosując $ k-1 $ razy twierdzenie o wartości średniej. Zauważmy, że $ R(\zero)=\zero $, a ponadto

\[ \begin{eqnarray*} DR(\hh) & = & Df(\aa+\hh) - Df(\aa)-\frac 1{1!} D^2f(\aa)\hh  -\cdots-\frac 1{(k-1)!}D^{k}f(\aa)\hh^{k-1}\, ,\\   D^2R(\hh) & = & D^2f(\aa+\hh) - D^2f(\aa)- \cdots-\frac 1{(k-2)!}D^{k}f(\aa)\hh^{k-2}\,	, \\  & \vdots &      \\  [8pt] D^{k-1}R(\hh)   & = & D^{k-1}f(\aa+\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\hh\,     . \end{eqnarray*} \]

Mamy więc $ DR(\zero)=\zero $, \ldots, $ D^{k-1}R(\zero)=\zero $. Korzystając z Twierdzenia [link], otrzymujemy nierówności

\[ \begin{eqnarray} \|R(\hh)\| & = & \|R(\hh)-R(\zero)\|\le \|\hh\|\cdot \sup_{\theta\in [0,1]} \|DR(\theta\hh)\| \nonumber\\  & \le & \|\hh\|^2  \sup_{\theta\in [0,1]} \|D^2R(\theta\hh)\| \nonumber\\ & \vdots &\nonumber \\ [8pt] & \le  &  \|\hh\|^{k-1}  \sup_{\theta\in [0,1]} \|D^{k-1}R(\theta\hh)\|\, .    \label{TayDk-1} \end{eqnarray} \]

Normę $ \|D^{k-1}R(\theta\hh)\| $ trzeba oszacować inaczej, gdyż $ D^kf $ istnieje tylko w punkcie $ \aa $. Można jednak skorzystać po prostu z definicji różniczki; wobec wzoru na $ D^{k-1}R $ mamy

\[ \begin{multline*} \sup_{\theta\in [0,1]} \|D^{k-1}R(\theta\hh)\|=\sup_{\theta\in [0,1]} \biggl(|\theta|\cdot \|\hh\| \frac{\norm{D^{k-1}f(\aa+\theta\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\theta\hh}}{\norm{\theta\hh}} \biggr)\\ \le \|\hh\| \sup_{\theta\in [0,1]}  \frac{\norm{D^{k-1}f(\aa+\theta\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\theta\hh}}{\norm{\theta\hh}} = \|\hh\| \cdot o(1) \quad \mbox{dla $\hh\to \zero$.} \end{multline*} \]

Łącząc tę nierówność z TayDk-1, otrzymujemy $ \|R(\hh)\|=\|\hh\|^k o(1) $ dla $ \hh\to \zero $. □

W praktyce wygodnie jest znać także inne postacie wzoru Taylora. Jedną z nich, używającą tzw. notacji wielowskaźnikowej, podajemy niżej.

\subsubsection*{Notacja wielowskaźnikowa. Funkcje klasy $ C^k $.}

Definicja Wielowskaźnik $ \alpha=(\alpha_1,\ldots,\alpha_n) $ to wektor o współrzędnych $ \alpha_i $ całkowitych nieujemnych, lub równoważnie element zbioru $ \big(\N\cup\{0\}\big)^n $. Dla wielowskaźników $ \alpha,\beta $ i każdego punktu $ \xx=(x_1,\ldots,x_n)\in\R^n $ piszemy: \begin{gather} \alpha!=\alpha_1!\cdot\ldots\cdot\alpha_n!, \qquad |\alpha|=\alpha_1+\cdots +\alpha_n, \\ \xx^\alpha=x_1^{\alpha_1}x_2^{\alpha_2}\cdot\ldots\cdot x_n^{\alpha_n},\\ \beta\le \alpha    \Leftrightarrow     \beta_i\le \alpha_i    \mbox{dla wszystkich $ i=1,\ldots,n $,}\\ \binom{\alpha}{\beta}=\frac{\alpha!}{\beta!}{(\alpha-\beta)!} \qquad\mbox{dla $ \beta\le \alpha $,} \end{gather} gdzie $ \alpha-\beta=(\alpha_1-\beta_1,\ldots,\alpha_n-\beta_n) $.

Za pomocą wielowskaźników wygodnie jest oznaczać pochodne cząstkowe wyższych rzędów w takich sytuacjach, gdy kolejność wykonywania poszczególnych różniczkowań nie ma znaczenia.

Definicja Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $. Mówimy, że $ f\in C^k(\Omega,\R^m) $ wtedy i tylko wtedy, gdy $ f $ ma wszystkie pochodne cząstkowe rzędu $ k $ ciągłe na zbiorze $ \Omega $.
Uwaga Podobnie jak w przypadku funkcji klasy $ C^1 $, powyższa definicja jest równoważna temu, że $ f $ jest ciągła na $ \Omega $ i wszystkie przekształcenia $ j $-liniowe

\[ 	D^jf \colon \Omega\ni \xx\quad\longmapsto\quad D^jf(\xx)\in L(\underbrace{\R^n,\ldots,\R^n}_{j \text{ razy}},\R^m) \qquad (j=1,2,\ldots, k) 	\]

są dobrze określone i ciągłe na zbiorze $ \Omega $. Można to udowodnić, posługując się Twierdzeniem [link]. Jest to dość łatwe: rozumowanie wymaga tylko znajomości pojęć i nie są potrzebne żadne rachunki.

    Umowa. Dla funkcji $ f\in C^k(\Omega,\R^m) $ symbol

\[ \begin{equation} 	D^\alpha f(\xx) \stackrel{\text{ozn.}}= (D_1)^{\alpha_1}(D_2)^{\alpha_2}\ldots (D_n)^{\alpha_n} f(\xx)\, , \qquad\xx\in \Omega, \end{equation} \]

oznacza pochodną cząstkową tej funkcji, rzędu $ |\alpha|=\alpha_1+\cdots+\alpha_n $, przy czym różniczkowanie względem zmiennej $ x_i $ wykonujemy $ \alpha_i $-krotnie ($ i=1,2,\ldots,n $). Z twierdzenia Schwarza o równości pochodnych mieszanych wynika, że dla funkcji klasy $ C^k $ kolejność wykonywania różniczkowań nie odgrywa roli; można więc w ten sposób oznaczać wszystkie pochodne cząstkowe takiej funkcji, bez obawy, że nie wiadomo, o jaką pochodną chodzi. Przyjmujemy także

\[ D^{(0,0,\ldots,0)}f\equiv f\, . \]
Twierdzenie [wzór Taylora z resztą całkową] Załóżmy, że $ \Omega\subset\R^n $ jest zbiorem otwartym i $ f\in C^k(\Omega,\R^m) $. Jeśli kula $ B(\aa,\delta)\subset \Omega $ dla pewnego $ \delta>0 $, to wówczas

\[ \begin{equation} 	\label{Tay-calk} 	f(\aa+\hh)=\sum_{|\alpha|\le k} \frac 1{\alpha!} D^\alpha f(\aa)\hh^\alpha + R_k(\aa,\hh)\, , \end{equation} \]

dla $ \|\hh\|<\delta $, gdzie reszta

\[ \begin{equation} 	\label{resztacalk} 	R_k(\xx,\hh)=k\int_0^1(1-t)^{k-1}\sum_{|\alpha|=k}\frac{1}{\alpha!}\Big(D^\alpha f(\aa+t\hh)-D^\alpha f(\aa)\Big)\hh^\alpha\, dt\, . \end{equation} \]

    Uwaga. We wzorze Tay-calk sumowanie po prawej stronie odbywa się względem wszystkich wielowskaźników długości $ |\alpha|\le k $.

Dowód: Skorzystamy ze wzoru Taylora z resztą całkową dla funkcji jednej zmiennej rzeczywistej (patrz Skrypt z Analizy MatematycznejI). Ustalmy $ \aa\in \Omega $ i $ \hh=(h_1,\ldots,h_n) $, $ \norm{\hh}<\delta $. Niech $ g(t)=f(\aa+t\hh) $ dla $ t\in [0,1] $. Funkcja $ g $ jest klasy $ C^k $ na pewnym odcinku otwartym $ I\supset [0,1] $. Dlatego

\[ \begin{eqnarray} 	g(1) &=&\sum_{j=0}^{k-1}\frac{g^{(j)}(0)}{j!} +  \int_0^1\frac{(1-t)^{k-1}}{(k-1)!} g^{(k)}(t)\, dt\nonumber\\  &=&\sum_{j=0}^{k}\frac{g^{(j)}(0)}{j!} +  \int_0^1\frac{(1-t)^{k-1}}{(k-1)!} \big(g^{(k)}(t)-g^{(k)}(0)\big)\, dt\, . \label{Taylor-g} \end{eqnarray} \]

Aby zakończyć pracę, wyrazimy pochodne funkcji $ g $ przez pochodne cząstkowe funkcji $ f $. Posługując się wzorem na pochodną złożenia, dowodzimy przez indukcję, że

\[ g'(t)  =  \sum_{i=1}^n D_if(\aa+t\hh)h_i\, , \qquad g''(t)  =  \sum_{i_1,i_2=1}^n D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}   \]

itd.; ogólnie,

\[ \begin{equation} 	g^{(s)}(t)=\sum_{i_1,i_2,\ldots,i_s=1}^n D_{i_s}\ldots D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}\cdot\ldots\cdot h_{i_s}, \qquad s=1,\ldots, k. \label{gs-dluga}    \end{equation} \]

Ostatnią sumę zapiszemy, używając notacji wielowskaźnikowej. Ustalmy wielowskaźnik $ \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_n) $ taki, że $ |\alpha|=s\in [1,k] $. Liczba takich ciągów $ (i_1,i_2,\ldots,i_s) $ o wyrazach ze zbioru $ \{1,2,\ldots, n\} $, w których $ 1 $, $ 2 $, \ldots, $ n $ wystepują (odpowiednio) $ \alpha_1 $-krotnie, $ \alpha_2 $-krotnie, \ldots, $ \alpha_n $ krotnie, wynosi, zgodnie ze znanym wzorem kombinatorycznym,

\[ \binom {s}{\alpha_1}\cdot \binom{s-\alpha_1}{\alpha_2} \cdot \ldots\cdot \binom {s-(\alpha_1+\cdots+\alpha_{n-1})}{\alpha_n}=\frac{s!}{\alpha_1! \cdot \alpha_2!\cdot\ldots\cdot \alpha_n!} = \frac{s!}{\alpha!}\, . \]

Dla każdego z tych ciągów mamy

\[ D_{i_s}\ldots D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}\cdot\ldots\cdot h_{i_s}=D^\alpha f(\aa+t\hh)\hh^\alpha\, ,  \]

a więc wzór gs-dluga można przepisać w postaci

\[ \begin{equation} \label{gs-krotka} \frac{g^{(s)}(t)}{s!}=\sum_{|\alpha|=s} \frac 1{\alpha!}D^\alpha f(\aa+t\hh)\hh^\alpha\, , \qquad s=1,2,\ldots,k. \end{equation} \]

Podstawiając gs-krotka do wzoru Taylor-g, otrzymujemy tezę twierdzenia. □

W szczególnym przypadku $ k=2 $, dla funkcji $ f\colon \R^n\supset\Omega\to\R $ różniczkowalnej dwukrotnie w sposób ciągły, można podobnie (stosując wzór Taylora z resztą Lagrange'a dla funkcji $ g(t)=f(\aa+t\hh) $ jednej zmiennej $ t $) uzyskać następujący fakt.

Wniosek (#) Jeśli $ \Omega\subset\R^n $, $ f\in C^2(\Omega,\R) $ i odcinek $ [\aa,\aa+\hh]\subset \Omega $, gdzie $ \hh=(h_1,\ldots,h_n) $, to istnieje wówczas punkt $ \theta\in (0,1) $ taki, że

\[ \begin{equation} 		f(\aa+\hh) =f(\aa) + \sum_{i=1}^n f_{x_i}(\aa)h_i + \frac 12 \sum_{i,j=1}^n f_{x_ix_j} (\aa+\theta\hh) h_ih_j\, .  	 \label{Taylor-2rzad} \end{equation} \]
Dowód: Ćwiczenie dla Czytelnika.

Zadanie Wykazać, że dla każdego $ \xx=(x_1,\ldots,x_n)\in \R^n $ i dla każdego $ k\in \N $ jest

\[ 	(x_1+x_2+\cdots+x_n)^k=\sum_{|\alpha|=k}\frac{k!}{\alpha!}\xx^\alpha\, . 	\]

Wskazówka. Oznaczyć lewą stronę $ f(\xx) $ i zastosować wzór Taylora.

Ekstrema lokalne.

Wiemy już, że warunkiem koniecznym, by funkcja różniczkowalna $ f\colon \Omega\to\R $ miała ekstremum w punkcie $ \aa\in \Omega $, jest znikanie jej gradientu w tym punkcie. Zajmiemy się teraz sformułowaniem warunków dostatecznych istnienia ekstremum lokalnego funkcji klasy $ C^2 $. Wyrazimy je za pomocą własności drugiej różniczki.

Definicja Niech $ f\in C^2(\Omega,\R) $. Macierz

\[ 	H_f(\aa)=D^2f(\aa)=\big(f_{x_ix_j}(\aa)\big)_{i,j=1,2,\ldots,n}\in M_{n\times n} 	\]

nazywamy hesjanem funkcji $ f $ w punkcie $ \aa\in \Omega $.

Z twierdzenia Schwarza o równości pochodnych mieszanych wynika natychmiast, że $ H_f(\aa) $ jest macierzą symetryczną. Jak wiadomo z wykładów Algebry Liniowej, wszystkie wartości własne macierzy symetrycznej $ A $ są rzeczywiste, a w $ \R^n $ istnieje baza ortonormalna, złożona z wektorów własnych $ A $.

Przypomnijmy, że macierz symetryczna $ A\in M_{n\times n} $ nazywa się dodatnia (ujemna) wtedy i tylko wtedy, gdy $ \langle A\vv,\vv\rangle>0 $ dla $ \vv\in \R^n\setminus\{\zero\} $ (odpowiednio $ \langle A\vv,\vv\rangle<0 $ dla $ \vv\in \R^n\setminus\{\zero\} $). Macierze nieujemne i niedodatnie definiuje się analogicznie, za pomocą nierówności nieostrych. Jeśli $ A $ jest dodatnia (ujemna, nieujemna, niedodatnia), to piszemy $ A>0 $ (odpowiednio: $ A<0 $, $ A\ge 0 $, $ A\le 0 $).

Stwierdzenie Załóżmy, że $ \aa\in\Omega $ jest punktem krytycznym funkcji $ f\in C^2(\Omega,\R) $. Jeśli $ f $ ma w $ \aa $ minimum (odpowiednio: maksimum) lokalne, to $ H_f(\aa)\ge 0 $ (odpowiednio: $ H_f(\aa)\le 0 $).
Dowód: Dla ustalenia uwagi załóżmy, że $ f $ ma w $ \aa $ minimum lokalne. W punkcie krytycznym $ f_{x_i}(\aa)=0 $ dla $ i=1,2,\ldots,n $. Dlatego ze wzoru Taylora Taylor-2rzad (patrz Wniosek [link]) otrzymujemy

\[ \frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle=\frac 12 \sum_{1\le i,j\le n} f_{x_ix_j}(\aa+\theta\hh)h_ih_j  =f(\aa+\hh)-f(\aa)\ge 0 \]

dla wszystkich $ \norm{\hh} $ dostatecznie małych. Ustalmy $ \vv\in \R^n\setminus\{\zero\} $ i podstawmy w tej nierówności $ \hh=t\vv $, gdzie $ t\in\R $ i $ |t|\ll 1 $. Dzieląc obie strony przez $ \frac 12 t^2>0 $, otrzymujemy

\[ \big\langle H_f(\aa+\theta t\vv)\vv,\vv\big\rangle\ge 0\, . \]

Przechodząc do granicy $ t\to 0 $ i korzystając z ciągłości drugich pochodnych cząstkowych $ f $ otrzymujemy $ \langle H_f(\aa)\vv,\vv\rangle\ge 0 $.

Jeśli $ f $ ma w $ \aa $ maksimum lokalne, to rozpatrujemy funkcję $ -f $, która ma w tym punkcie minimum lokalne. □

Przydatna w praktyce jest oczywiście implikacja odwrotna.

Twierdzenie [warunki dostateczne ekstremów lokalnych](#) Niech $ \Omega\subset \R^n $ będzie zbiorem otwartym. Przypuśćmy, że $ f\in C^2(\Omega,\R) $ ma w $ \aa\in\Omega $ punkt krytyczny, tzn. $ \grad f(\aa)=\zero $. Wówczas:

    {(\roman{enumi})}

  1. Jeśli $ H_f(\xx)\ge 0 $ w pewnym otoczeniu punktu $ \aa $, to $ f $ ma w $ \aa $ minimum lokalne.
  2. Jeśli $ H_f(\aa)> 0 $, to $ f $ ma w $ \aa $ minimum lokalne właściwe.
  3. Jeśli $ H_f(\xx)\le 0 $ w pewnym otoczeniu punktu $ \aa $, to $ f $ ma w $ \aa $ maksimum lokalne.
  4. Jeśli $ H_f(\aa)< 0 $, to $ f $ ma w $ \aa $ maksimum lokalne właściwe.
Dowód: Ponieważ $ f_{x_i}(\aa)=0 $ dla $ i=1,2,\ldots,n $, więc ze wzoru Taylora Taylor-2rzad otrzymujemy

\[ \frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle =f(\aa+\hh)-f(\aa)\, , \]

gdzie $ \theta=\theta(\hh)\in (0,1) $. Z tej równości natychmiast wynikaja podpunkty (i) oraz (iii) Twierdzenia [link].

Załóżmy teraz, że $ A:=H_f(\aa)>0 $. Funkcja $ \S^{n-1}\ni \vv\mapsto  \phi(\vv)= \langle A\vv,\vv\rangle $ jest wtedy dodatnia i ciągła na sferze jednostkowej $ \S^{n-1} $, która jest zbiorem zwartym. Wobec twierdzenia Weierstrassa o przyjmowaniu kresów, istnieją stałe $ \alpha,\beta>0 $ takie, że

\[ \beta\ge \phi(\vv)= \langle A \vv,\vv\rangle \ge \alpha >0 \qquad\mbox{dla wszystkich $\vv\in \S^{n-1}$.}  \]

Podstawiając w tej nierówności $ \vv=\ww/\|\ww\| $, gdzie $ \ww\in\R^n $ jest dowolnym wektorem różnym od $ \zero $, otrzymujemy

\[ \beta\|\ww\|^2\ge \langle A \ww,\ww\rangle \ge \alpha \|\ww\|^2>0 \qquad\mbox{dla wszystkich $\ww\in \R^{n}\setminus\{\zero\}$.}  \]

Dlatego, z nierówności Schwarza i definicji normy macierzy,

\[ \begin{eqnarray}  \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle & = &   \langle A\hh,\hh\rangle + \big\langle \big(H_f(\aa+\theta\hh)-A\big)\hh,\hh\big\rangle \nonumber \\   & \ge & \alpha\|\hh\|^2- \norm{\big(H_f(\aa+\theta\hh)-A\big)\hh}\cdot \|\hh\|\label{nierHobok}\\ & \ge & \alpha \|\hh\|^2 - \norm{\big(H_f(\aa+\theta\hh)-A\big)}\cdot \|\hh\|^2  \nonumber    \end{eqnarray} \]

Ponieważ $ f\in C^2 $, więc wszystkie współrzędne macierzy $ H_f(\xx) $ zależą od $ \xx $ w sposób ciągły. Istnieje zatem liczba $ \delta>0 $ taka, że jeśli $ 0<\|\hh\|<\delta $ i $ \theta\in (0,1) $, to

\[ \norm{\big(H_f(\aa+\theta\hh)-H_f(\aa)\big)}=\norm{\big(H_f(\aa+\theta\hh)-A\big)}<\frac \alpha 2\, . \]

Wtedy jednak, wobec nierHobok,

\[ f(\aa+\hh)-f(\aa)=\frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle > \frac \alpha 4 \|\hh\|^2 >0\, . \]

To dowodzi punktu (ii). Dowód (iv) jest taki sam. □

Uwaga W dowodach podpunktów (ii) oraz (iv) w Twierdzeniu [link] nie trzeba zakładać, że $ f\in C^2 $. Wystarczy po prostu, żeby $ f $ była różniczkowalna na zbiorze $ \Omega $ i jej druga różniczka $ D^2f(\aa) $ istniała w punkcie krytycznym $ \aa $ i była w nim dodatnia (wtedy $ f $ ma w $ \aa $ minimum lokalne właściwe) bądź ujemna (wtedy $ f $ ma w $ \aa $ maksimum lokalne właściwe). W dowodzie wykorzystuje się wzór Taylora z resztą Peano. Zainteresowany Czytelnik zdoła sam uzupełnić szczegóły rozumowania.

Zanim przejdziemy do przykładów, przytoczymy jeszcze twierdzenie, które pozwala wnioskować, kiedy $ f $ z pewnością nie ma ekstremum lokalnego w punkcie krytycznym.

Twierdzenie Załóżmy, że $ f\in C^1(\Omega,\R) $ ma w $ \aa\in \Omega $ punkt krytyczny i $ D^2f(\aa) $ istnieje. Jeśli $ H_f(\aa)=D^2f(\aa) $ ma wartość własną $ \lambda_1 >0 $ i wartość własną $ \lambda_2 <0 $, to $ f $ nie ma ekstremum lokalnego w punkcie $ \aa $. (#)
Dowód: Niech $ \vv_i $ będzie unormowanym wektorem własnym macierzy $ H_f(\aa) $, odpowiadającym wartości własnej $ \lambda_i $, gdzie $ i=1,2 $. Dla dostatecznie małej liczby $ \delta>0 $ rozpatrzmy dwie funkcje pomocnicze,

\[ 	g_i(t)=f(\aa+t\vv_i), \qquad |t|<\delta\, , \quad i=1,2. 	\]

Mamy $ g_i'(t)=Df(\aa+t\vv_i)\vv_i $, tzn. $ g_i'(0)=0 $, oraz

\[ 	g''(t)= \langle D^2f(\aa +t\vv_i) \vv_i, \vv_i\rangle\, . 	\]

Zatem $ g_1''(0)= \langle D^2f (\aa)\vv_1,\vv_1\rangle=\lambda_1\|\vv_1\|^2=\lambda_1>0 $. Podobnie, $ g_2''(0)=\lambda_2<0 $. Dlatego $ g_1 $ ma minimum lokalne właściwe w zerze, a $ g_2 $ ma maksimum lokalne właściwe w zerze. Wynika stąd, że $ f $ nie ma ekstremum lokalnego w punkcie $ \aa $ (gdyby miała, to każda z funkcji $ g_{\mvv}=f(\aa+t\vv) $ miałaby w zerze ekstremum lokalne tego samego typu, co $ f $). □

To, czy macierz $ H_f(\aa)=D^2f(\aa) $ jest dodatnia (ujemna), można rozpoznawać za pomocą kryterium Sylvestera.

Twierdzenie [kryterium Sylvestera] Niech $ A=(a_{ij})\in M_{n\times n}(\R) $ i $ a_{ij}=a_{ji} $ dla wszystkich $ i,j=1,2,\ldots, n $. Oznaczmy

\[ d_\ell= \det\Big(a_{ij}\Big)_{i,j=1,\ldots,\ell}\, , \qquad \ell =1,2,\ldots, n\, . \]
    {(\roman{enumi})}

  1. Jeśli $ d_\ell>0 $ dla każdego $ \ell =1,2,\ldots, n $, to $ A>0 $.

  2. Jeśli $ (-1)^\ell d_\ell>0 $ dla każdego $ \ell =1,2,\ldots, n $, to $ A<0 $.
  3. Jeśli $ d_\ell\not=0 $ dla każdego $ \ell=1,\ldots,n $, ale nie zachodzi ani założenie(i), ani założenie(ii), to macierz $ A $ ma wartości własne różnych znaków.

Dowód Czytelnik miał okazję poznać na wykładach z Algebry Liniowej. Zainteresowanym polecam książkę A. Mostowskiego i M. Starka Elementy algebry wyższej.

Uwaga Jeśli $ f\colon \R^n\supset \Omega\to \R $ jest klasy $ C^2 $, ma punkt krytyczny $ \aa\in \Omega $ i wszystkie wartości własne macierzy $ D^2 f(\aa) $ są różne od zera, to mówimy, że $ \aa $ jest niezdegenrowanym punktem krytycznym. Z Twierdzeń [link] i [link] wynika, że o tym, czy funkcja $ f $ ma w niezdegenerowanym punkcie krytycznym ekstremum lokalne, można jednoznacznie przesądzić, badając znaki wartości własnych macierzy $ D^2 f(\aa) $.
Uwaga Podkreślmy wyraźnie: założenie ostrych nierówności w punktach (ii) i (iv) Twierdzenia [link] jest istotne. Każda z funkcji

\[ 	f_1(x,y)=x^4+y^4, \qquad f_2(x,y)=-x^4-y^4, \qquad f_3(x,y)=x^4-y^4\, ,\qquad (x,y)\in \R^2 	\]

ma (jedyny) punkt krytyczny w $ (0,0) $. Jest oczywiste, że dla funkcji $ f_1 $ ten punkt jest minimum lokalnym właściwym, dla $ f_2 $ - maksimum lokalnym właściwym, natomiast $ f_3 $ w ogóle nie ma tym punkcie ekstremum lokalnego. Mamy jednak

\[ D^2f_i(0,0)=\begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix}, \qquad i=1,2,3. \]

Biorąc

\[ f_4(x,y)=x^2+y^4, \qquad f_5(x,y)=x^2, \qquad f_6(x,y)=x^2-y^4,  \qquad  (x,y)\in \R^2 \]

otrzymamy

\[ \grad f_i(0,0) = (0,0) \quad\mbox{oraz}\quad D^2f_i(0,0)=\begin{pmatrix}2 & 0 \\ 0 & 0\end{pmatrix}, \qquad i=4,5,6. \]

Łatwo zauważyć, że w punkcie $ (0,0)\in\R^2 $ funkcja $ f_4 $ ma minimum lokalne właściwe, $ f_5 $ - minimum lokalne (które nie jest właściwe), natomiast $ f_6 $ w ogóle nie ma ekstremum.

Przykład (#) Niech $ h(x,y)=ay(e^x-1)+x\sin x+1-\cos y $ dla $ x,y\in \R $. Wykażemy, że $ h $ ma ekstremum lokalne w punkcie $ (0,0) $ wtedy i tylko wtedy, gdy $ a \in (-\sqrt{2},\sqrt{2}) $.

Pochodne cząstkowe funkcji $ h $ są równe

\[ h_x(x,y)=ay e^x+\sin x +x\cos x, \qquad h_y(x,y)=a (e^x-1)+\sin y\, ,   \]

więc (niezależnie od wartości parametru $ a\in \R $) jest $ h_x(0,0)=h_y(0,0)=0 $ i $ h $ ma w zerze punkt krytyczny. Dalej, obliczamy

TeX Embedding failed!

Podstawiając $ x=y=0 $ otrzymujemy

\[ D^2h(0,0)=\begin{pmatrix} 2 & a \\ a & 1\end{pmatrix}\, , \qquad\det\, D^2h(0,0)= 2- a^2\, . \]

Jeśli $ a\in (-\sqrt{2},\sqrt{2}) $, to $ \det\, D^2h(0,0)= 2- a^2>0 $ i z kryterium Sylvestera wynika, że macierz $ D^2h(0,0) $ jest dodatnio określona, a więc $ h $ ma minimum lokalne właściwe w punkcie $ (0,0) $ (patrz Twierdzenie [link](ii)).

Ilustracja do Przykładu [link]. Parametr $ a=\sqrt 2 $. Mamy wówczas $ h(x,y)=P(x,y)+ o(x^3)+ o(y^3) $ dla $ x,y\to 0 $, gdzie

\[ P(x,y)= \Big(x+\frac y{\sqrt 2}\Big)^2 + \frac{yx^2}{\sqrt 2} \]

jest wielomianem Taylora rzędu 3 funkcji $ h $ wokół zera. Po lewej: poziomice funkcji $ P $, narysowane na płaszczyźnie $ \R^2 $ (w dziedzinie funkcji). Zbiór punktów w $ \R^2 $, opisany równaniem $ P(x,y)=0 $, to krzywa z wyraźnym dziobkiem. Po prawej: fragment wykresu funkcji $ P $, tzn. powierzchnia w $ \R^3 $ o równaniu $ z=P(x,y) $.

Jeśli $ a\not\in [-\sqrt{2},\sqrt{2}] $, to $ \det\, D^2h(0,0)= 2- a^2<0 $. Macierz $ D^2h(0,0) $ ma więc wartości własne różnych znaków i wobec Twierdzenia [link] $ h $ nie ma w zerze ekstremum lokalnego.

Przypadek $ a=\pm \sqrt{2} $ trzeba rozpatrzeć osobno. Macierz $ D^2 h(0,0) $ ma wtedy wartości własne $ 3 $ i $ 0 $, więc nie jest dodatnia i nie wolno stosować Twierdzenia [link](ii); jak wynika z wcześniej przytoczonych przykładów, w takiej sytuacji funkcja może zarówno mieć ekstremum lokalne, jak i go nie mieć.

Dla ustalenia uwagi, niech $ a=\sqrt{2} $. Użyjemy wzoru Taylora (najprościej jest w tym przypadku wykorzystać znane rozwinięcia funkcji elementarnych) i napiszemy

\[ \begin{eqnarray*} h(x,y) & = & y\sqrt{2}\Big(x+\frac{x^2}2 + \frac{x^3}6+o(x^3)\Big) + x \Big(x- \frac{x^3}6+o(x^3)\Big) +\frac{y^2}2-\frac{y^4}{4!} + o(y^4) \\ & = & x^2 +xy\sqrt{2}+\frac {y^2}2 + \frac{yx^2}{\sqrt 2} + o(x^3) + o(y^3)\\ & = & \Big(x+\frac y{\sqrt 2}\Big)^2 + \frac{yx^2}{\sqrt 2}  + o(x^3) + o(y^3)\, . \end{eqnarray*} \]

Na prostej $ y=-x\sqrt{2} $ mamy więc \( h(x,-x\sqrt 2) = -x^3 + o(x^3),\) \( \ x\to 0. \) Zatem, $ h $ nie ma ekstremum w zerze: wyrazy trzeciego rzędu we wzorze Taylora powodują, że $ h(x,-x\sqrt 2) $ zmienia znak w każdym otoczeniu $ 0\in \R $, a przecież $ h(0,0)=0 $. Przypadek $ a=-\sqrt 2 $ sprawdza się tak samo; Czytelnik łatwo uzupełni szczegóły obliczeń.

Czytelnik może sprawdzić, że kierunek prostej $ y=-x\sqrt{2} $ jest wyznaczony przez wektor $ \vv\in\S^1 $ taki, że $ D^2h(0,0)(\vv,\vv)=0 $. W innych kierunkach hesjan ma dodatnie wartości. Sprawdzaliśmy więc w istocie, jak zachowuje się funkcja $ h $ wokół zera ``w podejrzanym kierunku'' - i to wystarczyło, by stwierdzić brak ekstremum lokalnego. □

Ilustracja do Przykładu [link]. Krzywe $ g(x,y)=\mathrm{const} $ na płaszczyźnie $ \R^2 $. W punkcie krytycznym $ (0,0) $ spotykają się dwa szerokie grzbiety i dwie wąskie, wygięte doliny. W Przykładzie [link] wystarczyło użyć twierdzeń [link] i [link] (dających automatyczne kryteria badania funkcji wokół punktu krytycznego), a w wątpliwym przypadku zbadać zachowanie funkcji na prostych, przechodzących przez punkt krytyczny. Pod\-kreślmy jednak, że z zachowania funkcji na poszczególnych takich prostych nie wolno wnioskować, że ma ona ekstremum lokalne!

Przykład (#) Niech

$$g(x,y)=(y-x^3)(y-3x^3)$$

dla $ (x,y)\in \R^2 $. Wtedy \begin{align*} g_x (x,y)&=18 x^5 - 12 x^2 y, \\ g_y(x,y)&=-4 x^3 + 2 y,\\ g_{xx}(x,y) &= 90 x^4 - 24 x y, \\ g_{xy}(x,y)&=-12x^2,\\ g_{yy}(x,y)&=2. \end{align*} Zatem funkcja $ g $ ma w zerze (jedyny) punkt krytyczny;

$$D^2g(0,0)=\begin{pmatrix}0, & 0 \\ 0 & 2 \end{pmatrix}\ge 0.$$

Na każdej prostej $ y=kx $ jest $ g(kx,x)=k^2x^2+ o(x^3) $ dla $ x\to 0 $, a więc obcięcie funkcji $ g $ do takiej prostej ma w zerze minimum lokalne (właściwe). Na prostej $ x=0 $ jest $ g(x,y)=g(0,y)=y^2 $ (tzn. znów mamy funkcję jednej zmiennej, która ma minimum w zerze). Jednak na krzywej $ y=2x^3 $ jest $ g(x,y)=g(x,2x^3)=-x^6 $, a więc w dowolnie małym otoczeniu zera funkcja $ g $ przyjmuje nie tylko wartości dodatnie, ale także ujemne.

Funkcje gładkie

Definicja Jeśli $ \Omega \subset \R^n $ jest zbiorem otwartym, to przyjmujemy

\[ C^\infty (\Omega,\R^m)= \bigcap_{k=1}^\infty C^k(\Omega,\R^m) \]

Funkcje $ f\in C^\infty(\Omega,\R^m) $ nazywamy funkcjami klasy $ C^\infty $ lub funkcjami gładkimi. Są to funkcje, które mają ciągłe pochodne cząstkowe wszystkich rzędów (a zatem, mają ciągłe różniczki wszystkich rzędów).

Dla krótkości, pisze się $ C^\infty(\Omega) $ zamiast $ C^\infty (\Omega,\R) $.

Definicja Nośnikiem $ \text{supp}\, f $ funkcji $ f\colon \R^n\to \R^m $ nazywamy domknięcie zbioru tych punktów, w których $ f $ ma wartości różne od zera:

\[ 	\text{supp}\, f= \overline{\{x\in \R^n\colon f(\xx)\not=\zero\}}\, . 	\]
Twierdzenie Istnieją funkcje klasy $ C^\infty (\R^n) $, których nośnik jest niepustym zbiorem zwartym. Ściślej mówiąc, dla każdego punktu $ \aa\in \R^n $ i każdych liczb $ 0<r<R $ istnieje funkcja $ f\in C^\infty (\R^n) $ taka, że $ f\equiv 1 $ na kuli $ B(\aa,r) $ i $ f\equiv 0 $ na $ R^n\setminus B(\aa,R) $.

    Szkic dowodu. Krok 1. Niech $ n=1 $. Nietrudno wykazać, że istnieje funkcja $ \varphi_1\colon \R\to \R $, która jest klasy $ C^\infty $ i znika poza przedziałem $ [-1,1] $, ale $ \varphi_1(0)=1 $. Taką funkcją jest np.

\[ \varphi_1(x)=\begin{cases} \exp\big({}-\tg^2 (\pi x/2)\big), & |x|<1,\\ 0, & |x|\ge 1. \end{cases}   \]

Sprawdzenie, że $ \varphi_1 $ istotnie spełnia podane warunki, pozostawiamy jako ćwiczenie dla Czytelnika.

Krok 2. Funkcja

\[ \varphi_2(x)=\int_{-\infty}^x\varphi_1(t)\, dt \]

jest dobrze określona (całkujemy tylko po przedziale skończonym), nieujemna i gładka. Mamy $ \varphi_2\equiv 0 $ na $ (-\infty,-1] $ i $ \varphi_2(x) \equiv c:=\int_{-1}^1\varphi_1 $ dla $ x\ge 1 $. Na przedziale $ [-1,1] $ funkcja $ \varphi_2 $ jest rosnąca.

Teraz wykorzystamy przesuwanie, skalowanie i mnożenie funkcji gładkich.

Krok 3. Ustalmy $ R>r>0 $. Dobierzmy $ a>0 $ tak, żeby $ \frac{a+2}a=\frac Rr $. Funkcja

\[ \varphi_3(x)=\frac{1}{c^2}\varphi_2(1+a+x)\varphi_2(1+a-x), \qquad x\in \R, \]

jest gładka, znika poza przedziałem $ [-a-2,a+2] $ i jest równa 1 na przedziale $ [-a,a] $ (patrz załączony rysunek). Funkcja

\[ \varphi_4(x)=\varphi_3\Big(\frac{(a+2)x}{R}\Big)  \]

też jest gładka. Wobec doboru $ a $, $ \varphi_4\equiv 1 $ na $ [-r,r] $ i $ \varphi_4\equiv 0 $ poza przedziałem $ [-R,R] $.

Krok 4. Funkcja $ f_1(\xx)=\varphi_4(\|\xx\|) $ spełnia warunki twierdzenia dla $ \aa=0 $. (Zauważmy, że dla $ \|\xx\|<r $ funkcja $ f $ ma stałą wartość 1, więc jej pochodne cząstkowe znikają wpunktach kuli otwartej $ B(0,r) $. Norma $ \|x\|=(x_1^2+\cdots+x_n^2)^{1/2} $ jest funkcją gładką na zbiorze $ \{\xx\colon \|\xx\|>r/2\} $, i dlatego $ f $ jest gładka na całej przestrzeni $ \R^n $.) Przesuwając $ f_1 $, tzn. biorąc $ f(\xx)=f_1(\xx-\aa) $, kończymy dowód w ogólnym przypadku. □

Uwaga Zbiór wszystkich funkcji gładkich o zwartym nośniku w $ \R^n $ oznacza się symbolem $ C^\infty_0(\R^n) $.

Samodzielne rozwiązanie poniższych zadań pozwoli Czytelnikowi lepiej oswoić się z pojęciem funkcji gładkiej.

Zadanie Niech $ K\subset \Omega\subset \R^n $. Załóżmy, że zbiór $ K $ jest zwarty, a zbiór $ \Omega $ jest otwarty. Wykazać, że istnieje funkcja $ f\in C_0^\infty (\R^n) $ taka, że $ f\equiv 1 $ na $ K $ i $ \text{supp}\, f\subset \Omega $.
Zadanie Niech $ F $ będzie dowolnym zbiorem domkniętym w $ \R^n $. Istnieje wówczas funkcja $ f\in C^\infty (\R^n) $ taka, że $ f\ge 0 $ i $ F=\{\xx\in \R^n\colon f(\xx)=0\} $.