Pochodne cząstkowe wyższych rzędów i wzór Taylora

Zajmiemy się teraz określeniem pochodnych cząstkowych rzędu wyższego niż pierwszy, różniczek wyższych rzędów, oraz uogólnieniem wzoru Taylora na funkcje wielu zmiennych. Podobnie jak w przypadku funkcji jednej zmiennej, wzór Taylora pozwala znajdować najlepsze przybliżenia wielomianowe funkcji, a także prowadzi do warunków dostatecznych, gwarantujących, że w punkcie krytycznym funkcja ma ekstremum lokalne.

Jak można się spodziewać, pochodne cząstkowe wyższych rzędów definiuje się indukcyjnie.

Definicja [pochodne cząstkowe drugiego rzędu] Załóżmy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $ ma na $ \Omega $ pochodną cząstkową $ \pcz f{x_i}\colon \Omega\to\R^m $. Jeśli funkcja $ D_i f=\pcz f{x_i} $ ma w punkcie $ \aa\in \Omega $ pochodną cząstkową względem $ x_j $, to przyjmujemy

\[ 	\frac{\partial^2 f}{\partial x_j\partial x_i}(\aa)= \frac{\partial}{\partial x_j}\left[\pcz f{x_i}\right](\aa)\, . 	\]

Będziemy też używać innych oznaczeń:

\[ \pczdwa f{x_i}{x_j}(\aa)=D_jD_i f(\aa)=f_{x_ix_j}(\aa)\, . \]

     Uwaga. Posługując się oznaczeniami $ f_{x_ix_j} $, przestrzegamy naturalnej mnemotechnicznej konwencji: najpierw różniczkujemy względem tej zmiennej, która jest zapisana bliżej $ f $.

Pochodne cząstkowe wyższych rzędów definiuje się analogicznie, np.

\[ \frac{\partial^3 f}{\partial x_k\partial x_j\partial x_i}(\aa)=  \frac{\partial}{\partial x_k}\left[\pczdwa f{x_i}{x_j}\right](\aa)\, ; \]

stosując inne oznaczenia, napisalibyśmy $ D_kD_jD_i f(\aa)=D_k(D_jD_i f)(\aa) $ oraz

\[   \big(f_{x_ix_j}\big)_{x_k}(\aa)=f_{x_ix_jx_k}(\aa)\, . \]

Stosowanie wszelkich oznaczeń tego typu dla pochodnych cząstkowych rzędu wyższego niż drugi jest w praktyce dość niewygodne. Dlatego później poznamy jeszcze inną, wygodną i bardzo skrótową konwencję notacyjną. Najpierw jednak omówimy najważniejsze własności pochodnych cząstkowych drugiego rzędu.

Przykład Peano i twierdzenie Schwarza o równości pochodnych mieszanych

Bardzo naturalne jest pytanie: czy, wprowadzając oznaczenia pochodnych cząstkowych drugiego rzędu, trzeba rzeczywiście koniecznie odróżniać $ f_{x_ix_j} $ od $ f_{x_jx_i} $? Czytelnik, oswojony już nieco z przykładami patologicznego zachowania funkcji wielu zmiennych, może spodziewać się, że odpowiedź jest twierdząca.

Przykład [G. Peano, 1884] Niech

\[ 	f(x,y)=\begin{cases} xy\dfrac{x^2-y^2}{x^2+y^2}\, , & (x,y)\not=(0,0),\\[8pt] 	0,          & (x,y)=(0,0). \end{cases} 	\]

W punktach $ \R^2\setminus\{(0,0)\} $ funkcja $ f $ jest różniczkowalna. Ponadto,

$$|f(x,y)|\le |xy|\le \frac 12 (x^2+y^2);$$

korzystając z tej nierówności, sprawdza się łatwo (wprost z definicji różniczki), że $ Df(0,0)=(0,0)\in L(\R^2,\R) $. Obliczymy teraz pochodne mieszane $ f_{xy}(0,0) $ i $ f_{yx}(0,0) $.

Mamy

\[ f_{xy}(0,0)= \bigl(f_x\bigr)_y(0,0)=\lim_{y\to 0}\frac{f_x(0,y)-f_x(0,0)}y =  \lim_{y\to 0}\frac{f_x(0,y)}y,  \]

gdyż $ f_y(0,0)=0 $ (pamiętajmy: różniczka $ f $ znika w zerze). Wartość $ f_x(0,y) $ obliczamy, posługując się definicją $ f $; aby nie wykonywać długich rachunków, zauważmy, że $ f(x)=x^2 $ ma w zerze pochodną $ 0 $ i dlatego

\[ f_x(0,y)=y \cdot  \left(\dfrac{x^2-y^2}{x^2+y^2}\right)_{|x=0}=-y\, . \]

Zatem $ f_{xy}(0,0)=-1 $. Zamieniając $ x,y $ rolami, otrzymujemy w ten sam sposób $ f_{y}(x,0)=x $ i$ f_{yx}(0,0)=1 $. Jest więc $ f_{xy}(0,0)\not=f_{yx}(0,0) $.

Podobny (bardziej skomplikowany) przykład podał H.A. Schwarz nieco wcześniej. Okazuje się jednak, że takie zachowanie jest wykluczone wówczas, gdy pochodne mieszane są ciągłe.

Twierdzenie [Schwarza o równości pochodnych mieszanych] Ustalmy $ i,j\in {1,\ldots, n} $. Jeśli funkcja $ f\colon \R^n\supset \Omega\to \R^m $ jest klasy $ C^1 $ i ma na $ \Omega $ ciągłą pochodną $ f_{x_ix_j} $, to pochodna $ f_{x_jx_i} $ istnieje we wszystkich punktach $ \Omega $ i $ f_{x_jx_i}=f_{x_ix_j} $. (#)

Dowód poprzedzimy kilkoma lematami.

Lemat Niech $ Q=[a,b]\times[c,d]\subset \R^2 $. Jeśli funkcja $ f\colon Q\to\R^m $ zmiennych $ (x,y)\in Q $ jest ciągła i ma ciągłą pochodną cząstkową $ f_y\colon Q\to \R^m $, to

\[ 	\Phi(y)=\int_a^b f(x,y)\, dx, \qquad y\in [c,d], 	\]

jest funkcją różniczkowalną i zachodzi wzór

\[ \begin{equation} 	\label{pochcalki} 	\Phi'(y)= \int_a^b f_y(x,y)\, dx\, . \end{equation} \]
Dowód: Z definicji całki oznaczonej,

\[ f(x,y+h)-f(x,y)=\int_0^1\frac{d}{ds}f(x,y+sh)\, ds = h\int_0^1f_y(x,y+sh)\, ds\, . \]

Dlatego iloraz różnicowy funkcji $ \Phi $ jest równy

\[ \begin{eqnarray*} \Delta_h\Phi(y) &\stackrel{\text{ozn.}}=& \frac{\Phi(y+h)-\Phi(y)}h\\ &=& \frac 1h \int_a^b \Bigl(f(x,y+h)-f(x,y)\Bigr)\, dx  =  \int_a^b \biggl(\int_0^1f_y(x,y+sh)\, ds\biggr)\, dx\, . \end{eqnarray*} \]

Oznaczmy literą $ I $ całkę po prawej stronie wzoru pochcalki. Ponieważ $ f_y(x,y)=\int_0^1 f_y(x,y)\, ds $, więc

\[ \begin{eqnarray} \norm{\Delta_h\Phi(y)-I}& = &\norm{\int_a^b \biggl(\int_0^1f_y(x,y+sh)\, ds\biggr)\, dx-   \int_a^b\biggl(\int_0^1 f_y(x,y)\, ds\biggr)\, dx}\nonumber\\ & = & \norm{\int_a^b \biggl(\int_0^1\big(f_y(x,y+sh)-f_y(x,y)\big)\, ds\biggr)\, dx}\nonumber\\ & \le &  \int_a^b \biggl(\int_0^1\norm{f_y(x,y+sh)-f_y(x,y)}\, ds\biggr)\, dx\, .  \label{lempomost} \end{eqnarray} \]

Funkcja $ f_y $ jest ciągła na zbiorze zwartym $ Q=[a,b]\times[c,d] $, a więc jest jednostajnie ciągła na $ Q $. Ustalmy $ \eps>0 $ i dobierzmy $ \delta>0 $ tak, aby $ \norm{f_y(\pp_1)-f_y(\pp_2)}<\eps/(b-a) $ dla $ \norm{\pp_1-\pp_2}<\delta $. Wówczas, dla $ |h|<\delta $, funkcja podcałkowa w lempomost jest w każdym punkcie mniejsza od $ \eps/(b-a) $ i otrzymujemy

\[ \norm{\Delta_h\Phi(y)-I}< \int_a^b \biggl(\int_0^1\frac{\eps}{b-a} ds\biggr)\, dx =    (b-a)\cdot\frac{\eps}{b-a} =\eps\, . \]

Wprost z definicji granicy, $ \Delta_h\Phi(y)\to I $ dla $ h\to 0 $, tzn. istotnie zachodzi wzór pochcalki. □

Uwaga Oczywiście, wzór analogiczny do pochcalki zachodzi także wtedy, gdy zmienne zamienimy rolami.
Lemat Niech $ \Omega\subset \R^2 $ będzie zbiorem otwartym i niech $ Q=[a,b]\times[c,d]\subset\Omega $. Jeśli $ f\in C^1(\Omega,\R^m) $ ma pochodną cząstkową $ f_{yx} $ ciągłą na $ Q $, to wówczas $ f_{xy} $ istnieje w punktach prostokąta $ Q $ i $ f_{xy}(x,y)=f_{yx}(x,y) $ dla $ (x,y)\in Q $. (#)
Dowód: Załóżmy najpierw, że $ m=1 $. Niech $ (x,y), (x,y_0)\in Q $. Napiszmy

\[ f(x,y)=f(x,y_0) +\int_{y_0}^y f_y(x,z)\, dz =  f(x,y_0) +\int_{y_0}^y g(x,z)\, dz\, , \]

gdzie funkcja $ g=f_y $ jest ciągła na $ \Omega $ i ma pochodną $ g_x=f_{yx} $ ciągłą na $ Q $. Różniczkując powyższy wzór względem $ x $ i stosując poprzedni lemat do $ g $, otrzymujemy

\[ f_x(x,y)=f_x(x,y_0)+\int_{y_0}^y g_x(x,z)\, dz=  f_x(x,y_0)+\int_{y_0}^y f_{yx}(x,z)\, dz\, . \]

Zatem

\[ \frac{f_x(x,y)-f_x(x,y_0)}{y-y_0}=\frac{1}{y-y_0}\int_{y_0}^y f_{yx}(x,z)\, dz\, . \]

Dla $ y\to y_0 $ lewa strona dąży do $ f_{xy}(x,y_0) $, prawa zaś do wartości funkcji podcałkowej wpunkcie$ y_0 $, tzn. do $ f_{yx}(x,y_0) $ (tu ponownie korzystamy z ciągłości $ f_{yx} $ i z twierdzenia owartości średniej dla całki). Dowód jest zakończony w przypadku $ m=1 $.

Gdy $ m>1 $, to z pierwszej części dowodu wynika, że wszystkie współrzędne pochodnej $ f_{xy} $ są dobrze określone i równe odpowiednim współrzędnym $ f_{yx} $. □

         Dowód Twierdzenia [link] Dla zbiorów $ \Omega\subset \R^2 $ twierdzenie wynika natychmiast z ostatniego lematu. Jeśli $ n>2 $, to zauważmy, że aby określić pochodne $ f_{x_ix_j} $ oraz $ f_{x_jx_i} $ w punkcie $ \aa\in \Omega\subset\R^n $, wystarczy znać wartości $ f $ jedynie na dwuwymiarowej płaszczyźnie afinicznej $ \aa+\mathrm{span}(\ee_i,\ee_j) $. Stosując Lemat [link] na przecięciach zbioru $ \Omega $ z takimi płaszczyznami, łatwo otrzymujemy tezę. □

Druga różniczka

Zacznijmy od objaśnienia, jakim obiektem matematycznym miałaby być druga różniczka $ D^2f $ funkcji wielu zmiennych. Przypuśćmy, że $ f\colon \R^n\supset\Omega\to\R^m $ jest różniczkowalna na $ \Omega $. Dla ustalonego $ \xx\in \Omega $ jej różniczka $ Df(\xx) $ jest elementem przestrzeni $ L(\R^n,\R^m) $, którą, ustaliwszy bazy w $ \R^n $ i$ \R^m $, można utożsamiać z $ M_{m\times n} $ lub $ \R^{mn} $. Inaczej mówiąc,

\[ Df\colon \R^n\supset \Omega\ni \xx\longmapsto Df(\xx)\in L(R^n,\R^m)\simeq \R^{mn}\, . \]

Naturalnie byłoby określić drugą różniczkę $ D^2 f $ jako $ D^2f=D(Df) $ (wszędzie tam, gdzie $ Df $ sama jest funkcją różniczkowalną). Zgodnie z definicją różniczki, powinno wtedy być

\[ D^2f=D(Df)\colon \R^n\supset\Omega\ni \xx\longmapsto D^2f(\xx)\ni L(\R^n,L(\R^n,\R^m)). \]

tzn. $ D^2f(\xx)=D(Df)(\xx) $ powinna być, dla ustalonego $ \xx $, przekształceniem liniowym z $ \R^n $ w przestrzeń, do której należą wartości różniczkowanej funkcji $ Df $, tzn. $ L(\R^n,\R^m) $. Brzmi to zawile i widać od razu, że definiowanie różniczek wyższych rzędów prowadziłoby do coraz dłuższych napisów (i coraz bardziej skomplikowanych przestrzeni liniowych). Dlatego korzysta się z naturalnego izomorfizmu

\[ L(\R^n,L(\R^n,\R^m)) \equiv L(\R^n,\R^n; \R^m) \]

między przestrzenią $ L(\R^n,L(\R^n,\R^m)) $ i przestrzenią $ L(\R^n,\R^n;\R^m) $ przekształceń dwuliniowych $ \R^n\times \R^n\to \R^m $. Jest to izomozfizm kanoniczny, tzn. zdefinowany bez odwoływania się do układu współrzędnych, za pomocą wzoru

\[ \begin{equation} 	\label{izoL2L-1}    	L(\R^n,L(\R^n,\R^m))\ni F\longmapsto B_F \in L(\R^n,\R^n;\R^m)  \end{equation} \]

gdzie

\[ \begin{equation} 	\label{izoL2L-2}    	B_F(\uu,\vv)=F(\uu)\vv \qquad\mbox{dla $\uu,\vv\in\R^n$.}  \end{equation} \]

Sprawdzenie, że to rzeczywiście izomorfizm, jest łatwym ćwiczeniem.

Definicja Przypuśćmy, że różniczka $ Df\colon \Omega\to L(\R^n,\R^m) $ funkcji $ f\colon \R^n\supset\Omega\to\R^m $ jest określona w każdym punkcie zbioru otwartego $ \Omega\subset\R^n $. Jeśli funkcja

\[ 	g=Df\colon \Omega\to L(\R^n,\R^m)\simeq M_{m\times n} 	\]

jest różniczkowalna w punkcie $ \aa\in \Omega $, to przekształcenie dwuliniowe

\[ D^2f(\aa)=D(Df)(\aa)=Dg(\aa)\in L(\R^n,L(\R^n,\R^m))  \equiv    L(\R^n,\R^n;\R^m) \]

nazywamy drugą różniczką funkcji $ f $ w punkcie $ \aa $.

Uwaga Dla $ m=1 $ różniczka $ Df(\xx)\in L(\R^n,\R)=(\R^n)^\ast\simeq \R^n $ ma jako współrzędne pochodne cząstkowe $ f_{x_i}(\xx) $. Dlatego przekształcenie dwuliniowe $ D^2f(\xx) $ ma, w standardowej bazie $ \R^n $, macierz, której wyrazami są pochodne cząstkowe drugiego rzędu funkcji $ f $; ponadto,

\[ 	D^2f(\xx)(\vv,\ww)=\vv^T D^2f(\xx)\ww\, , 	\]

gdzie lewą stronę interpretujemy jako wartość przekształcenia dwuliniowego dla pary wektorów $ \vv,\ww $, prawą zaś jako wynik mnożenia trzech macierzy, o rozmiarach (odpowiednio) $ 1\times n $, $ n\times n $ i $ n\times 1 $.

Z twierdzenia Schwarza o równości pochodnych mieszanych wynika natychmiast, że jeśli $ f\colon \Omega\to \R $ ma ciągłe pochodne cząstkowe do rzędu 2 włącznie, to $ Df\colon \Omega\to (\R^n)^\ast $ jest funkcją różniczkowalną i dla każdego $ \aa\in \Omega $ macierz przekształcenia dwuliniowego $ D^2f(\aa) $ jest macierzą symetryczną, gdyż $ f_{x_ix_j}=f_{x_jx_i} $. Okazuje się jednak, że tak jest również wtedy, gdy $ D^2 f(\aa) $ po prostu istnieje; nie trzeba zakładać ciągłości pochodnych mieszanych w pewnym otoczeniu punktu $ \aa $.

Twierdzenie [Schwarza o symetrii drugiej różniczki] Załóżmy, że różniczka $ Df\colon \Omega\to L(\R^n,\R^m) $ funkcji $ f\colon \R^n\supset\Omega\to\R^m $ jest określona w każdym punkcie zbioru otwartego $ \Omega $. Jeśli $ D^2f(\aa)\in L(\R^n,\R^n;\R^m) $ istnieje dla pewnego $ \aa\in \Omega $, to jest przekształceniem dwuliniowym symetrycznym, tzn.

\[ D^2f(\aa)(\vv,\ww)= D^2f(\aa)(\ww,\vv) \qquad\mbox{dla wszystkich $\vv,\ww\in \R^n$.} \]
Dowód: Ustalmy $ \vv,\ww\in \R^n $. Niech $ \max(\norm{\vv},\norm{\ww})=M $. Rozpatrzmy funkcję pomocniczą

\[ \phi(s,t)=f(\aa+t\ww+s\vv)-f(\aa+t\ww)-f(\aa+s\vv)+f(\aa)-ts\, D^2f(\aa)(\ww,\vv)\, , \]

określoną dla $ s,t $ w pewnym otoczeniu zera. Mamy $ \phi(0,t)=0 $; z twierdzenia o wartości średniej wynika, że \begin{multline} \|\phi(s,t)\|=\|\phi(s,t)-\phi(0,t)\|\le |s| \sup_{\sigma\in [0,s]}\norm{\phi_s(\sigma,t)} \\ = |s| \sup_{\sigma\in [0,s]}\norm{\Big(Df(\aa+t\ww+\sigma\vv)-Df(\aa+\sigma\vv) \Big)\cdot\vv - tD^2f(\aa)(\ww,\vv)}\, . (#) \end{multline} Ponieważ $ D^2f(\aa) $ istnieje, więc $ Df(\aa+\hh)=Df(\aa)+D^2f(\aa)\hh+\|h\| r(\hh) $, gdzie $ r(\hh)\to 0 $ dla $ \hh\to 0 $ (patrz Stwierdzenie [link]). Podstawiając w tej równości wektory $ \hh_1=t\ww+\sigma\vv $ i $ \hh_2=\sigma\vv $, otrzymujemy

\[ \begin{eqnarray*} Df(\aa+t\ww+\sigma\vv)&=&Df(\aa)+D^2f(\aa)\cdot (t\ww+\sigma\vv) +\|\hh_1\|r(\hh_1), \\ Df(\aa+\sigma\vv)&=&Df(\aa)+D^2f(\aa)\cdot \sigma\vv +\|\hh_2\|r(\hh_2)\, . \end{eqnarray*} \]

Odejmując oba wzory stronami i pamiętając o izomorfizmie przestrzeni $ L(\R^n,\R^n;\R^m) $ oraz $ L(\R^n,L(\R^n,\R^m)) $, sprawdzamy, że \begin{multline} \Big(Df(\aa+t\ww+\sigma\vv)-Df(\aa+\sigma\vv) \Big)\cdot\vv - tD^2f(\aa)(\ww,\vv) \\= \big(\|\hh_1\|r(\hh_1)-\|\hh_2\|r(\hh_2)\big) \cdot \vv\, . (#) \end{multline} Niech odtąd $ s=t $. Wtedy $ |\sigma|\le |s|=|t| $, co daje oszacowania $ \|h_i\|\le 2M|t| $ dla $ i=1,2 $ oraz

\[ \begin{equation} 	\label{resztaD2}  	\|r(\hh_i)\|\le \sup_{\norm{\mhh}\le 2Mt} \|r(\hh) \| = o(1)\, , \qquad t\to 0\, .   \end{equation} \]

Korzystając ze wzorów D22- resztaD2, przepisujemy dla $ s=t $ nierówność D21 w postaci

\[ \phi(t,t)\le |t| \cdot \big(2Mt \cdot 2 \sup_{\norm{\mhh}\le 2Mt} \|r(\hh) \|\big)\cdot \|v\|= t^2 o(1), \qquad t\to 0\, . \]

Innymi słowy, $ \phi(t,t)/t^2\to 0 $ dla $ t\to 0 $, lub równoważnie

\[ \begin{equation} 	\label{symetriaD2}    	D^2f(\ww,\vv)=\lim_{t\to 0}\frac{f(\aa+t\ww+t\vv)-f(\aa+t\ww)-f(\aa+t\vv)+f(\aa)}{t^2}\, .  \end{equation} \]

Prawa strona wzoru symetriaD2 nie zmienia się, gdy zamienimy wektory $ \ww,\vv $ rolami. Dlatego lewa strona też musi być symetryczną funkcją $ \ww $ i $ \vv $, tzn. $ D^2f(\ww,\vv)=D^2f(\vv,\ww) $. □

Przykład

    {\alph{enumi})}

  1. Jeśli $ f(\xx)=A\xx $, gdzie $ A\in L(\R^n,\R^m) $ jest ustalonym przekształceniem liniowym, to $ Df(\xx)=A $ jest przekształceniem stałym i dlatego $ D^2f(\xx) = \zero\in L(\R^n,\R^n;\R^m) $.
  2. Jeśli
    \[ 	f(\xx)=\langle A\xx,\xx\rangle \qquad\mbox{dla $\xx\in \R^n$,} 	\]

    gdzie $ A $ jest macierzą $ n\times n $, to ze wzoru na pochodną `iloczynu' otrzymujemy

    \[ Df(\xx)\hh =\langle A\hh, \xx\rangle + \langle A\xx, \hh \rangle =\langle A^T\xx, \hh\rangle + \langle A\xx, \hh\rangle = \big\langle (A+A^T)\xx,\hh\big\rangle\, , \]

    co oznacza, że $ Df(\xx)=(A+A^T)\xx $ dla wszystkich $ \xx\in \R^n $. (Pisząc wzór $ Df(\xx)=(A+A^T)\xx $, utożsamiamy funkcjonał liniowy $ Df(\xx) $ z wektorem $ (A+A^T)\xx $.) Zatem, $ Df $ zależy od $ \xx $ liniowo i mamy $ D^2f(\xx)=A+A^T $. Jeśli $ A=A^T $, tzn. macierz $ A $ jest symetryczna, to $ D^2f(\xx)=2A $.

Różniczki wyższych rzędów

Różniczki wyższych rzędów definiuje się indukcyjnie, wzorem

\[ D^k(f)(\aa)= D(D^{k-1}f)(\aa), \qquad \aa\in \Omega, \quad f\colon \Omega\to \R^m\, . \]

Aby definicja $ D^k(f)(\aa) $ miała sens, różniczka rzędu $ (k-1) $ powinna być funkcją określoną w otoczeniu punktu $ \aa $ i różniczkowalną w $ \aa $. Różniczka $ k $-tego rzędu, $ D^k(f)(\aa) $ jest przekształceniem $ k $-liniowym z $ \R^n\times\ldots\times\R^n $ w $ \R^m $, tzn.

\[ D^kf(\aa)\colon \underbrace{\R^n\times\ldots\times\R^n}_{k \text{ razy}}\ni (\vv_1,\ldots, \vv_k)\quad\longmapsto\quad D^kf(\aa)(\vv_1,\ldots,\vv_k)\in \R^m\, . \]

Wartość $ D^kf(\aa)(\vv_1,\ldots,\vv_k) $, która jest wektorem z $ \R^m $, zależy liniowo od każdego zwektorów $ \vv_i $ ($ i=1,\ldots, k $) z osobna. Taka interpretacja różniczki $ k $-tego rzędu jest rzeczą naturalną: jeśli

\[ D^{k-1}f\colon \Omega\ni \xx\longmapsto D^{k-1}f(\xx)\in L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\, , \]

gdzie

\[ L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m) \]

oznacza przestrzeń przekształceń $ (k-1) $-liniowych z $ \R^n\times\R^n $ w $ \R^m $, to zgodnie z definicją różniczki

\[ D^k f\colon \Omega\ni \xx \longmapsto D^kf(\xx)=D(D^{k-1} f)(\xx)\in L\big(\R^n, L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\big)\, . \]

Jednak przestrzenie

\[ V_1:=L\big(\R^n, L(\underbrace{\R^n,\ldots,\R^n}_{k-1 \text{ razy}},\R^m)\big) \qquad\mbox{oraz}\qquad V_2:=L(\underbrace{\R^n,\ldots,\R^n}_{k \text{ razy}},\R^m) \]

można utożsamić; ich naturalnym izomorfizem jest przekształcenie $ V_1\ni F\mapsto B_F\in V_2 $, gdzie $ F $ i $ B_F $ powiązane są zależnością

\[ F(\vv_1)(\vv_2,\ldots,\vv_k)=B_F(\vv_1,\vv_2,\ldots,\vv_k)\, . \]
Uwaga Jeśli $ D^kf(\aa) $ istnieje, to jest przekształceniem wieloliniowym symetrycznym, tzn.

\[ 	D^kf(\aa)(\vv_1,\ldots,\vv_k)  =D^kf(\aa)(\vv_{\sigma(1)},\ldots,\vv_{\sigma(k)})    	  \]

dla każdej permutacji $ \sigma\in S_k $ zbioru $ k $-elementowego. Mozna to udowodnić przez indukcję względem $ k $, posługując się twierdzeniem Schwarza o symetrii drugiej różniczki.

Uwaga Będziemy odtąd używać oznaczenia

\[ \begin{equation} 		Df(\aa)\hh^k = Df(\aa)(\underbrace{\hh,\ldots,\hh}_{k \text{ razy}}) \end{equation} \]

dla oznaczenia wartości $ k $-tej różniczki (która jest przekształceniem $ k $-liniowym) na układzie $ k $ identycznych wektorów.

Aby wszystkie rachunki w następnym podrozdziale Czytelnik mógł prześledzić ze zrozumieniem, wprowadzimy jeszcze jedną definicję.

Definicja [norma przekształcenia wieloliniowego] Normą przekształcenia $ k $-liniowego

\[ 	 B\in L(\underbrace{\R^n,\ldots,\R^n}_{k \text{ razy}},\R^m)  	\]

nazywamy najmniejszą stałą $ C=\|B\|\ge 0 $ taką, że

\[ \|B(\vv_1,\ldots,\vv_k)\|\le \|B\|\cdot \|\vv_1\|\cdot\ldots\cdot \|\vv_k\|        \qquad\mbox{dla wszystkich $\vv_1, \ldots, \vv_k\in \R^n$.} \]

Zapisywanie różniczek wyższych rzędów we współrzędnych jest zajęciem niewdzięcznym i nie będziemy tego robić. Wygodną metodę oznaczania pochodnych cząstkowych wyższych rzędów podamy w następnym podrozdziale.

Wzór Taylora. Funkcje klasy $ C^k $ i notacja wielowskaźnikowa.

Okazuje się, że przy odpowiedniej notacji, wprowadzonej wyżej, wzór Taylora w najprostszej wersji, z resztą w postaci Peano, wygląda zupełnie tak samo, jak dla funkcji jednej zmiennej.

Twierdzenie [wzór Taylora z resztą w postaci Peano] Załóżmy, że funkcja $ f\colon \R^n\supset\Omega\to\R^m $ jest $ (k-1) $-krotnie różniczkowalna na $ \Omega $, kula $ B(\aa,r)\subset \Omega $ dla pewnego $ r>0 $ i $ D^kf(\aa) $ istnieje. Wówczas, dla $ \|\hh\|<r $,

\[ \begin{equation} 		\label{Taylor-Peano-k}  		f(\aa+\hh)=f(\aa)+Df(\aa)\hh +\frac 1{2!} D^2f(\aa)\hh^2 + \cdots + \frac{1}{k!} D^kf(\aa)\hh^k  + R(\hh), \end{equation} \]

gdzie $ R(\hh)/\|\hh\|^k\to \zero $ dla $ \hh\to \zero $.

Dowód: Oszacujemy resztę

\[ R(\hh)= f(\aa+\hh)-\Big(f(\aa)+Df(\aa)\hh +\frac 1{2!} D^2f(\aa)\hh^2 + \cdots + \frac{1}{k!} D^kf(\aa)\hh^k \Big)\, , \]

stosując $ k-1 $ razy twierdzenie o wartości średniej. Zauważmy, że $ R(\zero)=\zero $, a ponadto

\[ \begin{eqnarray*} DR(\hh) & = & Df(\aa+\hh) - Df(\aa)-\frac 1{1!} D^2f(\aa)\hh  -\cdots-\frac 1{(k-1)!}D^{k}f(\aa)\hh^{k-1}\, ,\\   D^2R(\hh) & = & D^2f(\aa+\hh) - D^2f(\aa)- \cdots-\frac 1{(k-2)!}D^{k}f(\aa)\hh^{k-2}\,	, \\  & \vdots &      \\  [8pt] D^{k-1}R(\hh)   & = & D^{k-1}f(\aa+\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\hh\,     . \end{eqnarray*} \]

Mamy więc $ DR(\zero)=\zero $, \ldots, $ D^{k-1}R(\zero)=\zero $. Korzystając z Twierdzenia [link], otrzymujemy nierówności

\[ \begin{eqnarray} \|R(\hh)\| & = & \|R(\hh)-R(\zero)\|\le \|\hh\|\cdot \sup_{\theta\in [0,1]} \|DR(\theta\hh)\| \nonumber\\  & \le & \|\hh\|^2  \sup_{\theta\in [0,1]} \|D^2R(\theta\hh)\| \nonumber\\ & \vdots &\nonumber \\ [8pt] & \le  &  \|\hh\|^{k-1}  \sup_{\theta\in [0,1]} \|D^{k-1}R(\theta\hh)\|\, .    \label{TayDk-1} \end{eqnarray} \]

Normę $ \|D^{k-1}R(\theta\hh)\| $ trzeba oszacować inaczej, gdyż $ D^kf $ istnieje tylko w punkcie $ \aa $. Można jednak skorzystać po prostu z definicji różniczki; wobec wzoru na $ D^{k-1}R $ mamy

\[ \begin{multline*} \sup_{\theta\in [0,1]} \|D^{k-1}R(\theta\hh)\|=\sup_{\theta\in [0,1]} \biggl(|\theta|\cdot \|\hh\| \frac{\norm{D^{k-1}f(\aa+\theta\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\theta\hh}}{\norm{\theta\hh}} \biggr)\\ \le \|\hh\| \sup_{\theta\in [0,1]}  \frac{\norm{D^{k-1}f(\aa+\theta\hh) - D^{k-1}f(\aa)-D^{k}f(\aa)\theta\hh}}{\norm{\theta\hh}} = \|\hh\| \cdot o(1) \quad \mbox{dla $\hh\to \zero$.} \end{multline*} \]

Łącząc tę nierówność z TayDk-1, otrzymujemy $ \|R(\hh)\|=\|\hh\|^k o(1) $ dla $ \hh\to \zero $. □

W praktyce wygodnie jest znać także inne postacie wzoru Taylora. Jedną z nich, używającą tzw. notacji wielowskaźnikowej, podajemy niżej.

\subsubsection*{Notacja wielowskaźnikowa. Funkcje klasy $ C^k $.}

Definicja Wielowskaźnik $ \alpha=(\alpha_1,\ldots,\alpha_n) $ to wektor o współrzędnych $ \alpha_i $ całkowitych nieujemnych, lub równoważnie element zbioru $ \big(\N\cup\{0\}\big)^n $. Dla wielowskaźników $ \alpha,\beta $ i każdego punktu $ \xx=(x_1,\ldots,x_n)\in\R^n $ piszemy: \begin{gather} \alpha!=\alpha_1!\cdot\ldots\cdot\alpha_n!, \qquad |\alpha|=\alpha_1+\cdots +\alpha_n, \\ \xx^\alpha=x_1^{\alpha_1}x_2^{\alpha_2}\cdot\ldots\cdot x_n^{\alpha_n},\\ \beta\le \alpha    \Leftrightarrow     \beta_i\le \alpha_i    \mbox{dla wszystkich $ i=1,\ldots,n $,}\\ \binom{\alpha}{\beta}=\frac{\alpha!}{\beta!}{(\alpha-\beta)!} \qquad\mbox{dla $ \beta\le \alpha $,} \end{gather} gdzie $ \alpha-\beta=(\alpha_1-\beta_1,\ldots,\alpha_n-\beta_n) $.

Za pomocą wielowskaźników wygodnie jest oznaczać pochodne cząstkowe wyższych rzędów w takich sytuacjach, gdy kolejność wykonywania poszczególnych różniczkowań nie ma znaczenia.

Definicja Niech $ \Omega $ będzie zbiorem otwartym w $ \R^n $. Mówimy, że $ f\in C^k(\Omega,\R^m) $ wtedy i tylko wtedy, gdy $ f $ ma wszystkie pochodne cząstkowe rzędu $ k $ ciągłe na zbiorze $ \Omega $.
Uwaga Podobnie jak w przypadku funkcji klasy $ C^1 $, powyższa definicja jest równoważna temu, że $ f $ jest ciągła na $ \Omega $ i wszystkie przekształcenia $ j $-liniowe

\[ 	D^jf \colon \Omega\ni \xx\quad\longmapsto\quad D^jf(\xx)\in L(\underbrace{\R^n,\ldots,\R^n}_{j \text{ razy}},\R^m) \qquad (j=1,2,\ldots, k) 	\]

są dobrze określone i ciągłe na zbiorze $ \Omega $. Można to udowodnić, posługując się Twierdzeniem [link]. Jest to dość łatwe: rozumowanie wymaga tylko znajomości pojęć i nie są potrzebne żadne rachunki.

    Umowa. Dla funkcji $ f\in C^k(\Omega,\R^m) $ symbol

\[ \begin{equation} 	D^\alpha f(\xx) \stackrel{\text{ozn.}}= (D_1)^{\alpha_1}(D_2)^{\alpha_2}\ldots (D_n)^{\alpha_n} f(\xx)\, , \qquad\xx\in \Omega, \end{equation} \]

oznacza pochodną cząstkową tej funkcji, rzędu $ |\alpha|=\alpha_1+\cdots+\alpha_n $, przy czym różniczkowanie względem zmiennej $ x_i $ wykonujemy $ \alpha_i $-krotnie ($ i=1,2,\ldots,n $). Z twierdzenia Schwarza o równości pochodnych mieszanych wynika, że dla funkcji klasy $ C^k $ kolejność wykonywania różniczkowań nie odgrywa roli; można więc w ten sposób oznaczać wszystkie pochodne cząstkowe takiej funkcji, bez obawy, że nie wiadomo, o jaką pochodną chodzi. Przyjmujemy także

\[ D^{(0,0,\ldots,0)}f\equiv f\, . \]
Twierdzenie [wzór Taylora z resztą całkową] Załóżmy, że $ \Omega\subset\R^n $ jest zbiorem otwartym i $ f\in C^k(\Omega,\R^m) $. Jeśli kula $ B(\aa,\delta)\subset \Omega $ dla pewnego $ \delta>0 $, to wówczas

\[ \begin{equation} 	\label{Tay-calk} 	f(\aa+\hh)=\sum_{|\alpha|\le k} \frac 1{\alpha!} D^\alpha f(\aa)\hh^\alpha + R_k(\aa,\hh)\, , \end{equation} \]

dla $ \|\hh\|<\delta $, gdzie reszta

\[ \begin{equation} 	\label{resztacalk} 	R_k(\xx,\hh)=k\int_0^1(1-t)^{k-1}\sum_{|\alpha|=k}\frac{1}{\alpha!}\Big(D^\alpha f(\aa+t\hh)-D^\alpha f(\aa)\Big)\hh^\alpha\, dt\, . \end{equation} \]

    Uwaga. We wzorze Tay-calk sumowanie po prawej stronie odbywa się względem wszystkich wielowskaźników długości $ |\alpha|\le k $.

Dowód: Skorzystamy ze wzoru Taylora z resztą całkową dla funkcji jednej zmiennej rzeczywistej (patrz Skrypt z Analizy MatematycznejI). Ustalmy $ \aa\in \Omega $ i $ \hh=(h_1,\ldots,h_n) $, $ \norm{\hh}<\delta $. Niech $ g(t)=f(\aa+t\hh) $ dla $ t\in [0,1] $. Funkcja $ g $ jest klasy $ C^k $ na pewnym odcinku otwartym $ I\supset [0,1] $. Dlatego

\[ \begin{eqnarray} 	g(1) &=&\sum_{j=0}^{k-1}\frac{g^{(j)}(0)}{j!} +  \int_0^1\frac{(1-t)^{k-1}}{(k-1)!} g^{(k)}(t)\, dt\nonumber\\  &=&\sum_{j=0}^{k}\frac{g^{(j)}(0)}{j!} +  \int_0^1\frac{(1-t)^{k-1}}{(k-1)!} \big(g^{(k)}(t)-g^{(k)}(0)\big)\, dt\, . \label{Taylor-g} \end{eqnarray} \]

Aby zakończyć pracę, wyrazimy pochodne funkcji $ g $ przez pochodne cząstkowe funkcji $ f $. Posługując się wzorem na pochodną złożenia, dowodzimy przez indukcję, że

\[ g'(t)  =  \sum_{i=1}^n D_if(\aa+t\hh)h_i\, , \qquad g''(t)  =  \sum_{i_1,i_2=1}^n D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}   \]

itd.; ogólnie,

\[ \begin{equation} 	g^{(s)}(t)=\sum_{i_1,i_2,\ldots,i_s=1}^n D_{i_s}\ldots D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}\cdot\ldots\cdot h_{i_s}, \qquad s=1,\ldots, k. \label{gs-dluga}    \end{equation} \]

Ostatnią sumę zapiszemy, używając notacji wielowskaźnikowej. Ustalmy wielowskaźnik $ \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_n) $ taki, że $ |\alpha|=s\in [1,k] $. Liczba takich ciągów $ (i_1,i_2,\ldots,i_s) $ o wyrazach ze zbioru $ \{1,2,\ldots, n\} $, w których $ 1 $, $ 2 $, \ldots, $ n $ wystepują (odpowiednio) $ \alpha_1 $-krotnie, $ \alpha_2 $-krotnie, \ldots, $ \alpha_n $ krotnie, wynosi, zgodnie ze znanym wzorem kombinatorycznym,

\[ \binom {s}{\alpha_1}\cdot \binom{s-\alpha_1}{\alpha_2} \cdot \ldots\cdot \binom {s-(\alpha_1+\cdots+\alpha_{n-1})}{\alpha_n}=\frac{s!}{\alpha_1! \cdot \alpha_2!\cdot\ldots\cdot \alpha_n!} = \frac{s!}{\alpha!}\, . \]

Dla każdego z tych ciągów mamy

\[ D_{i_s}\ldots D_{i_2}D_{i_1}f(\aa+t\hh)h_{i_1}h_{i_2}\cdot\ldots\cdot h_{i_s}=D^\alpha f(\aa+t\hh)\hh^\alpha\, ,  \]

a więc wzór gs-dluga można przepisać w postaci

\[ \begin{equation} \label{gs-krotka} \frac{g^{(s)}(t)}{s!}=\sum_{|\alpha|=s} \frac 1{\alpha!}D^\alpha f(\aa+t\hh)\hh^\alpha\, , \qquad s=1,2,\ldots,k. \end{equation} \]

Podstawiając gs-krotka do wzoru Taylor-g, otrzymujemy tezę twierdzenia. □

W szczególnym przypadku $ k=2 $, dla funkcji $ f\colon \R^n\supset\Omega\to\R $ różniczkowalnej dwukrotnie w sposób ciągły, można podobnie (stosując wzór Taylora z resztą Lagrange'a dla funkcji $ g(t)=f(\aa+t\hh) $ jednej zmiennej $ t $) uzyskać następujący fakt.

Wniosek (#) Jeśli $ \Omega\subset\R^n $, $ f\in C^2(\Omega,\R) $ i odcinek $ [\aa,\aa+\hh]\subset \Omega $, gdzie $ \hh=(h_1,\ldots,h_n) $, to istnieje wówczas punkt $ \theta\in (0,1) $ taki, że

\[ \begin{equation} 		f(\aa+\hh) =f(\aa) + \sum_{i=1}^n f_{x_i}(\aa)h_i + \frac 12 \sum_{i,j=1}^n f_{x_ix_j} (\aa+\theta\hh) h_ih_j\, .  	 \label{Taylor-2rzad} \end{equation} \]
Dowód: Ćwiczenie dla Czytelnika.

Zadanie Wykazać, że dla każdego $ \xx=(x_1,\ldots,x_n)\in \R^n $ i dla każdego $ k\in \N $ jest

\[ 	(x_1+x_2+\cdots+x_n)^k=\sum_{|\alpha|=k}\frac{k!}{\alpha!}\xx^\alpha\, . 	\]

Wskazówka. Oznaczyć lewą stronę $ f(\xx) $ i zastosować wzór Taylora.

Ekstrema lokalne.

Wiemy już, że warunkiem koniecznym, by funkcja różniczkowalna $ f\colon \Omega\to\R $ miała ekstremum w punkcie $ \aa\in \Omega $, jest znikanie jej gradientu w tym punkcie. Zajmiemy się teraz sformułowaniem warunków dostatecznych istnienia ekstremum lokalnego funkcji klasy $ C^2 $. Wyrazimy je za pomocą własności drugiej różniczki.

Definicja Niech $ f\in C^2(\Omega,\R) $. Macierz

\[ 	H_f(\aa)=D^2f(\aa)=\big(f_{x_ix_j}(\aa)\big)_{i,j=1,2,\ldots,n}\in M_{n\times n} 	\]

nazywamy hesjanem funkcji $ f $ w punkcie $ \aa\in \Omega $.

Z twierdzenia Schwarza o równości pochodnych mieszanych wynika natychmiast, że $ H_f(\aa) $ jest macierzą symetryczną. Jak wiadomo z wykładów Algebry Liniowej, wszystkie wartości własne macierzy symetrycznej $ A $ są rzeczywiste, a w $ \R^n $ istnieje baza ortonormalna, złożona z wektorów własnych $ A $.

Przypomnijmy, że macierz symetryczna $ A\in M_{n\times n} $ nazywa się dodatnia (ujemna) wtedy i tylko wtedy, gdy $ \langle A\vv,\vv\rangle>0 $ dla $ \vv\in \R^n\setminus\{\zero\} $ (odpowiednio $ \langle A\vv,\vv\rangle<0 $ dla $ \vv\in \R^n\setminus\{\zero\} $). Macierze nieujemne i niedodatnie definiuje się analogicznie, za pomocą nierówności nieostrych. Jeśli $ A $ jest dodatnia (ujemna, nieujemna, niedodatnia), to piszemy $ A>0 $ (odpowiednio: $ A<0 $, $ A\ge 0 $, $ A\le 0 $).

Stwierdzenie Załóżmy, że $ \aa\in\Omega $ jest punktem krytycznym funkcji $ f\in C^2(\Omega,\R) $. Jeśli $ f $ ma w $ \aa $ minimum (odpowiednio: maksimum) lokalne, to $ H_f(\aa)\ge 0 $ (odpowiednio: $ H_f(\aa)\le 0 $).
Dowód: Dla ustalenia uwagi załóżmy, że $ f $ ma w $ \aa $ minimum lokalne. W punkcie krytycznym $ f_{x_i}(\aa)=0 $ dla $ i=1,2,\ldots,n $. Dlatego ze wzoru Taylora Taylor-2rzad (patrz Wniosek [link]) otrzymujemy

\[ \frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle=\frac 12 \sum_{1\le i,j\le n} f_{x_ix_j}(\aa+\theta\hh)h_ih_j  =f(\aa+\hh)-f(\aa)\ge 0 \]

dla wszystkich $ \norm{\hh} $ dostatecznie małych. Ustalmy $ \vv\in \R^n\setminus\{\zero\} $ i podstawmy w tej nierówności $ \hh=t\vv $, gdzie $ t\in\R $ i $ |t|\ll 1 $. Dzieląc obie strony przez $ \frac 12 t^2>0 $, otrzymujemy

\[ \big\langle H_f(\aa+\theta t\vv)\vv,\vv\big\rangle\ge 0\, . \]

Przechodząc do granicy $ t\to 0 $ i korzystając z ciągłości drugich pochodnych cząstkowych $ f $ otrzymujemy $ \langle H_f(\aa)\vv,\vv\rangle\ge 0 $.

Jeśli $ f $ ma w $ \aa $ maksimum lokalne, to rozpatrujemy funkcję $ -f $, która ma w tym punkcie minimum lokalne. □

Przydatna w praktyce jest oczywiście implikacja odwrotna.

Twierdzenie [warunki dostateczne ekstremów lokalnych](#) Niech $ \Omega\subset \R^n $ będzie zbiorem otwartym. Przypuśćmy, że $ f\in C^2(\Omega,\R) $ ma w $ \aa\in\Omega $ punkt krytyczny, tzn. $ \grad f(\aa)=\zero $. Wówczas:

    {(\roman{enumi})}

  1. Jeśli $ H_f(\xx)\ge 0 $ w pewnym otoczeniu punktu $ \aa $, to $ f $ ma w $ \aa $ minimum lokalne.
  2. Jeśli $ H_f(\aa)> 0 $, to $ f $ ma w $ \aa $ minimum lokalne właściwe.
  3. Jeśli $ H_f(\xx)\le 0 $ w pewnym otoczeniu punktu $ \aa $, to $ f $ ma w $ \aa $ maksimum lokalne.
  4. Jeśli $ H_f(\aa)< 0 $, to $ f $ ma w $ \aa $ maksimum lokalne właściwe.
Dowód: Ponieważ $ f_{x_i}(\aa)=0 $ dla $ i=1,2,\ldots,n $, więc ze wzoru Taylora Taylor-2rzad otrzymujemy

\[ \frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle =f(\aa+\hh)-f(\aa)\, , \]

gdzie $ \theta=\theta(\hh)\in (0,1) $. Z tej równości natychmiast wynikaja podpunkty (i) oraz (iii) Twierdzenia [link].

Załóżmy teraz, że $ A:=H_f(\aa)>0 $. Funkcja $ \S^{n-1}\ni \vv\mapsto  \phi(\vv)= \langle A\vv,\vv\rangle $ jest wtedy dodatnia i ciągła na sferze jednostkowej $ \S^{n-1} $, która jest zbiorem zwartym. Wobec twierdzenia Weierstrassa o przyjmowaniu kresów, istnieją stałe $ \alpha,\beta>0 $ takie, że

\[ \beta\ge \phi(\vv)= \langle A \vv,\vv\rangle \ge \alpha >0 \qquad\mbox{dla wszystkich $\vv\in \S^{n-1}$.}  \]

Podstawiając w tej nierówności $ \vv=\ww/\|\ww\| $, gdzie $ \ww\in\R^n $ jest dowolnym wektorem różnym od $ \zero $, otrzymujemy

\[ \beta\|\ww\|^2\ge \langle A \ww,\ww\rangle \ge \alpha \|\ww\|^2>0 \qquad\mbox{dla wszystkich $\ww\in \R^{n}\setminus\{\zero\}$.}  \]

Dlatego, z nierówności Schwarza i definicji normy macierzy,

\[ \begin{eqnarray}  \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle & = &   \langle A\hh,\hh\rangle + \big\langle \big(H_f(\aa+\theta\hh)-A\big)\hh,\hh\big\rangle \nonumber \\   & \ge & \alpha\|\hh\|^2- \norm{\big(H_f(\aa+\theta\hh)-A\big)\hh}\cdot \|\hh\|\label{nierHobok}\\ & \ge & \alpha \|\hh\|^2 - \norm{\big(H_f(\aa+\theta\hh)-A\big)}\cdot \|\hh\|^2  \nonumber    \end{eqnarray} \]

Ponieważ $ f\in C^2 $, więc wszystkie współrzędne macierzy $ H_f(\xx) $ zależą od $ \xx $ w sposób ciągły. Istnieje zatem liczba $ \delta>0 $ taka, że jeśli $ 0<\|\hh\|<\delta $ i $ \theta\in (0,1) $, to

\[ \norm{\big(H_f(\aa+\theta\hh)-H_f(\aa)\big)}=\norm{\big(H_f(\aa+\theta\hh)-A\big)}<\frac \alpha 2\, . \]

Wtedy jednak, wobec nierHobok,

\[ f(\aa+\hh)-f(\aa)=\frac 12 \big\langle H_f(\aa+\theta\hh)\hh,\hh\big\rangle > \frac \alpha 4 \|\hh\|^2 >0\, . \]

To dowodzi punktu (ii). Dowód (iv) jest taki sam. □

Uwaga W dowodach podpunktów (ii) oraz (iv) w Twierdzeniu [link] nie trzeba zakładać, że $ f\in C^2 $. Wystarczy po prostu, żeby $ f $ była różniczkowalna na zbiorze $ \Omega $ i jej druga różniczka $ D^2f(\aa) $ istniała w punkcie krytycznym $ \aa $ i była w nim dodatnia (wtedy $ f $ ma w $ \aa $ minimum lokalne właściwe) bądź ujemna (wtedy $ f $ ma w $ \aa $ maksimum lokalne właściwe). W dowodzie wykorzystuje się wzór Taylora z resztą Peano. Zainteresowany Czytelnik zdoła sam uzupełnić szczegóły rozumowania.

Zanim przejdziemy do przykładów, przytoczymy jeszcze twierdzenie, które pozwala wnioskować, kiedy $ f $ z pewnością nie ma ekstremum lokalnego w punkcie krytycznym.

Twierdzenie Załóżmy, że $ f\in C^1(\Omega,\R) $ ma w $ \aa\in \Omega $ punkt krytyczny i $ D^2f(\aa) $ istnieje. Jeśli $ H_f(\aa)=D^2f(\aa) $ ma wartość własną $ \lambda_1 >0 $ i wartość własną $ \lambda_2 <0 $, to $ f $ nie ma ekstremum lokalnego w punkcie $ \aa $. (#)
Dowód: Niech $ \vv_i $ będzie unormowanym wektorem własnym macierzy $ H_f(\aa) $, odpowiadającym wartości własnej $ \lambda_i $, gdzie $ i=1,2 $. Dla dostatecznie małej liczby $ \delta>0 $ rozpatrzmy dwie funkcje pomocnicze,

\[ 	g_i(t)=f(\aa+t\vv_i), \qquad |t|<\delta\, , \quad i=1,2. 	\]

Mamy $ g_i'(t)=Df(\aa+t\vv_i)\vv_i $, tzn. $ g_i'(0)=0 $, oraz

\[ 	g''(t)= \langle D^2f(\aa +t\vv_i) \vv_i, \vv_i\rangle\, . 	\]

Zatem $ g_1''(0)= \langle D^2f (\aa)\vv_1,\vv_1\rangle=\lambda_1\|\vv_1\|^2=\lambda_1>0 $. Podobnie, $ g_2''(0)=\lambda_2<0 $. Dlatego $ g_1 $ ma minimum lokalne właściwe w zerze, a $ g_2 $ ma maksimum lokalne właściwe w zerze. Wynika stąd, że $ f $ nie ma ekstremum lokalnego w punkcie $ \aa $ (gdyby miała, to każda z funkcji $ g_{\mvv}=f(\aa+t\vv) $ miałaby w zerze ekstremum lokalne tego samego typu, co $ f $). □

To, czy macierz $ H_f(\aa)=D^2f(\aa) $ jest dodatnia (ujemna), można rozpoznawać za pomocą kryterium Sylvestera.

Twierdzenie [kryterium Sylvestera] Niech $ A=(a_{ij})\in M_{n\times n}(\R) $ i $ a_{ij}=a_{ji} $ dla wszystkich $ i,j=1,2,\ldots, n $. Oznaczmy

\[ d_\ell= \det\Big(a_{ij}\Big)_{i,j=1,\ldots,\ell}\, , \qquad \ell =1,2,\ldots, n\, . \]
    {(\roman{enumi})}

  1. Jeśli $ d_\ell>0 $ dla każdego $ \ell =1,2,\ldots, n $, to $ A>0 $.

  2. Jeśli $ (-1)^\ell d_\ell>0 $ dla każdego $ \ell =1,2,\ldots, n $, to $ A<0 $.
  3. Jeśli $ d_\ell\not=0 $ dla każdego $ \ell=1,\ldots,n $, ale nie zachodzi ani założenie(i), ani założenie(ii), to macierz $ A $ ma wartości własne różnych znaków.

Dowód Czytelnik miał okazję poznać na wykładach z Algebry Liniowej. Zainteresowanym polecam książkę A. Mostowskiego i M. Starka Elementy algebry wyższej.

Uwaga Jeśli $ f\colon \R^n\supset \Omega\to \R $ jest klasy $ C^2 $, ma punkt krytyczny $ \aa\in \Omega $ i wszystkie wartości własne macierzy $ D^2 f(\aa) $ są różne od zera, to mówimy, że $ \aa $ jest niezdegenrowanym punktem krytycznym. Z Twierdzeń [link] i [link] wynika, że o tym, czy funkcja $ f $ ma w niezdegenerowanym punkcie krytycznym ekstremum lokalne, można jednoznacznie przesądzić, badając znaki wartości własnych macierzy $ D^2 f(\aa) $.
Uwaga Podkreślmy wyraźnie: założenie ostrych nierówności w punktach (ii) i (iv) Twierdzenia [link] jest istotne. Każda z funkcji

\[ 	f_1(x,y)=x^4+y^4, \qquad f_2(x,y)=-x^4-y^4, \qquad f_3(x,y)=x^4-y^4\, ,\qquad (x,y)\in \R^2 	\]

ma (jedyny) punkt krytyczny w $ (0,0) $. Jest oczywiste, że dla funkcji $ f_1 $ ten punkt jest minimum lokalnym właściwym, dla $ f_2 $ - maksimum lokalnym właściwym, natomiast $ f_3 $ w ogóle nie ma tym punkcie ekstremum lokalnego. Mamy jednak

\[ D^2f_i(0,0)=\begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix}, \qquad i=1,2,3. \]

Biorąc

\[ f_4(x,y)=x^2+y^4, \qquad f_5(x,y)=x^2, \qquad f_6(x,y)=x^2-y^4,  \qquad  (x,y)\in \R^2 \]

otrzymamy

\[ \grad f_i(0,0) = (0,0) \quad\mbox{oraz}\quad D^2f_i(0,0)=\begin{pmatrix}2 & 0 \\ 0 & 0\end{pmatrix}, \qquad i=4,5,6. \]

Łatwo zauważyć, że w punkcie $ (0,0)\in\R^2 $ funkcja $ f_4 $ ma minimum lokalne właściwe, $ f_5 $ - minimum lokalne (które nie jest właściwe), natomiast $ f_6 $ w ogóle nie ma ekstremum.

Przykład (#) Niech $ h(x,y)=ay(e^x-1)+x\sin x+1-\cos y $ dla $ x,y\in \R $. Wykażemy, że $ h $ ma ekstremum lokalne w punkcie $ (0,0) $ wtedy i tylko wtedy, gdy $ a \in (-\sqrt{2},\sqrt{2}) $.

Pochodne cząstkowe funkcji $ h $ są równe

\[ h_x(x,y)=ay e^x+\sin x +x\cos x, \qquad h_y(x,y)=a (e^x-1)+\sin y\, ,   \]

więc (niezależnie od wartości parametru $ a\in \R $) jest $ h_x(0,0)=h_y(0,0)=0 $ i $ h $ ma w zerze punkt krytyczny. Dalej, obliczamy

TeX Embedding failed!

Podstawiając $ x=y=0 $ otrzymujemy

\[ D^2h(0,0)=\begin{pmatrix} 2 & a \\ a & 1\end{pmatrix}\, , \qquad\det\, D^2h(0,0)= 2- a^2\, . \]

Jeśli $ a\in (-\sqrt{2},\sqrt{2}) $, to $ \det\, D^2h(0,0)= 2- a^2>0 $ i z kryterium Sylvestera wynika, że macierz $ D^2h(0,0) $ jest dodatnio określona, a więc $ h $ ma minimum lokalne właściwe w punkcie $ (0,0) $ (patrz Twierdzenie [link](ii)).

Ilustracja do Przykładu [link]. Parametr $ a=\sqrt 2 $. Mamy wówczas $ h(x,y)=P(x,y)+ o(x^3)+ o(y^3) $ dla $ x,y\to 0 $, gdzie

\[ P(x,y)= \Big(x+\frac y{\sqrt 2}\Big)^2 + \frac{yx^2}{\sqrt 2} \]

jest wielomianem Taylora rzędu 3 funkcji $ h $ wokół zera. Po lewej: poziomice funkcji $ P $, narysowane na płaszczyźnie $ \R^2 $ (w dziedzinie funkcji). Zbiór punktów w $ \R^2 $, opisany równaniem $ P(x,y)=0 $, to krzywa z wyraźnym dziobkiem. Po prawej: fragment wykresu funkcji $ P $, tzn. powierzchnia w $ \R^3 $ o równaniu $ z=P(x,y) $.

Jeśli $ a\not\in [-\sqrt{2},\sqrt{2}] $, to $ \det\, D^2h(0,0)= 2- a^2<0 $. Macierz $ D^2h(0,0) $ ma więc wartości własne różnych znaków i wobec Twierdzenia [link] $ h $ nie ma w zerze ekstremum lokalnego.

Przypadek $ a=\pm \sqrt{2} $ trzeba rozpatrzeć osobno. Macierz $ D^2 h(0,0) $ ma wtedy wartości własne $ 3 $ i $ 0 $, więc nie jest dodatnia i nie wolno stosować Twierdzenia [link](ii); jak wynika z wcześniej przytoczonych przykładów, w takiej sytuacji funkcja może zarówno mieć ekstremum lokalne, jak i go nie mieć.

Dla ustalenia uwagi, niech $ a=\sqrt{2} $. Użyjemy wzoru Taylora (najprościej jest w tym przypadku wykorzystać znane rozwinięcia funkcji elementarnych) i napiszemy

\[ \begin{eqnarray*} h(x,y) & = & y\sqrt{2}\Big(x+\frac{x^2}2 + \frac{x^3}6+o(x^3)\Big) + x \Big(x- \frac{x^3}6+o(x^3)\Big) +\frac{y^2}2-\frac{y^4}{4!} + o(y^4) \\ & = & x^2 +xy\sqrt{2}+\frac {y^2}2 + \frac{yx^2}{\sqrt 2} + o(x^3) + o(y^3)\\ & = & \Big(x+\frac y{\sqrt 2}\Big)^2 + \frac{yx^2}{\sqrt 2}  + o(x^3) + o(y^3)\, . \end{eqnarray*} \]

Na prostej $ y=-x\sqrt{2} $ mamy więc \( h(x,-x\sqrt 2) = -x^3 + o(x^3),\) \( \ x\to 0. \) Zatem, $ h $ nie ma ekstremum w zerze: wyrazy trzeciego rzędu we wzorze Taylora powodują, że $ h(x,-x\sqrt 2) $ zmienia znak w każdym otoczeniu $ 0\in \R $, a przecież $ h(0,0)=0 $. Przypadek $ a=-\sqrt 2 $ sprawdza się tak samo; Czytelnik łatwo uzupełni szczegóły obliczeń.

Czytelnik może sprawdzić, że kierunek prostej $ y=-x\sqrt{2} $ jest wyznaczony przez wektor $ \vv\in\S^1 $ taki, że $ D^2h(0,0)(\vv,\vv)=0 $. W innych kierunkach hesjan ma dodatnie wartości. Sprawdzaliśmy więc w istocie, jak zachowuje się funkcja $ h $ wokół zera ``w podejrzanym kierunku'' - i to wystarczyło, by stwierdzić brak ekstremum lokalnego. □

Ilustracja do Przykładu [link]. Krzywe $ g(x,y)=\mathrm{const} $ na płaszczyźnie $ \R^2 $. W punkcie krytycznym $ (0,0) $ spotykają się dwa szerokie grzbiety i dwie wąskie, wygięte doliny. W Przykładzie [link] wystarczyło użyć twierdzeń [link] i [link] (dających automatyczne kryteria badania funkcji wokół punktu krytycznego), a w wątpliwym przypadku zbadać zachowanie funkcji na prostych, przechodzących przez punkt krytyczny. Pod\-kreślmy jednak, że z zachowania funkcji na poszczególnych takich prostych nie wolno wnioskować, że ma ona ekstremum lokalne!

Przykład (#) Niech

$$g(x,y)=(y-x^3)(y-3x^3)$$

dla $ (x,y)\in \R^2 $. Wtedy \begin{align*} g_x (x,y)&=18 x^5 - 12 x^2 y, \\ g_y(x,y)&=-4 x^3 + 2 y,\\ g_{xx}(x,y) &= 90 x^4 - 24 x y, \\ g_{xy}(x,y)&=-12x^2,\\ g_{yy}(x,y)&=2. \end{align*} Zatem funkcja $ g $ ma w zerze (jedyny) punkt krytyczny;

$$D^2g(0,0)=\begin{pmatrix}0, & 0 \\ 0 & 2 \end{pmatrix}\ge 0.$$

Na każdej prostej $ y=kx $ jest $ g(kx,x)=k^2x^2+ o(x^3) $ dla $ x\to 0 $, a więc obcięcie funkcji $ g $ do takiej prostej ma w zerze minimum lokalne (właściwe). Na prostej $ x=0 $ jest $ g(x,y)=g(0,y)=y^2 $ (tzn. znów mamy funkcję jednej zmiennej, która ma minimum w zerze). Jednak na krzywej $ y=2x^3 $ jest $ g(x,y)=g(x,2x^3)=-x^6 $, a więc w dowolnie małym otoczeniu zera funkcja $ g $ przyjmuje nie tylko wartości dodatnie, ale także ujemne.