Gradient. Płaszczyzna styczna do wykresu funkcji i punkty krytyczne

Definicja [gradient funkcji wielu zmiennych] Gradientem funkcji różniczkowalnej $ f\colon \R^n\supset \Omega\to\R $ w punkcie $ \xx\in \Omega $ nazywamy wektor

\[ 	\text{grad}\, f(\xx) =\Bigl(\pcz f{x_1}(\xx),\ldots, \pcz f{x_n}(\xx)\Bigr)\, . 	\]

Z tej definicji oraz definicji macierzy Jacobiego wynika, że dla $ f\colon \Omega\to \R $ mamy

\[ \langle \grad f(\xx),\hh\rangle = Df(\xx)\hh = \sum_{i=1}^nh_i\pcz{f}{x_i}(\xx)\, . \]

Czytelnik może więc uważać, że rozróżnianie gradientu i różniczki to niepotrzebna maniera. Podkreślmy jednak, że $ \grad f(\xx)\in \R^n $, natomiast $ Df(\xx)\in L(\R^n,\R)=\bigl(\R^n\bigr)^\ast $. Przywykliśmy utożsamiać przestrzenie $ \bigl(\R^n\bigr)^\ast $ i $ \R^n $; to wymaga odwołania się do konkretnego układu współrzędnych. Na gładkich powierzchniach w $ \R^n $ - powiedzmy na torusie czy na sferze - nie sposób jednak zwykle wskazać jakiegoś wyróżnionego układu współrzędnych. Dlatego odróżnianie gradientu i różniczki ma sens. Czytelnik zetknie się z tym później w bieżącym roku, a także na zajęciach z geometrii różniczkowej.

Stwierdzenie Dla każdej funkcji różniczkowalnej $ f\colon \R^n\supset \Omega\to\R $ i każdego wektora $ \ww\in \R^n $ takiego, że

\[ \|\ww\|=\|\vv\|, \qquad\mbox{gdzie}\quad \vv=\grad f(\xx)\not =0, \quad \xx\in \Omega, \]

zachodzi nierówność

\[ \begin{equation} 	\label{gradspad}            	\pcz {f}{\ww} (\xx)\le  \pcz {f}{\vv} (\xx)\, . \end{equation} \]

Ponadto, równość w gradspad zachodzi jedynie dla $ \ww=\vv $.

Dowód: Wobec Wniosku [link] i nierówności Schwarza, mamy

\[ \pcz {f}{\ww} (\xx)=Df(\xx)\ww =\langle \grad f(\xx), \ww\rangle =\langle \vv, \ww\rangle \le \|\vv\| \|\ww\| = \|\vv\|^2, \]

natomiast

\[ \pcz {f}{\vv}(\xx) =Df(\xx)\vv =\langle \grad f(\xx), \vv\rangle = \|\vv\|^2\, . \]

Stąd już wynika nierówność gradspad.

W nierówności Schwarza $ |\langle \vv,\ww\rangle|\le \|\vv\| \|\ww\| $ dla wektorów $ \vv,\ww $ o równych długościach równość zachodzi wtedy i tylko wtedy, gdy $ \vv=\pm \ww $. Jednak dla $ \ww=-\vv $ jest

\[ \pcz {f}{\ww} (\xx) =   \langle \vv, \ww\rangle  =-\|\vv\|^2 < 0 < \|\vv\|^2 = \pcz{f}{\vv}(\xx)\, . \]

Ta obserwacja kończy dowód. □

    

Powyższe stwierdzenie ma następującą interpretację geometryczną: gradient funkcji w punkcie wyznacza kierunek najszybszego wzrostu funkcji w tym punkcie. Długość wektora gradientu odpowiada za tempo wzrostu w tym kierunku.

Definicja [płaszczyzna styczna do wykresu funkcji] Jeśli $ f\colon \Omega\to\R $ jest różniczkowalna w punkcie $ \aa $, to płaszczyzną styczną do wykresu $ f $ w punkcie $ (\aa,f(\aa))\in \R^{n+1} $ nazywamy zbiór

\[ 	T=\{(\xx,x_{n+1})\in \R^n\times\R=\R^{n+1}\colon Df(\aa)(\xx-\aa)=x_{n+1}-f(\aa)\} 	\]

(#)

Płaszczyzna styczna do wykresu funkcji różniczkowalnej $ f\colon \R^2\supset\Omega\to \R $ w punkcie $ (\pp,f(\pp))\in \R^3 $ ma równanie

\[  f_{x_1}(\pp) (x_1-p_1)   + f_{x_2}(\pp)\cdot (x_2-p_2) = x_3-f(\pp) \]

Wektor $ (-f_{x_1}(\pp),-f_{x_2}(\pp),1)\in \R^3 $ jest prostopadły do płaszczyzny stycznej.

Po lewej: w punkcie ekstremum lokalnego $ f_x=f_y=0 $ i tam płaszczyzna styczna jest pozioma.

Innymi słowy, zbiór $ T $ jest wykresem odwzorowania afinicznego

\[ \R^n\ni \xx\longmapsto \phi(\xx)= f(\aa) + Df(\aa)(\xx-\aa)\in \R\, . \]

Wprost z definicji różniczki wynika, że dla $ \xx\to \aa $ jest $ f(\xx)-\phi(\xx)=o(\|\xx-\aa\|) $. Widzieliśmy też, że ten warunek określa odwzorowanie $ \phi $ jednoznacznie. To uzasadnia nazwę płaszczyzna styczna. Zauważmy, że jeśli $ Df(\aa)=\zero $, to przekształcenie $ \phi $ jest stałe, a więc jego wykresem jest hiperpłaszczyzna $ x_{n+1}=\mathrm{const} $.

Podamy teraz warunek konieczny istnienia ekstremum (Definicja maksimum (minimum) lokalnego jest analogiczna, jak w wymiarze 1; trzeba tylko przedział wokół danego punktu w dziedzinie zastąpić kulą o środku w tym punkcie.) funkcji w punkcie wewnętrznym dziedziny.

Stwierdzenie [lemat Fermata] Jeśli funkcja $ f\colon \R^n\supset\Omega\to \R $ ma ekstremum lokalne w punkcie $ \aa\in \Omega $ i jest w tym punkcie różniczkowalna, to

\[ 	Df(\aa)=0\, , 	\]

lub równoważnie $ \pcz{f}{x_i}(\aa)=0 $ dla $ i=1,2\ldots, n $.

Dowód: Jeśli $ f $ ma ekstremum lokalne w $ \aa $, to dla każdego $ i=1,\ldots, n $ funkcja

\[ F_i(t) = f(a_1,\ldots, a_{i-1},t,a_{i+1},\ldots, a_n)\, , \]

określona w pewnym przedziale $ (a_i-\delta,a_i+\delta)\subset\R $, ma ekstremum lokalne w $ a_i $. Dlatego $ F_i'(a_i)=\pcz{f}{x_i}(\aa)=Df(\aa)\ee_i=0 $.□

W wielu sytuacjach wykorzystywane jest następujące ogólne pojęcie.

Definicja Przypuśćmy, że odwzorowanie $ f\colon \R^n\supset \Omega\to \R^m $ jest różniczkowalne na $ \Omega $. Powiemy, że $ \aa\in \Omega $ jest punktem krytycznym $ f $ wtedy i tylko wtedy, gdy przekształcenie liniowe $ Df(\aa)\colon \R^n\to\R^m $ ma rząd mniejszy, niż $ \min (m,n) $. (Zauważmy: $ k=\min(m,n) $ jest maksymalnym) możliwym rzędem przekształcenia liniowego z $ \R^n $ w $ \R^m $.

Gdy $ m=1 $, to $ \aa\in \Omega $ jest punktem krytycznym funkcji $ f\colon \R^n\supset\Omega\to \R $ wtedy i tylko wtedy, gdy $ Df(\aa)\colon \R^n\to\R $ ma rząd mniejszy, niż $ \min(n,1)=1 $, tzn. wtedy i tylko wtedy, gdy $ Df(\aa) $ jest przekształceniem zerowym. Jest to równoważne temu, że wszystkie pochodne cząstkowe $ \pcz{f}{x_i} $ znikają w punkcie $ \aa $. Zachodzi zatem następujące:

Stwierdzenie Wszystkie ekstrema lokalne funkcji różniczkowalnej $ f\colon\R^n\supset \Omega\to \R $ są jej punktami krytycznymi. □

Po lewej: wykres funkcji $ f(x,y)=xy $. Płaszczyzna styczna przecina wykres funkcji wzdłuż osi $ x $ i $ y $. Po prawej: tzw. małpie siodło, wykres funkcji $ g(x,y)=x^3-3y^2 x $. Płaszczyzna styczna przecina wykres wzdłuż trzech prostych. Na obu rysunkach brzegi kolorowych pasów to poziomice (linie, na których funkcja ma stałą wartość).

Oczywiście nie zachodzi implikacja odwrotna. Funkcja $ f(x,y)=xy $ ma pochodne cząstkowe $ f_x(x,y)=y $ i $ f_y(x,y) =x $, które znikają jednocześnie wtedy i tylko wtedy, gdy $ x=y=0 $. Jednak w punkcie $ (0,0) $ funkcja $ f $ nie ma ani minimum, ani maksimum lokalnego (równego zero), gdyż w każdym otoczeniu tego punktu przyjmuje zarówno wartości dodatnie, jak i ujemne. Podobnie,

\[ \begin{equation}    \label{malpie}     g(x,y)=x^3-3y^2 x = x(x-y\sqrt3)(x+y\sqrt 3)     \end{equation} \]

ma pochodne cząstkowe $ g_x(x,y)=3x^2-3y^2 $ i $ g_y(x,y)=6xy $. Łatwo zauważyć, że jedynym punktem krytycznym tej funkcji jest $ (0,0) $, jednak w każdym otoczeniu tego punktu $ f $ przyjmuje zarówno wartości dodatnie, jak i ujemne.

Nawet dla $ n=2 $ zachowanie funkcji różniczkowalnych $ f\colon \R^n\to \R $ potrafi odbiegać od naiwnych oczekiwań, jakie Czytelnik mógłby mieć dzięki wcześniejszym jednowymiarowym intuicjom. Należy o tym pamiętać, szukając kresów zbioru wartości funkcji.

Przykład Istnieją funkcje różniczkowalne $ f\colon \R^2\to\R $ (o ciagłych pochodnych cząstkowych), które spełniają dwa warunki:

    \parskip -1pt

  • $ f $ ma na $ \R^2 $ tylko jeden punkt krytyczny, w którym jest jej ekstremum lokalne;
  • $ f $ nie jest ograniczona ani z góry, ani z dołu.

Taka funkcja w punkcie jedynego swego ekstremum lokalnego nie osiąga ani kresu dolnego, ani kresu górnego! Spójrzmy na dwa konkretne przykłady takich sytuacji.

Wykres funkcji $ f(x,y)=x^2(1+y)^3+y^2 $. Zaznaczone linie to poziomice. W środku widoczne minimum lokalne. Dla $ x=\mathrm{const}>0 $ funkcja $ f(\mathrm{const},y) $ jest wielomianem stopnia 3; proszę zwrócić uwagę na kształt przedniej krawędzi tego fragmentu wykresu $ f $.

Niech

\[ \begin{equation}  	\label{1min} 	f(x,y)=x^2(1+y)^3+y^2\, . \end{equation} \]

Funkcja $ f $ jest wielomianem, więc ma ciągłe pochodne cząstkowe. Wyznaczymy teraz jej punkty krytyczne. Łatwo obliczamy

\[ \pcz fx (x,y)=2x(1+y)^3, \qquad \pcz fy (x,y)=3x^2(1+y)^2+2y. \]

Jeśli $ \pcz fx =0 $, to $ x=0 $ lub $ y=-1 $. Jednak dla $ y=-1 $ jest $ \pcz fy \equiv -2\not=0 $, tzn. $ f $ nie ma żadnych punktów krytycznych postaci $ (a,-1) $. Natomiast $ \pcz fy (0,y)=2y=0 $ dla $ y=0 $. Dlatego jedynym punktem krytycznym $ f $ jest $ (0,0)\in \R^2 $.

Nietrudno zauważyć, że dla $ |y|<1/2 $ jest $ 2\ge 1+y\ge 1/2 $ i dlatego

\[ 8(x^2+y^2)\ge f(x,y)\ge \frac 18 (x^2+y^2), \qquad |y|<\frac 12, \quad x\in\R. \]

Stąd wynika, że $ f $ ma w punkcie $ (x,y)=(0,0) $ minimum lokalne właściwe. Jednak $ f $ nie jest na $ \R^2 $ ograniczona ani z góry, ani z dołu, gdyż funkcja

\[ h(y)= f(1,y)=(1+y)^3+y^2, \qquad y\in \R, \]

jest wielomianem trzeciego stopnia, a więc nie jest ograniczona ani z góry, ani z dołu.

Innego przykładu tego zjawiska dostarcza funkcja

\[ \begin{equation} 	g(x,y)=3xe^y-x^3-e^{3y}, 	\label{1max} \end{equation} \]

która jest nieograniczona z góry i z dołu na $ \R^2 $, gdyż $ g(x,0)=3x-x^3-1 $ jest wielomianem trzeciego stopnia zmiennej $ x $. Mamy

\[ \pcz{g}{x}(x,y)=3(e^y-x^2), \qquad \pcz gy (x,y)=3e^y(x-e^{2y})\, . \]

Z równań $ \pcz gx=\pcz gy =0 $ otrzymujemy $ y=\ln x^2 $ i $ x=e^{2y}=x^4 $, stąd zaś $ x=1 $ i $ y=0 $ (innych rozwiązań nie ma). Zachowanie funkcji $ g $ w otoczeniu punktu $ (1,0) $ można przeanalizować, korzystając ze wzoru Taylora. (Nie znamy jeszcze wprawdzie wzoru Taylora dla funkcji wielu zmiennych, tu jednak nietrudno jest znaleźć najpierw rozwinięcie Taylora względem $ x $ (traktując $ y $ jako parametr), potem zaś skorzystać ze znanego rozwinięcia $ e^y=1+y+y^2/2!+\cdots $.) Wskażemy tylko kroki w rachunkach; Czytelnik zechce sprawdzić (nietrudne) szczegóły samodzielnie. Najpierw piszemy

\[ g(x,y)=3(x-1)e^y-x^3+3e^y-e^{3y}, \]

podstawiamy $  x^3=\bigl(1+(x-1)\bigr)^3=1 + 3 (x - 1) + 3 (x - 1)^2 + (x - 1)^3  $ i otrzymujemy

\[ g(x,y)=3e^y-e^{3y}-1 +3(x-1)(e^y-1) -3(x-1)^2-(x-1)^3\, . \]

Następnie wykorzystujemy rozwinięcie Taylora-Maclaurina funkcji wykładniczej. Prowadzi to do wyniku

\[ \begin{multline*}  g(x,y)=1 - 3(x-1)^2-3y^2 \\{}+ 3y(x-1) + \frac 32y^2 (x-1) + o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$.} \end{multline*} \]

Jednak $ |3y(x-1)|\le \frac 32 \bigl(y^2+(x-1)^2\bigr) $, a z nierówności Younga $ ab\le a^p/p + b^q/q $ (gdzie $ a,b\ge 0 $, $ p,q>1 $ i $ \frac 1p+\frac 1q=1 $, patrz wykłady Analizy Matematycznej z I roku) zastosowanej dla $ p=3/2 $ i $ q=3 $ otrzymujemy

\[ \frac 32 |y^2(x-1)|\le |y|^3 +\frac 12 |x-1|^3= o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$.} \]

Dlatego

\[ g(x,y)\ge 1-\frac 32\Bigl( y^2+(x-1)^2\Bigr ) + o(y^2) + o\bigl((x-1)^2\bigr)  \quad\mbox{dla $x\to 1$, $y\to 0$,} \]

stąd zaś wynika, że $ g $ ma w punkcie $ (1,0) $ maksimum lokalne właściwe. Odpowiedni fragment wykresu funkcji $ g $ przedstawiony jest na rysunku. □

Wykres funkcji $ g(x,y)=3xe^y-x^3-e^{3y} $. Widoczny garb to jedyne maksimum lokalne tej funkcji. Innych punktów krytycznych $ g $ nie ma. Pomysł na prezentację wykresu zaczerpnięty z książki: Stan Wagon, Mathematica in action, wydanie 3, Springer Verlag 2010.

Przykład [Nierówność między średnimi raz jeszcze] Udowodnimy ponownie nierówność między średnią arytmetyczną i geometryczną. Jak wcześniej w Przykładzie [link], założymy, że

\[ 	x_1+x_2+\cdots+x_n=n, \qquad x_i\ge 0\, . 	\]

Wykażemy, że $ x_1x_2\cdot\ldots\cdot x_n\le 1 $ (przy czym równość zachodzi jedynie wtedy, gdy wszystkie $ x_i $ są równe).

Tym razem niech

\[ f(x_1,x_2,\ldots,x_{n-1})= x_1x_2\ldots x_{n-1}\underbrace{\big(n-(x_1+x_2+\cdots+x_{n-1})\big)}_{=x_n\ge 0} \]

dla

\[ \xx=(x_1,\ldots,x_{n-1})\in K=\{\xx\in \R^{n-1}\colon x_i\ge 0, \quad   x_1+\cdots+x_{n-1}\le n\}\, . \]

Zbiór $ K $ jest zwarty w $ \R^{n-1} $, a funkcja $ f $ jest ciągła na $ K $, zatem $ f $ osiąga swój kres górny. Na brzegu $ K $ jest $ f\equiv 0 $, a $ f $ przyjmuje wartości dodatnie, np. w punkcie $ (1,\ldots, 1) $, dlatego $ \sup f=f(\aa) $ dla pewnego punktu $ \aa $ należącego do wnętrza zbioru $ K $. W tym punkcie musi być $ \grad f(\aa)=0 $.

Stosując wzór na pochodną iloczynu, łatwo sprawdzić, że wewnątrz $ K $

\[ \pcz f{x_i}(\aa) =\frac{f(\aa)}{a_i}-a_1\ldots a_{n-1}, \qquad i=1,\ldots, n-1. \]

Dlatego układ równań $ \grad f(\aa)=0 $ jest równoważny innemu:

\[ n-\sum_{j=1}^{n-1} a_j - a_i=0, \qquad  i=1,\ldots, n-1.   \]

Sumując te równania, otrzymujemy $ n(n-1)=(n-1)\sum a_j + (a_1+a_2+\cdots+a_{n-1}) $, a stąd $ \sum a_j=n-1 $ i dlatego

\[ n-\sum_{j=1}^{n-1} a_j - a_i =1-a_i,  \]

ostatecznie więc $ \grad f(a)=0 $ jedynie wtedy, gdy $ a_i=1 $ dla wszystkich $ i=1,\ldots, n-1 $. Właśnie w punkcie $ (1,\ldots,1) $ funkcja $ f $ przyjmuje więc swój kres górny, równy 1. □

.

Opisaliśmy już geometryczną interpretację gradientu: jest to kierunek, w którym funkcja rośnie najszybciej. Okazuje się, że można powiedzieć więcej: przy nieznacznych dodatkowych założeniach funkcja ``jest stała w kierunkach prostopadłych do gradientu''. Aby wyjaśnić to bliżej i ściślej, będziemy potrzebowali dwóch definicji.

Definicja [poziomica funkcji] Poziomicą funkcji $ f\colon \R^n\supset \Omega\to \R^m $ nazywamy zbiór

\[ 	M=\{\xx\in \Omega\colon f(\xx)=f(\aa)\}\, , 	\]

gdzie $ \aa\in \Omega $ jest ustalonym punktem.

Innymi słowy, poziomica składa się z tych punktów, gdzie funkcja przybiera konkretną, ustaloną wartość (równą $ f(\aa) $ dla danego punktu $ \aa\in\Omega $).

Definicja [wektory styczne do zbioru w punkcie](#) Mówimy, że wektor $ \ww\in\R^n\setminus\{\zero\} $ jest styczny do zbioru $ A\subset \R^n $ w punkcie $ \aa\in A $ (i piszemy $ \ww\in T_{\maa}A $) wtedy itylko wtedy, gdy istnieje ciąg punktów $ \xx_j\in A\setminus\{\aa\} $ taki, że $ \xx_j\to \aa $ dla $ j\to\infty $, a ponadto

\[ \begin{equation} \label{defTaA} \frac{\ww}{\norm{\ww}}=\lim_{j\to\infty}\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\, .  \end{equation} \]

Przyjmiemy także, że wektor $ \zero\in \R^n $ jest, dla dowolnych $ A $ i $ \aa\in A $, styczny do zbioru $ A $ w punkcie $ \aa $. Zbiór $ T_{\maa}A $ nazywamy przestrzenią styczną do $ A $ w punkcie $ \aa $ (lub, czasem, stożkiem stycznym do $ A $ w punkcie $ \aa $).

W literaturze matematycznej można spotkać różne (niekoniecznie równoważne) definicje wektora stycznego do zbioru. Przytoczona wyżej ma tę zaletę, że można się nią posługiwać, nie przyjmując żadnych\/ dodatkowych założeń o zbiorze $ A $.

Uwaga (#) Lewa strona wzoru defTaA nie zmienia się, gdy wektor $ \ww $ mnożymy przez liczbę $ t>0 $. Dlatego jeśli $ \ww\in T_{\maa}A $, to $ t\cdot \ww\in T_{\maa}A $ dla $ t>0 $. To przestaje być prawdą dla $ t<0 $: jeśli zbiór $ A\subset \R^2 $ jest wykresem funkcji $ y=|x|^{1/2} $ i $ \aa=(0,0) $, to nietrudno sprawdzić, że $ \ww=(0,1)\in T_{\maa}A $, natomiast $ -\ww\not\in T_{\maa}A $.
Uwaga (#) Przypuśćmy, że $ \gamma\colon \R\supset I\to A\subset \R^n $ jest funkcją różniczkowalną zmiennej jednej zmiennej rzeczywistej $ t\in I $, gdzie $ I $ jest jakimś przedziałem otwartym wokół zera. Wówczas wektor $ \gamma'(0) $ jest styczny do zbioru $ A $ w punkcie $ \aa=\gamma(0) $. Jeśli $ \gamma'(0)=0 $, to nie ma czego dowodzić. Przypuśćmy więc, że $ \ww\equiv\gamma'(0)\not=0 $. Z definicji pochodnej

\[ \ww=\gamma'(0)=\lim_{j\to\infty}\frac{\gamma(1/j)-\gamma(0)}{1/j}\, . \]

Ponieważ norma jest funkcją ciągłą, więc

\[ 0\not=\|\ww\|=\lim_{j\to\infty}\frac{\norm{\gamma(1/j)-\gamma(0)}}{1/j} \]

(i wyrazy ciagu po prawej stronie są różne od zera dla dużych $ j $). Dlatego

\[ \frac{\ww}{\norm{\ww}}=\lim_{j\to\infty}  \left(\frac{\gamma(1/j)-\gamma(0)}{1/j}\cdot    \frac{1/j}{\norm{\gamma(1/j)-\gamma(0)}}              \right) =\lim _{j\to\infty}  \frac{\gamma(1/j)-\gamma(0)}{\norm{\gamma(1/j)-\gamma(0)}}\, , \]

a więc warunek defTaA jest spełniony w punkcie $ \aa=\gamma(0) $ dla punktów $ \xx_j=\gamma(1/j) $.

Interpretacja fizyczna powyższego spostrzeżenia jest jasna: jeśli podróżujemy w zbiorze $ A\subset\R^n $ (i położenie jest różniczkowalną funkcją czasu $ t $), to wektor prędkości jest cały czas styczny do zbioru $ A $.

Twierdzenie [prostopadłość gradientu do poziomicy](#) Załóżmy, że $ f\colon \R^n\supset \Omega\to \R $ jest różniczkowalna w punkcie $ \aa\in \Omega $ i ciągła na pewnej kuli $ B(\aa, r)\subset \Omega $, gdzie $ r>0 $. Niech

\[ A=\{x\in \Omega\colon f(\xx)=f(\aa)\}\, . \]

Jeśli $ \vv:=\grad f(\aa)\not=0 $, to następujące warunki są równoważne:

    {(\roman{enumi})}

  1. $ \ww\in T_{\maa} A $;
  2. wektor $ \ww $ jest prostopadły do $ \vv=\grad f(a) $, tzn. $ \langle \ww,\vv\rangle=0 $.
Dowód: Jeśli $ \ww=\zero $, to oba warunki są spełnione. Niech więc odtąd $ \ww\not= 0 $. Załóżmy także, że $ f(\aa)=0 $; to nie zmniejsza ogólności rozważań, gdyż dodając do $ f $ stałą, nie zmieniamy gradientu.

Najpierw wykażemy, że (i) $ \Rightarrow $ (ii). Niech $ \xx_j\in A\setminus\{\aa\} $ będzie zbieżnym do $ \aa $ ciągiem punktów, dla którego zachodzi warunek defTaA. Ponieważ $ \xx_j\in A $, więc z definicji $ f(\xx_j)=0 $. Wobec różniczkowalności $ f $ w $ \aa $, mamy

\[ \begin{eqnarray*} 0=f(\xx_j)=f\bigr(\aa+(\xx_j-\aa)\bigl)& =& f(\aa) + Df(\aa)(\xx_j-\aa) + o(\|\xx_j-\aa\|) \\ & = & \underbrace{f(\aa)}_{= 0}+\langle\grad f(\aa),\xx_j-\aa\rangle  + o(\|\xx_j-\aa\|) \\ & = & \langle\grad f(\aa),\xx_j-\aa\rangle  + o(\|\xx_j-\aa\|), \qquad j\to\infty, \end{eqnarray*} \]

a zatem

\[ 0=\left\langle \grad f(a),\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\right\rangle +\frac{o(\|\xx_j-\aa\|)}{\norm{\xx_j-\aa}}\, . \]

Zgodnie z defTaA, $ ({\xx_j-\aa})/{\norm{\xx_j-\aa}}\to \ww/\|\ww\| $, gdy $ j\to \infty $. Zatem

\[ 0=\lim_{j\to\infty}\left\langle \grad f(a),\frac{\xx_j-\aa}{\norm{\xx_j-\aa}}\right\rangle =\left\langle \grad f(a),\frac{\ww}{\norm{\ww}}\right\rangle =\langle \grad f(a),\ww\rangle\, . \]

Dowód implikacji (ii) $ \Rightarrow $ (i) jest nieco trudniejszy. Niech $ \vv=\grad f(a)\not=0 $. Ustalmy najpierw, posługując się wprost definicją różniczki i gradientu, liczbę $ t>0 $ tak, aby mieć

\[ f(\aa+t\cdot \vv) > 0=f(\aa)> f(\aa-t\cdot \vv)\qquad\mbox{oraz}\qquad t\cdot\|\vv\|< \frac r2\, ; \]

można to zrobić, gdyż $ Df(\aa)\hh= \langle\grad f(\aa),\hh\rangle=\langle \vv,\hh\rangle $ i dla małych $ |t| $ jest

\[    f(\aa+t\vv)=f(\aa)+Df(\aa)(t\vv)+o(|t|)= Df(\aa)(t\vv)+o(|t|)=t\|v\|^2 + o(|t|), \]

a więc znak liczby $ f(\aa+t\vv) $ jest taki, jak znak $ t $. Dalszy ciąg dowodu polega na tym, by wybrać punkty $ \xx_j\in A $, dla których zachodzi warunek z definicji wektora stycznego. Kluczowy krok pod koniec rozumowania wykonujemy nie wprost; w dowodzie istotną rolę odgrywa ciągłość $ f $ w całym otoczeniu $ \aa $. (Czytelnik zechce wykonać rysunek, zakładając, że płaszczyzna kartki jest rozpięta na $ \vv $ i $ \ww $, i zaznaczać położenia kolejnych rozpatrywanych punktów).

Niech $ j\in \N $, $ 0<\frac 1j<t $. Korzystając z ciągłości $ f $ w punktach $ \aa\pm \frac 1j \vv $, wybierzmy liczbę $ \delta_j\in (0,1/j) $ tak, aby

\[ \begin{equation} 	\label{zprawejdod} 	f(\aa+\frac 1j \vv+s\ww)>0 \qquad\mbox{dla wszystkich $|s|\le\delta_j$} \end{equation} \]

i jednocześnie

\[ \begin{equation}  	\label{zlewejuj} 	f(\aa-\frac 1j \vv+s\ww)< 0 \qquad\mbox{dla wszystkich $|s|\le\delta_j$.} \end{equation} \]

Założymy też, że punkty $ \aa\pm \frac 1j\vv +\delta_j \ww\in B(\aa,r) $.

Dla każdego dostatecznie dużego $ j\in \N $ funkcja

\[ [-1/j,1/j]\ni \theta\longmapsto \phi_j(\theta) = f(\aa+\theta\vv+\delta_j\ww) \in \R \]

jest ciągła i na końcach odcinka $ [-1/j,1/j] $ ma wartości różnych znaków, zatem istnieje punkt $ \theta_j\in (-1/j,1/j) $ taki, że $ \phi_j(\theta_j)=0 $, lub równoważnie

\[ \xx_j\stackrel{\text{ozn.}}=\aa+\theta_j\vv +\delta_j \ww\in A=\{f=0\}\, . \]

Ponieważ $ \delta_j\in (0,1/j) $ i $ |\theta_j|<1/j $, więc $ \xx_j\not= \aa $ i $ \xx_j\to \aa $ dla $ j\to \infty $. Korzystając ze zwartości sfery jednostkowej $ \S^{n-1}=\{\uu\colon \|\uu\|=1\} $, możemy założyć (przechodząc w razie potrzeby do odpowiedniego podciągu), że

\[ \frac{\xx_j-\aa}{\norm{\xx_j-\aa}} =\alpha_j\vv+\beta_j\ww \longrightarrow \uu_0= \alpha \vv +\beta \ww\in \S^{n-1}\, ,  \qquad j\to \infty \]

gdzie współczynniki $ \alpha_j\to \alpha $, $ \beta_j\to \beta $ dla $ j\to\infty $. Zauważmy, że $ \beta_j=\delta_j/\|\xx_j-\aa\|>0 $. Dlatego $ \beta=\lim\beta_j\ge 0 $.

Z definicji, wektor $ \uu_0\in T_{\maa}A $. Gdyby $ \alpha\not=0 $, to mielibyśmy

\[ \langle\uu_0,\vv\rangle=\alpha \|\vv\|^2+\beta\langle \ww,\vv\rangle\stackrel{\text{(i)}}= \alpha \|\vv\|^2\not=0. \]

Byłoby więc $ \uu_0\in T_{\maa}A $ i nie zachodziłby warunek (ii), co przeczyłoby udowodnionej już implikacji (i) $ \Rightarrow $(ii).

Dlatego musi być $ \alpha=0 $. Ponieważ $ \uu_0\not=0 $, więc $ \beta\not=0 $, czyli $ \beta>0 $. Wykazaliśmy zatem, że

\[ \uu_0=\beta \ww\in T_{\maa} A, \qquad \beta>0\, . \]

Zgodnie z Uwagą [link], $ \ww\in T_{\maa} A $. □

Zadanie Wskazać przykład funkcji $ f\colon \R^2\to\R $ różniczkowalnej w $ \aa=(0,0)\in \R^2 $, $ \grad f(0,0)=(1,0) $, dla której nie zachodzi implikacja (ii) $ \Rightarrow $ (i) w ostatnim twierdzeniu.

     Wskazówka. Podzielić płaszczyznę na trzy obszary (dolną półpłaszczyznę $ y<0 $ i dwie ćwiartki górnej półpłaszczyzny); na jednym z nich przyjąć $ f(x,y)=x $, a na dwóch pozostałych $ f(x,y)=x\pm y^2 $, tak, aby zbiór $ A=\{f=0\} $ był półprostą domkniętą o końcu wpunkcie $ \aa $.

Przykład [styczna do okręgu] Niech $ f(x,y)=x^2+y^2-R^2 $, gdzie $ R>0 $. Zbiór $ \{f=0\} $ to okrąg $ \gamma_R $ o promieniu $ R>0 $. Gradient funkcji $ f $ w punkcie $ (x,y)\in \gamma_R $ to wektor $ 2(x,y) $, współliniowy z promieniem okręgu $ \gamma_R $, prowadzącym do punktu $ (x,y) $. Twierdzenie [link] implikuje więc, że styczna do okręgu jest prostopadła do promienia, poprowadzonego w punkcie styczności.
Zadanie Proszę wykazać, że jeśli $ P $ jest płaszczyzną styczną (w sensie Definicji [link]) do wykresu funkcji różniczkowalnej $ f\colon \R^n\supset\Omega\to\R $ w punkcie $ (\aa,f(\aa)) $, to dla każdego punktu $ (\xx,x_{n+1})\in P $ wektor

\[ 	\vv=(\xx,x_{n+1}) - (\aa,f(\aa))\in \R^{n+1} 	\]

jest styczny (w sensie Definicji [link]) do wykresu funkcji $ f $. Można posłużyć się Twierdzeniem [link], tzn. przedstawić wykres funkcji $ n $ zmiennych jako poziomicę pewnej funkcji $ n+1 $ zmiennych.