Pochodne cząstkowe, kierunkowe i różniczka zupełna

Definicja [pochodna cząstkowa] (#) Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie zbiór $ \Omega\subset \R^n $ jest otwarty, ma w punkcie $ \aa=(a_1,\ldots,a_n)\in \Omega $ pochodną cząstkową względem zmiennej $ x_i $ wtedy i tylko wtedy, gdy funkcja jednej zmiennej rzeczywistej

\[ \begin{equation} F_i(t) = f(a_1,\ldots, a_{i-1},t,a_{i+1},\ldots, a_n), \qquad F_i\colon (a_i-\delta,a_i+\delta) \to \R^m    \end{equation} \]

ma pochodną w punkcie $ a_i $, gdzie $ \delta>0 $ wybieramy tak, aby odcinek $ (\aa-\delta\ee_i,\aa+\delta\ee_i)\subset \Omega $. Przyjmujemy

\[ \begin{equation}  	\label{def-pcz} 	\pcz{f}{x_i}(\aa)=F_i'(a_i)=\lim_{h\to 0}\frac{f(\aa+h\ee_i)-f(\aa)}h\, . \end{equation} \]

Używa się także innych oznaczeń:

\[ D_i f(\aa) =  f_{x_i}(\aa)=\pcz{f}{x_i}(\aa)\, . \]

Jak widać, pochodną cząstkową $ \pcz{f}{x_i} $ obliczamy, traktując wszystkie zmienne oprócz $ x_i $ jako ustalone parametry i wykonując różniczkowanie względem $ x_i $. Obowiązują przy tym oczywiście wszystkie reguły, które Czytelnik poznał, ucząc się rachunku różniczkowego funkcji jednej zmiennej rzeczywistej. Np. jeśli

\[ f(x,y,z)= x^2 + x\cos (y z) + z\exp(x^2)\, , \]

to

\[  \begin{gather*} \pcz{f}{x}(x,y,z) = 2 x + \cos(y z)+2zx\exp(x^2)\, , \qquad   \pcz{f}{y}(x,y,z) = -xz\sin(y z)\, , \\ \pcz{f}{z}(x,y,z) = -xy\sin(y z) +\exp(x^2)\, .  \end{gather*}     \]
Uwaga Ze wzoru def-pcz wynika, że gdy wartości $ f $ są liczbami rzeczywistymi, tzn. $ m=1 $ w Definicji [link], to także $ \pcz{f}{x_i}(\aa) $ - tam, gdzie jest określona - jest liczbą rzeczywistą. Jeśli $ m>1 $, to $ \pcz{f}{x_i}(\aa) $ jest wektorem z przestrzeni $ \R^m $.

Podkreślmy od razu, że samo istnienie pochodnych cząstkowych funkcji $ f $ nie gwarantuje\/ ciągłości funkcji.

Przykład

  1. Niech $ f\colon\R^2\to \R $ bedzie funkcją charakterystyczną zbioru $ A=\{(x,y)\in \R^2: y=x^2, y\not=0\} $, tzn. niech $ f\equiv 1 $ na $ A $ i $ f\equiv 0 $ na $ \R^2\setminus A $. Na obu osiach układu współrzędnych mamy $ f\equiv 0 $ i dlatego, wprost z definicji,
    \[ \pcz{f}{x}(\zero)=0=\pcz{f}{y}(\zero)\, . \]

    Jednak $ f $ nie jest ciągła w zerze, gdyż $ f(\zero)=0\not=\lim_{j\to\infty} f(1/j,1/j^2) $.

  2. Rozpatrzmy ponownie funkcję z Przykładu [link]:
    \[ \begin{equation}  	\label{zlafunkcja}   f(x,y)=\left\{ 	\begin{array}{ll} 		\displaystyle\frac{yx^2}{y^2+x^4}\, , \qquad & (x,y)\not=(0,0),\\[12pt] 	   0, & (x,y)=(0,0).    \end{array}\right.  \end{equation} \]

    Jeśli $ (x,y)\not=(0,0)\in \R^2 $, to

    \[ \begin{eqnarray} \pcz{f}{x}(x,y)&=&\frac{2xy(y^2+x^4)-4x^3\cdot yx^2}{(y^2+x^4)^2}=\frac{2xy(y^2-x^4)}{(y^2+x^4)^2}\, , \\   \pcz{f}{y}(x,y)&=&\frac{x^2(y^2+x^4)-2y\cdot yx^2}{(y^2+x^4)^2} =\frac{-x^2(y^2-x^4)}{(y^2+x^4)^2}\, . \end{eqnarray} \]

    Podobnie jak w poprzednim przykładzie, $ f\equiv 0 $ na obu osiach układu współrzędnych mamy i dlatego

    \[ \pcz{f}{x}(\zero)=0=\pcz{f}{y}(\zero)\, . \]

    Jednak wiemy już, że $ f $ nie jest ciągła w punkcie $ \zero\in \R^2 $.

Przykład Niech $ f\colon \R\to \R $ będzie funkcją różniczkowalną i niech $ G(x)=(x,f(x)) $, $ G\colon \R\to \R^2 $. Wówczas $ \pcz{G}{x}=G'(x)=(1,f'(x)) $. Interpretacja geometryczna jest prosta: $ G'(x) $ jest wektorem stycznym do wykresu $ f $ w punkcie $ (x,f(x))\in \R^2 $.
Definicja [pochodna kierunkowa] Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie zbiór $ \Omega\subset \R^n $ jest otwarty, ma w punkcie $ \aa=(a_1,\ldots,a_n)\in \Omega $ pochodną kierunkową względem wektora $ \vv\in \R^n\setminus\{\zero\} $ wtedy i tylko wtedy, gdy funkcja jednej zmiennej rzeczywistej

\[ \begin{equation} F_{\mvv}(t) = f(\aa+t\vv), \qquad F_{\mvv}\colon (-\delta,\delta) \to \R^m    \end{equation} \]

ma pochodną w zerze. (Liczbę $ \delta>0 $ wybieramy tak, by odcinek $ (\aa-\delta\vv,\aa+\delta\vv)\subset \Omega $.) Przyjmujemy

\[ \begin{equation}  	\label{def-pkier} 	\pcz{f}{\vv}(\aa)=(F_{\mvv})'(0)=\lim_{h\to 0}\frac{f(\aa+h\vv)-f(\aa)}h\, . \end{equation} \]

Używa się także innych oznaczeń:

\[ D_{\mvv} f(\aa) =  f'_{\mvv}(\aa)=\pcz{f}{\vv}(\aa)\, . \]
Uwaga Zauważmy, że pochodna kierunkowa względem $ \ee_i $ jest tym samym, co pochodna cząstkowa względem $ \ee_i $:

\[ 	D_{\mee_i}f(\aa) =\pcz{f}{x_i}(\aa)\, . 	\]

Przykład Raz jeszcze rozpatrzmy funkcję z Przykładu [link], daną wzorem zlafunkcja. Dla $ \aa=\zero $ i dowolnego wektora $ \vv=(\xi,\eta)\in \R^2 $, gdzie $ \xi,\eta\not=0 $, iloraz

\[ \frac{f(\aa+h\vv)-f(\aa)}{h}= \frac 1h\cdot\frac{h^3\xi^2\eta}{h^2\eta^2+h^4\xi^4}= \frac{\xi^2\eta}{\eta^2+h^2\xi^4}  \to \frac{\xi^2}{\eta}\qquad\mbox{dla $h\to 0$.} \]

Zatem $ f $ ma w zerze wszystkie pochodne kierunkowe (sprawdzaliśmy już istnienie pochodnych cząstkowych). Nietrudno stwierdzić, że w pozostałych punktach $ \R^2 $ funkcja $ f $ też ma wszystkie pochodne kierunkowe. Wynika stąd, że nawet istnienie wszystkich pochodnych kierunkowych w każdym punkcie dziedziny nie gwarantuje ciągłości funkcji wielu zmiennych rzeczywistych.

Właściwym odpowiednikiem pojęcia pochodnej jest, dla funkcji wielu zmiennych, pojęcie różniczki.

Definicja [różniczkowalność funkcji wielu zmiennych] Mówimy, że funkcja $ f\colon \R^n\supset\Omega\to \R^m $, gdzie $ \Omega\subset\R^n $ jest zbiorem otwartym, jest różniczkowalna w punkcie $ \aa\in \Omega $ wtedy i tylko wtedy, gdy istnieje przekształcenie liniowe $ A\colon \R^n\to\R^m $ takie, że

\[ \begin{equation}   	\label{defrozniczki} 		\lim_{\|h\|\to 0}\frac{\| f(\aa+\hh)-f(\aa)-A\hh\|}{\|\hh\|} = 0\, . \end{equation} \]

Przekształcenie $ A $ nazywamy różniczką (lub pochodną, lub różniczką zupełną) $ f $ w punkcie $ \aa $\/ i oznaczamy $ Df(\aa) $ lub $ f'(\aa) $.

Stwierdzenie (#) Niech $ f\colon \R^n\supset\Omega\to \R^m $, gdzie $ \Omega\subset\R^n $ jest zbiorem otwartym. Następujące warunki są równoważne:

  1. $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $;
  2. istnieją przekształcenie liniowe $ A\colon \R^n\to \R^m $ i funkcja
    \[ 		r\colon \Omega_{\maa}=\{\hh\in \R^n\colon \aa+\hh\in \Omega\}\to\R^m 	\]

    ciągła w punkcie $ \hh=\zero $, $ r(\zero)=\zero $, dla których zachodzi równość

    \[ \begin{equation} 			\label{A-i-r} 			f(\aa+\hh)=f(\aa)+A\hh+\|\hh\|\cdot r(\hh)\qquad\mbox{dla wszystkich $\hh\in \Omega_{\maa}$.} 	\end{equation} \]

    Jeśli zachodzi warunek (ii), to $ Df(\aa)=A $.

Dowód: Jeśli różniczka $ A=Df(\aa) $ istnieje, to wystarczy określić

\[ r(\hh)=\frac{ f(\aa+\hh)-f(\aa)-A\hh}{\|\hh\|}\quad\mbox{dla $\hh\not=\zero$}\, , \qquad r(\zero)= \zero\, .  \]

Funkcja $ r $ jest określona, gdy $ \aa+\hh\in \Omega $. Ponadto, dzięki warunkowi defrozniczki,

$$\|r(\hh)\|=\frac{\| f(\aa+\hh)-f(\aa)-A\hh\|}{\|\hh\|}\to 0, \qquad\mbox{dla } \|\hh\|\to 0, $$

tzn. równoważnie $ r(\hh)\to \zero $ dla $ \hh\to\zero $. Na odwrót, jeśli zachodzi (ii), to warunek $ r(\hh)\to \zero=r(\zero) $ dla $ \hh\to\zero $ implikuje, że granica we wzorze defrozniczki jest równa zero, tzn. $ A=Df(\aa) $.□

Uwaga Jeśli różniczka $ Df(\aa) $ istnieje, to jest określona jednoznacznie. Istotnie, gdyby wzór A-i-r zachodził dla $ A_i,r_i $, gdzie $ i=1,2 $, to mielibyśmy $ A_1\hh+ \|\hh\|r_1(\hh)=A_2\hh+\|h\|r_2(\hh) $ dla wszystkich $ \hh $ z pewnej kuli $ B(\zero,\delta)\subset \R^n $. Stąd, kładąc $ \hh=t\cdot \vv $, gdzie $ \|\vv\|=1 $ i $ t>0 $, a następnie dzieląc obie strony przez $ t $, otrzymujemy

\[  (A_1-A_2)\vv = r_2(t\vv)-r_1(t\vv)\to \zero\, , \qquad t\to 0. \]

Jednak lewa strona strona nie zależy od $ t $. Zatem przekształcenia liniowe $ A_1 $ i $ A_2 $ pokrywają się na całej sferze jednostkowej $ \S^{n-1}=\{\vv\in \R^n\colon \|\vv\|=1\} $, a więc są równe.

Wniosek (#) Jeśli $ f\colon \R^n\supset \Omega\to \R^m $ jest różniczkowalna w punkcie $ \aa\in\Omega $, to dla każdego niezerowego wektora $ \vv\in \R^n $ jest

\[ 	Df(\aa)\cdot \vv=\pcz{f}{\vv}(\aa)\, . 	\]

W szczególności, dla $ \vv=\ee_i $ jest

\[ Df(\aa)\cdot \ee_i=\pcz{f}{x_i}(\aa)\, , \qquad i=1,\ldots,n. \]
Dowód: Podstawiając w równości A-i-r wektor $ \hh=t\vv $, gdzie $ \vv $ jest ustalony i $ t\not=0 $, otrzymujemy

\[ Df(\aa)\cdot \vv =\frac 1t Df(\aa)\cdot \hh = \frac{f(\aa+t\vv)-f(\aa)}{t}\pm \|\vv\| r(t\vv)\to \pcz{f}{\vv}(\aa), \qquad t\to 0. \]

Lewa strona nie zależy od $ t $; dlatego zachodzi pierwsza równość z tezy wniosku. Druga równość to jej przypadek szczególny (wspominaliśmy już, że pochodna $ f $ w kierunku $ \ee_i $ ipochodna cząstkowa $ \pcz{f}{x_i} $ są równe).□

Wniosek (#) Niech $ \Omega\subset\R^n $ będzie zbiorem otwartym i niech

$$f=(f_1,\ldots,f_m)\colon \R^n\supset\Omega\to\R^m.$$

Następujące warunki są równoważne:

  1. funkcja $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $;
  2. każda z funkcji $ f_i\,  $ jest różniczkowalna w punkcie $ \aa\in \Omega $.

W standardowych bazach przestrzeni $ \R^n $ i $ \R^m $ macierz $ Df_i(\aa)\in M_{1\times n} $ jest wtedy $ i $-tym wierszem macierzy $ Df(\aa)\in M_{m\times n} $.

Dowód: Posługujemy się Stwierdzeniem [link]. Obie strony równości A-i-r są wektorami z $ \R^m $. Równość $ i $-tych współrzędnych tych wektorów ($ i=1,\ldots,m $) jest równoważna różniczkowalności $ f_i $ ($ i=1,\ldots,m $) w punkcie $ \aa\in A $ oraz równości $ Df_i(\aa)\hh=(Df(a)\hh)_i $ dla $ \hh\in \R^n $, tzn. - po utożsamieniu przekształceń liniowych z ich macierzami w standardowych bazach - temu, że $ Df_i(\aa) $ jest $ i $-tym wierszem macierzy $ Df(\aa) $. □
Uwaga [terminologia: macierz Jacobiego] Jak wiadomo z wykładów Algbry Liniowej, przekształcenie liniowe $ A\colon \R^n\to\R^m $ ma w standardowych bazach macierz (oznaczaną zwykle tą samą literą) o $ m $ wierszach i $ n $ kolumnach, której $ j $-tą kolumnę stanowi wektor $ A\ee_j\in \R^m $, gdzie $ \ee_j $ ($ j=1,\ldots, n $) są wektorami standardowej bazy w $ \R^n $. Z dwóch ostatnich wniosków wypływa zatem następująca obserwacja: jeśli

$$f=(f_1,\ldots,f_m)\colon \R^n\supset\Omega\to\R^m\, ,$$

gdzie $ f_i\colon \Omega\to\R $ dla $ i=1,\ldots,m $, jest różniczkowalna w punkcie $ \aa\in \Omega $, to jej różniczka ma w standardowych bazach przestrzeni $ \R^n $ i $ \R^m $ macierz

\[ \begin{equation} 	\label{JacobiM} 	Df(\aa)=\biggl(\pcz {f_i}{x_j}(\aa)\biggr)_{{1\le i\le m}, {1\le j \le n}} = 	\begin{pmatrix} 	\dpcz{f_1}{x_1}(\aa) & \ldots & \dpcz{f_1}{x_n}(\aa) \\ 	\vdots              &        & \vdots \\ 	\dpcz{f_m}{x_1}(\aa) & \ldots & \dpcz{f_m}{x_n}(\aa) \\               	\end{pmatrix} \, . \end{equation} \]

Kolumny tej macierzy to wektory

\[ Df(\aa)\ee_i = \pcz{f}{\ee_i}(\aa)= \pcz{f}{x_i}({\aa}) =  \begin{pmatrix} \dpcz{f_1}{x_i}(\aa) \\ \vdots              \\ \dpcz{f_m}{x_i}(\aa)\\               \end{pmatrix} \in \R^m\, , \qquad i=1\ldots, n. \]

Macierz JacobiM nazywamy macierzą Jacobiego przekształcenia różniczkowalnego $ f $. Dla $ n=m $ wyznacznik tej macierzy nazywamy jakobianem przekształcenia $ f $ w punkcie $ \aa $.

Wniosek Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ jest różniczkowalna w punkcie $ \aa\in \Omega $, to $ f $ jest ciągła w punkcie $ \aa $.
Dowód: Korzystamy ze Stwierdzenia [link](ii) oraz ciągłości przekształceń liniowych: dla $ \hh\to 0 $ jest

\[ f(\aa+\hh)-f(\aa)=Df(\aa)\hh+ \|\hh\|\cdot r(\hh)\to \zero\in \R^m\, , \]

to zaś oznacza, że $ f $ jest ciągła w punkcie $ \aa $. □

Uwaga Wiemy już zatem, że istnienie pochodnych cząstkowych funkcji $ f $ w danym punkcie jest warunkiem koniecznym różniczkowalności $ f $ w tym punkcie. Nie jest jednak warunkiem dostatecznym, gdyż z istnienia pochodnych cząstkowych (a nawet wszystkich pochodnych kierunkowych) nie wynika ciągłość! Poniżej podajemy warunek dostateczny różniczkowalności, wyrażony w języku pochodnych cząstkowych.
Twierdzenie Jeśli $ f\colon \R^n\supset\Omega\to\R^m $ i wszystkie pochodne cząstkowe $ \pcz{f}{x_i} $ istnieją na całej kuli $ B(\aa,r)\subset\Omega $ i są ciągłe w punkcie $ \aa $, gdzie $ r>0 $, to $ f $ jest różniczkowalna w punkcie $ \aa\in \Omega $. Zachodzi wtedy wzór

\[ 	Df(\aa)\hh = \sum_{i=1}^nh_i\pcz{f}{x_i}(\aa)\, , \qquad \hh=(h_1,\ldots,h_n)\in \R^n\, . 	\]

(#)

Dowód: Wobec Stwierdzenia [link], wystarczy przeprowadzić dowód dla $ m=1 $.

Dla uproszczenia (Chodzi o uproszczenie zapisu, a nie istotnych trudności - Czytelnik zechce się nad tym zastanowić. W ogólnym przypadku mielibyśmy w dowodzie do czynienia z sumą $ n $ przyrostów, a nie dwóch. ) przyjmiemy $ n=2 $. Niech odtąd $ \hh=(h_1,h_2) $, $ \|\hh\|<  r $. Aby skorzystać z istnienia pochodnych cząstkowych, wyrazimy przyrost $ f $ na odcinku $ [\aa, \aa+\hh] $ jako sumę przyrostów wzdłuż dwóch odcinków równoległych do osi układu współrzędnych. Stosując twierdzenie Lagrange'a dla funkcji jednej zmiennej rzeczywistej o wartościach rzeczywistych do funkcji

\[ F_1(t)=f(a_1+t,a_2+h_2), \qquad t\in [0,h_1], \]

oraz

\[ F_2(t)=f(a_1,a_2+t), \qquad t\in [0,h_2] \]

sprawdzamy, że dla pewnych punktów posrednich $ \theta_i=\theta_i(\hh)\in [0,h_i] $ ($ i=1,2 $) jest

\[ \begin{eqnarray*} f(\aa+\hh)-f(\aa) & = & \Bigl(F_1(h_1) - F_1(0)\Bigr) + \Bigr(F_2(h_2)-F_2(0)\Bigr)\\  & = & h_1 F_1'(\theta_1) + h_2F_2'(\theta_2)  \\ & = & h_1\pcz{f}{x_1} (\underbrace{a_1+\theta_1,a_2+h_2}_{\text{punkt }\mpp_1})  + h_2\pcz{f}{x_2}(\underbrace{a_1,a_2+\theta_2}_{\text{punkt }\mpp_2})\\ & = & \underbrace{h_1\pcz{f}{x_1}(\aa) + h_2\pcz{f}{x_2}(\aa)}_{\text{część liniowa przyrostu}} + R(\hh), \end{eqnarray*} \]

gdzie reszta

\[ R(\hh)=  h_1\left(\pcz{f}{x_1}(\pp_1)-\pcz{f}{x_1}(\aa)\right) + h_2\left(\pcz{f}{x_2}(\pp_2)-\pcz{f}{x_2}(\aa)\right)\, . \]

Z nierówności Schwarza wynika, że dla $ \|\hh\|<\delta<r $ jest

\[ 0\le |R(\hh)|\le \sqrt{2} \|h\| \cdot \max_{i=1,2}\left(\sup_{\mpp\in B(\maa,\delta)} \left|\pcz{f}{x_i}(\pp)-\pcz{f}{x_i}(\aa)\right|\right)\, . \]

Jednak

\[ \sup_{\mpp\in B(\maa,\delta)} \left|\pcz{f}{x_i}(\pp)-\pcz{f}{x_i}(\aa)\right|\qquad \mbox{dla $\delta\to 0$} \]

dzięki ciągłości $ \pcz{f}{x_i} $ w punkcie $ \aa $. Zatem

\[ R(\hh)=\|\hh\|\cdot r(\hh), \]

gdzie $ r(\zero)=0 $ i $ r(\hh)\to 0 $ dla $ \hh\to \zero $. Ze Stwierdzenia [link] wynika teraz, że

\[ Df(\aa)=\Bigl(\, \pcz{f}{x_1}(\aa),\pcz{f}{x_2}(\aa)\Bigr)\, . \]

Dowód został zakończony.□

Na zakończenie tego podrozdziału podkreślmy jedno. Czytelnikowi może wydawać się, że pochodna cząstkowa i być może pochodna kierunkowa to pojęcia naturalniejsze od różniczki. Tak nie jest. Pochodne cząstkowe i kierunkowe określa się po to, żeby badać zachowanie funkcji na prostych. Z przytoczonych przykładów wynika jasno, że nie daje to dostatecznych informacji o zachowaniu funkcji w całym otoczeniu danego punktu. Naturalnym uogólnieniem pochodnej funkcji jednej zmiennej rzeczywistej jest właśnie różniczka. Jej istnienie oznacza, że odwzorowanie $ f $ można lokalnie przybliżać przekształceniami

\[ \xx\mapsto f(\aa)+ Df(\aa)\cdot (\xx-\aa) = f(\xx)+o(\|\xx-\aa\|) \approx f(\xx)\, . \]

Ponadto, przekształcenie liniowe $ Df(\aa) $ koduje w sobie pełną informację o pochodnych kierunkowych i cząstkowych $ f $.