Geometria z Algebrą Liniową

Materiały do zajęć z GAL-u są oparte na naszym wieloletnim doświadczeniu w prowadzeniu tych zajęć na Wydziale MIM UW i są dostosowane do obecnego programu tego przedmiotu.

Spośród wielu możliwych realizacji tego programu wybraliśmy ujęcie podkreślające rolę algebry macierzy i jej ścisłe związki z przekształceniami liniowymi, przy czym duży wpływ na nasz sposób prezentacji miały znakomite książki A. Białynickiego-Biruli, Algebra liniowa z geometrią, G. Birkhoffa i S. Mac Lane'a, Przegląd algebry współczesnej, A.I. Kostrykina, Wstęp do Algebry, tom 2 oraz G. Stranga, Linear algebra and its applications.

Należy wymienić tu też skrypt T. Koźniewskiego, Wykłady z algebry liniowej, który odgrywa bardzo ważną rolę w wykładach i ćwiczeniach z GAL-u na Wydziale MIM.

Układy równań liniowych

W tej części opiszemy metodę rozwiązywania układów $ m $ równań z $ n $ niewiadomymi o współczynnikach rzeczywistych.

Układy równań, macierze

W tej części opiszemy metodę rozwiązywania układów $ m $ równań z $ n $ niewiadomymi o współczynnikach rzeczywistych, tzn.\ układów

$ (\ast)\hspace*{70pt}\left\{  \begin{array}{ccccccccc}      a_{11}x_1& + &     a_{12}x_2 & + & \cdots & + & a_{1n} x_n& = & b_1 \\      a_{21}x_1& + &     a_{22}x_2 & + & \cdots & + & a_{2n} x_n& = & b_2 \\      \vdots   &   &       \vdots  &    &        &  & \vdots     &   & \vdots\\      a_{m1}x_1& + &     a_{m2}x_2 & + & \cdots & + & a_{mn} x_n& = & b_m \\  \end{array} \right. $\ ,

gdzie $ a_{ij}\in\R $ są stałymi współczynnikami, $ b_i\in\R $ są stałymi wyrazami wolnymi, a symbole $ x_j $ oznaczają niewiadome.

Definicja (#) Jeśli wszystkie wyrazy wolne $ b_i $ sa zerami, to układ jest jednorodny.

Współczynniki układu $ (\ast) $ można zapisać w postaci $ (m\times n) $-macierzy

$$\left[\begin{array}{ccccc} a_{11}&a_{12}&\ldots&a_{1n}\\ a_{21}&a_{22}&\ldots&a_{2n}\\ \vdots & \vdots &  & \vdots \\ a_{m1}&a_{m2}&\ldots&a_{mn}  \end{array}\right]; $$

współczynnik $ a_{ij} $ nazywamy $ (i,j) $-tym wyrazem macierzy, a $ (m\times 1) $-macierze i $ (1\times n) $-macierze

$$\mk{c}{a_{1j}\\a_{2j}\\\ldots\\a_{mj}}\mbox{ \ i \ }  [a_{i1},a_{i2},\ldots,a_{in}]$$

nazywamy odpowiednio $ j $-tą kolumną i $ i $-tym wierszem macierzy.

Następujące dwie interpretacje będą odgrywały w przyszłości ważną rolę.

Niech $ \R^m $ będzie przestrzenią kolumn o $ m $ elementach, tzn.\ $ (m\times 1) $-macierzy. Elementy $ \R^m $ będziemy nazywali wektorami wymiaru $ m $, a wyraz takiego wektora stojący w $ i $-tym wierszu jego $ i $-tą współrzędną. Wektor, który ma wszystkie współrzędne zerowe nazywamy {\em wektorem zerowym} i oznaczamy symbolem \nolinebreak $ \0 $. Wektory z $ \R^m $ dodajemy, sumując $ i $-te współrzędne i mnożymy przez liczby (lub symbole $ x $), mnożąc każdą współrzędną osobno.

Tak więc układ ($ \ast $) zapisuje się w postaci

\[  (\ast w)\hspace*{80pt}  x_1\left[\begin{array}{c}a_{11}\\a_{21}\\ \vdots \\a_{m1} \end{array}\right]+  x_2\left[\begin{array}{c}a_{12}\\a_{22}\\ \vdots \\a_{m2} \end{array}\right]+\ldots+  x_n\left[\begin{array}{c}a_{1n}\\a_{2n}\\ \vdots \\a_{mn} \end{array}\right]=  \left[\begin{array}{c}b_1\\b_2\\ \vdots \\b_m  \end{array}\right]. \]

Określając iloczyn macierzy o $ n $ kolumnach przez wektor wymiaru $ n $ o współrzędnych $ x_i $ wzorem

$$\left[\begin{array}{ccccc} a_{11}&a_{12}&\ldots&a_{1n}\\ a_{21}&a_{22}&\ldots&a_{2n}\\ \vdots & \vdots &  & \vdots \\ a_{m1}&a_{m2}&\ldots&a_{mn}  \end{array}\right]  \left[\begin{array}{c}x_1\\x_2\\ \vdots \\x_n  \end{array}\right]=  x_1\left[\begin{array}{c}a_{11}\\a_{21}\\ \vdots \\a_{m1} \end{array}\right]+  x_2\left[\begin{array}{c}a_{12}\\a_{22}\\ \vdots \\a_{m2} \end{array}\right]+\ldots+  x_n\left[\begin{array}{c}a_{1n}\\a_{2n}\\ \vdots \\a_{mn} \end{array}\right]$$

i przyjmując oznaczenia

$$A=\left[\begin{array}{ccccc} a_{11}&a_{12}&\ldots&a_{1n}\\ a_{21}&a_{22}&\ldots&a_{2n}\\ \vdots & \vdots &  & \vdots \\ a_{m1}&a_{m2}&\ldots&a_{mn}  \end{array}\right],\quad X=\left[\begin{array}{c}x_1\\x_2\\ \vdots \\x_n  \end{array}\right],\quad B=\left[\begin{array}{c}b_1\\b_2\\ \vdots \\b_m  \end{array}\right], $$

układ równań ($ \ast $) można zapisać w postaci

\[ (\ast m)\hspace*{200pt}AX=B. \]

Tak więc rozwiązanie układu ($ \ast $) polega na wyznaczeniu, o ile istnieją, wszystkich wektorów $ X $ takich, że wektor wyrazów wolnych $ B $ jest iloczynem macierzy współczynników $ A $ i wektora $ X $.

Definicja (#) Układ równań $ AX=B $, który nie ma rozwiązań nazywamy sprzecznym.

Redukcja wierszowa macierzy

Definicja (#) Dwa układy $ m $ równań z $ n $ niewiadomymi nazywamy równoważnymi jeśli mają taki sam zbiór rozwiązań (w szczególności, jeśli oba są sprzeczne).

Opiszemy teraz trzy operacje na układach równań, które nie zmieniają zbioru rozwiązań i pozwalają zastąpić dany układ równań układem równoważnym o przejrzystej, ``schodkowej'' strukturze:

(I)$ _{a(i)+(k)} $    dodanie do $ k $-tego równania $ i $-tego równania pomnożonego przez $ a $,

(II)$ _{(i)(k)} $    zamiana miejscami $ i $-tego równania z $ k $-tym,

(III)$ _{c(i)} $    pomnożenie $ i $-tego równania przez liczbę $ c\neq 0 $.

Twierdzenie (#) Wykonanie na układzie równań liniowych jednej z wymienionych wyżej operacji nie zmienia zbioru rozwiązań tego układu.
Dowód: Teza jest oczywista dla operacji typu (II) i (III). Rozpatrzmy operację (I)$ _{a(i)+(k)} $ przeprowadzającą układ ($ \ast $) na układ $ (\ast)' $, w którym zmienia się jedynie $ k $-te równanie, otrzymane w wyniku dodania stronami do $ k $-tego równania układu $ (\ast) $ równania $ i $-tego, obustronnie pomnożonego przez $ a $.

Jest jasne, że każde rozwiązanie układu ($ \ast $) jest także rozwiązaniem układu $ (\ast)' $. Ponieważ operacja (I)$ _{(-a)(i)+(k)} $ (odwrotna do (I)$ _{a(i)+(k)} $) przeprowadza układ $ (\ast)' $ na układ $ (\ast) $, także rozwiązania układu $ (\ast)' $ są rozwiązaniami $ (\ast) $. To pokazuje równoważność obu układów. □

Przy takich przekształceniach układu równań $ AX=B $, celowe jest pomijanie zmiennych i wykonywanie operacji na wierszach {\em macierzy rozszerzonej} tego układu

$$[A|B]=[A_1,\ldots,A_n|B],$$

gdzie $ A_j $ są kolejnymi kolumnami macierzy $ A $, $ B $ jest dopisaną jako ostatnia kolumną wyrazów wolnych, a kreska oddzielająca $ B $ od poprzednich kolumn nie ma formalnego znaczenia i ma jedynie przypominać, że przy przejściu do układu równań, rola ostatniej kolumny jest inna niż pozostałych.

Operacjom na układach równań odpowiadają następujące {\em operacje elementarne na wierszach macierzy}:

(I)$ _{a(i)+(k)} $    dodanie do $ k $-tego wiersza $ i $-tego pomnożonego przez $ a $,

(II)$ _{(i)(k)} $    zamiana miejscami $ i $-tego wiersza z $ k $-tym,

(III)$ _{c(i)} $    pomnożenie $ i $-tego wiersza przez liczbę $ c\neq 0 $.

Opiszemy teraz pewne macierze o szczególnie prostej postaci i pokażemy, że każdą macierz można sprowadzić do macierzy takiej postaci operacjami typu (I) i (II), zob.\ Uwagę [link].

Definicja (#) Mówimy, że macierz jest w postaci schodkowej jeśli spełnione są dwa warunki:

     {(S1)}\ \ żaden wiersz zerowy tej macierzy nie poprzedza wiersza niezerowego,

     {(S2)}\ \ pierwsze niezerowe wyrazy (schodki) kolejnych niezerowych wierszy tej macierzy stoją w kolumnach o rosnących numerach.

Twierdzenie (#) Dowolną macierz można sprowadzić do postaci schodkowej operacjami elementarnymi typu {\em(I)} i {\em(II)} na wierszach tej macierzy.
Dowód: Niech $ A $ będzie $ (m\times n) $-macierzą mającą niezerowe wyrazy i niech $ j_1 $ będzie numerem pierwszej niezerowej kolumny $ A $. Zamieniając w razie potrzeby wiersze macierzy $ A $ miejscami (operacja typu (II)) można otrzymać macierz $ \widetilde{A} $ mającą niezerowy wyraz $ a_{1j_{1}} $ w pierwszym wierszu kolumny o numerze $ j_{1} $:

$$\widetilde{A} = \left[\begin{array}{rcrcrcc} 0&\ldots&0&a_{1j_{1}}&\ldots&a_{1n}\\ 0&\ldots&0&a_{2j_{1}}&\ldots&a_{2n}\\\vdots &  &\vdots &\vdots &  & \vdots\\ 0&\ldots&0&a_{mj_{1}}&\ldots&a_{mn}\\\end{array}\right].$$

Odejmując kolejno, dla $ i = 2,3,\ldots ,m $, od $ i $-tego wiersza macierzy $ \widetilde{A} $ pierwszy wiersz pomnożony przez $ a_i=\frac{a_{i j_{1}}}{a_{1j_{1}}} $ (czyli wykonując operację

(I)$ _{(-a_i)(1)+(i)} $) otrzymujemy macierz $ A' $, w której kolumny o numerach mniejszych niż $ j_{1} $ są zerowe, a jedynym niezerowym wyrazem w kolumnie o numerze $ j_{1} $ jest $ a_{1j_{1}} $:

$$A'= \left[\begin{array}{rcrccrc}  0&\ldots &0&a_{1j_{1}}&a_{1j_{1}+1}&\ldots&a_{1n}\\  0&\ldots&0&0&a_{2j_{1}+1}'&\ldots&a_{2n}'\\  \vdots &  &\vdots &\vdots&\vdots &  & \vdots \\  0&\ldots&0&0&a_{mj_{1}+1}'&\ldots&a_{mn}'\\  \end{array}\right].$$

W następnym kroku powtarzamy tę procedurę dla macierzy $ A' $ ignorując wyrazy pierwszego wiersza tej macierzy. Znajdujemy $ j_2>j_1 $ i macierz $ A''\in\M{m}{n}{\R} $ (pierwszy wiersz $ A'' $ jest taki jak pierwszy wiersz $ A' $) taką, że wyraz drugiego wiersza kolumny o numerze $ j_2 $ jest niezerowy, a wszystkie wyrazy pod nim oraz wyrazy z wcześniejszych kolumn (z wyjątkiem ignorowanych wyrazów pierwszego wiersza) są zerowe.

Po kolejnych analogicznych krokach dochodzimy do $ (m\times n) $-macierzy $ A^{(r)} $ w postaci schodkowej mającej w $ r $ niezerowych wierszach pierwsze niezerowe wyrazy (schodki) w kolumnach o numerach $ j_1<\ldots<j_r $. □

Uwaga (#) W twierdzeniu [link] można ograniczyć się do operacji typu (I). Operację (II)$ _{(1)(i)} $, którą stosowaliśmy przy przejściu od $ A $ do $ \widetilde{A} $ w przypadku, gdy w kolumnie o numerze $ j_1 $ pierwszy wyraz jest zerowy, a $ i $-ty różny od zera, można zastąpić operacją (I)$ _{1(i)+(1)} $. Analogicznie można postępować w kolejnych krokach.

Eliminacja Gaussa

Metoda eliminacji Gaussa polega na wykorzystaniu Twierdzenia [link] do analizy układów równań liniowych.

Niech $ AX=B $ będzie układem $ m $ równań z $ n $ niewiadomymi.

Zgodnie z Twierdzeniem [link], macierz rozszerzoną $ [A|B] $ można zredukować operacjami elementarnymi typu (I) i (II) (ignorując kreskę oddzielającą $ A $ i $ B $) do postaci schodkowej $ [A'|B'] $, przy czym, zgodnie z Twierdzeniem [link], układy równań $ AX=B $ i $ AX'=B' $ są równoważne.

Tak więc, należy ustalić, czy układ $ A'X=B' $ jest niesprzeczny i jeśli tak - wyznaczyć wszystkie jego rozwiązania.

Załóżmy, że macierz $ [A'|B'] $ ma $ r $ niezerowych wierszy, których pierwsze niezerowe wyrazy stoją w kolumnach o numerach $ j_1<j_2<\ldots<j_r $.

Jeśli $ j_r=n+1 $ (schodek ostatniego niezerowego wiersza macierzy $ [A'|B'] $ znajduje się w ostatniej kolumnie $ B' $ tej macierzy), to układ $ A'X=B' $ (a więc i układ $ AX=B $) jest sprzeczny.

W przeciwnym wypadku ($ j_r<n+1 $) wszystkie rozwiązania układu $ AX=B $ znajdujemy wyznaczając z układu $ A'X=B' $ niewiadome $ x_{j_1},x_{j_2},\ldots,x_{j_r} $ ({\em zmienne zależne}) w zależno"sci od pozostałych niewiadomych, które mogą przyjmować dowolne warto"sci ({\em zmienne niezależne, parametry}).

Kolejne zmienne zależne $ x_{j_r},x_{j_{r-1}},\ldots x_{j_1} $ wyznaczamy wtedy z kolejnych równań układu $ A'X=B' $, zaczynając od ostatniego niezerowego (tak więc, w pewnym sensie, wyznaczając kolejne zmienne zależne od ostatniej do pierwszej ``wchodzimy po schodkach'' układu równań).

Zmienna zależna $ x_{j_k} $ wyliczana z $ k $-tego równania zależy wyłącznie od zmiennych niezależnych o numerach większych niż $ j_k $ (za zmienne zależne o numerach większych niż $ j_k $ podstawiamy znalezione wcze"sniej zależno"sci).

Uwaga (#) Rozwiązanie $ X\in\R^n $ zależy od $ n-r $ współrzędnych $ X $ - zmiennych niezależnych i można je przedstawić w postaci (zwanej rozwiązaniem ogólnym układu $ AX=B $)

   $ X=X_0+t_1X_1+t_2X_2+\ldots+t_pX_p\ , $

gdzie $ t_1,t_2,\ldots,t_p $ są zmiennymi niezależnymi ($ p=(n-r) $ jest liczbą kolumn macierzy $ A' $ bez schodków).

W praktyce, zamiast wyliczać rozwiązanie ogólne $ X $, wygodnie jest obliczyć wektory $ X_0,X_1,\ldots,X_p $ występujące we wzorze na $ X $, podstawiając za zmienne niezależne odpowiednie wartości:

\qquad $ X_0 $ jest rozwiązaniem $ A'X=B' $ odpowiadającym parametrom $ t_j=0 $ dla $ j=1,2,\ldots,p $,

\qquad $ X_k $ jest rozwiązaniem $ A'X=\0 $ odpowiadającym parametrom $ t_k=1 $ oraz $ t_j=0 $ dla $ j\neq k $

\hspace*{37pt} ($ X_k=(X_0+X_k)-X_0 $ jest rozwiązaniem $ A'X=\0 $ jako różnica dwóch rozwiązań $ A'X=B' $).

Liczby zespolone, ciała

Nasza dyskusja równań liniowych opierała się na jedynie na regułach arytmetyki liczb rzeczywistych i zbiór liczb rzeczywistych można tu zastąpić innymi obiektami algebraicznymi - ciałami, których elementy można dodawać i mnożyć zgodnie z analogicznymi regułami.

Z punktu widzenia tego wykładu najważniejszym, obok $ \R $, ciałem jest ciało liczb zespolonych, które otrzymuje się dołączając do $ \R $, w możliwie oszczędny sposób, rozwiązanie równania $ x^2=-1 $ (którego nie ma w ciele $ \R $).

Wspomnimy też jednak o ciałach zupełnie innego typu - ciałach skończonych $ \Z_p $.

Liczby zespolone

Liczby rzeczywiste $ \R $ rozszerzymy dołączając ``liczbę urojoną'' $ \sqrt{-1} $ oznaczaną symbolem $ i $, tak aby na otrzymanych ``liczbach zespolonych'' można było wykonywać algebraiczne operacje dodawania i mnożenia zgodnie ze standardowymi regułami arytmetyki liczb rzeczywistych.

W części [link] pokażemy, że dołączenie $ \sqrt{-1} $ prowadzi do systemu liczbowego, w którym każdy wielomian stopnia dodatniego $ a_0+a_1 x^1+\ldots+a_n x^n $ ma pierwiastek (zasadnicze twierdzenie algebry).

Definicja Liczbami zespolonymi będziemy nazywać wyrażenia postaci $ a+ib $ $ ( $gdzie $ i=\sqrt{-1} $ oraz $ a+ib=c+id \iff a=c $, $ b=d) $ z następującymi operacjami dodawania $ \oplus $ i mnożenia $ \odot\, $:

$$(a+ib)\oplus(c+id)=(a+c)+i(b+d)\ ;\qquad (a+ib)\odot(c+id)=(ac-bd)+i(ad+bc)$$

Zbiór liczb zespolonych z tak określonymi działaniami oznaczamy symbolem $ \c $.

Uwaga

  • [(a)] Wyrażenie $ a+i0 $ zapisujemy jako $ a $ i utożsamiamy je z liczbą rzeczywistą $ a $. W ten sposób $ \R\subset \c $, przy czym działania $ \oplus $ i $ \odot $ pokrywają się na $ \R $ ze zwykłym dodawaniem i mnożeniem.

  • [(b)] %Wyrażenie $ 0+ib $, $ b\neq 0 $ zapisujemy jako $ ib $ $ (i $ jeśli $ b=1) $; w szczególności $ i\odot i = -1 $, tzn.\ $ i^2=-1 $ w $ \c $. Zamiast $ 0+ib $, $ b\neq 0 $ piszemy $ ib $ (lub $ i $ jeśli $ b=1) $; w szczególności $ i\odot i = -1 $, tzn.\ $ i^2=-1 $ w $ \c $.
  • [(c )] Liczbę zespoloną $ z=a+ib $ można interpretować jako punkt $ (a,b) $ płaszczyzny kartezjańskiej. Współrzędne $ a,b $ tego punktu będziemy nazywać odpowiednio {\em częścią rzeczywistą} $ \Re z $ i {\em częścią urojoną} $ \Im z $ liczby $ z $
Uwaga (#)Dodawanie i mnożenie liczb zespolonych spełniają standardowe reguły arytmetyki liczb rzeczywistych, mają elementy neutralne ze względu na dodawanie i mnożenie (zero i jedynkę); w $ \c $ wykonlne są operacje odejmowania i dzielenia przez liczby różne od zera:

\[ \begin{tabular}{l[1cm]lll} (1)& przemienność  &$\ z_1\oplus z_2=z_2\oplus z_1$,&$\ z_1\odot z_2= z_2\odot z_1$;\\ (2)& łączność &$(z_1\oplus z_2)\oplus z_3=z_1\oplus(z_2\oplus z_3)$, & $(z_1\odot z_2)\odot z_3=z_1\odot (z_2\odot z_3)$;\\ (3)& elementy neutralne &$0$ dla dodawania: $z\oplus 0=z$,& $1$ dla mnożenia: $1\odot z=z$;\\ (4)&istnienie elementu &przeciwnego $-z$: $z\oplus -z=0$& odwrotnego $z^{-1}$, dla $z\neq 0$: $z\odot z^{-1}=1$\\ && $-(a+ib)=(-a)+i(-b)$,& $a+ib\neq0$, to $(a+ib)^{-1}=(\frac{a}{a^2+b^2})+i(\frac{-b}{a^2+b^2})$;\\ \vspace{15pt} (5)&rozdzielność&  mnożenia względem dodawania& $z_1\odot (z_2\oplus z_3)=z_1\odot z_2\oplus z_1\odot z_3$. \end{tabular}\vspace{-25pt} \]

W dalszym ciągu zamiast $ \oplus $ i $ \odot $ będziemy używali zwykłych symboli dodawania i mnożenia w $ \R $. Odejmowanie definiujemy jako dodanie liczby przeciwnej $ z_1-z_2=z_1+(-z_2) $, dzielenie jako mnożenie przez liczbę odwrotną $ {z_1}:{z_2}=\frac{z_1}{z_2}=z_1(z_2^{-1}) $, $ n $-tą potęgę $ z^n $ jako iloczyn $ n $ egzemplarzy liczby $ z $, dla $ n>0 $, $ z^0=1 $ i $ z^{-n}=(z^{-1})^n $, tzn.\ rozszerzamy na $ \c $ konwencje związane z działaniami w $ \R $.

Postać trygonometryczna

Modułem liczby zespolonej $ z=a+ib $ nazywamy liczbę $ |z|=\sqrt{a^2+b^2}\in\R $. Interpretując liczbę $ z\neq 0 $ jako punkt $ (a,b) $ płaszczyzny kartezjańskiej widzimy, że $ |z| $ jest odległością $ z $ od $ 0 $, a liczba $ \frac{z}{|z|} $ odpowiadająca punktowi okręgu jednostkowego na płaszczyźnie ma postać $ \frac{z}{|z|}=\cos\theta+i\sin\theta $, gdzie kąt $ \theta $ zwany argumentem $ z $ i oznaczany przez $ \arg z $ jest wyznaczony z dokładnością do całkowitych wielokrotności $ 2\pi $.

Otrzymujemy stąd zapis liczby zespolonej $ z\neq 0 $ w postaci trygonometrycznej

\fbox{$ z=|z|(\cos\theta+i\sin\theta) $,}

gdzie $ |z| $ jest modułem $ z $, a $ \theta $ argumentem $ z $.

Twierdzenie (#) Niech $ z_1=|z_1|(\cos\theta_1+i\sin\theta_1) $, $ z_2=|z_2|(\cos\theta_2+i\sin\theta_2) $. Wtedy

$$z_1z_2=|z_1||z_2|(\cos(\theta_1+\theta_2)+i\sin(\theta_1+\theta_2)),$$

tzn.\ moduł iloczynu jest iloczynem modułów, a argument iloczynu jest sumą argumentów czynników.

Dowód: $ z_1z_2=|z_1|(\cos\theta_1+i\sin\theta_1)|z_2|(\cos\theta_2+i\sin\theta_2)= |z_1||z_2|(\cos\theta_1+i\sin\theta_1)(\cos\theta_2+i\sin\theta_2)= |z_1||z_2|(\cos\theta_1\cos\theta_2-\sin\theta_1\sin\theta_2+ i(\sin\theta_1\cos\theta_2+\cos\theta_1\sin\theta_2))= |z_1||z_2|(\cos(\theta_1+\theta_2)+i\sin(\theta_1+\theta_2)) $.\ \ □
Stwierdzenie (Formuła de Moivre'a) $ (\cos\theta+i\sin\theta)^n= \cos(n\theta)+i\sin(n\theta) $.

Sprzężeniem liczby $ z=a+ib $ nazywamy liczbę $ \overline{z}=a-ib $. Dla $ z\neq0 $ mamy $ z\overline{z}=|z|^2 $ i $ \frac{1}{z}=\frac{\overline{z}\ }{|z|^2} $. %(różnica $ \overline{z}=a-ib=a+i(-b) $).

Pierwiastki z jedności

Ustalmy liczbę naturalną $ n>1 $. Pierwiastkiem stopnia $ n $ z jedności będziemy nazywać każdą liczbę zespoloną $ z $ taką, że $ z^n=1 $.

Niech $ \om=\cos\frac{2\pi}{n}+i\sin\frac{2\pi}{n} $. Z formuły de Moivre'a wynika natychmiast, że liczby $ \om^k=\cos\frac{2k\pi}{n}+i\sin\frac{2k\pi}{n} $, $ k=0,1,\ldots,n-1 $, są wszystkimi pierwiastkami stopnia $ n $ z jedności.

Punkty płaszczyzny kartezjańskiej odpowiadające pierwiastkom stopnia $ n $ z jedności są wierzchołkami $ n $-kąta foremnego wpisanego w okrąg jednostkowy, mającego wierzchołek w $ \om^0=1 $.

Pierwiastek stopnia $ n $ z jedności nazywamy pierwotnym jeśli nie jest nie jest pierwiastkiem z jedności stopnia $ <n $. Do scharakteryzowania pierwiastków pierwotnych skorzystamy z następującego faktu związanego z dzieleniem z resztą liczb naturalnych.

Lemat (#) Dla względnie pierwszych liczb naturalnych $ 0<k<n $ istnieją liczby całkowite $ l,t $ takie, że $ lk+tn=1 $. Co więcej, można zakładać, że $ 0<l<n $.
Dowód: Niech $ d $ będzie najmniejszą liczbą dodatnią postaci $ d=sk+tn $, gdzie $ s,t $ są całkowite. Wystarczy pokazać, że $ d $ jest dzielnikiem $ k $ i $ n $. Dla reszty $ r=k-qd $ z dzielenia $ k $ przez $ d $ mamy $ r=k-q(sk+tn)= (1-qs)k+(-t)n $, więc $ r=0 $ z minimalności $ d $. Analogicznie pokazuje się, że $ d $ dzieli $ n $.

Drugą część tezy otrzymujemy przyjmując za $ l $ resztę z dzielenia $ s $ przez $ n $. Wtedy $ s=qn+l $, więc $ 1=sk+tn=(qn+l)k+tn=lk+(qk+t)n $ i w szczególności $ l>0 $. □

Twierdzenie Pierwiastek $ \om^k=\cos\frac{2k\pi}{n}+i\sin\frac{2k\pi}{n} $, $ 1<k<n $ stopnia $ n $ z jedności jest pierwotny wtedy i tylko wtedy, gdy $ k $ i $ n $ są względnie pierwsze.
Dowód: Niech $ k $ i $ n $ będą względnie pierwsze. Z lematu istnieją $ l,t $ takie, że $ 1=lk+tn $, a stąd $ \om=\om^{lk+tn}=\om^{lk}(\om^{n})^t=\om^{lk} $.

Załóżmy teraz, że $ d>1 $ jest wspólnym dzielnikiem $ k $ i $ n $, a $ q $ oraz $ m $ są takie, że $ k=qd $ oraz $ n=md $. Wtedy $ (\om^k)^m=(\om^{qd})^m=(\om^{md})^q=1 $, więc pierwiastek $ \om^k $ nie jest pierwotny □

Ciała

Własności dodawania i mnożenia w $ \R $ i w $ \c $ zebrane w Uwadze [link], stanowią punkt wyjścia definicji ciała.

Definicja (#) Zbiór $ K $ z dwoma ustalonymi elementami: $ 0,1 $ $ (\,0\neq 1) $ oraz dwoma działaniami: dodawania ``$ + $'' i mnożenia ``$ \cdot $'' nazywamy ciałem jeśli dla dowolnych $ a,b,c\in K $ spełnione są warunki $ ( $dziewięć aksjomatów ciała$ ) $

\[ \begin{tabular}{l[1cm]lllll} $(1)$& przemienność  &&\quad$\ a+b=b+ a$,&&$\ a\cdot b= b\cdot a$;\\ $(2)$& łączność &&\quad$(a+b)+c=a+(b+c)$, && $(a\cdot b)\cdot c=a\cdot (b\cdot c)$;\\ $(3)$& elementy neutralne &&\quad$0$ dla dodawania: $a+0=a$,&& $1$ dla mnożenia: $1\cdot a=a$;\\ $(4)$&istnienie elementu &&\quad przeciwnego $a'$: $a+ a'=0$,&& odwrotnego $a^*$, dla $a\neq 0$: $a\cdot a^*=1$;\\ $(5)$&rozdzielność&&  mnożenia względem dodawania&& $a\cdot (b+c)=a\cdot b+ a\cdot c$. \end{tabular} \]

Dla podkreślenia, że ciało to zbiór z wyróżnionymi zerem i jedynką oraz z ustalonymi działaniami, będziemy pisać $ \K $ zamiast $ K $.

Równanie $ x+a=b $ ma w ciele $ \K $ dokładnie jedno rozwiązanie, bo dodając do obu stron tego równania $ a' $ - ustalony element przeciwny do $ a $ otrzymujemy, po uporządkowaniu równoważne równanie $ x=b+a' $.

W szczególności wynika stąd, że $ 0 $ i element przeciwny do $ a $ (oznaczany przez $ -a $) są wyznaczone jednoznacznie. Analogiczne rozumowanie dla równania $ x\cdot a=b $, gdzie $ a\neq 0 $, pokazuje że $ 1 $ i element odwrotny do $ a $ (oznaczany przez $ a^{-1} $) są wyznaczone jednoznacznie. Ułamek $ \frac{b}{a} $ oznacza iloczyn $ b\cdot a^{-1} $.

Wszystko, co powiedzieliśmy w pierwszym rozdziale o układach równań liniowych o współczynnikach z ciała liczb rzeczywistych przenosi się bez zmian na układy o współczynnikach z dowolnego ciała, tzn.\ na układy postaci $ AX=B $, gdzie $ A\in\M{m}{n}{\K}, B\in\K^m $.

W dowolnym ciele prawdziwe są dobrze znane własności działań w $ \R $ (będziemy pisać $ ab $ zamiast $ a\cdot b $).

Uwaga (#) Dla dowolnych $ a,b\in\K $:

  • [a)] $ a0=0 $ (bo do obu stron $ a0+a0=a(0+0)=a0 $ można dodać $ -(a0) $).
  • [b)] $ ab=0 $, to $ a= 0 $ lub $ b=0 $ (bo $ a\neq 0 $, to obie strony można pomnożyć przez $ a^{-1} $).
  • [c)] $ (-1)a=-a $ (bo $ a+(-1)a=(1+(-1))a=0a=0 $).

Ciała $\mathbb{Z}_p$

Ważne przykłady ciał, które określimy w tej części są, w odróżnieniu od ciała liczb rzeczywistych $ \R $, ciała liczb wymiernych $ \Q $ i ciała liczb zespolonych $ \c $ - ciałami skończonymi.

Niech $ p $ będzie liczbą pierwszą i niech $ \om=\cos\frac{2\pi}{p}+i\sin\frac{2\pi}{p} $ będzie pierwiastkiem stopnia $ p $ z jedności. Wszystkie potęgi $ \om^n $ są również pierwiastkami stopnia $ p $ z jedności. Zbiór $ \Z_p=\set{\om^0,\om^1,\ldots,\om^{p-1}} $ wszystkich pierwiastków stopnia $ p $ z jedności jest więc zamknięty ze względu na działania

$$\om^k\oplus\om^l=\om^{k+l}\,; \om^k\odot\om^l=\om^{kl}.$$
Twierdzenie $ \Z_p $ z ustalonym elementem zerowym $ \0=\om^0 $, jedynką $ \textbf{1}=\om^1 $ oraz działaniami dodawania $ \oplus $ i mnożenia $ \odot $ jest ciałem.
Dowód: Elementem przeciwnym do $ \om^k\in\Z_p $ jest $ \om^{p-k} $, bo $ \om^k+\om^{p-k}=\om^p=\0 $. Jeśli $ \om^k\in\Z_p\setminus\set{0} $, to z Lematu [link] dla $ n=p $ istnieją $ l, t $ takie, że $ 1=lk+tp $. Elementem odwrotnym do $ \om^k\neq\0 $ jest wtedy $ \om^l $, bo $ \textbf{1}=\om^1=\om^{lk}\om^{tp}= \om^{lk}= \om^{k}\odot\om^{l} $. Pozostałe aksjomaty wynikają z odpowiednich własności dodawania i mnożenia liczb naturalnych. □

Przestrzenie liniowe

Przestrzenie liniowe

Dla dowolnego ciała $ \K $, analogicznie jak to robiliśmy dla $ \R $, wprowadza się operację dodawania wektorów - kolumn z $ \K^n $ i mnożenia tych wektorów przez elementy ciała - skalary.

Jeśli $ A $ jest $ (m\times n) $-macierzą o wyrazach z ciała $ \K $, to zbiór $ V $ rozwiązań układu jednorodnego $ AX=\0 $ jest zamknięty ze względu na dodawanie wektorów i mnożenie wektorów przez skalary.

Podobnie, w zbiorze $ W $ wielomianów stopnia nie większego niż $ n $ o współczynnikach rzeczywistych, podzielnych przez wielomian $ x^2+1 $, określone jest naturalne działanie dodawania i mnożenia przez liczby.

Są to przykłady przestrzeni liniowych - obiektów algebraicznych złożonych ze skalarów i wektorów oraz działań na nich, które określa się następująco

Definicja (#) Zbiór $ V $ z ustalonym elementem $ \0 $ (wektor zerowy) i działaniem dodawania ``$ + $'' nazywamy przestrzenią linową nad ciałem $ \K $ jeśli jest ustalone działanie mnożenia ``$ \cdot $'' elementów ciała $ ( $zwanych skalarami$ ) $ przez elementy $ V $ $ ( $zwane wektorami$ ) $ dające w wyniku elementy $ V $, przy czym dla dowolnych $ a,b\in \K $ i $ \al,\be,\ga\in V $ spełnione są warunki $ ( $osiem aksjomatów przestrzeni liniowej$ ) $

\[ \begin{tabular}{l[1cm]ll} $(1)$\quad &$\al+\be=\be+\al$& przemienność dodawania wektorów,\\ $(2)$ &$\al+(\be+\ga)=(\al+\be)+\ga$& łączność dodawania wektorów,\\ $(3)$ &$\al+\0=\al$& wektor zerowy jest elementem neutralnym dodawania wektorów,\\ $(4)$&istnieje $\al'$ takie, że $\al+\al'=\0$& element przeciwny dodawania wektorów,\\ $(5)$&$a\cdot(\be+\ga)=a\cdot \be+a\cdot \ga$ & rozdzielność mnożenia przez skalar względem dodawania wektorów,\\ $(6)$& $(a+b)\cdot\ga=a\cdot\ga + b\cdot\ga$ &rozdzielność mnożenia przez skalar względem dodawania skalarów,\\ $(7)$& $(b\cdot \al)=(ab)\cdot \al$& łączność mnożenia przez skalary,\\ $(8)$& $1\cdot \al=\al$& skalar $1$ jest elementem neutralnym mnożenia. \end{tabular} \]

Jak zobaczymy później, przyjęte aksjomaty pozwalają utożsamiać, ze względu na strukturę algebraiczną, przestrzenie liniowe nad ciałem $ \K $ skończonego wymiaru (innych nie będziemy tu w zasadzie rozpatrywać) z przestrzeniami $ \K^n $, a jednocześnie pozwalają operować na wektorach z $ V $, bez konieczności przypisania im konkretnych współrzędnych.

Równanie $ x+\al=\be $ ma w przestrzeni liniowej $ V $ dokładnie jedno rozwiązanie, bo dodając do obu stron $ \al' $ - ustalony element przeciwny do $ \al $ otrzymujemy, po uporządkowaniu równoważne równanie $ x=\be+\al' $.

W szczególności $ \0 $ i wektor przeciwny do $ \al $ (oznaczany przez $ -\al $) są wyznaczone jednoznacznie.

Iloczyn $ a\al $ (opuszczamy znak mnożenia) znaczy to samo co $ \al a $ (używa się jednak zazwyczaj zapisu $ a\al $).

Uwaga (#) Dla dowolnych $ a\in\K $, $ \al\in V $:

  • [a)] $ a\al=\0 $ jeśli $ a=0 $ lub $ \al=\0 $ \begin{tabular}{l}\\ ($ \al=\0 $, to do obu stron $ a\0+a\0=a(\0+\0)=a\0 $ dodajemy $ -(a\0) $\\ $ a=0 $, to do obu stron $ 0\al+0\al=(0+0)\al=0\al $ dodajemy $ -(0\al) $).\end{tabular}
  • [b)] $ a\al=\0 $, to $ a=0 $ lub $ \al=\0 $      (bo $ a\neq 0 $, to obie strony mnożymy z lewej przez $ a^{-1} $).
  • [c)] $ (-1)\al=-\al $ (bo $ \al+(-1)\al=(1+(-1))\al=0\al=\0 $).

Podamy teraz kilka podstawowych przykładów przestrzeni liniowych nad $ \K $ użytecznych, przy ilustrowaniu wprowadzanych przez nas kolejnych pojęć.

Przykład (#)

  • [(a)] Przestrzeń współrzędnych $ \K^m $.

    Elementami $ \K^m $ (wektorami z $ \K^m $) są kolumny $ m $ skalarów (współrzędnych tego wektora). Wektor zerowy ma wszystkie współrzędne zerowe. Definiujemy działania ``po współrzędnych''

    (+)      $ \mk{c}{a_1\\\vdots\\a_m}+\mk{c}{b_1\\\vdots\\b_m}= \mk{c}{a_1+b_1\\\vdots\\a_m+b_m} $; ($ \cdot $)     $ c\mk{c}{a_1\\\vdots\\a_m}=\mk{c}{ca_1\\\vdots\\ca_m} $.

    Aksjomaty przestrzeni liniowej wynikają z odpowiednich aksjomatów ciała.

  • [(b)] Przestrzeń macierzy $ \M{m}{n}{\K} $.

    Wektorami w $ \M{m}{n}{\K} $ są macierze o wyrazach z $ \K $ mające $ m $ wierszy i $ n $ kolumn, zob.\ [link]. Macierz zerowa ma wszystkie wyrazy zerowe. Wektory - macierze dodajemy sumując ich odpowiednie wyrazy i mnożymy przez skalary - elementy ciała $ \K $, mnożąc przez skalar wszystkie wyrazy macierzy.

    Często wygodnie jest myśleć o $ (m\times n) $-macierzy jako o układzie $ n $ kolumn - wektorów z $ \K^m $. Jeśli $ A=[A_1,\ldots,A_n] $, $ B=[B_1,\ldots B_n] $, $ A_j,B_j\in\K^m $ oraz $ c\in \K $, to $ A+B=[A_1+B_1,\ldots A_n+B_n] $ i $ cA=[cA_1,\ldots cA_n] $.

  • [(c)] Przestrzeń wielomianów $ \K[x] $.

    Wielomianem stopnia $ n $ o współczynnikach w $ \K $ będziemy nazywali wyrażenie $ a_0+a_1 x^1+\ldots+a_n x^n $, gdzie $ a_0,\ldots,a_n\in\K $ oraz $ a_n\neq\0 $, a każdy ze składników $ a_jx^j $ będziemy nazywali jednomianem. Będziemy pomijali w takim wyrażeniu te jednomiany $ a_jx^j $, dla których $ a_j=0 $, a wielomian zerowy (bez niezerowych jednomianów, mający stopień $ -\infty $) będziemy oznaczali przez $ \0 $.

    W zbiorze wielomianów $ \K[x] $ określone są działania dodawania i mnożenia spełniające wszystkie aksjomaty ciała, poza aksjomatem o istnieniu elementu odwrotnego. W szczególności $ \K[x] $ jest przestrzenią liniową nad $ \K $, bo $ c\in\K $ można uważać za jednomian.

Definicja (#) Niech $ V $ będzie przestrzenią liniową nad ciałem $ \K $. Podzbiór $ W $ zbioru wektorów zawierający wektor zerowy nazywamy podprzestrzenią $ V $ jeśli $ W $ jest zamknięty za względu na działanie dodawania i mnożenia przez skalary, to znaczy spełnione są dwa warunki

$ (+) $ \ $ \al+\be\in W $ dla $ \al,\be\in W $; $ (\cdot) $\ $ c\al\in W $ dla $ c\in\K $, $ \al\in W $.
Uwaga (#) Jeśli $ W $ jest podprzestrzenią przestrzeni liniowej $ V $ nad ciałem $ \K $, to $ W $ z działaniami dodawania wektorów i mnożenia wektora przez skalar ograniczonymi do $ W $ jest przestrzenią liniową nad $ \K $, bo dla $ \al\in W $ wektor przeciwny $ -\al=(-1)\al $ też jest w $ W $.

Każda przestrzeń $ V $ liniowa zawiera podprzestrzeń maksymalną i minimalną w sensie inkluzji (zwane niewłaściwymi): samą siebie i podprzestrzeń zerową $ \set{\0} $. W następnej części podamy ogólną metodę generowania podprzestrzeni przestrzeni liniowych $ V $.

Kombinacje liniowe

Kombinacje liniowe pojawiły się już przy okazji omawiania układów równań liniowych.

Definicja (#) Kombinacją liniową wektorów układu $ (\al_1,\ldots,\al_n) $ z przestrzeni liniowej $ V $ nad ciałem $ \K $ o współczynnikach $ x_1,\ldots,x_n $ $ ( $z $ \K) $ nazywamy wektor $ \sum_{j=1}^n x_j\al_j= x_1\al_1+\ldots+x_n\al_n\in V $. Powłoką liniową układu $ (\al_1,\ldots,\al_n) $ nazywamy zbiór $ \lin(\al_1,\ldots,\al_n) $ wszystkich kombinacji liniowych tego układu.
Uwaga (#) Wygodnie jest założyć, że jedyną kombinacją układu pustego (nie zawierającego żadnego wektora) jest wektor zerowy. W szczególności $ \lin(\emptyset)=\set{\0} $.
Uwaga (#) W definicji podprzestrzeni przestrzeni liniowej $ V $ warunki $ (+) $ i $ (\cdot) $ dla $ W\subset V $ można zastąpić mocniejszym warunkiem

$ x_1\al_1+\ldots+x_n\al_n\in W $      dla      $ x_1,\ldots,x_n\in\K $, $ \al_1,\ldots,\al_n\in W $,

który wynika z $ (+) $ i $ (\cdot) $ przez indukcję ze względu na $ n\geq 1 $.

Twierdzenie (#) Powłoka liniowa $ \lin(\al_1,\ldots,\al_n) $ układu wektorów w przestrzeni $ V $ jest najmniejszą podprzestrzenią przestrzeni $ V $ zawierającą wektory $ \al_j $, $ j=1,\ldots,n $.
Dowód: Suma dwóch kombinacji liniowych wektorów $ \al_1,\ldots,\al_n $ oraz wynik pomnożenia takiej kombinacji przez skalar jest kombinacją liniową wektorów $ \al_1,\ldots,\al_n $:

$ (+) $      $ \sum_{j=1}^n x_j\al_j+\sum_{j=1}^n y_j\al_j=\sum_{j=1}^n (x_j+y_j)\al_j $\,; $ (\cdot) $     $ c\sum_{j=1}^n x_j\al_j=\sum_{j=1}^n (cx_j)\al_j $.

Wynika stąd, że $ \lin(\al_1,\ldots,\al_n) $ jest podprzestrzenią liniową $ V $ zawierającą wszystkie wektory $ \al_j $.

Z drugiej strony, jeśli podprzestrzeń liniowa $ W $ przestrzeni $ V $ zawiera $ \al_1,\ldots,\al_n $, to zawiera też wszystkie kombinacje liniowe tych wektorów, zob.\ [link], a więc $ \lin(\al_1,\ldots,\al_n)\subset W $. □

Iloczyn $ AX $ macierzy $ A $ i wektora $ X $ odpowiednich wymiarów wprowadziliśmy w [link], jednak ze względu na wagę tej operacji powtórzymy to w sposób bardziej formalny.

Definicja (#) Iloczynem macierzy $ A=[A_1,\ldots,A_n]\in\M{m}{n}{\K} $ $ ( $gdzie $ A_j $ jest $ j $-tą kolumną $ A) $ i wektora $ X\in\K^n $ o współrzędnych $ x_1,\ldots,x_n $ nazywamy wektor $ AX=\sum_{j=1}^n x_j A_j\in \K^m $.
Uwaga (#) Operacja mnożenia macierzy i wektorów ma następujące własności (zob.\ dowód [link])

$ (+) $      $ AX+AY=A(X+Y) $; $ (\cdot) $     $ c(AX)=A(cX) $,

tzn.\ w terminologii, którą uściślimy poniżej, operacja $ X\to AX $ jest liniowa.

Definicja (#) Mówimy, że układ wektorów $ (\al_1,\ldots,\al_n) $ z $ V $ rozpina $ V $ jeśli $ V=\lin(\al_1,\ldots,\al_n) $.
Uwaga (#) Układ wektorów $ (A_1,\ldots,A_n) $ z przestrzeni $ \K^m $ rozpina $ \K^m $ wtedy i tylko wtedy, gdy dla każdego $ B\in\K^m $ równanie \mbox{$ x_1A_1+\ldots+x_nA_n=B $} jest niesprzeczne, a więc wtedy i tylko wtedy, gdy macierz otrzymana w wyniku redukcji $ A=[A_1,\ldots,A_n] $ do postaci schodkowej ma schodek w każdym wierszu.

Liniowa niezależność

Liniowa niezależność jest centralnym pojęciem związanym z przestrzeniami liniowymi.

Definicja (#) Układ wektorów $ (\al_1,\ldots,\al_k) $ w przestrzeni liniowej $ V $ nad ciałem $ \K $ nazywamy liniowo niezależnym jeśli z $ a_1\al_1+\ldots+a_k\al_k=\0 $ wynika, że $ a_1=\ldots =a_k=0 $. Układ, który nie jest liniowo niezależny nazywamy zależnym.
Uwaga (#) Liniowa niezależność układu $ (\al_1,\ldots,\al_k) $ oznacza, że każdy wektor $ \al\in\lin(\al_1,\ldots,\al_k) $ można zapisać w postaci kombinacji liniowej $ \al=a_1\al_1+\ldots+a_k\al_k $ tylko w jeden sposób (później będziemy interpretowali współczynniki $ a_j $ jako współrzędne wektora $ \al $ względem układu $ (\al_1,\ldots,\al_k) $). Istotnie, jeśli mamy także $ \al={b}_1\al_1+\ldots+{b}_k\al_k $, to $ \0=(a_1-{b}_1)\al_1+\ldots+(a_k-{b}_k)\al_k=\0 $, a liniowa niezależność oznacza, że $ \0 $ może być zapisane tylko jako kombinacja liniowa $ \al_j $ o zerowych współczynnikach.
Twierdzenie (#) Dla układu wektorów $ (\al_1,\ldots,\al_k) $ w przestrzeni liniowej $ V $ nad ciałem $ \K $ następujące warunki są równoważne.

  • [$ (i) $] Układ $ (\al_1,\ldots,\al_k)  $ jest liniowo niezależny.

  • [$ (ii) $] Żaden z wektorów $ \al_j $ nie jest kombinacją liniową pozostałych $ ( $to znaczy $ \al_j\not\in\lin(\al_i)_{i\neq j} $ dla $ j=1,\ldots,k) $.
  • [$ (iii) $] Żaden z wektorów $ \al_j $ nie jest kombinacją liniową poprzednich wektorów\\ $ ( $to znaczy $ \al_1\neq\0 $ i $ \al_j\not\in\lin(\al_1,\ldots,\al_{j-1}) $ dla $ j=2,\ldots,k) $.
Dowód: Dla dowodu $ (i)\Rightarrow(ii) $ załóżmy negację $ (ii) $, czyli istnienie $ j\geq 1 $ takiego, że $ \al_j=\sum_{i\neq j}a_i\al_i $ dla pewnego układu skalarów $ (a_i)_{i\neq j} $. Wtedy $ -\al_j+\sum_{i\neq j}a_i\al_i=\0 $ jest nietrywialnym przedstawieniem wektora zerowego, co przeczy $ (i) $.

Implikacja $ (ii)\Rightarrow(iii) $ jest oczywista.

Dla dowodu $ (iii)\Rightarrow(i) $ rozważmy kombinację $ \sum_{i\leq k} a_i\al_i=\0 $. Gdyby nie wszystkie współczynniki $ a_i $ były zerowe, to dla $ j=\max\{i:a_i\neq\0\} $ mielibyśmy $ \al_j=\sum_{i<j}\frac{-a_i}{a_j}\al_i $, co przeczyłoby $ (iii) $. □

Uwaga (#) Liniowa niezależność układu $ (A_1,\ldots,A_k) $ w $ \K^m $ oznacza, że równanie $ \sum_{i=1}^kx_iA_i= \0 $ ma dokładnie jedno rozwiązanie, czyli w wyniku redukcji macierzy $ A=[A_1,\ldots,A_k] $ do postaci schodkowej otrzymamy macierz $ A' $, mającą schodek w każdej kolumnie (w szczególności $ k\leq m $).

Równoważność warunków $ (i) $ i $ (iii) $ jest dla takiego układu oczywista, bo macierz $ A' $ ma schodek w $ j $-tej kolumnie wtedy i tylko wtedy, gdy równanie $ \sum_{i<j}x_iA_i=A_j $ jest sprzeczne, czyli $ A_j\not\in\lin(A_i)_{i<j} $.

Baza i wymiar

Wyróżnienie $ n $-elementowej bazy w przestrzeni liniowej $ V $ nad ciałem $ \K $ pozwala przypisać każdemu wektorowi $ \al\in V $ wektor z $ \K^n $ (wektor współrzędnych $ \al $ w tej bazie) z zachowaniem operacji dodawania i mnożenia przez skalary.

Definicja (#) Układ wektorów $ (\al_1,\ldots,\al_n) $ w przestrzeni liniowej $ V $ nad ciałem $ \K $ nazywamy bazą $ V $ jeśli układ $ (\al_1,\ldots,\al_n) $ jest liniowo niezależny i rozpina $ V $.
Uwaga (#) Jeśli układ $ (\al_1,\ldots,\al_n) $ jest bazą $ V $, to zgodnie z Uwagą [link], każdy wektor $ \al\in V $ daje się przedstawić jako kombinacja liniowa $ \al=a_1\al_1+\ldots+a_n\al_n $ w dokładnie jeden sposób. Współczynniki tej kombinacji nazywamy współrzędnymi wektora $ \al $ w bazie $ (\al_1,\ldots,\al_n) $. % i zapisując je w kolumnie, interpretujemy jako wektor z $ \K^n $. Dla $ \al,\be\in V $ i $ c\in\K $ współrzędne $ \al+\be $ są sumą współrzędnych tych wektorów w $ \K^n $, a współrzędne $ c\al $ są iloczynem współrzędnych $ \al $ przez skalar $ c $, zob.\ dowód [link].\ \

Przykład (#)

  • [(a)] W przestrzeni $ \K^m $ połóżmy $ \ep_1=\mk{c}{1\\0\\\vdots\\0} $, $ \ep_2=\mk{c}{0\\1\\\vdots\\0} $, \ldots, $ \ep_m=\mk{c}{0\\0\\\vdots\\1} $.

    Układ $ (\ep_1,\ep_2,\ldots,\ep_m) $ jest bazą przestrzeni $ \K^m $. Współrzędne wektora $ X\in\K^m $ są identyczne ze współrzędnymi $ X $ w tej bazie. Bazę $ (\ep_1,\ep_2,\ldots,\ep_m) $ nazywamy bazą standardową $ \K^m $.

  • [(b)] W $ \M{2}{2}{\K} $ połóżmy $ E_{11}=\mk{cc}{1&0\\0&0}, E_{21}=\mk{cc}{0&0\\1&0}, E_{12}=\mk{cc}{0&1\\0&0}, E_{22}=\mk{cc}{0&0\\0&1} $.

    Układ $ (E_{11},E_{21},E_{12},E_{22}) $ jest bazą przestrzeni $ \M{2}{2}{\K} $. Współrzędne macierzy $ A\in\M{2}{2}{\K} $ w tej bazie są wyrazami tej macierzy w porządku, w jakim ustawiliśmy macierze $ E_{ij} $.

    Analogicznie w przestrzeni macierzy $ \M{m}{n}{\K} $ definiuje się bazę mającą $ m\cdot n $ elementów $ E_{kl}\in\M{m}{n}{\K} $, gdzie $ E_{kl} $ jest macierzą mającą na miejscu $ k,l $ jedynkę i wszystkie pozostałe wyrazy zerowe.

  • [(c)] Układ jednomianów $ (x^0,x^1,\ldots,x^n) $ tworzy bazę podprzestrzeni $ \K_n[x] $ wielomianów stopnia $ \leq n $ przestrzeni $ \K[x] $. Współrzędne wielomianu $ w(x) $ w tej bazie są współczynnikami tego wielomianu.% (poczynając od wyrazu wolnego).
Uwaga (#) Układ $ (A_1,\ldots A_n) $ w $ \K^m $ wyznacza macierz $ A=[A_1,\ldots A_n]\in\M{m}{n}{\K} $. Jeśli w wyniku redukcji $ A $ do postaci schodkowej otrzymujemy macierz $ A' $ mającą schodki w kolumnach o numerach $ j_1,\ldots,j_r $, to układ $ (A_{j_1},\ldots A_{j_r}) $ jest bazą $ V=\lin(A_1,\ldots A_n) $, bo dla każdego $ B\in\K^m $ takiego, że układ $ AX=B $ jest niesprzeczny, równanie $ x_{j_1}A_{j_1}+\ldots +x_{j_r}A_{j_r}=B $ ma dokładnie jedno rozwiązanie.

W szczególności dla $ n=m $ układ $ (A_1,\ldots,A_n) $ w $ \K^n $ jest bazą $ \K^n $ wtedy i tyko wtedy, gdy macierz zredukowana $ A' $ ma $ n $ schodków (w każdej kolumnie i w każdym wierszu).

Bazę $ (A_{j_1},\ldots A_{j_r}) $ przestrzeni $ \lin(A_1,\ldots A_n)\subset \K^m $ otrzymujemy wybierając z układu rozpinającego wektory, które nie są kombinacjami poprzednich, zob.\ Uwaga [link]. Tak samo można postępować w przypadku ogólnym.

Twierdzenie (#){\em\bf (o istnieniu bazy).} Jeśli z układu wektorów $ (\al_1,\ldots,\al_n) $ rozpinającego przestrzeń $ V $ wybierzemy wszystkie wektory $ \al_j $ takie, że $ \al_j\not\in\lin(\al_i)_{i<j} $, to otrzymamy bazę $ (\al_{j_1},\ldots,\al_{j_r}) $ przestrzeni $ V $.
Dowód: Z Twierdzenia [link] $ (iii) $ układ $ (\al_{j_1},\ldots,\al_{j_r}) $ jest lniowo niezależny. Niech $ W=\lin(\al_{j_1},\ldots,\al_{j_r}) $. Pokażemy, że $ (\al_{j_1},\ldots,\al_{j_r}) $ rozpina $ V $, czyli $ W=V $. W tym celu wystarczy wykazać, że $ \al_i\in W $ dla $ i\leq n $.

Gdyby nie wszystkie $ v_i $ należały do $ W $, to dla $ j=\min\set{i\leq n: \al_i\not\in W} $ mielibyśmy $ \lin(\al_i)_{i<j}\subset W $ oraz $ \al_j\not\in W $. Zatem $ \al_j\not\in\lin(\al_i)_{i<j} $, więc $ \al_j $ byłby w $ W $ jako jeden z wybranych wektorów, co przeczy wyborowi $ j $. □

Z Twierdzenia [link] wynika.

Twierdzenie (#) {\em\bf (o rozszerzaniu układu liniowo niezależnego do bazy).} Jeśli układ wektorów $ (\al_1,\ldots,\al_k) $ w przestrzeni liniowej $ V $ jest liniowo niezależny, a układ $ (\be_1,\ldots,\be_m) $ rozpina $ V $, to układ $ (\al_1,\ldots,\al_k) $ można rozszerzyć do bazy $ V $ wektorami z układu $ (\be_1,\ldots,\be_m) $.
Dowód: Układ $ (\al_1,\ldots,\al_k,\be_1,\ldots,\be_m) $ rozpina $ V $. Usuwając z tego układu wszystkie wektory będące kombinacjami poprzednich otrzymamy, zgodnie z Twierdzeniem [link], bazę przestrzeni $ V $, a z Twierdzenia [link] $ (iii) $ wynika, że nie usuniemy żadnego z wektorów $ \al_j $. □

Zastosowane w tym dowodzie rozumowanie wykorzystamy też w dowodzie kolejnego twierdzenia, które pozwoli na określenie wymiaru przestrzeni liniowej.

Twierdzenie (#) {\em\bf (Steinitza o wymianie).} Jeśli układ wektorów $ (\al_1,\ldots,\al_k) $ w przestrzeni liniowej $ V $ jest liniowo niezależny, a układ $ (\be_1,\ldots,\be_m) $ rozpina $ V $, to $ k\leq m $ oraz istnieją parami różne indeksy $ i_1,\ldots,i_k\leq m $ takie, że układ otrzymany z $ (\al_1,\ldots,\al_k,\be_1,\ldots,\be_m) $ przez usunięcie wektorów $ \be_{i_1},\ldots,\be_{i_k} $ rozpina $ V $.
Dowód: Nierówność $ k\leq m $ wynika z drugiej części tezy, którą udowodnimy przez indukcję ze względu na $ j\leq k $ dopisując na początku układu $ (\be_1,\ldots,\be_m) $ kolejno wektory $ \al_j $ i usuwając, za każdym razem, wektor $ \be_{i_j} $ tak, by układ otrzymany po $ j $ wymianach pozostawał układem rozpinającym $ V $.

W kroku indukcyjnym dodajemy do układu rozpinającego kolejny wektor $ \al_j $, bezpośrednio po wektorze $ \al_{j-1} $ (na początku, gdy $ j=1 $). Z warunku $ (ii) $ Twierdzenia [link] dostajemy układ liniowo zależny, a z warunku $ (iii) $ tego twierdzenia jeden z pozostających w naszym układzie wektorów $ \be_{i_j} $ jest kombinacją poprzednich, więc po jego usunięciu otrzymamy układ rozpinający $ V $. □

Przestrzeń liniowa może mieć wiele baz (zob.\ Uwaga [link]). Jednakże z pierwszej części tezy Twierdzenia Steinitza wynika, że w przestrzeni $ V $ z bazą mającą $ n $ wektorów, każdy układ liniowo niezależny ma $ k\leq n $ wektorów, a każdy układ rozpinający ma $ m\geq n $ wektorów. Tak więc, wszystkie bazy w $ V $ mają tyle samo elementów.

Definicja (#) Wymiarem przestrzeni liniowej $ V $ mającej bazę skończoną nazywamy liczbę wektorów tej bazy, którą oznaczamy $ \dim V $ $ (\dim\set{\0}=0) $. Jeśli $ V $ nie ma bazy skończonej, mówimy, że wymiar $ V $ jest \mbox{nieskończony}.

Przykład (#) Z Przykładu [link] dostajemy

  • [(a)] $ \dim\K^m=m $,
  • [(b)] $ \dim\M{m}{n}{\K}=mn $,
  • [(c)] $ \dim \K_n[x]=n+1 $.
Uwaga (#) Jeśli $ W $ jest podprzestrzenią przestrzeni $ V $ mającej skończony wymiar, to z Twierdzenia Steinitza $ \dim W\leq\dim V $. Co więcej, z $ \dim W=\dim V $ wynika, że $ W=V $, bo gdyby $  W \neq V $, to bazę $ W $ można by było istotnie rozszerzyć do bazy $ V $, zob.\ Twierdzenie [link].

Odnotujmy jednak, że przestrzenie wymiaru nieskończonego, na przykład $ \K[x] $, mogą zawierać właściwe podprzestrzenie wymiaru nieskończonego. W dalszej części, jeśli nie powiemy wyraźnie inaczej, będziemy zakładać, że wszystkie rozważane przestrzenie mają wymiar skończony.

Rząd macierzy

Z macierzą $ A\in\M{m}{n}{\K} $ są związane trzy przestrzenie: podprzestrzeń rozpięta na kolumnach, podprzestrzeń rozpięta na wierszach i podprzestrzeń rozwiązań jednorodnego układu równań $ AX=\0 $. Dwie pierwsze mają taki sam wymiar - rząd macierzy $ A $, a wymiar trzeciej jest różnicą $ n $ i rzędu $ A $.

Przejdziemy teraz do systematycznego przedstawienia tych zagadnień.

Definicja (#) Przestrzenią kolumn macierzy $ A\in\M{m}{n}{\K} $ nazywamy podprzestrzeń $ K(A) $ przestrzeni $ \K^m $ rozpiętą przez kolumny $ A $.

Z definicji mnożenia macierzy przez wektor ( [link]) wynika, że przestrzeń kolumn $ K(A) $ macierzy $ A $ jest zbiorem wszystkich wektorów $ B $, dla których układ równań $ AX=B $ jest niesprzeczny.

Definicja (#) Rzędem $ \r A $ macierzy $ A $ nazywamy $ \dim K(A) $.

Z Uwagi [link] wynika, że $ \r A $ jest liczbą kolumn ze schodkami w macierzy $ A' $ otrzymanej w wyniku redukcji macierzy $ A $ do postaci schodkowej. Jeśli macierz $ \wt{A} $ powstaje z $ A $ w wyniku operacji elementarnych na wierszach, to $ K(\wt{A}\,) $ różni się na ogół od $ K(A) $, ale $ \r \wt{A} =\r A $, bo $ \wt{A} $ i $ A $ można zredukować do tej samej macierzy w postaci schodkowej.

Definicja (#) Przestrzenią zerową macierzy $ A $ nazywamy podprzestrzeń $ N(A) $ przestrzeni $ \K^n $ złożoną z rozwiązań jednorodnego układu równań $ AX=\0 $.

Następne twierdzenie opisuje rozwiązania układu $ AX=B $ w terminach zdefiniowanych wyżej pojęć.

Twierdzenie (#)(Kroneckera - Capelliego) Niech $ A\in\M{m}{n}{\K} $ i $ B\in\K^m $. Układ równań $ AX=B $ jest niesprzeczny wtedy i tylko wtedy, gdy $ \r A=\r [A|B] $. Jeśli $ X_\ast $ jest rozwiązaniem tego układu, to zbiór wszystkich rozwiązań ma postać $ X_\ast+N(A)=\set{X_\ast+Z:Z\in N(A)} $.
Dowód: Pierwsza część tezy wynika z faktu, że niesprzeczność $ AX=B $ jest równoważna warunkowi $ B\in K(A) $. Druga część oznacza, że $ X $ jest rozwiązaniem wtedy i tylko wtedy, gdy $ X-X_\ast\in N(A) $, a to wynika z równości $ A(X-X_\ast)=AX-AX_\ast=AX-B $ (zob.\ wzory w Uwadze [link]). □

Opiszemy teraz wymiar $ N(A) $ korzystając z faktu, że liczba zmiennych zależnych w rozwiązaniu ogólnym układu $ AX=\0 $ jest liczbą schodków macierzy $ A' $ otrzymanej w wyniku redukcji $ A $ do postaci schodkowej.

Twierdzenie (#) Dla macierzy $ A\in\M{m}{n}{\K} $ \ $ \dim N(A)=n-\r A $.
Dowód: Niech $ p=n-\r A $ będzie liczbą zmiennych niezależnych układu $ AX=\0 $. Zgodnie z Uwagą [link] każde rozwiązanie tego układu jest wyznaczone przez wartości zmiennych niezależnych $ t_1,\ldots,t_p $ i ma postać $ X=t_1X_1+\ldots+t_pX_p $. Z Uwagi [link] wynika, że układ $ (X_1,\ldots,X_p) $ jest bazą $ N(A) $. □

Podprzestrzeń $ V $ przestrzeni $ \K^n $ mająca bazę $ (A_1,\ldots,A_r) $ jest przestrzenią kolumn macierzy $ A=[A_1,\ldots,A_r]\in\M{n}{r}{\K} $. Pokażemy, że $ V $ jest również przestrzenią zerową pewnej macierzy z $ \M{{n-r}}{n}{\K} $.

Twierdzenie (#) Jeśli $ V\subset\K^n $, $ \dim V=r $, to $ V $ jest przestrzenią zerową pewnej macierzy \mbox{$ C\in\M{{n-r}}{n}{\K} $.}
Dowód: Niech $ A\in\M{n}{r}{\K} $ będzie macierzą, której kolumny są bazą $ V $, $ V=K(A) $. Wektor $ Y\in \K^n $ jest w $ V $ wtedy i tylko wtedy, gdy układ równań $ AX=Y $ jest niesprzeczny, a więc gdy po redukcji macierzy $ [A|Y] $ do postaci schodkowej otrzymana macierz $ [A'|Y'] $ nie ma schodka w ostatniej kolumnie. Ponieważ $ \r A = \dim V=r $, to oznacza, że współrzędne $ Y' $ o indeksach $ \geq r+1 $ są zerami.

Wektor $ Y\in\K^n $ jest jedynym rozwiązaniem układu równań $ IX=Y $ o macierzy $ I=[\ep_1,\ldots,\ep_n]\in\M{n}{n}{\K} $, zob.\ Przykład [link] (a).

Wektory $ Y\in V $ można opisać następująco. Niech $ I' $ będzie macierzą otrzymaną z macierzy $ I $ przez prowadzenie na niej operacji elementarnych redukujących $ A $ do $ A' $ i niech $ C\in\M{{n-r}}{n}{\K} $ będzie macierzą złożoną z ostatnich $ n-r $ wierszy macierzy $ I' $. Jedynym rozwiązaniem układu równań $ I'X=Y' $ jest $ Y $, bo ten układ jest równoważny układowi $ IX=Y $, a więc $ Y\in V $ wtedy i tylko wtedy, gdy $ I'Y $ ma zera na ostatnich $ n-r $ miejscach, tzn.\ gdy $ CY=\0 $. Zatem $ V=N(C) $. □

W praktyce macierz $ C $ układu równań opisującego przestrzeń $ K(A)\subset \K^n $ wymiaru $ r $ wyznacza się redukując macierz $ [A|I] $ do macierzy $ [A'|I'] $ takiej, że $ A' $ jest w postaci schodkowej ($ C $ jest złożona z ostatnich $ n-r $ wierszy macierzy $ I' $).

Wiersze macierzy $ A\in\M{m}{n}{\K} $ należą do przestrzeni liniowej macierzy jednowierszowych $ \M{1}{n}{\K} $, którą będziemy oznaczać przez $ \K_n $.

Definicja Przestrzenią wierszy macierzy $ A\in\M{m}{n}{\K} $ nazywamy podprzestrzeń $ W(A) $ przestrzeni $ \K_n $ rozpiętą przez wiersze $ A $.
Twierdzenie (#) Dla macierzy $ A\in\M{m}{n}{\K} $ \ $ \dim W(A)=\dim K(A) $.
Dowód: 0peracje elementarne na wierszach nie zmieniają przestrzeni wierszy. Jest to oczywiste dla operacji typu (II) i (III). Jeśli $ \widetilde{A} $ powstaje z $ A\in\M{m}{n}{\K} $ w wyniku zastosowania operacji (I)$ _{a(i)+(k)} $, to oczywiście $ W(\widetilde{A})\subset W(A) $. Równość wynika z faktu, że operacja (I)$ _{(-a)(i)+(k)} $ prowadzi od $ \widetilde{A} $ do $ A $.

Wystarczy teraz pokazać, ze dla macierzy $ A' $ w postaci schodkowej $ \dim W(A') $ jest równy liczbie schodków tej macierzy. Istotnie, $ W(A') $ jest rozpinana przez swoje niezerowe wiersze $ (w_1',\ldots,w_r') $, które są liniowo niezależne, bo po zmianie kolejności na $ (w_r',\ldots,w_2',w_1') $ spełniają warunek ($ iii $) Twierdzenia [link]. □

Suma prosta podprzestrzeni

W klasie podprzestrzeni liniowych ustalonej przestrzeni liniowej są dwie naturalne operacje: przecięcia oraz sumy algebraicznej. Podamy pewne użyteczne fakty dotyczące tych operacji.

Uwaga (#) Jeśli $ V_1,V_2 $ są podprzestrzeniami przestrzeni liniowej $ V $ to część wspólna $ V_1\cap V_2=\set{\al: \al\in V_1 \mbox{ i }\al\in V_2} $ i $ V_1+V_2 = \set{\al_1+\al_2:\al_1\in V_1, \al_2\in V_2} $ są podprzestrzeniami $ V $.
Definicja (#) Podprzestrzeń $ V_1+V_2 $ przestrzeni $ V $ nazywamy sumą algebraiczną podprzestrzeni $ V_1,V_2 $.
Definicja (#) Sumę algebraiczną $ V_1+V_2 $ nazywamy sumą prostą jeśli dla dowolnie wybranych $ \al_j\in V_j $ z $ \al_1+\al_2=\0 $ wynika, że $ \al_1=\al_2=\0 $. Sumę prostą $ V_1+V_2 $ oznaczamy przez $ V_1\oplus V_2 $.
Uwaga Suma $ V_1+V_2 $ jest sumą prostą wtedy i tylko wtedy, gdy każdy wektor $ \al\in V_1+V_2 $ daje się przedstawić jako suma $ \al=\al_1+\al_2 $, gdzie $ \al_j\in V_j $, na dokładnie jeden sposób (bo z $ \al=\be_1+\be_2=\ga_1+\ga_2 $ wynika, że $ (\be_1-\ga_1)+(\be_2-\ga_2)=\0 $). Wektory $ \al_j $ nazywamy składowymi wektora $ \al\in V_1\oplus V_2 $.
Twierdzenie (#) Dla $ V_1,V_2\subset V $, \ $ V_1+V_2=V_1\oplus V_2 $ wtedy i tylko wtedy, gdy $ V_1\cap V_2=\set{\0} $.
Dowód: Teza wynika z faktu, że $ \0=\al_1+\al_2\in V_1+V_2 $ wtedy i tylko wtedy, gdy $ \al_2=-\al_1\in V_1\cap V_2 $
Twierdzenie (#) Jeśli układ $ \A_j $ jest bazą przestrzeni $ V_j\subset V $ dla $ j=1,2 $ i układ $ \A=(\A_1,\A_2) $ powstaje przez dołączenie do $ \A_1 $ układu $ \A_2 $, to układ $ \A $ jest bazą $ V_1+V_2 $ wtedy i tylko wtedy, gdy $ V_1+V_2=V_1\oplus V_2 $.
Dowód: Układ $ \A $ oczywiście rozpina $ V_1+V_2 $. Każdy wektor $ \al_j\in V_j $ daje się jednoznacznie przedstawić jako kombinacja wektorów bazy $ \A_j $, zob.\ Uwaga [link]. Jednoznaczność rozkładu wektora $ \0 $ na składowe $ \al_j\in V_j $ jest więc równoważna z jednoznacznością zapisu $ \0 $ jako kombinacji wektorów układu $ \A $. □
Stwierdzenie (#) $ V_1+V_2=V_1\oplus V_2 $ wtedy i tylko wtedy, gdy $ \dim V_1+\dim V_2=\dim(V_1+V_2) $.

Ważną własnością przestrzeni liniowych jest fakt, że każdą podprzestrzeń przestrzeni liniowej można uzupełnić do sumy prostej, tzn.\

Stwierdzenie (#) Dla dowolnej podprzestrzeni $ W $ przestrzeni liniowej $ V $ istnieje podprzestrzeń $ U\subset V $ taka, że $ W\oplus U=V $.

Wniosek jest natychmiastową konsekwencją Twierdzenia [link] i twierdzenia o rozszerzaniu dowolnego układu liniowo niezależnego do bazy (zob.\ [link]).

Wyprowadzimy stąd następującą formułę Grassmana.

Twierdzenie (#) Jeśli $ V_1,V_2 $ są podprzestrzeniami przestrzeni liniowej $ V $, to

$$\dim(V_1+V_2)=\dim V_1+\dim V_2 - \dim(V_1\cap V_2).$$
Dowód: Połóżmy $ W=V_1\cap V_2 $ i niech $ U $ będzie podprzestrzenią $ V_2 $ taką, że $ V_2=W\oplus U $ ($ U=V_2 $ jeśli $ W=\set{\0} $). Zauważmy, że $ V_1+V_2=V_1+U $, bo dla $ \al_1+\al_2\in V_1+V_2 $ wektor $ \al_2=\be+\ga\in W\oplus U $, więc $ \al_1+\al_2=\al_1+(\be+\ga)=(\al_1+\be)+\ga\in V_1+U $.

Z $ U\subset V_2 $ mamy $ V_1\cap U=V_1\cap V_2\cap U=W\cap U=\set{\0} $, więc $ V_1+W=V_1\oplus U $ z Twierdzenia [link]. Z Wniosku [link] dostajemy $ \dim (V_1+V_2)=\dim (V_1+U)=\dim V_1+\dim U=\dim V_1+\dim V_2-\dim W $. □

Przekształcenia liniowe

Obok przestrzeni liniowych, podstawowym obiektem algebry liniowej są przekształcenia liniowe. Rozpatrując przekształcenia liniowe między przestrzeniami liniowymi będziemy zawsze zakładać, że są to przestrzenie liniowe nad tym samym ciałem skalarów $ \K $.

Przekształcenia liniowe

Przekształcenia liniowe to funkcje między przestrzeniami liniowymi zgodne z ich strukturą algebraiczną. Dokładniej, przyjmujemy następującą definicję.

Definicja (#) funkcję $ \vp:V\to W $ nazywamy przekształceniem liniowym jeśli $ f $ jest addytywna i jednorodna (zachowuje dodawanie wektorów i mnożenie wektora przez skalar), to znaczy spełnione są dwa warunki

$ (+) $ \ $ \vp(\al_1+\al_2)=\vp(\al_1)+\vp(\al_2) $ dla $ \al_1,\al_2\in V $; $ (\cdot) $\ $ \vp(c\al)=c\vp(\al) $ dla $ c\in\K $, $ \al\in V $.
Uwaga (#) Jeśli $ \vp:V\to W $ jest przekształceniem liniowym, to $ \vp(\0_V)=\vp(0\cdot\0_V)=0\vp(\0_V)=\0_W $.

Identyczność $ \id_V:V\to V $, funkcja stale równa zero $ \0:V\to W $ (funkcja zerowa) i mnożenie przez niezerowy skalar $ c\cdot\id_V:V\to  V $ (jednokładność o współczynniku $ c $) są przekształceniami liniowymi.

\mJak wyjaśnimy później, po ustaleniu baz w przestrzeniach liniowych, przekształcenia liniowe między tymi przestrzeniami można utożsamiać w naturalny sposób z macierzami. Na razie zauważmy, że macierze wyznaczają przekształcenia liniowe między przestrzeniami współrzędnych odpowiednich wymiarów.

Przykład (#) Macierz $ A\in\M{m}{n}{\K} $ wyznacza przekształcenie liniowe $ \vp_A:\K^n\to\K^m $ wzorem $ \vp_A(X)=AX $ (zob.\ Uwaga [link]).
Uwaga (#) Warunek zachowania dodawania wektorów i mnożenia wektora przez skalar można zastąpić warunkiem zachowywania kombinacji liniowych

$ \vp(x_1\al_1+\ldots+x_n\al_n)=x_1\vp(\al_1)+\ldots+x_n\vp(\al_n) $      dla      $ x_1,\ldots,x_n\in\K $, $ \al_1,\ldots,\al_n\in V $,

który łatwo wyprowadza się z $ (+) $ i $ (\cdot) $ przez indukcję ze względu na $ n\geq 1 $.

Dowolna funkcja określona na bazie przestrzeni liniowej $ V $ o wartościach w przestrzeni liniowej $ W $ przedłuża się jednoznacznie do przekształcenia liniowego z $ V $ w $ W $.

Twierdzenie (#) {\em\bf (o określaniu przekształceń liniowych na bazie).} Niech $ V,W $ będą przestrzeniami liniowymi nad $ \K $. Jeśli $ (\al_1,\ldots,\al_n) $ jest bazą $ V $, a $ (\be_1,\ldots,\be_n) $ układem wektorów z $ W $, to $ \vp:V\to W $ określone formułą

$ \vp(x_1\al_1+\ldots+x_n\al_n)=x_1\be_1+\ldots+x_n\be_n $

jest jedynym przekształceniem liniowym $ V $ w $ W $ takim, że $ \vp(\al_j)=\be_j $ dla $ j=1,\ldots,n $.

Dowód: Funkcja $ T $ jest dobrze określona, bo każdy wektor $ \al\in V $ jest kombinacją liniową wektorów bazy i współczynniki tej kombinacji są wyznaczone jednoznacznie. Z warunków (+), ($ \cdot $) w dowodzie Twierdzenia [link] zastosowanych do obu stron formuły definiującej $ \vp $ wynika, że tak określone $ \vp $ jest przekształceniem liniowym.

Jednoznaczność wynika z Uwagi [link]. □

W szczególności odnotujmy spostrzeżenie dotyczące przekształceń liniowych na sumach prostych (zob.\ Twierdzenie [link]).

Uwaga (#) Jeśli $ V=V_1\oplus V_2 $, $ T_i:V_i\to W $ jest liniowe dla $ i=1,2 $, to istnieje dokładnie jedno przekształcenie liniowe $ T:V\to W $ takie, że $ T(\al)=T_i(\al) $ dla $ \al\in V_i $, $ i=1,2 $. Istotnie, dla wektora $ \al $ mającego jednoznaczny rozkład na składowe $ \al=\al_1+\al_2 $ wystarczy zdefiniować $ T(\al)=T_1(\al_1)+T_2(\al_2) $.

Kończąc tę część, wskażemy dwa ważne typy przekształceń liniowych przestrzeni $ V $ w siebie.

Definicja Niech $ V=V_1\oplus V_2 $ i niech $ \al=\al_1+\al_1 $ będzie rozkładem $ \al\in V $ na składowe.

  • [$ (a) $](#) Przekształcenie liniowe $ \vp:V\to V $ takie, że $ \vp(\al_1+\al_2)=\al_1 $ $ (\vp $ jest identycznością na $ V_1 $ i zerowe na $ V_2) $ nazywamy rzutem $ V $ na $ V_1 $ równoległym do $ V_2 $.
  • [$ (b) $](#) Przekształcenie liniowe $ \ps:V\to V $ takie, że $ \ps(\al_1+\al_2)=\al_1-\al_2 $ $ (\ps $ jest identycznością na $ V_1 $ i mnożeniem przez $ -1 $ na $ V_2) $ nazywamy symetrią $ V $ względem $ V_1 $ równoległą do $ V_2 $ (zakładamy tu, że $ -1\neq 1 $ w $ \K $, czyli $ \K $ ma charakterystykę $ \neq 2 $).

Jądro i obraz, izomorfizmy

Przy opisie przekształcenia liniowego ważną rolę odgrywają dwie związane z nim podprzestrzenie liniowe: jądro i obraz.

Uwaga (#) Dla przekształcenia liniowego $ \vp:V\to W $ i podprzestrzeni $ V_0\subset V $ oraz $ W_0\subset W $.

  • [$ (a) $] Obraz $ \vp(V_0)=\set{\vp(\al):\al\in V_0} $ podprzestrzeni $ V_0\subset V $ jest podprzestrzenią $ W $.
  • [$ (b) $] Przeciwobraz $ \vp^{-1}(W_0)=\set{\al:\vp(\al)\in W_0} $ podprzestrzeni $ W_0\subset W $ jest podprzestrzenią $ V $.
Definicja Niech $ \vp:V\to W $ będzie przekształceniem liniowym.

  • [$ (a) $] (#) Obrazem $ \vp $ nazywamy podprzestrzeń $ \im\vp=\vp(V)=\set{\vp(\al):\al\in V} $ przestrzeni $ W $. Wymiar obrazu $ \dim\im\vp $ nazywamy rzędem $ \vp $ i oznaczamy przez $ \r\vp $.
  • [$ (b) $] (#) Jądrem $ \vp $ nazywamy podprzestrzeń $ \ker\vp=\vp^{-1}(\set{\0})=\set{\al\in V:\vp(\al)=\0} $ przestrzeni $ V $. Wymiar jądra $ \dim\ker\vp $ nazywamy defektem $ \vp $ i oznaczamy przez $ \d\vp $.

Obraz i jądro przekształcenia liniowego wyznaczonego przez macierz mają ścisły związek z pojęciami wprowadzonymi w części [link].

Uwaga (#) Dla przekształcenia $ \vp_A:\K^n\to\K^m $ wyznaczonego przez macierz $ A\in\M{m}{n}{\K} $ (zob.\ Przykład [link]) $ \im\vp_A=K(A) $, $ \r\vp_A=\r A $, $ \ker\vp_A=N(A) $ i, z Twierdzenia [link], $ \d\vp_A=n-\r A $.

Następujące proste twierdzenie opisuje ważną własność przekształceń liniowych: trywialność jądra implikuje różnowartościowość.

Twierdzenie (#) Przekształcenie liniowe $ T $ jest różnowartościowe wtedy i tylko wtedy, gdy $ \ker\vp=\set{\0} $.
Dowód: Niech $ \vp:V\to W $. Dla $ \ga,\al\in V $ równość $ \vp(\ga)=\vp(\al) $ oznacza, że $ \vp(\ga)-\vp(\al)=\0 $, ale $ \vp(\ga)-\vp(\al)=\vp(\ga-\al)=\0 $ wtedy i tylko wtedy, gdy $ \ker\vp=\set{\0} $. □

Wyróżnimy teraz trzy ważne klasy przekształceń liniowych.

Definicja Przekształcenie liniowe $ \vp:V\to W $ nazywamy

  • [$ (a) $] (#) epimorfizmem jeśli $ \im\vp=W $,
  • [$ (b) $] (#) monomorfizmem jeśli $ \ker\vp=\set{\0} $,
  • [$ (c) $] (#) izomorfizmem liniowym jeśli $ \vp $ jest epimorfizmem i monomorfizmem.
Twierdzenie (#) Funkcja odwrotna $ T^{-1} $ do izomorfizmu liniowego $ \vp:V\to W $ jest przekształceniem liniowym $ T^{-1}:W\to V $.
Dowód: Istnienie funkcji odwrotnej $ \vp^{-1} $ wynika z Twierdzenia [link]. Dla sprawdzenia, że $ \vp^{-1} $ zachowuje dodawanie wektorów weźmy $ \be_i=\vp(\al_i)\in W $ dla $ i=1,2 $. Wtedy $ \vp(\al_1+\al_2)=\be_1+\be_2 $ i przykładając do obu stron tej równości $ \vp^{-1} $ otrzymujemy $ \al_1+\al_2=\vp^{-1}(\be_1+\be_2) $, czyli $ \vp^{-1}(\be_1)+\vp^{-1}(\be_2)=\vp^{-1}(\be_1+\be_2) $. Analogicznie sprawdza się, że $ \vp^{-1} $ zachowuje mnożenie wektora przez skalar. □

Z twierdzenia o określaniu przekształceń liniowych na bazie wynika, że własności przekształcenia liniowego $ \vp:V\to W $ są wyznaczone przez układ $ (\vp(\al_1),\ldots,\vp(\al_n)) $ obrazów wektorów ustalonej bazy $ (\al_1,\ldots,\al_n) $ przestrzeni $ V $.

Twierdzenie (#) Niech $ \vp:V\to W $ będzie przekształceniem liniowym określonym na przestrzeni $ V $ z bazą $ (\al_1,\ldots,\al_n) $. Wtedy

  • [$ (a) $] (#) $ \vp $ jest epimorfizmem wtedy i tylko wtedy, gdy układ $ (\vp(\al_1),\ldots,\vp(\al_n)) $ rozpina $ W $.
  • [$ (b) $] (#) $ \vp $ jest monomorfizmem wtedy i tylko wtedy, gdy układ $ (\vp(\al_1),\ldots,\vp(\al_n)) $ jest liniowo niezależny.
  • [$ (c) $] (#) $ \vp $ jest izomorfizmem wtedy i tylko wtedy, gdy układ $ (\vp(\al_1),\ldots,\vp(\al_n)) $ jest bazą $ W $.
Dowód: Część (a) wynika z równości $ \im\vp=\vp(\lin(\al_1,\ldots,\al_n))= \lin(\vp(\al_1),\ldots,\vp(\al_n)) $, część (b) z równoważności $ \sum_{j=1}^n x_j\vp(\al_j)=\0\iff\sum_{j=1}^n x_j\al_j\in\ker\vp $, a część (c) jest konsekwencją (a) i (b). □

Mówimy, że przestrzenie liniowe $ V,W $ nad $ \K $izomorficzne jeśli istnieje izomorfizm liniowy $ V $ na $ W $. Z części (c) i z twierdzenia o określaniu przekształceń liniowych na bazie wynika

Stwierdzenie (#) Przestrzenie liniowe $ V $ i $ W $ są izomorficzne wtedy i tylko wtedy, gdy $ \dim V=\dim W $.

Szczególnie ważną rolę pełnią izomorfizmy przestrzeni $ V $ na przestrzeń współrzędnych wymiaru $ \dim V $ - układy współrzędnych. Właściwy dobór układu współrzędnych znacznie upraszcza analizę wielu zagadnień algebry liniowej.

Ostatnie twierdzenie tej części można, przechodząc do przestrzeni współrzędnych, wyprowadzić z Twierdzenia [link] (por.\ Uwaga [link]). Podamy jednak bezpośredni dowód, a systematyczne wykorzystanie układów współrzędnych poprzedzimy analizą przekształceń liniowych na przestrzeniach współrzędnych.

Twierdzenie (#) Jeżeli $ T:V\to W $ jest przekształceniem liniowym, to $ \dim V=\d\vp+\r\vp $.
Dowód: Niech $ U $ będzie podprzestrzenią $ V $ taką, że $ V=\ker\vp\oplus U $ (zob.\ Wniosek [link]) i niech $ \ps=\vp|U:U\to W $ będzie obcięciem $ \vp $ do $ U $ ($ \ps(\ga)=\vp(\ga) $ dla $ \ga\in U $). Wtedy $ \im S=\im \vp $, bo dla $ \al=\be+\ga\in \ker\vp\oplus U $ mamy $ \vp(\al)=\vp(\be)+\vp(\ga)=\ps(\ga) $. Z Twierdzenia [link] $ \ker\vp \cap U=\set{\0} $, więc $ \ps $ jest izomorfizmem $ U $ na $ \im \vp $ i z Wniosku [link] mamy $ \dim V= \d \vp+\dim U= \d \vp+\r \vp $. □

Przekształcenia liniowe przestrzeni współrzędnych

Przekształcenie liniowe $ \vp:\K^n\to \K^m $ jest jednoznacznie wyznaczone przez układ $ (\vp(\ep_1),\ldots,\vp(\ep_n)) $ wartości $ \vp $ na wektorach bazy standardowej przestrzeni $ \K^n $ (zob. Twierdzenie [link]).

Definicja (#) Macierzą przekształcenia liniowego $ \vp:\K^n\to\K^m $ nazywamy macierz $ M(\vp)\in\M{m}{n}{\K} $ postaci $ M(\vp)=[\vp(\ep_1),\ldots,\vp(\ep_n)] $, gdzie $ (\ep_1,\ldots,\ep_n) $ jest bazą standardową $ \K^n $.

Następne twierdzenie ustala podstawowe związki między przekształceniem liniowym przestrzeni współrzędnych i jego macierzą.

Twierdzenie (#) Jeśli $ \vp:\K^n\to\K^m $ jest przekształceniem liniowym, to $ \vp(X)=M(\vp)X $ dla $ X\in\K^n $. Co więcej

  • [$ (a) $] (#) $ \vp $ jest epimorfizmem wtedy i tylko wtedy, gdy $ \r M(\vp)=m $.
  • [$ (b) $] (#) $ \vp $ jest monomorfizmem wtedy i tylko wtedy, gdy $ \r M(\vp)=n $.
  • [$ (c) $] (#) $ \vp $ jest izomorfizmem wtedy i tylko wtedy, gdy $ \r M(\vp)=m=n $.
Dowód: Jeśli $ X=\sum_{j=1}^n x_j\ep_j\in\K^n $, to $ \vp(X)=\vp(\sum_{j=1}^n x_j\ep_j)=\sum_{j=1}^n x_j\vp(\ep_j)=[\vp(\ep_1),\ldots,\vp(\ep_n)]X $. Druga część tezy wynika z Twierdzenia [link]

Z pierwszej części tezy wynika, że przyporządkowanie przekształceniu $ \vp:\K^n\to\K^m $ jego macierzy $ M(\vp)=[\vp(\ep_1),\ldots,\vp(\ep_n)]\in\M{m}{n}{\K} $ jest operacją odwrotną do opisanego w Przykładzie [link] przyporządkowania macierzy $ A\in\M{m}{n}{\K} $ przekształcenia $ \vp_A:\K^n\to\K^m $.

Zdefiniujemy teraz operację mnożenia macierzy odpowiadającą składaniu przekształceń. Jeśli macierz $ B=[B_1,\ldots,B_k]\in\M{n}{k}{\K} $ wyznacza $ \vp_B:\K^k\to\K^n $ (czyli $ \vp_B(E_l)=B_l $ dla $ l=1,\ldots,k $), a macierz $ A\in\M{m}{n}{\K} $ wyznacza $ \vp_A:\K^n\to\K^m $, to złożenie $ \vp_A\circ\vp_B:\K^k\to\K^m $ jest przekształceniem liniowym i

$ M(\vp_A\circ\vp_B) =[\vp_A\circ\vp_B(\ep_1),\ldots,\vp_A\circ\vp_B(\ep_k)]= [\vp_A(B_1),\ldots,\vp_A(B_k)]=[AB_1,\ldots,AB_k] $.
Definicja (#) Wynikiem pomnożenia macierzy $ A\in\M{m}{n}{\K} $ przez macierz $ B=[B_1,\ldots,B_k]\in\M{n}{k}{\K} $ nazywamy macierz $ AB=[AB_1,\ldots,AB_k]\in\M{m}{k}{\K} $.
Definicja Macierzą jednostkową nazywamy macierz $ I_n=M(\id_{_{\K^n}})= [\ep_1,\ldots,\ep_n] $.
Uwaga

  • [(a)] Podobnie, jak złożenie funkcji $ f\circ g $ jest określone tylko wtedy, gdy dziedzina $ f $ jest przeciwdziedziną $ g $, iloczyn macierzy $ AB $ ma sens tylko wtedy, gdy liczba kolumn $ A $ jest taka jak liczba wierszy $ B $. Mówiąc o iloczynie macierzy zawsze zakładamy zgodność odpowiednich wymiarów.

  • [(b)] Jeśli $ A\in\M{m}{n}{\K} $, to $ AI_n=A=I_m A $ (bo $ \vp_A\circ\id_{_{\K^n}}=\vp_A=\id_{_{\K^m}}\circ\vp_A $).
  • [(c )] Mnożenie macierzy jest łączne, czyli $ A(BC)=(AB)C $, co wynika z łączności składania funkcji.
  • [(d)] Mnożenie macierzy nie zawsze jest przemienne (nawet wtedy, gdy zmiana kolejności czynników ma sens).

    $ \mk{rr}{0&-1\\1&0}\mk{rr}{1&0\\0&-1}=\mk{rr}{0&1\\1&0} $, \ $ \mk{rr}{1&0\\0&-1}\mk{rr}{0&-1\\1&0}=\mk{rr}{0&-1\\-1&0} $.

  • [(e)] Iloczyn macierzy niezerowych może być macierzą zerową $ \mk{rr}{0&1\\0&0}\mk{rr}{0&1\\0&0}=\mk{rr}{0&0\\0&0} $.

Przestrzenie przekształceń liniowych

Niech $ V $ i $ W $ będą przestrzeniami liniowymi nad $ \K $. Zbiór $ \ho{V}{W} $ przekształceń liniowych z $ V $ do $ W $ będziemy rozpatrywać jako przestrzeń liniową nad $ \K $ z przekształceniem zerowym $ \0 $ jako wektorem zerowym oraz naturalnymi działaniami dodawania i mnożenia przez skalary określonymi następująco: dla $ \vp_1,\vp_2,\vp\in \ho{V}{W} $, $ c\in\K $ i $ \al\in V $

(+)      $ (\vp_1+\vp_2)(\al)=\vp_1(\al)+\vp_2(\al) $; ($ \cdot $)     $ (c\vp)(\al)=c(\vp(\al)) $.

Następujące twierdzenie pozwala utożsamić, z zachowaniem operacji algebraicznych, przestrzenie przekształceń $ \ho{\K^n}{\K^m} $ z przestrzeniami macierzy $ \M{m}{n}{\K} $ opisanymi w Przykładzie [link] (b).

Twierdzenie (#) Przyporządkowanie przekształceniu liniowemu $ \vp:\K^n\to\K^m $ jego macierzy $ M(\vp) $ jest izomorfizmem liniowym przestrzeni $ \ho{\K^n}{\K^m} $ na przestrzeń macierzy $ \M{m}{n}{\K} $.
Dowód: Widzieliśmy, że przyporządkowanie macierzy $ A\in\M{m}{n}{\K} $ przekształcenia $ \vp_A\in\ho{\K^n}{\K^m} $ jest odwróceniem funkcji $ \vp\to M(\vp) $. Sprawdzimy, że ta funkcja zachowuje dodawanie i mnożenie przez skalar, czyli dla $ \vp_1,\vp_2,\vp\in \ho{V}{W} $, $ c\in\K $ spełnione są warunki

(+)      $ M(\vp_1+\vp_2)=M(\vp_1)+M(\vp_2) $; ($ \cdot $)     $ M(c\vp)=cM(\vp) $.

Istotnie, $ M(\vp_1+\vp_2)= [(\vp_1+\vp_2)(\ep_1)\,,\,\ldots\,,\,(\vp_1+\vp_2)(\ep_n)]= [\vp_1(\ep_1)+\vp_2(\ep_1)\,,\,\ldots\,,\,\vp_1(\ep_n)+\vp_2(\ep_n)]= $

$ =[\vp_1(\ep_1),\ldots,\vp_1(\ep_n)]+[\vp_2(\ep_1),\ldots,\vp_2(\ep_n)]= M(\vp_1)+M(\vp_2) $

oraz $ M(c\vp)=[(c\vp)(\ep_1),\ldots,(c\vp)(\ep_n)]=[c\vp(\ep_1),\ldots,c\vp(\ep_n)]= c[\vp(\ep_1),\ldots,\vp(\ep_n)]=cM(\vp) $. □

Uwaga Przyporządkowanie przekształceniu liniowemu przestrzeni współrzędnych jego macierzy przeprowadza operację złożenia przekształceń na mnożenie macierzy, więc z łatwych do sprawdzenia własności przekształceń natychmiast wynikają następujące algebraiczne własności mnożenia macierzy (zakładamy zgodność wymiarów macierzy w odpowiednich działaniach)

  • [(a)] $ (A_1+A_2)B=A_1B+A_2B $,
  • [(b)] $ A(B_1+B_2)=AB_1+AB_2 $,
  • [(c)] $ A(cB)=c(AB)=(cA)B $.

Izomorfizmy przestrzeni współrzędnych

Macierz mającą $ m $ wierszy i $ m $ kolumn nazywamy macierzą kwadratową. Macierze kwadratowe z $ \M{m}{m}{\K} $ odpowiadają przekształceniom $ T:\K^m\to\K^m $, przy czym macierze odpowiadające izomorfizmom są elementami odwracalnymi w $ \M{m}{m}{\K} $, ze względu na operację mnożenia.

Definicja Macierz kwadratową $ A\in\M{m}{m}{\K} $ nazywamy macierzą odwracalną jeśli istnieje macierz kwadratowa $ M\in\M{m}{m}{\K} $ taka, że $ MA=I_{m} $
Uwaga Dla macierzy kwadratowych $ A,M\in\M{m}{m}{\K} $ warunek $ MA=I_{m} $ oznacza, że $ T_M:\K^m\to\K^m $ jest epimorfizmem, a $ T_A:\K^m\to\K^m $ jest monomorfizmem. Z Twierdzenia [link] wynika, że $ \r M=\r A=m $, czyli $ T_A $ i $ T_M $ są wzajemnie odwrotnymi izomorfizmami $ \K^m $ oraz $ AM=MA=I_{m} $.
Definicja Jeśli macierz kwadratowa $ A\in\M{m}{m}{\K} $ jest odwracalna, to macierz $ M(T_A^{-1}) $ izomorfizmu odwrotnego do $ T_A $ nazywamy macierzą odwrotną do $ A $ i oznaczamy przez $ A^{-1} $.

Podamy teraz metodę znajdowania macierzy odwrotnej korzystającą z interpretacji operacji elementarnych na wierszach macierzy jako pewnych izomorfizmów przestrzeni współrzędnych.

\mNiech $ \E $ będzie operacją elementarną na wierszach macierzy z $ \M{m}{n}{\K} $. Wynik operacji $ \E $ na macierzy $ A $ będziemy oznaczać przez $ \E(A) $, niezależnie od liczby kolumn macierzy $ A $ (także dla macierzy jednokolumnowych). W szczególności, dla macierzy $ A=[A_1,\ldots,A_n] $ mamy $ \E(A)=[\E(A_1),\ldots,\E(A_n)] $.

\mOperacja $ \E $ na macierzach jednokolumnowych jest odwracalną funkcją $ \E:\K^m\to\K^m $ zachowującą kombinacje liniowe (jeśli $ x_1A_1+\ldots+x_nA_n=B $, to $ x_1\E(A_1)+\ldots+x_n\E(A_n)=\E(B) $, zob.\ Twierdzenie [link])

Definicja (#) Izomorfizm $ \E:\K^m\to\K^m $ wyznaczony przez operację elementarną na wierszach $ \E $ nazywamy izomorfizmem elementarnym, a jego macierz $ M(\E)=[\E(\ep_1),\ldots,\E(\ep_m)]=\E(I_m) $ nazywamy macierzą elementarną.
Uwaga (#) Wykonanie operacji elementarnej $ \E $ na wierszach macierzy $ A=[A_1,\ldots,A_n]\in\M{m}{n}{\K} $ daje macierz $ \E(A)=[\E(A_1),\ldots,\E(A_n)]=[\E(T_A(E_1)),\ldots,\E(T_A(E_n))]=M(\E\circ T_A)=M(\E)A $, czyli odpowiada pomnożeniu macierzy $ A $ z lewej strony przez macierz elementarną $ M(\E) $ izomorfizmu $ \E $.
Twierdzenie (#) Macierz odwracalną $ A\in\M{m}{m}{\K} $ można zredukować do macierzy jednostkowej $ I_m $ operacjami elementarnymi na wierszach. Jeśli $ \E_p,\ldots,\E_1 $ są operacjami redukującymi $ A $ do $ I_m $, to iloczyn macierzy elementarnych $ M(\E_p)\cdot\ldots\cdot M(\E_1) $ jest macierzą odwrotną do $ A $.
Dowód: Macierz $ A $ ma rząd $ m $, więc redukując $ A $ do postaci schodkowej otrzymamy macierz $ A' $ mającą na przekątnej wyrazy niezerowe i zera pod przekątną. Wykonując operacje typu (I) z użyciem ostatniego wiersza macierzy $ A' $ można wyzerować wszystkie, prócz ostatniego wyrazy ostatniej kolumny tej macierzy, wykorzystując przedostatni wiersz w podobny sposób można wyzerować wszystkie wyrazy przedostatniej kolumny leżące w poprzednich wierszach i po kolejnych, analogicznych krokach otrzymać macierz diagonalną $ B $ (czyli macierz mającą zera poza przekątną). Operacjami typu (III) można następnie zamienić wszystkie wyrazy przekątnej $ B $ na jedynki.

Jeśli $ \E_p,\ldots,\E_1 $ są operacjami redukującymi macierz $ A $ do $ I_m $, to złożenie $ \vp=\E_p\circ\ldots\circ\E_1 $ izomorfizmów elementarnych przeprowadza $ j $-tą kolumnę macierzy $ A $ na $ j $-tą kolumnę macierzy $ I_m $, jest więc izomorfizmem odwrotnym do izomorfizmu $ T_A $, a jego macierz $ M(T)=M(\E_p)\cdot\ldots\cdot M(\E_1) $ jest macierzą odwrotną do $ A $. □

Jeśli macierz $ A\in\M{m}{m}{\K} $ jest odwracalna, to macierz $ A^{-1} $ też jest odwracalna i $ (A^{-1})^{-1}=A $, więc z drugiej części tezy dla macierzy odwracalnej $ A^{-1} $ dostajemy

Stwierdzenie (#) Macierz odwracalna $ A\in\M{m}{m}{\K} $ jest iloczynem skończenie wielu macierzy elementarnych.
Uwaga (#) Niech $ [A|I_m]\in\M{m}{m+m}{\K} $ będzie macierzą powstałą przez dopisanie do macierzy odwracalnej $ A\in\M{m}{m}{\K} $ macierzy jednostkowej $ I_m $. Redukując macierz $ [A|I_m] $ do macierzy $ [I_m|M] $ operacjami elementarnymi $ \E_p,\ldots,\E_1 $ otrzymujemy w dopisanej części macierz złożenia $ \E_p\circ\ldots\circ\E_1 $ redukujących izomorfizmów elementarnych, czyli $ M=M(\E_p\circ\ldots\circ\E_1)=A^{-1} $.

Przy odwracaniu iloczynu macierzy musimy zmienić kolejność czynników.

Twierdzenie Jeśli macierze $ A,B\in\M{m}{m}{\K} $ są odwracalne i $ c\in\K $ jest niezerowym skalarem, to iloczyny $ AB $ i $ cA $ są macierzami odwracalnymi i $ (AB)^{-1}=B^{-1}A^{-1} $ oraz $ (cA)^{-1}=c^{-1}A^{-1} $.
Dowód: Mnożenie macierzy jest łączne, więc $ (B^{-1}A^{-1})AB=B^{-1}(A^{-1}A)B=B^{-1}B=I_m $. Analogicznie, $ c^{-1}A^{-1}(cA)=c^{-1}cA^{-1}A=I_m $. □

Macierz przekształcenia

Opiszemy teraz przejście od dowolnych przestrzeni liniowych do przestrzeń współrzędnych odwołując się do istnienia izomorfizmu przestrzeni liniowej na przestrzeń współrzędnych odpowiedniego wymiaru.

Dla wyróżnienia takich izomorfizmów, będziemy je oznaczali greckimi literami $ \si,\ta $.

Definicja (#) Izomorfizmy $ n $-wymiarowej przestrzeni $ V $ nad $ \K $ na przestrzeń $ \K^n $ nazywamy układami współrzędnych w $ V $. Układem współrzędnych związanym z bazą $ (\al_1,\ldots,\al_n) $ w $ V $ nazywamy izomorfizm $ \si: V\to \K^n $ przeprowadzający $ \al_j $ na $ \ep_j $, $ j=1,\ldots,n $.
Uwaga

  • [(a)] Układ współrzędnych $ \si $ związany z bazą $ (\al_1,\ldots,\al_n) $ przestrzeni $ V $ przeprowadza wektor $ \al=\sum_{j=1}^n x_j\al_j\in V $ na wektor $ X=\sum_{j=1}^n x_j\ep_j\in\K^n $ współrzędnych $ \al $ w tej bazie.
  • [(b)] Dowolny układ współrzędnych $ \si:V\to \K^n $ jest związany z bazą $ (\si^{-1}(\ep_1),\ldots,\si^{-1}(\ep_n)) $,
  • [(c)] Jeśli $ \si,\si':V\to \K^n $ są układami współrzędnych w $ V $, to złożenie $ \si'\circ\si^{-1}:\K^n\to\K^n $ zmienia współrzędne $ \si(\al) $ wektora $ \al $ w $ \si $ na współrzędne $ \al $ w $ \si' $ (bo $ \si'\circ\si^{-1}(\si(\al))=\si'(\al) $).

Pokażemy teraz jak wybór układów współrzędnych w $ V $ i $ W $ pozwala przyporządkować każdemu przekształceniu liniowemu $ \vp:V\to W $ jego macierz w tych układach współrzędnych.

Definicja Niech $ \si:V\to\K^n $ będzie układem współrzędnych w $ V $, a $ \ta:W\to\K^m $ układem współrzędnych w $ W $. Macierzą przekształcenia liniowego $ \vp:V\to W $ w układach $ \si $, $ \ta $ nazywamy macierz $ \MP{\si}{\ta}{\vp}=M(\ta\circ\vp\circ\si^{-1}) $, gdzie $ \ta\circ\vp\circ\si^{-1}:\K^n\to\K^m $.
Uwaga (#) Niech $ \vp: V\to W $ będzie przekształceniem liniowym określonym na przestrzeni $ V $ z bazą $ (\al_1,\ldots,\al_n) $ związaną z układem współrzędnych $ \si:V\to \K^n $ i niech $ \ta:W\to \K^m $ będzie układem współrzędnych w $ W $. Wtedy

  • [(a)] $ \MP{\si}{\ta}{\vp}=[\ta(\vp(\al_1)),\ldots,\ta(\vp(\al_n))] $ (bo $ \ta\circ\vp\circ\si^{-1}(\ep_j)=\ta(\vp(\al_j)) $ dla $ j=1,\ldots,n) $,

  • [(b)] $ \MP{\si}{\ta}{\vp}\cdot\si(\al)=\ta(\vp(\al)) $ dla $ \al\in V $ (bo $ \ta\circ\vp\circ\si^{-1}(\si(\al))=\ta(\vp(\al)) $).

Dla ustalonych układów współrzędnych $ \si: V\to \K^n $ i $ \ta:W\to \K^m $ przyporządkowanie przekształceniu liniowemu $ \vp\in\ho{V}{W} $ złożenia $ \ta\circ T\circ\si^{-1}:\K^n\to\K^m $ jest izomorfizmem liniowym $ \ho{V}{W} $ na $ \ho{\K^n}{\K^m} $. Z Twierdzenia [link] wynika więc

Twierdzenie Dla ustalonych układów współrzędnych $ \si: V\to \K^n $ i $ \ta:W\to \K^m $ przyporządkowanie przekształceniu liniowemu $ \vp\in\ho{V}{W} $ jego macierzy $ \MP{\si}{\ta}{\vp} $ jest izomorfizmem liniowym przestrzeni przekształceń $ \ho{V}{W} $ na przestrzeń macierzy $ \M{m}{n}{\K} $.

Przestrzeń funkcjonałów

Niech $ V $ będzie $ n $-wymiarową przestrzenią liniową nad ciałem $ \K $. Przestrzeń $ \ho{V}{\K} $ nazywamy przestrzenią sprzężoną do przestrzeni $ V $, a jej elementy - przekształcenia liniowe $ f: V\to \K $, nazywamy funkcjonałami liniowymi.

Uwaga (#) Niech $ \A=(\al_1,\ldots,\al_n) $ będzie bazą przestrzeni $ V $ i niech $ f_i:V\to \K $ będzie jedynym funkcjonałem liniowym takim, że

$ (\ast) $ $ f_i(\al_j)=\left\{\md{lll}{1&\mbox{jeśli}&i=j\ ,\\ 0&\mbox{jeśli}&i\neq j\ .} \right. $

Wtedy

  • [(a)] $ \al=\sum_j f_j(\al)\al_j $ dla $ \al\in V $, czyli $ f_i $ przyporządkowuje wektorowi jego $ i $-tą współrzędną w bazie $ \A $.\\ Istotnie, dla $ \al=\sum_j x_j\al_j $, $ f_i(\al)=f_i(\sum_j x_j\al_j)= \sum_j x_jf_i(\al_j)=x_i $.

  • [(b)] $ f=\sum_i f(\al_i)f_i $ dla $ f\in V^\ast $, przy czym przedstawienie jest jednoznaczne.\\ Istotnie, obie strony równości przyjmują na wektorze $ \al_j $ bazy $ \A $ wartość $ f(\al_j) $, więc są równe. Analogiczny argument pokazuje jednoznaczność przedstawienia $ f $ jako sumy $ f=\sum_i a_if_i $.
  • [(c)] Układ funkcjonałów $ \A^\ast=(f_1,\ldots,f_n) $ jest bazą $ V^\ast $ i wartość funkcjonału $ f\in V^\ast $ na wektorze $ \al_j $ jest $ j $-tą współrzędną tego funkcjonału w bazie $ \A^\ast $.
Definicja Bazy $ (\al_1,\ldots,\al_n) $ w $ V $ i $ (f_1,\ldots,f_n) $ w $ V^\ast $ nazywamy dualnymi, jeśli spełniony jest warunek $ (\ast) $ w Uwadze [link].
Twierdzenie Dla każdej bazy $ (f_1,\ldots,f_n) $ w przestrzeni $ V^\ast $ istnieje dualna do niej baza $ (\al_1,\ldots,\al_n) $ w przestrzeni $ V $.
Dowód: Niech $ V^{\ast\ast}=(V^\ast)^\ast $ i niech $ J:V\to V^{\ast\ast} $ będzie przekształceniem liniowym określonym wzorem

$$J(\al)(f)=f(\al) \ ,\ \mbox{ dla } \al\in V \mbox{ i } f\in V^\ast.$$

Jeśli $ \al\neq\0 $, to istnieje $ f\in V^\ast $ takie, że $ f(\al)\neq\0 $, a więc $ J(\al)\neq\0 $ (w $ V^{\ast\ast} $). Zatem $ J $ jest monomorfizmem i ponieważ (zob.\ Uwaga [link]) $ \dim V=\dim V^\ast=\dim V^{\ast\ast} $, $ J $ jest izomorfizmem.

Zgodnie z [link], dla bazy $ (f_1,\ldots,f_n) $ przestrzeni $ V^\ast $ istnieje baza $ (\ga_1,\ldots,\ga_n) $ w $ V^{\ast\ast} $ spełniająca warunek

$ (\ast\ast) $ $ \ga_i(f_j)=\left\{\md{lll}{1&\mbox{jeśli}&i=j\ ,\\ 0&\mbox{jeśli}&i\neq j\ .} \right. $

Jeśli $ (\al_1,\ldots,\al_n) $ jest bazą $ V $ taką, że $ J(\al_i)=\ga_i $, to $ \ga_i(f_j)=J(\al_i)(f_j)=f_j(\al_i) $, więc z ($ \ast\ast $) wynika, że bazy $ (\al_1,\ldots,\al_n) $ oraz $ (f_1,\ldots,f_n) $ są dualne. □

Definicja (#) Niech $ \vp: V\to W $ będzie przekształceniem liniowym. Przekształceniem sprzężonym do $ \vp $ nazywamy przekształcenie liniowe $ \vp^\ast:W^\ast\to V^\ast $ określone formułą

$$\vp^\ast (g)=g\circ \vp \ ,\ \mbox{ dla } g\in W^\ast.$$

Pokażemy, że przy wyborze baz dualnych $ V,V^\ast $ oraz $ W,W^\ast $, macierze przekształceń $ \vp $ i $ \vp^\ast $ w związanych z tymi bazami układach współrzędnych powstają, jedna z drugiej, przez zamianę kolumn na wiersze, tzn.\ przez transponowanie.

Zacznijmy od wprowadzenia operacji transpozycji macierzy.

Definicja Macierzą transponowaną macierzy $ A\in\M{m}{n}{\K} $ nazywamy macierz $ A^T\in\M{n}{m}{\K} $, której kolejne kolumny są kolejnymi wierszami macierzy $ A $.
Uwaga (#) Dla macierzy $ A\in\M{m}{n}{\K} $

  • [(a)] $ (A^T)^T=A $ (bo zamiana kolumn na wiersze zmienia wiersze na kolumny),
  • [(b)] $ \r A^T=\r A $ (zob.\ Twierdzenie [link]).
  • [(c)] $ (AB)^T=B^TA^T $ (jeśli iloczyn $ AB $ ma sens, to iloczyn $ B^TA^T $ również ma sens, a równość można sprawdzić porównując odpowiednie wyrazy tych iloczynów).
  • [(d)] $ (A^T)^{-1}=(A^{-1})^T $ jeśli $ A $ jest macierzą odwracalną (bo $ (A^{-1})^T A^T=(AA^{-1})^T=I^T=I $).
Twierdzenie Niech $ \vp: V\to W $ będzie przekształceniem liniowym i niech $ \si: V\to \K^n $, $ \ta: W\to \K^m $ będą układami współrzędnych związanymi z pewnymi bazami $ V $ i $ W $, a $ \hat{\si}: V^\ast\to \K^n $, $ \hat{\ta}: W^\ast\to \K^m $ będą układami współrzędnych związanymi z bazami dualnymi do nich. Wówczas

$$\MP{\hat{\ta}}{\hat{\si}}{\vp^\ast}=\MP{\si}{\ta}{\vp}^T.$$
Dowód: Niech $ \si $ i $ \ta $ będą związane z bazami $ (\al_1,\ldots,\al_n) $ w $ V $, $ (\be_1,\ldots,\be_m) $ w $ W $, a układy $ \hat{\si} $ i $ \hat{\ta} $, z bazami dualnymi $ (f_1,\ldots,f_n) $ w $ V^\ast $ i $ (g_1,\ldots,g_m) $ w $ W^\ast $, odpowiednio.

Na mocy Uwagi [link] (a), $ i $-ty wyraz $ j $-tej kolumny macierzy $ \MP{\si}{\ta}{\vp} $ jest $ i $-tą współrzędną współrzędną wektora $ \ta(\vp(\al_j)) $, która zgodnie z Uwagą [link] (a) ma postać $ a_{ij}=g_i(\vp(\al_j)) $.

Po transpozycji, $ a_{ij} $ staje się $ i $-tym wyrazem $ j $-tego wiersza macierzy transponowanej, a odpowiedni wyraz $ b_{ji} $ macierzy $ \MP{\hat{\ta}}{\hat{\si}}{\vp^\ast} $ jest $ j $-tą współrzędną $ i $-tej kolumny tej macierzy, która zgodnie z Uwagą [link] (c) ma postać $ b_{ji}=\vp^\ast(g_i)(\al_j) $. Z definicji $ \vp^\ast $ mamy $ b_{ji}=g_i\circ\vp(\al_j)=a_{ij} $, co kończy dowód. □

Z twierdzenia wyprowadzimy następujący wniosek

Stwierdzenie Niech $ \vp:V\to W $ będzie przekształceniem liniowym. Wówczas

  • [$ (a) $] $ \vp $ jest monomorfizmem $ \iff $ $ \vp^\ast $ jest epimorfizmem.
  • [$ (b) $] $ \vp $ jest epimorfizmem $ \iff $ $ \vp^\ast $ jest monomorfizmem.
Dowód: Z Uwagi [link] (b) $ \r\vp=\r\vp^\ast $, a stąd i z Twierdzenia [link] otrzymujemy równoważności

$ \vp $ jest monomorfizmem $ \iff $ $ \r\vp=\dim V $ $ \iff $ $ \r\vp^\ast=\dim V^\ast $ $ \iff $ $ \vp^\ast $ jest epimorfizmem

oraz

$ \vp $ jest epimorfizmem $ \iff $ $ \r\vp=\dim W $ $ \iff $ $ \r\vp^\ast=\dim W^\ast $ $ \iff $ $ \vp^\ast $ jest monomorfizmem. □

Wyznaczniki

Wyznacznik macierzy kwadratowych jest funkcją $ \det:\M{m}{n}{\K}\to\K $, ($ m=1,2,\ldots $) przypisującą każdej macierzy kwadratowej skalar, liniowo ze względu na każdy wiersz osobno i zerującą sie na macierzach mających dwa identyczne wiersze. Jak zobaczymy, te warunki i warunek $ \det I_n=1 $ charakteryzują wyznacznik jednoznacznie, przy czym funkcję $ \det $ można określić przez indukcję ze względu na $ n $.

Zanim przystąpimy do dokładnego opisu wyznacznika, podamy pewną interpretację geometryczną funkcji $ \det:\M{3}{3}{\R}\to\R $. Własności wyznacznika zapewniają, że moduł wyznacznika nie zmienia się przy operacjach elementarnych typu (I) i (II) na wierszach macierzy. Tak więc, jeśli $ A\in\M{3}{3}{\R} $ jest macierzą odwracalną, a macierz $ B $ jest macierzą diagonalną otrzymaną w wyniku operacji elementarnych na wierszach $ A $ (zob.\ dowód Twierdzenia [link]), to $ |\det A|=|\det B| $.

Nietrudno sprawdzić, że operacje elementarne redukujące $ A $ do $ B $ nie zmieniają objętości równoległościanu rozpiętego w trójwymiarowej przestrzeni euklidesowej na wierszach macierzy. Zatem objętości równoległościanów rozpiętych na wierszach $ A $ i $ B $ są identyczne. Ponieważ wiersze $ B $ rozpinają prostopadłościan i $ |\det B| $ jest iloczynem modułów wyrazów na przekątnej $ B $ - długości jego krawędzi, $ |\det B| $ jest objętością tego prostopadłościanu.

W rezultacie widzimy, że $ |\det A| $ jest objętością równoległościanu rozpiętego na wierszach macierzy $ A $. Znak wyznacznika wiąże się z orientacją przestrzeni. Do tej ważnej interpretacji geometrycznej wyznacznika nad ciałem liczb rzeczywistych powrócimy w dalszej części, po wprowadzeniu $ n $-wymiarowych przestrzeni euklidesowych. Najpierw jednak skupimy się na własnościach algebraicznych wyznaczników nad dowolnym ciałem skalarów.

Definicja i podstawowe własności

W tej części podamy dowód twierdzenia o istnieniu i jednoznaczności wyznacznika.

Twierdzenie (#) Istnieje dokładnie jedna funkcja $ \det:\M{n}{n}{\K}\to\K $ $ ( $zwana wyznacznikiem$ ) $ taka, że

  • [(1)] $ \det \mk{c}{w_1\\\vdots\\cw_k\\\vdots\\w_n}=c\det \mk{c}{w_1\\\vdots\\w_k\\\vdots\\w_n} $ dla $ c\in\K $ $ ( $jednorodność względem $ k $-tego wiersza, $ k=1,\ldots,n) $,
  • [(2)] $ \det \mk{c}{w_1\\\vdots\\w_k'+w_k''\\\vdots\\w_n}=\det \mk{c}{w_1\\\vdots\\w'_k\\\vdots\\w_n}+\det \mk{c}{w_1\\\vdots\\w''_k\\\vdots\\w_n} $ $ ( $addytywność względem $ k $-tego wiersza, $ k=1,\ldots,n) $,
  • [(3)] $ \det A=0 $ jeśli $ A $ ma dwa sąsiednie wiersze równe.
  • [(4)] $ \det I_n=1 $.
Definicja (#)

Wartość $ \det A $ funkcji $ \det $ na macierzy $ A\in\M{n}{n}{\K} $ nazywamy wyznacznikiem $ A $.

Dowód przeprowadzimy określając najpierw indukcyjnie funkcję spełniającą warunki (1)-(4), a następnie upewniając się, że te warunki określają funkcję $ \det $ jednoznacznie.

Zaczniemy od uwagi pokazującej, że warunek (3) można wzmocnić żądając by wyznacznik zerował się na macierzach mających dwa równe wiersze. W definicji wyznacznika często podaje się taką mocniejszą wersję warunku (3). Użycie w [link] słabszej wersji (3) upraszcza dowód istnienia funkcji $ \det $.

Uwaga (#) Niech $ \det:\M{n}{n}{\K}\to\K $ spełnia warunki (1)-(4) i $ A\in\M{n}{n}{\K} $.

  • [(a)] Ustalmy $ k<l\leq n $. Jeśli $ \det C=0 $ dla macierzy $ C $ takich, że $ k $-ty wiersz $ C $ jest równy $ l $-temu i $ B\in\M{n}{n}{\K} $ powstaje z $ A $ w wyniku zamiany miejscami wiersza $ k $-tego z $ l $-tym, to $ \det B = -\det A $.
  • [(b)] $ \det C=0 $ jeśli $ C $ ma dwa wiersze równe.

Uzasadnimy (a). Niech $ w_k $ i $ w_l $ będą $ k $-tym oraz $ l $-tym wierszem macierzy $ A $. Rozpatrzmy macierze $ C' $, $ C'' $ i $ C''' $, mające $ k $-ty oraz $ l $-ty wiersz równy odpowiednio $ w_k+w_l $, $ w_k $ i $ w_l $, a pozostałe wiersze identyczne z wierszami $ A $. W (a) zakładamy, że wyznaczniki tych macierzy się zerują, a z (2) dla wierszy $ k $ i $ l $ mamy $ \det C' = \det C'' +\det A+\det B +\det C''' $, czyli $ \det A+\det B=0 $, co dowodzi (a).

Z (3) wynika, że założenie w (a) jest spełnione dla $ l=k+1 $. Oznacza to, że przestawienie dwóch sąsiednich wierszy zmienia znak wyznacznika. Jeśli $ C $ ma dwa wiersze równe, to kilkakrotnie zamieniając dwa sąsiednie wiersze miejscami możemy przekształcić $ C $ w macierz $ A $ mającą dwa sąsiednie wiersze równe. Z (3) mamy więc $ \det C=\pm\det A=0 $.

Istnienie funkcji $ \det $.\\ Załóżmy, że istnieje funkcja $ \det:\M{(n-1)}{(n-1)}{\K}\to\K $ spełniająca (1)-(4) (dla $ n=1 $ przyjmujemy $ \det[a]=a $).

Dla macierzy $ A=[a_{ij}]\in\M{n}{n}{\K} $ oznaczmy przez $ \MI{A}{ij} $ macierz z $ \M{(n-1)}{(n-1)}{\K} $ otrzymaną z $ A $ przez skreślenie $ i $-tego wiersza i $ j $-tej kolumny oraz przyjmijmy

$ d_j (A)=\sum_{i=1}^n (-1)^{i+j}a_{ij}\det \MI{A}{ij}, $

Ustalmy $ j=1,\ldots,n $. Pokażemy, że $ d_j $ spełnia warunki (1)-(4) na macierzach z $ \M{n}{n}{\K} $ (po upewnieniu się, że (1)-(4) określają wyznacznik jednoznacznie, będziemy także wiedzieć, że $ d_j(A) $ nie zależy od $ j $).

Istotnie, jednorodność i addytywność za względu na $ k $-ty wiersz każdego składnika $ (-1)^{i+j}a_{ij}\det \MI{A}{ij} $ wynikają z założenia indukcyjnego dla $ i\neq k $, a jeśli $ i=k $, to własności te wynikają z faktu, że zmiana $ k $-tego wiersza nie zmienia $ \det \MI{A}{kj} $, a jedynie $ a_{kj} $.

Dla sprawdzenia własności (3) załóżmy, że $ k $-ty i $ (k+1) $-szy wiersz macierzy $ A $ są identyczne. Z założenia indukcyjnego zerują się wtedy wszystkie $ \det\MI{A}{ij} $ dla $ i\not\in\set{k,k+1} $, więc

$$d_j(A)=(-1)^{k+j}a_{kj} \det \MI{A}{kj}+(-1)^{(k+1)+j}a_{k+1\,j}\det \MI{A}{k+1\,j}=0,$$

a ponieważ macierze $ \MI{A}{kj} $ i $ \MI{A}{k+1\,j} $ są identyczne, mamy $ d_j(A)=0 $.

\m Własność (4) wynika z równości $ d_j (I_n)=(-1)^{j+j}\det \MI{({I_n})}{jj}=\det I_{n-1}=1 $.

Jednoznaczność funkcji $ \det $ na macierzach elementarnych.

Niech $ B $ będzie macierzą otrzymaną z macierzy $ A $ w wyniku operacji elementarnej na wierszach. Zbadamy zależność między $ \det A $ i $ \det B $.

Warunek (1) oznacza, że $ \det B=c\det A $ dla operacji mnożącej $ k $-ty wiersz przez $ c\neq 0 $.

Z Uwagi [link] wynika, że $ \det B=-\det A $ dla operacji zamieniającej dwa wiersze miejscami.

Pokażemy, że $ \det B=\det A $ dla operacji dodającej do $ k $-tego wiersza $ w_k $ macierzy $ A $ $ i $-ty wiersz $ w_i $ tej macierzy pomnożony przez skalar $ a $. Istotnie, z (2) i (1) wynika, że $ \det B=\det A+a\det C $, gdzie $ C $ jest macierzą mającą $ k $-ty i $ i $-ty wiersz równy $ w_i $, więc $ \det C=0 $.

Przypomnijmy, że wykonanie operacji elementarnej na wierszach $ A $ daje iloczyn $ MA $, gdzie $ M $ jest odpowiednią macierz elementarną, zob.\ Uwaga [link]. Dla macierzy $ A\in\M{n}{n}{\K} $ i macierzy elementarnej $ M\in\M{n}{n}{\K} $ mamy więc

$ (\ast) $ $ \det MA=\left\{\begin{array}{rrl} \det A &\mbox{dla } M & \mbox{dodającej do wiersza inny wiersz pomnożony przez skalar,}\\ -\det A&\mbox{dla } M & \mbox{zamieniającej dwa wiersze miejscami},\\ c\det A &\mbox{dla } M & \mbox{mnożącej wiersz przez } c\neq 0. \end{array}\right. $

\m Zastępując $ A $ przez $ I_n $, z warunku ($ 4 $) dostajemy

$ \det M\ =\ \left\{\begin{array}{rrl} 1 &\mbox{dla } M & \mbox{dodającej do wiersza inny wiersz pomnożony przez skalar,}\\ -1&\mbox{dla } M & \mbox{zamieniającej dwa wiersze miejscami},\\ c &\mbox{dla } M & \mbox{mnożącej wiersz przez } c\neq 0,</p>
<p>\end{array}\right. $

czyli $ \det MA=\det M\det A $ dla dowolnej macierzy $ A $ i macierzy elementarnej $ M $.

Jednoznaczność funkcji $ \det $.

Jeśli $ M_1,\ldots,M_p\in\M{n}{n}{\K} $ są macierzami elementarnymi, to z wzoru $ \det MA=\det M\det A $ wynika (przez indukcję ze względu na $ p $), że $ \det (M_p\ldots M_1B)=\det M_p\ldots\det M_1 \det B $ dla $ B\in\M{n}{n}{\K} $.

Dla odwracalnej macierzy $ A $ wartość $ \det A $ jest jednoznacznie wyznaczona i $ \det A\neq 0 $ (bo z Wniosku [link] $ A $ rozkłada się na iloczyn $ A=M_p\ldots M_1 $ macierzy elementarnych i przyjmując $ B=I_n $ dostajemy $ \det A=\det M_p\ldots\det M_1 $). Ponadto, $ \det AB=\det A\det B $ (bo $ \det AB =\det (M_p\ldots M_1B)=\det M_p\ldots\det M_1 \det B=\det A\det B $).

Dla macierzy $ A $, która nie jest odwracalna, $ \det A=0 $ (bo jeśli $ M $ jest iloczynem macierzy elementarnych odpowiadających operacjom redukującym $ A $ do postaci schodkowej, to ostatni wiersz $ MA $ jest zerowy i z (1) dla $ k=n $, $ c=0 $ mamy $ \det(MA)=0 $, ale $ \det (MA)=\det M\det A $ i $ \det M\neq 0 $, bo $ M $ jest odwracalna).

Wykazaliśmy więc jednoznaczność i zakończyliśmy dowód Twierdzenia [link]. $ \ep $

Uwaga (#)

  • [(a)] $ \det A\neq 0 $ wtedy i tylko wtedy, gdy $ A $ jest odwracalna\\ (pokazaliśmy to w dowodzie jednoznaczności).
  • [(b)] (Twierdzenie Cauchy'ego) $ \det AB=\det A\det B $ dla $ A,B\in\M{n}{n}{\K} $\\ (pokazaliśmy to dla $ A $ odwracalnej; w przeciwnym przypadku $ \det AB=0=\det A\det B $).
  • [(c)] Jeśli macierz $ A $ jest odwracalna, to $ \det (A^{-1})=(\det A)^{-1} $\\ (bo $ 1=\det I_n =\det(A\cdot A^{-1})= \det A\cdot\det (A^{-1}) $).

Obliczanie wyznaczników

Z jednoznaczności w Twierdzeniu [link] wynika, że $ d_j(A)=\det A $ dla funkcji $ d_j $ zdefiniowanych w dowodzie istnienia. Otrzymujemy więc

Twierdzenie (Rozwinięcie Laplace'a względem $ j $-tej kolumny).(#) Dla $ A=[a_{ij}]\in\M{n}{n}{\K} $

$ \det A=\sum_{i=1}^n (-1)^{i+j}a_{ij}\det \MI{A}{ij}. $

Przykład Rozwijając względem pierwszej kolumny dostajemy dla $ n=2 $ wzór

$$det \left[\begin{array}{ccccc}a_{11}&a_{12}\\ a_{21}&a_{22}\\  \end{array}\right]=a_{11}a_{22}-a_{12}a_{21},$$

a dla $ n=3 $ wzór Sarrusa

\m$ det\left[\begin{array}{ccccc}a_{11}&a_{12}&a_{13}\\ a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\\  \end{array}\right]= a_{11}a_{22}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32}-a_{13}a_{22}a_{31} -a_{12}a_{21}a_{33}-a_{11}a_{23}a_{32}. $

Uwaga Wyznacznik $ (n\times n) $-macierzy dla $ n>3 $ można obliczyć zmniejszając wymiar macierzy przy pomocy rozwinięcia Laplace'a, lub redukując tę macierz do postaci schodkowej (macierz kwadratową w postaci schodkowej nazywamy górnie trójkątną). Wzory $ (\ast) $ w części [link] pozwalają powiązać wyznacznik macierzy wyjściowej z wyznacznikiem macierzy trójkątnej, który łatwo obliczyć korzystając z punktu $ (a) $ poniżej.

  • [(a)] Wyznacznik macierzy górnie trójkątnej jest iloczynem wyrazów na przekątnej (czyli dla $ A=[a_{ij}] $ takiej, że $ a_{ij}=0 $ dla $ i>j $, $ \det A=a_{11}\cdot\ldots\cdot a_{nn} $). Istotnie, rozwijając $ \det A $ względem pierwszej kolumny dostajemy wzór dający krok indukcyjny dowodu.

  • [(b)] Dla macierzy blokowo trójkątnej $ A=\mk{c|c}{A_1&\ast\\\hline\0&A_2} $, gdzie $ A_i\in\M{n_i}{n_i}{\K} $, mamy $ \det A=\det A_1\det A_2 $ (bo zgodnie z Uwagą [link] macierze $ [A_1|\ \ast\ ]\in\M{n_1}{n}{\K} $ i $ [\ \0\ |A_2]\in\M{n_2}{n}{\K} $ można doprowadzić do postaci schodkowej operacjami pierwszego rodzaju na wierszach, które nie zmieniają wyznaczników).

\mPokażemy teraz, że przy obliczaniu wyznaczników wiersze odgrywają taką samą rolę jak kolumny, a zera pod przekątna taką samą rolę jak zera nad przekątną.

Twierdzenie Dla $ A\in\M{n}{n}{\K} $ \ $ \det A=\det A^T $.
Dowód: Jeśli $ \r A<n $, to $ \r A^T<n $ i oba wyznaczniki są zerami.

Jeśli $ \r A=n $, to z Wniosku [link], $ A $ rozkłada się na iloczyn $ A=M_p\ldots M_1 $ macierzy elementarnych. Zgodnie z Uwagą [link] (c), $ A^T=M_1^T\ldots M_p^T $, więc korzystając z Uwagi [link] (b), wystarczy zauważyć, że $ \det M=\det M^T $ dla macierzy elementarnych $ M $. □

Rozwinięcia Laplace'a $ \det A^T $ względem $ i $-tej kolumny macierzy $ A^T $ daje wzór na rozwinięcie $ \det A $ względem $ i $-tego wiersza macierzy $ A $.

Twierdzenie (Rozwinięcie Laplace'a względem $ i $-tego wiersza). Dla $ A=[a_{ij}]\in\M{n}{n}{\K} $

$ \det A=\sum_{j=1}^n (-1)^{i+j}a_{ij}\det \MI{A}{ij} $.

Wyznacznik pozwala określić znak permutacji, co prowadzi do formuły uogólniającej wzór Sarrusa.

Niech $ S_n $ będzie zbiorem wszystkich bijekcji zbioru $ \set{1,2,\ldots,n} $ na siebie - permutacji. Każdej permutacji $ \pi\in S_n $ odpowiada macierz $ E_\pi=[\ep_{\pi(1)},\ep_{\pi(2)},\ldots,\ep_{\pi(n)}] $, której wyznacznik $ \det E_\pi\in\{1,-1\} $ nazywamy znakiem permutacji $ \pi $ i oznaczamy symbolem $ {\rm sgn}(\pi) $ (łatwo upewnić się, że znak $ \pi $ określa parzystość liczby transpozycji przeprowadzających $ \pi $ na identyczność - dla $ {\rm sgn}(\pi)=1 $ ta liczba jest parzysta, a dla $ {\rm sgn}(\pi)=-1 $, nieparzysta).

Twierdzenie (#) Dla macierzy $ A=[a_{ij}] \in \M{n}{n}{\K} $

$$\det A=\sum_{\pi\in S_n}{\rm sgn}(\pi)a_{\pi(1) 1}a_{\pi(2) 2}\ldots a_{\pi(n) n}.$$
Dowód: Niech $ A=[A_1,\ldots,A_n]=[a_{ij}] \in \M{n}{n}{\K} $. Wtedy $ A_j=\sum_{i=1}^n a_{ij}\ep_i $ i z liniowości wyznacznika względem kolejnych kolumn mamy

$ \det A= \det [\sum_{i=1}^n a_{i1}\ep_i,\sum_{i=1}^n a_{i2}\ep_i,\ldots,\sum_{i=1}^n a_{in}\ep_i]=\\ \hspace*{60pt}\sum_{i_1=1}^n a_{i_11}\det[\ep_{i_1},\sum_{i=1}^n a_{i2}\ep_i,\ldots,\sum_{i=1}^n a_{in}\ep_i]=\\ \hspace*{60pt}\sum_{i_1=1}^n \sum_{i_2=1}^n a_{i_1 1}a_{i_2 2}\det[\ep_{i_1},\ep_{i_2},\ldots,\sum_{i=1}^n a_{in}\ep_i]=\\ \hspace*{300pt}\ldots=\\ \hspace*{60pt}\sum_{i_1=1}^n \sum_{i_2=1}^n\ldots \sum_{i_n=1}^n a_{i_1 1}a_{i_2 2}\ldots a_{i_n n} \det[\ep_{i_1},\ep_{i_2},\ldots,\ep_{i_n}] $.

Teza wynika z faktu, że występujące we wzorze wyznaczniki $ \det[\ep_{i_1},\ep_{i_2},\ldots,\ep_{i_n}] $ są zerowe jeśli $ i_j=i_k $ dla pewnych $ j\neq k $, więc sumowanie można ograniczyć do ciągów różnowartościowych $ (i_1,\ldots,i_n) $, czyli permutacji zbioru $ \{1,\ldots,n\} $. □

Macierz stowarzyszona i wzory Cramera

Ważną rolę (choć nie przy obliczeniach) odgrywa macierz $ \adj A $ stowarzyszona z macierzą kwadratową $ A $, zdefiniowana przy pomocy wyznaczników, która po pomnożeniu przez $ A $ daje macierz $ \det A\cdot I $. Przy pomocy macierzy stowarzyszonej otrzymuje się wzory Cramera opisujące w terminach wyznaczników rozwiązania układów równań $ AX=B $ z macierzą odwracalną $ A $ (układy Cramera).

Ustalmy macierz $ A=[A_1,\ldots,A_n]=[a_{ij}]\in \M{n}{n}{\K} $ i przypomnijmy, że w części [link] zdefiniowaliśmy $ \MI{A}{ij} $ jako macierz otrzymaną z $ A $ przez skreślenie $ i $-tego wiersza i $ j $-tej kolumny.

Definicja (#) Macierzą stowarzyszoną z $ A $ nazywamy macierz $ \adj A= [\hat{a}_{ij}]^T $, gdzie $ \hat{a}_{ij}=(-1)^{i+j}\det \MI{A}{ij} $.

Dla $ B\in\K^n $ mamy

$ (\ast\ast) $ $ \adj A\cdot B= \mk{c}{\det [B,A_2,\ldots,A_n]\\ \det [A_1,B,\ldots,A_n]\\ \vdots\\ \det [A_1,A_2,\ldots,B]} $.

Wzór $ (\ast\ast) $ wynika z Twierdzenia [link], bo dla $ B=[b_1,b_2,\ldots,b_n]^T $

$ \mk{ccccc}{ (-1)^{1+1}\det \MI{A}{11}&\ldots&(-1)^{n+1}\det \MI{A}{n1}\\ (-1)^{1+2}\det \MI{A}{12}&\ldots&(-1)^{n+2}\det \MI{A}{n2}\\ \vdots &   & \vdots \\ (-1)^{1+n}\det \MI{A}{1n}&\ldots&(-1)^{n+n}\det \MI{A}{nn}} \mk{c}{b_1\\b_2\\\vdots\\b_n}= \mk{c}{\sum_{i=1}^n  (-1)^{i+1} b_i\det \MI{A}{i1}\\ \sum_{i=1}^n  (-1)^{i+2} b_i\det \MI{A}{i2}\\ \vdots\\ \sum_{i=1}^n (-1)^{i+n} b_i\det \MI{A}{in}}= \mk{c}{\det [B,A_2,\ldots,A_n]\\ \det [A_1,B,\ldots,A_n]\\ \vdots\\ \det [A_1,A_2,\ldots,B]} $.

W szczególności $ \adj A\cdot A=[\adj A\,A_1,\ldots,\adj A\,A_n]=(\det A)I_n $, więc dostajemy

Twierdzenie Jeśli $ A $ jest macierzą odwracalną, to $ A^{-1}=\frac{1}{\det A}\adj A $.

Rozwiązanie $ X=[x_1,\ldots,x_n]^T $ układu Cramera $ AX = B $ ma postać $ X = A^{-1}B=\frac{1}{\det A} (\adj A\,B) $. Zatem z $ (\ast\ast) $ dostajemy wzory Cramera:

$$x_1 = \frac{\det [B,A_2,\ldots,A_n]}{\det A}\, , \ \ x_2 = \frac{\det [A_1,B,\ldots,A_n]}{\det A}\, ,\ldots\, ,\ \ x_n = \frac{ \det [A_1,A_2,\ldots,B]}{\det A}\ .$$

Endomorfizmy przestrzeni liniowych

Przekształcenia liniowe przestrzeni liniowych w siebie nazywamy endomorfizmami.

Zauważmy, że wybór układu współrzędnych $ \si:V\to\K^n $ w $ n $-wymiarowej przestrzeni liniowej $ V $ nad $ \K $ prowadzi do izomorfizmu $ \vp\to\MP{\si}{\si}{\vp} $ przestrzeni endomorfizmów $ \ho{V}{V} $ i przestrzeni macierzy $ \M{n}{n}{\K} $, przy czym, przy tym izomorfizmie składaniu endomorfizmów odpowiada mnożenie macierzy. Analizując interesujące nas własności, czasem wygodniej jest rozpatrywać endomorfizmy, a czasem macierze.

Jednym z najważniejszych wyników tego rozdziału jest twierdzenie Jordana, podające klarowny opis struktury endomorfizmów przestrzeni nad ciałem liczb zespolonych. Dowód tego twierdzenia odbiega stopniem trudności od pozostałych rozumowań w skrypcie i choć podajemy go ze szczegółami (wybraliśmy rozumowanie, które prowadzi szybko do celu, ustalając po drodze fakty potrzebne przy zastosowaniach), należy przypomnieć, że nie wchodzi on w zakres materiału obowiązującego w obecnym programie GAL.

Wielomian charakterystyczny, wektory własne

Wielomian charakterystyczny, wektory własne.

Pierwiastki wielomianu charakterystycznego macierzy, który definiujemy poniżej, pozwalają wyznaczać niezerowe wektory przechodzące pod działaniem tej macierzy na wektory proporcjonalne - wektory własne macierzy.

Definicja (#) Wielomianem charakterystycznym macierzy kwadratowej $ A\in\M{n}{n}{\K} $ nazywamy wielomian $ w_A(x)\in\K[x] $ określony wzorem

$$w_A(x)=\det(A-xI_n).$$

Definicja wielomianu charakterystycznego wymaga komentarza. Występujący w niej wzór najprościej można zinterpretować przy pomocy formuły z Twierdzenia [link] opisującej $ \det (A-xI_n) $ jako sumę iloczynów, których pewne czynniki mają postać $ a_{ii}-x $, gdzie $ a_{ii} $ są wyrazami z przekątnej $ A $.

Po wymnożeniu i pogrupowaniu wynika stąd wzór

$$w_A(x)=a_0+a_1(-x)\ldots+a_{n-1}(-x)^{n-1}+(-x)^n$$

pokazujący, że $ w_A(x) $ jest wielomianem. Łatwo zauważyć, że wyraz stały $ a_0 $ jest wyznacznikiem $ A $, zaś współczynnik przy $ (-x)^{n-1} $ jest sumą $ a_{n-1}=\sum_{i=1}^n a_{ii} $ wyrazów stojących na głównej przekątnej $ A $, którą nazywamy śladem macierzy $ A $ i oznaczamy $ \tr A $.

Jeśli $ \K $ jest ciałem nieskończonym (przypomnijmy, że w tym wykładzie najważniejsze są ciała $ \R $ i $ \c $), $ w_A(x) $ można utożsamiać z funkcją przypisującą skalarowi $ \la\in\K $ skalar $ \det (A-\la I_n) $ i w dalszym ciągu traktować będziemy $ w_A(x) $ właśnie w taki sposób - jako funkcję $ w_A:\K\to\K $.

Należy jednak zwrócić uwagę, że nad $ \Z_2 $, wielomian $ \det\left(\mk{cc}{1&0\\0&0}-x\mk{cc}{1&0\\0&1}\right)=-x+x^2\in\Z_2[x] $ określa funkcję tożsamościowo równą zero, a więc nie jest obojętne jak interpretujemy wzór w [link].

Definicja (#) Dla $ A\in\M{n}{n}{\K} $ pierwiastki wielomianu charakterystycznego $ w_A(x) $ nazywamy wartościami własnymi macierzy $ A $, a ich zbiór $ \sp (A)=\set{\la\in\K:w_A(\la)=0} $ - spektrum $ A $.

Wartości własne macierzy $ A\in\M{n}{n}{\K} $ są opisane równaniem $ \det (A-xI_n)=0 $, a więc, zob.\ [link],

$$\la\in\sp(A)\iff N(A-\la I_n)\neq\set{\0}.$$
Definicja (#) Niezerowe wektory z przestrzeni $ N(A-\la I_n) $, tzn.\ niezerowe wektory $ X\in\K^n $ takie, że $ AX=\la X $, nazywamy wektorami własnymi $ A $ $ ( $odpowiadającymi wartości własnej $ \la) $.

Określimy teraz ważną relację równoważności między macierzami kwadratowymi tego samego wymiaru - relację podobieństwa i sprawdzimy, że relacja podobieństwa zachowuje wielomian charakterystyczny.

Definicja (#) Macierze $ A,B\in\M{n}{n}{\K} $ są podobne, jeśli istnieje macierz odwracalna $ C\in\M{n}{n}{\K} $ taka, że $ B=C^{-1}AC $.
Twierdzenie (#) Macierze podobne mają identyczne wielomiany charakterystyczne.
Dowód: Niech $ B=C^{-1}AC $, gdzie $ A,B,C\in\M{n}{n}{\K} $. Należy pokazać, ze funkcje $ w_A $ i $ w_B $ na $ \K $ są identyczne. Istotnie, dla $ \la\in\K $ mamy $ w_B(\la)=\det (B-\la I_n)= \det (C^{-1}AC-\la I_n)= \det (C^{-1}(A-\la I_n)C)= \det C^{-1}\det (A-\la I_n)\det C= w_A(\la) $. □

Jak jednak wyjaśnimy w dalszym ciągu, macierze z identycznym wielomianem charakterystycznym nie muszą być podobne.

Twierdzenie [link], w połączeniu z następną obserwacją, pozwala zdefiniować wielomian charakterystyczny endomorfizmu.

Uwaga (#) Jeśli $ \vp:V\to V $ jest endomorfizmem przestrzeni liniowej $ V $, a $ \si,\ta:V\to \K^n $ są układami współrzędnych w $ V $, to macierze $ \MP{\ta}{\ta}{\vp} $ i $ \MP{\si}{\si}{\vp} $ są podobne.

Istotnie, dla macierzy $ C=M(\ta\circ\si^{-1}) $ zmieniającej współrzędne $ \si(\al) $ wektora $ \al $ na jego współrzędne $ \ta(\al) $, zob.\ Uwaga [link] (c), mamy $ \MP{\si}{\si}{\vp}=M(\si\circ\vp\circ\si^{-1})= M(\si\circ\ta^{-1}\circ\ta\circ\vp\circ\ta^{-1}\circ\ta\circ\si^{-1})= M(\si\circ\ta^{-1})M(\ta\circ\vp\circ\ta^{-1})M(\ta\circ\si^{-1})= C^{-1}\MP{\ta}{\ta}{\vp}C $.

Definicja (#) Wielomianem charakterystycznym endomorfizmu $ \vp:V\to V $ nazywamy wielomian $ w_T(x)=\det(\MP{\si}{\si}{\vp}-xI_n) $, gdzie $ \si:V\to\K^n $ jest dowolnym układem współrzędnych. Wyznacznikiem i śladem endomorfizmu $ \vp $ nazywamy wyraz wolny $ \det\vp=\det\MP{\si}{\si}{\vp} $ i współczynnik $ \tr\vp=\tr\MP{\si}{\si}{\vp} $ tego wielomianu, odpowiednio, a zbiór $ \sp (\vp) $ pierwiastków $ w_T(x) $ nazywamy spektrum endomorfizmu $ \vp $.

Ponieważ $ \ker(\vp-\la\id)=\si^{-1}(N(\MP{\si}{\si}{\vp}-\la I_n)) $, mamy

$$\la\in\sp(\vp)\iff \ker(\vp-\la\id)\neq\set{\0}.$$

Terminologię wprowadzoną w Definicji [link] przenosimy także na przypadek endomorfizmów.

Definicja (#) Dla endomorfizmu $ \vp:V\to V $ niezerowe wektory z $ \ker(\vp-\la\id) $, tzn.\ niezerowe wektory $ \al\in V $ takie, że $ \vp(\al)=\la \al $, nazywamy wektorami własnymi $ \vp $ $ ( $odpowiadającymi wartości własnej \nolinebreak $ \la) $.

Występujące w kolejnej uwadze operacje sumy algebraicznej i sumy prostej skończenie wielu podprzestrzeni przestrzeni liniowej $ V $ są naturalnymi uogólnieniami odpowiednich operacji dla dwóch składników wprowadzonych w Definicjach $ \ref{de:sua2} $ i $ \ref{de:sup2} $.

Uwaga (#) Dla endomorfizmu $ \vp:V\to V $:

  • [(a)] suma wektorów własnych odpowiadających parami różnym wartościom własnym $ \vp $ nie jest wektorem zerowym;
  • [(b)] wektory własne odpowiadające parami różnym wartościom własnym $ \vp $ są liniowo niezależne;
  • [(c)] suma algebraiczna $ \sum_{\la\in\sp(\vp)} \ker(\vp-\la\id) $ jest sumą prostą $ \bigoplus_{\la\in\sp(\vp)} \ker(\vp-\la\id) $.

Zdanie (c) orzeka, że dla dowolnego wyboru $ \al_\la\in\ker(\vp-\la\id) $, $ \la\in\sp(\vp) $, z równości $ \sum_{\la\in\sp(\vp)}\al_\la=\0 $ wynika, że wszystkie $ \al_\la $ są zerowe, a to jest konsekwencją (a). Zdanie (b) również wynika z (a), bo jeśli $ \al_\la $ jest wektorem własnym odpowiadającym wartości własnej $ \la $ i $ a_\la\neq 0 $, to $ a_\la\al_\la $ też jest wektorem własnym odpowiadającym $ \la $.

Własność (a) udowodnimy przez indukcję ze względu na liczbę składników $ k $. Załóżmy (a) dla sum mniej niż $ k $ wektorów własnych $ \vp $ i niech $ \al_j $ będzie wektorem własnym odpowiadającym $ \la_j $, $ j=1,\ldots,k $, gdzie $ \la_1,\ldots,\la_k $ są parami różne. Jeśli $ \sum_{j\leq k}\al_j=\0 $, to $ \0=\vp(\sum_{j\leq k}\al_j)-\la_k(\sum_{j\leq k}\al_j)=\sum_{j<k}(\la_j-\la_k)\al_j $, co \nolinebreak przeczy założeniu indukcyjnemu, bo $ \la_j-\la_k\neq 0 $ dla $ j<k $.

Endomorfizmy, których wektory własne rozpinają całą przestrzeń mają wyjątkowo prostą strukturę. Zgodnie z Uwagą [link] klasę takich endomorfizmów można opisać następująco:

Definicja Endomorfizm $ \vp:V\to V $ jest diagonalizowalny, jeśli $ V=\bigoplus_{\la\in\sp(\vp)} \ker(\vp-\la\id) $.

Macierz $ A\in\M{n}{n}{\K} $ jest diagonalizowalna, jeśli $ A $ jest podobna do macierzy diagonalnej.

Uwaga (#) Diagonalizowalność endomorfizmu $ \vp:V\to V $ oznacza istnienie bazy $ (\al_1,\ldots,\al_n) $ przestrzeni $ V $ złożonej z wektorów własnych $ \vp $ (por.\ Twierdzenie [link]). W układzie współrzędnych $ \si:V\to \K^n $ związanym z tą bazą, macierz $ D=\MP{\si}{\si}{\vp} $ jest diagonalna - jeśli $ \vp(\al_j)=\la_j\al_j $, to $ \la_1,\ldots,\la_n $ stoją na przekątnej $ D $, zob.\ Uwaga [link] (a). W szczególności, wielomian charakterystyczny $ w_\vp(x)=w_D(x)=(\la_{1}-x)\cdot\ldots\cdot(\la_{n}-x) $ ma rozkład na czynniki liniowe, a krotność każdego pierwiastka tego wielomianu jest równa $ \dim[\ker(\vp-\la\id)] $ (te dwa warunki charakteryzują diagonalizowalność $ \vp $, zob.\ Wniosek [link]).

Z Uwagi [link] wynika, że endomorfizm $ \vp $ jest diagonalizowalny wtedy i tylko wtedy, gdy dla dowolnego układu współrzędnych $ \ta:V\to\K^n $ macierz $ \MP{\ta}{\ta}{\vp} $ jest diagonalizowalna.

Najważniejszą klasę endomorfizmów diagonalizowalnych poznamy w części [link] - są to endomorfizmy samosprzężone na przestrzeniach euklidesowych.

Zasadnicze twierdzenie algebry

Warunkiem koniecznym istnienia wektorów własnych jest istnienie pierwiastków wielomianu charakterystycznego. To wskazuje szczególną rolę ciała skalarów $ \c $, bo jak wykażemy poniżej, każdy wielomian o \nolinebreak współczynnikach zespolonych ma pierwiastek zespolony.

Twierdzenie (#) Dla każdego wielomianu $ w\in\c[x] $ stopnia dodatniego istnieje $ \la\in\c $ takie, że $ w(\la)=0 $.

Dowód poprzedzimy dwoma lematami

Lemat {\bf (d'Alemberta).} Niech $ w(z)=a_0+a_1z+\ldots+z^n $, $ a_i\in\c $. Jeśli $ w(a)\neq 0 $, to istnieje $ b\in \c $ takie, że $ |w(b)|<|w(a)| $.
Dowód: Mamy $ w(a+z)=a_0+a_1(a+z)+\ldots+(a+z)^n=A_0+A_1z+\ldots+z^n= w(a)+A_kz^k+\ldots+z^n $, gdzie $ A_k\neq 0 $.

Niech $ c\in\c $ będzie takie, że $ c^k=-\frac{w(a)}{A_k} $ ($ c=\sqrt[k]{r}(\cos\frac{\theta}{k}+i\sin\frac{\theta}{k}) $, jeśli $ -\frac{w(a)}{A_k}={r}(\cos {\theta}+i\sin{\theta}) $, $ r>0 $).

\mDla $ t\in\R $ z przedziału $ [0,1] $,

$$w(a+tc)=w(a)+A_kt^kc^k+\ldots+t^nc^n= w(a)-w(a)t^k+B_{k+1}t^{k+1}\ldots+B_nt^n= w(a)(1-t^k)+B_{k+1}t^{k+1}\ldots+B_nt^n.$$

Tak więc

$ |w(a+tc)|\leq(1-t^k)|w(a)|+t^k(|B_{k+1}|t\ldots+|B_n|t^{n-k})= |w(a)|+t^k(-|w(a)|+|B_{k+1}|t\ldots+|B_n|t^{n-k}). $

Dobierzmy $ t>0 $ tak małe, żeby wyrażenie w nawiasie było ujemne. Wówczas dla $ b=a+tc $ mamy $ |w(b)|<|w(a)| $. □

Lemat (#) Dla wielomianu zespolonego $ w(z)=a_0+a_1z+\ldots+z^n $ i $ K=\set{z\in\c:|\Re z|,|\Im z|\leq M} $ istnieje $ z_0\in K $ takie, że $ |w(z_0)|= \inf\set{|w(z)|: z\in K} $.

Lemat jest wersją twierdzenia Weierstrassa dla funkcji $ |w(z)| $ na kwadracie $ K $, jego uzasadnienie podamy w \nolinebreak uzupełnieniach, zob.\ Lemat [link]. Z tych dwóch lematów łatwo wyprowadzimy teraz zasadnicze twierdzenie algebry.

{\bf Dowód Twierdzenia [link].} Niech $ w(z)=a_0+a_1z+\ldots+z^n $ będzie wielomianem zespolonym. Ponieważ

$$|w(z)|= \left|z^n\left(\frac{a_0}{z^n}+ \ldots+\frac{a_{n-1}}{z}+1\right)\right|\geq |z^n|\left(1-\left(\frac{|a_0|}{|z^n|}+ \ldots+\frac{|a_{n-1}|}{|z|}\right)\right),$$

dla pewnego kwadratu $ K $ o środku w zerze i dostatecznie dużym boku, $ \mu=\inf\set{|w(z)|: z\in \c}=\inf\set{|w(z)|: z\in K} $. Z Lematu [link] istnieje $ z_0\in K $ takie, że $ |w(z_0)|=\mu $, a z Lematu d'Alemberta $ \mu=0 $. {\null\null
$ \blacksquare $    }

Twierdzenie Jordana

Głównym celem tej części jest możliwie przejrzysty opis endomorfizmów przestrzeni liniowych nad ciałem liczb zespolonych. W języku macierzowym, pokażemy, że każda macierz z $ \M{n}{n}{\c} $ jest podobna do macierzy o szczególnie prostej postaci - macierzy zbudowanej z klatek Jordana.

Nasze rozważania podzielimy na dwie części. W pierwszej, nie nakładając na ciało żadnych ograniczeń, wyjaśnimy strukturę endomorfizmów, których pewna potęga jest zerem - endomorfizmów nilpotentnych. W drugiej ograniczymy się do przestrzeni nad ciałem liczb zespolonych i wykorzystamy zasadnicze twierdzenie algebry [link] - w \nolinebreak połączeniu z wcześniejszą analizą endomorfizmów nilpotentnych, to łatwo doprowadzi do celu.

\m{\bf (A) Struktura endomorfizmów nilpotentnych.}

Niech $ \vp:V\to V $ będzie endomorfizmem przestrzeni liniowej nad dowolnym ciałem $ K $.

Układ wektorów $ (\al,\vp(\al),\ldots,\vp^{k-1}(\al)) $ w $ V $ taki, że $ \vp^{k-1}(\al)\neq\0 $ i $ \vp^{k}(\al)=\0 $ będziemy nazywali \mbox{$ \vp $-serią} o początku $ \al $ i wysokości $ k $.

Przestrzeń $ \ub{\al}=\lin(\al,\vp(\al),\ldots,\vp^{k-1}(\al)) $ jest niezmiennicza dla \nolinebreak $ \vp $ (to \nolinebreak znaczy $ \vp\ub{\al}\subset\ub{\al} $) i seria $ (\al,\vp(\al),\ldots,\vp^{k-1}(\al)) $ jest bazą $ \ub{\al} $: jeśli $ \sum_{j=0}^{k-1} a_j\vp^{j}(\al)=\0 $, gdzie $ \vp^0=\nolinebreak\id $, to kolejno działając na \nolinebreak obie strony tej równości endomorfizmami $ \vp^{k-1},\vp^{k-2},\ldots,\vp^0 $, wnosimy, że $ a_0=\nolinebreak 0,a_1=\nolinebreak 0,\ldots,a_{k-1}=0 $.

Ponieważ $ \vp(\vp^j(\al))=\vp^{j+1}(\al) $, w układzie współrzędnych $ \si:\ub{\al}\to\K^k $ związanym z $ \vp $-serią o początku $ \al $ macierz obcięcia $ \vp $ do $ \ub{\al} $ ma bardzo prostą postać

$$\MP{\si}{\si}{\vp}=\mk{cccc} {0&&&0\vspace{-2pt}\\1&\ddots&&\vspace{-2pt}\\&\ddots&\ddots&\\0&&1&0\\} \in\M{k}{k}{\K}\ ;$$

jest to klatka Jordana $ J_k(0) $.

Twierdzenie

(#) Niech $ \vp:V\to V $ będzie endomorfizmem takim, że $ \vp^m=\0 $. Istnieją wówczas skończone (niektóre być może puste) zbiory wektorów $ F_k\subset V $, $ k=1,\ldots,m $ takie, że każde $ \al\in F_k $ jest początkiem $ \vp $-serii o wysokości $ k $ oraz

$ (\ast) $ $ V=\bigoplus_{k\leq m}(\bigoplus_{\al\in F_k}\ub{\al}). $

Przy tym, dla $ k\leq m $ mamy

$ (\ast\ast) $ $ |F_k|=\r\vp^{k-1}-2\,\r\vp^{k}+\r\vp^{k+1} $.

Dowód:{\bf $ ^\ast $}\ Połóżmy $ W_k=\ker\vp^k $ dla $ k\geq 0 $ i rozważmy łańcuch $ \set{\0}=W_0\subset W_1\subset\ldots W_{m-1}\subset W_m=\nolinebreak V $ podprzestrzeni $ V $. Endomorfizm $ \vp $ przeprowadza $ W_{k+1} $ w $ W_{k} $, więc korzystając z Wniosku $ \ref{wn:dopo} $, znajdziemy

(być może zerową) podprzestrzeń $ U_k\subset W_k $ taką, że

$ (\dag) $ $ W_k=(W_{k-1}+\vp(W_{k+1}))\oplus U_k $ dla $ k= 1,\ldots,m $.

Dla niezerowych przestrzeni $ U_k $ definiujemy $ F_k $ jako zbiór wektorów ustalonej bazy $ U_k $ i kładziemy $ F_k=\emptyset $ jeśli $ U_k $ jest zerowa.

Przyjmując $ \ub{U_k}=U_k+\vp(U_k)+\ldots+\vp^{k-1}(U_k) $, zauważmy, że dla $ k=m,m-1,\ldots,1 $

$$V=W_{k-1}+\ub{U_k}+\ub{U_{k+1}}+\ldots+\ub{U_m}.$$

Istotnie, dla $ k=m $ równość wynika z warunku $ (\dag) $, bo $ W_{m+1}=W_m=V $ i $ \vp(W_m)\subset W_{m-1} $. Załóżmy, że $ V=W_{k}+\ub{U_{k+1}}+\ldots+\ub{U_m} $. Wtedy $ \vp(V)\subset\vp(W_{k})+\ub{U_{k+1}}+\ldots+\ub{U_m}\subset W_{k-1}+\ub{U_{k+1}}+\nolinebreak \ldots+\nolinebreak \ub{U_m} $, więc, odwołując się znowu do $ (\dag) $, mamy $ V=(W_{k-1}+\vp(W_{k+1})+U_k)+\ub{U_{k+1}}+\ldots+\ub{U_m}\subset W_{k-1}+\nolinebreak \vp(V)+U_k+\ub{U_{k+1}}+\ldots+\ub{U_m}\subset W_{k-1}+\ub{U_k}+\ub{U_{k+1}}+\ldots+\ub{U_m} $.

W szczególności, $ V $ jest sumą algebraiczną podprzestrzeni $ \ub{U_k} $, $ k\leq m $. Ponieważ $ \ub{U_k} $ jest sumą algebraiczną podprzestrzeni $ \ub{\al} $, $ \al\in F_k $, wynika stąd, że $ V $ jest sumą algebraiczną podprzestrzeni $ \ub{\al} $, $ \al\in \bigcup_{k\leq m} F_k $. To, że jak orzeka $ (\ast) $, jest to suma prosta, wywnioskujemy z \nolinebreak własności $ (\ast\ast) $, do \nolinebreak uzasadnienia której teraz przejdziemy.

Ustalmy $ k\leq m $. Jeśli dla $ \ga\in U_{k} $ i $ \be\in \vp(W_{k+1}) $, mamy $ \vp^{k-1}(\ga)=\vp^{k-1}(\be) $, to $ \be-\ga\in \ker\vp^{k-1}=W_{k-1} $ i zgodnie z $ (\dag) $, z tożsamości $ \0=[(\be-\ga)-\be]+\ga $ wynika $ \ga=\0 $. Ponieważ $ \vp^{k-1} $ zeruje się na $ W_{k-1} $, stąd i z $ (\dag) $ otrzymujemy $ \vp^{k-1}(W_k)=\vp^{k-1}(\vp(W_{k+1}))\oplus \vp^{k-1}(U_k) $, a ponieważ obcięcie $ \vp^{k-1}|U_k $ jest izomorfizmem, zob.\ $ (\dag) $, mamy $ |F_k|=\dim U_k=\r(\vp^{k-1}|U_k)=\r (\vp^{k-1}|W_k)-\r(\vp^{k}|W_{k+1}) $. Z Twierdzenia [link] dostajemy

$ \r (\vp^{k-1}|W_k)=\dim W_k-\d (\vp^{k-1}|W_k)=\d \vp^{k}-\d \vp^{k-1}=\r \vp^{k-1}-\r \vp^{k} $, a \nolinebreak stąd $ |F_k|= (\r \vp^{k-1}-\r \vp^{k}) - (\r \vp^{k}-\r \vp^{k+1}) $, czyli $ (\ast\ast) $.

Ponieważ, jak zauważyliśmy $ V $ jest sumą algebraiczną przestrzeni $ \ub{\al} $, $ \al\in \bigcup_{k\leq m} F_k $, dla uzasadnienia $ (\ast) $ pozostaje wyprowadzić z $ (\ast\ast) $, że suma wymiarów takich $ \ub{\al} $ jest równa $ \dim V $, zob.\ Wniosek [link].

Dla uproszczenia oznaczeń, przyjmujemy $ r_j=\r \vp^j $ i zauważmy, że $ r_0=\dim V $, $ r_m=r_{m+1}=0 $. Każdy wektor $ \al\in F_k $ jest początkiem $ \vp $-serii wysokości $ k $, zob.\ $ (\dag) $, więc suma wymiarów przestrzeni $ \ub{\al} $, \nolinebreak $ \al\in \nolinebreak \bigcup_{k\leq m} F_k $ jest równa

$ \sum_{k=1}^m k|F_k|=\sum_{k=1}^m k(r_{k-1}-2r_k+r_{k+1})=r_0-2r_1+2r_1+\sum_{k=2}^{m-1}(k+1)r_k-2kr_k+(k-1)r_k= r_0, $

co kończy dowód twierdzenia. □

Twierdzenie [link] uzupełnimy obserwacją, z której skorzystamy w dowodzie twierdzenia Jordana.

Lemat (#) Dla endomorfizmu $ \vp:V\to V $ i wartości własnej $ \la\in\sp(\vp) $ istnieje $ m\geq 1 $ takie, że

$ V=\ker[(\vp-\la\id)^m]\oplus\im[(\vp-\la\id)^m], $

przy czym, jeśli $ \mu\neq \la $, $ k\geq 1 $, to $ \ker[(\vp-\mu\id)^k]\subset \im[(\vp-\la\id)^m] $.

Dowód: Połóżmy $ \ps=\vp-\la\id $. Ponieważ $ \dim V $ jest skończony, łańcuch $ \set{\0}\neq\ker\ps\subset\ker\ps^2\subset\ldots $ musi się stabilizować, tzn.\ dla pewnego $ m\geq 1 $ mamy $ \ker\ps^m=\ker\ps^{m+1}=\ldots $ .

Jeśli $ \be=\ps^m(\al) $ oraz $ \ps^m(\be)=\0 $, to $ \ps^{2m}(\al)=\0 $, stąd $ \ps^{m}(\al)=\0 $ i $ \be=\0 $.

To pokazuje, że część wspólna $ \ker\ps^m\cap\im\ps^m $ jest przestrzenią zerową, a ponieważ suma wymiarów tych przestrzeni jest równa $ \d\ps^m+\r\ps^m=\dim V $, otrzymujemy pierwszą część tezy.

Dla dowodu drugiej części

połóżmy dodatkowo $ W=\ker[(\vp-\mu\id)^k] $. Dla $ \al\in W $, z przemienności endomorfizmów $ \ps=(\vp-\la\id) $ i $ (\vp-\mu\id) $ wynika, że $ \ps(\al)\in W $. Ponadto warunek $ \al\in W\cap \ker\ps $ implikuje $ \al=\0 $. Istotnie, $ \al\in\ker\ps $ oznacza $ \vp(\al)=\la\al $, więc $ (\vp-\mu\id)(\al)=(\la-\mu)\al $, a stąd $ (\vp-\mu\id)^k(\al)=(\la-\mu)^k\al $ i z $ \al\in W $ wynika wtedy $ \al=\0 $. Tak więc obcięcie $ \ps|W:W\to W $ jest izomorfizmem, a zatem $ W=\ps^m(W)\subset \im[(\vp-\la\id)^m] $. □

\m {\bf (B) Twierdzenie Jordana i postać Jordana macierzy.}

Z zasadniczego twierdzenia algebry

i z Lematu [link] wyprowadzimy teraz

Twierdzenie (#) Jeśli $ \vp:V\to V $ jest endomorfizmem przestrzeni liniowej $ V $ nad $ \c $, to dla każdej wartości własnej $ \la\in\sp(\vp) $ istnieje $ m_\la\geq 1 $ takie, że

$$V=\bigoplus_{\la\in\sp(\vp)}\ker[(\vp-\la\id)^{m_\la}].$$
Dowód: Dowód przeprowadzimy indukcyjnie ze względu na wymiar przestrzeni. Załóżmy, że twierdzenie jest prawdziwe dla przestrzeni wymiaru mniejszego niż $ \dim V $. Z zasadniczego twierdzenia algebry istnieje $ \la\in\sp(\vp) $. Wówczas $ \ker(\vp-\la\id)\neq\set{\0} $ i z Lematu [link] mamy $ V=\ker[(\vp-\la\id)^{m_{\la}}]\oplus \im[(\vp-\la\id)^{m_{\la}}] $ dla pewnego $ m_{\la}\geq 1 $.

Przyjmijmy $ U=\im[(\vp-\la\id)^{m_{\la}}] $. Mamy $ \dim U<\dim V $ i endomorfizm $ \vp $ przeprowadza $ U $ w siebie. Założenie indukcyjne dla obcięcia $ \vp|U $ daje więc rozkład $ U=\bigoplus_{\mu\in\sp(\vp|U)}\ker[(\vp|U-\mu\id)^{m_{\mu}}] $ dla pewnych $ m_\mu\geq 1 $, $ \mu\in\sp(\vp|U) $. Z drugiej części Lematu [link] wynika, że $ \ker[(\vp|U-\mu\id)^{m_{\mu}}]=\ker[(\vp-\mu\id)^{m_{\mu}}] $ dla $ \mu\in\sp(\vp|U) $ i $ \sp(\vp|U)=\sp(\vp)\setminus\set{\la} $, a to już daje tezę. □

Uwaga (#) Jeśli $ \vp:V\to V $ i $ m_\la $ dla $ \la\in\sp(\vp) $ są takie jak w Twierdzeniu [link], to dla każdego $ \la\in\sp(\vp) $ obcięcie $ \vp|\ker[(\vp-\la\id)^{m_\la}] $ jest endomorfizmem nilpotentnym $ \ker[(\vp-\la\id)^{m_\la}] $, więc zgodnie z Twierdzeniem [link], istnieją skończone (niektóre być może puste) zbiory wektorów $ F_k^\la\subset V $, $ k=1,\ldots,m_\la $ takie, że każde $ \al\in F_k^\la $ jest początkiem $ (\vp-\la\id) $-serii o wysokości $ k $ oraz

$ (\ast) $ $ \ker[(\vp-\la\id)^{m_\la}]=\bigoplus_{k\leq m_\la}(\bigoplus_{\al\in F_k^\la}\ub{\al}). $

Przy tym dla $ k\leq m_\la $,

$ (\ast\ast) $ $ |F_k^\la|=\r[(\vp-\la\id)^{k-1}]-2\,\r[(\vp-\la\id)^{k}]+\r[(\vp-\la\id)^{k+1}] $.

Ustalmy $ \al\in F_k^\la $, rozpatrzmy $ (\vp-\la\id) $-serię $ \al_1=\al $, $ \al_2=(\vp-\la\id)(\al_1),\ldots,\al_k=(\vp-\la\id)^{k-1}(\al_{k-1}) $ i \nolinebreak niech $ \si_\al:\ub{\al}\to \c^k $ będzie układem współrzędnych związanym z tą serią.

Ponieważ $ \vp(\al_j)=(\vp-\la\id)(\al_j)+\la\al_j=\al_{j+1}+\la\al_j $, macierz endomorfizmu $ \vp|\ub{\al}:\ub{\al}\to \ub{\al} $ w układzie współrzędnych $ \si_\al $ jest klatką Jordana

$$J_k(\la)=\mk{cccc}  {\la&&&0\vspace{-2pt}\\  1&\ddots&&\vspace{-2pt}\\  &\ddots&\ddots&\\0&&1&\la\\}\in\M{k}{k}{\c} \ .$$

Tak więc, w układzie współrzędnych $ \si_\la $ na $ \ker[(\vp-\la\id)^{m_\la}] $, który na $ \ub{\al} $ pokrywa się z $ \si_\al $, macierz $ \MP{\si_\la}{\si_\la}{\vp|\ker[(\vp-\la\id)^{m_\la}} $ jest zbudowana z klatek Jordana $ J_k(\la) $ na przekątnej, przy czym liczba $ |F_k^\la| $ klatek $ J_k(\la) $ jest opisana wzorem $ (\ast\ast) $.

Łącząc układy współrzędnych $ \si_\la $ na składnikach rozkładu z Twierdzenia [link], dostajemy układ współrzędnych $ \si:V\to\c^n $, w którym macierz $ \MP{\si}{\si}{\vp} $ endomorfizmu $ \vp $ jest zbudowana z klatek Jordana $ J_k(\la) $, $ \la\in\sp(\vp) $, przy czym liczba klatek $ J_k(\la) $ jest opisana wzorem $ (\ast\ast) $.

Bazę wyznaczającą układ współrzędnych $ \si $ w Uwadze [link] będziemy nazywać bazą Jordana dla $ \vp $. Baza Jordana jest złożona z $ (\vp-\la\id) $-serii generujących składniki rozkładów $ (\ast) $ dla $ \la\in\sp(\vp) $.

Macierz zbudowaną z klatek Jordana leżących na jej przekątnej nazywać będziemy macierzą Jordana. W języku macierzowym, nasze ustalenia można sformułować w postaci wniosku:

Stwierdzenie Każda macierz $ A\in\M{n}{n}{\c} $ jest podobna do macierzy w postaci Jordana. Dokładniej, istnieje macierz odwracalna $ C\in\M{n}{n}{\c} $ taka, że

$$C^{-1}AC=\mk{ccc}  {J_1&&\0\vspace{-2pt}\\  &\ddots&\vspace{-2pt}\\  \0&&J_s} \ ,$$

gdzie każda macierz $ J_l $ jest klatką Jordana $ J_k(\la) $ dla pewnego $ \la\in\sp(A) $, a liczba klatek $ J_k(\la) $ jest dana wzorem

$ \r[(A-\la I_n)^{k-1}]- 2\,\r[(A-\la I_n)^{k}]+ \r[(A-\la I_n)^{k+1}] $. W szczególności, macierz Jordana podobna do $ A $ jest wyznaczona jednoznacznie z dokładnością do kolejności klatek Jordana.

Dowód: Z Uwagi [link] zastosowanej do endomorfizmu $ \vp_A:\c^n\to\c^n $ danego wzorem $ T_A(Z)=\nolinebreak AZ $

wynika, że istnieje układ współrzędnych $ \si:\c^n\to\c^n $ taki, że $ \MP{\si}{\si}{\vp_A}= M(\si\circ\vp_A\circ\si^{-1})=M(\si)AM(\si^{-1}) $ jest macierzą Jordana. Jako $ C $ wystarczy więc przyjąć macierz $ M(\si^{-1}) $. □

Liniowe przestrzenie euklidesowe

W tym rozdziale rozpatrujemy wyłącznie skończenie wymiarowe przestrzenie liniowe nad ciałem liczb rzeczywistych.

Wzorując się na własnościach algebraicznych iloczynu skalarnego wektorów rozpatrywanego w geometrii, wyróżnimy pewne przekształcenia $ \is{\ }{\,}:V\times V \to \R $, które pozwalają na określenie prostopadłości wektorów i długości wektorów, przy czym spełnione jest twierdzenie Pitagorasa o długości boków trójkątów prostokątnych. Wprowadzone w ten sposób liniowe przestrzenie euklidesowe $ (V,\is{\ }{\,}) $, dla wymiarów $ 2 $ i $ 3 $ można utożsamiać, ze względu na własności algebraiczne i geometryczne, z przestrzenią wektorów płaszczyzny euklidesowej lub trójwymiarowej przestrzeni euklidesowej, odpowiednio.

Iloczyn skalarny i norma

Definicja (#) Niech $ V $ będzie przestrzenią liniową nad $ \R $. Przekształcenie $ \is{\ }{\,}:V\times V \to \R $ przyporządkowujące parze wektorów $ \al,\be\in V $ skalar $ \is{\al}{\be} $ nazywamy iloczynem skalarnym jeśli

$ (1) $ $ \is{\al}{\be}=\is{\be}{\al} $,

$ (2) $ $ \is{\al_1+\al_2}{\be}=\is{\al_1}{\be}+\is{\al_2}{\be} $,

$ (3) $ $ \is{a\al}{\be}=a\is{\al}{\be} $,

$ (4) $ $ \is{\al}{\al}>0 $, dla $ \al\neq 0 $.

Normę $ ||\al|| $ (długość) wektora $ \al\in V $ określamy wzorem $ ||\al||=\sqrt{\is{\al}{\al}} $.

Przestrzeń liniową z wyróżnionym iloczynem skalarnym $ (V,\is{\ }{\,}) $ nazywamy liniową przestrzenią euklidesową.

Przykład (#)

  • [(a)] Kartezjańska przestrzeń euklidesowa $ (\R^n,\is{\ }{\,}) $, gdzie $ \is{X}{Y}=X^TY=\sum_i x_iy_i $ jest sumą iloczynów odpowiednich współrzędnych $ X $ i $ Y $.
  • [(b)] Przestrzeń rzeczywistych wielomianów stopnia $ \leq n $ z iloczynem skalarnym $ \is{w}{u}=\int_0^1 w(t)u(t)dt $.

W oznaczeniach z Przykładu [link] (a), znaną z Analizy nierówność Cauchy'ego można zapisać w postaci $ (\is{X}{Y})^2\leq \is{X}{X}\is{Y}{Y} $. Jest to szczególny przypadek nierówności Schwarza, którą wykażemy w \nolinebreak następującym twierdzeniu.

Twierdzenie (#){\bf (nierówność Schwarza).} W liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ prawdziwa jest nierówność

$ (\ast) $ $ (\is{\al}{\be})^2\leq \is{\al}{\al}\is{\be}{\be} $,

przy czym równość ma miejsce wtedy i tylko wtedy, gdy wektory $ \al,\be $ są liniowo zależne.

Dowód: Dla każdego $ x\in\R $, zgodnie z własnościami (1)-(3)

w Definicji [link], $ w(x)=\is{x\al+\be}{x\al+\be}= x^2\is{\al}{\al}+2x\is{\al}{\be}+ \is{\be}{\be} $. Z własności (4) mamy $ w(x)\geq 0 $, więc $ \Delta= 4(\is{\al}{\be})^2-4\is{\al}{\al}\is{\be}{\be}\leq 0 $, co daje $ (\ast) $. Ponadto, równość w $ (\ast) $ oznacza, że dla pewnego $ \la\in\R $, $ w(\la)=0 $, a więc $ \la\al+\be=\0 $. □

Uwaga (#) Odnotujmy, że w liniowych przestrzeniach euklidesowych $ (V,\is{\ }{\,}) $ norma $ ||\al||=\sqrt{\is{\al}{\al}} $ ma następujące własności

$ (1) $\qquad $ ||\al||\geq 0 $ i $ ||\al||= 0 $ tylko dla $ \al=\0 $,

$ (2) $\qquad $ ||a \al||=|a|\, ||\al|| $, $ a\in\R $,

$ (3) $\qquad $ ||\al+\be||\leq||\al||+||\be|| $.

Tylko ostatnia własność - nierówność trójkąta wymaga wyjaśnienia.

Z nierówności Schwarza, $ |\is{\al}{\be}|\leq ||{\al}||\, ||{\be}|| $, a więc $ ||\al+\be||^2=\is{\al+\be}{\al+\be}=\is{\al}{\al}+2\is{\al}{\be}+ \is{\be}{\be}\leq ||\al||^2+2||\al||\,||\be||+||\be||^2= (||\al||+||\be||)^2 $.

Ortogonalność w przestrzeniach euklidesowych

Dwa wektory w geometrii są prostopadłe jeśli ich iloczyn skalarny jest zerem. Tę własność przyjmiemy jako określenie prostopadłości wektorów w liniowych przestrzeniach euklidesowych, przy czym zgodnie z \nolinebreak powszechnie przyjętą terminologią, będziemy raczej mówili o ortogonalności.

Definicja (#) Wektory $ \al, \be $ w liniowej przestrzeni euklidesowej są ortogonalne (lub prostopadłe) jeśli $ \is{\al}{\be}=0 $, co zapisujemy $ \al\perp\be $.

Ortogonalność podprzestrzeni $ U,W $ przestrzeni $ V $, $ U\perp W $, oznacza, że $ \ga\perp\be $ dla dowolnych $ \ga\in U $ i \nolinebreak $ \be\in W $. W szczególności, ortogonalność wektora $ \ga $ do podprzestrzeni $ W $, $ \ga\perp W $ oznacza, że $ \lin(\ga)\perp W $.

Uwaga Jeśli $ U\perp W $, to $ U\cap W=\set{\0} $, bo zgodnie z [link] (4), $ \al\perp\al $ oznacza, że $ \al=\0 $. Jeśli ponadto $ V=U\oplus W $, to będziemy

mówić, że $ V $ jest sumą ortogonalną podprzestrzeni $ U $ i $ W $.

Z własności iloczynu skalarnego i określenia długości wektorów wynika natychmiast formuła Pitagorasa

$ \al\perp \be\quad \iff \quad ||\al-\be||^2=||\al||^2+||\be||^2 $.

Bez założenia ortogonalności mamy $ ||\al-\be||^2= ||\al||^2+||\be||^2-2\is{\al}{\be} $. Definiując kąt między niezerowymi wektorami $ \al,\be $ jako liczbę $ \theta\in[0,\pi] $ taką, że $ \cos\theta=\frac{\is{\al}{\be}}{||\al||\,||\be||} $ (z \nolinebreak nierówności \nolinebreak Schwarza wynika, że ułamek po prawej stronie jest w przedziale $ [-1,1] $) otrzymujemy stąd twierdzenie cosinusów:

$ ||\al-\be||^2= ||\al||^2+||\be||^2-2\cos\theta\,||\al||\, ||\be||. $

Definicja Układ wektorów $ (\al_1,\ldots,\al_n) $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ jest ortogonalny jeśli $ \al_i\perp\al_j $ dla $ i\neq j $.
Uwaga Ortogonalny układ niezerowych wektorów $ (\al_1,\ldots,\al_n) $ jest liniowo niezależny, bo jeśli $ \sum_i a_i\al_i=\0 $, to dla każdego $ j $, $ \0=\is{\sum_i a_i\al_i}{\al_j}=\sum_i a_i\is{\al_i}{\al_j}=a_j||\al_j||^2 $, a więc $ a_j=0 $.
Definicja Ortogonalny układ wektorów niezerowych $ (\al_1,\ldots,\al_n) $ w przestrzeni $ (V,\is{\ }{\,}) $ rozpinający $ V $ nazywamy bazą ortogonalną w $ V $; jeśli dodatkowo $ ||\al_j||=1 $, $ j=1,\ldots,n $, mówimy, że układ $ (\al_1,\ldots,\al_n) $ jest bazą ortonormalną $ V $.

Pokażemy teraz, że każda liniowa przestrzeń euklidesowa ma bazę ortogonalną. Co więcej, opiszemy procedurę - ortogonalizację Grama-Schmidta pozwalającą przyporządkować każdemu układowi liniowo niezależnemu układ ortogonalny, bez zmiany powłoki liniowej.

Twierdzenie (#){(ortogonalizacja Grama-Schmidta).} Niech $ (\al_1,\ldots,\al_n) $ będzie liniowo niezależnym układem wektorów w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $. Określmy indukcyjnie wektory $ \be_1,\ldots,\be_n $ formułą

\[ \be_1=\al_1 , \quad \be_{k}= \al_{k}-\sum_{i=1}^{k-1}\frac{\is{\al_{k}}{\be_i}}{\is{\be_i }{\be_i}}\be_i. \]

Wówczas

\[ w_i\perp w_j \mbox{ dla } i\neq j, \end{equation} \begin{equation} \lin(\be_1,\ldots,\be_j)=\lin(\al_1,\ldots,\al_j),\ j=1,\ldots,n. \]
Dowód: Załóżmy, że układ $ (\be_1,\ldots,\be_{k-1}) $ został już określony tak, że (3) jest spełnione dla $ j<k $. Mamy pokazać, że dla $ \be_{k} $ określonego formułą (1) układ $ (\be_1,\ldots,\be_{k}) $ jest ortogonalny i spełnia (3) dla $ j=k $. Ta ostatnia własność wynika z faktu, że $ \be_{k}-\al_{k}\in \lin(\be_1,\ldots,\be_{k-1})=\lin(\al_1,\ldots,\al_{k-1}) $, zob.\ (1).

Niech $ j<k $. Sprawdzimy, że $ \be_j\perp\be_{k} $. Istotnie, z (1) i (2),

$ \is{\be_j}{\be_{k}}= \is{\be_j} {\al_{k}-\sum_{i<k} \frac{\is{\al_{k}}{\be_i}}{\is{\be_i}{\be_i}}\be_i}= \is{\be_j}{\al_{k}}-\sum_{i<k} \frac{\is{\al_{k}}{\be_i}}{\is{\be_i}{\be_i}}\is{\be_j}{\be_i}= \is{\be_j}{\al_{k}}- \frac{\is{\al_{k}}{\be_j}}{\is{\be_j}{\be_j}}\is{\be_j}{\be_j}=0 $

Wyjaśnimy teraz, że w opisanej wyżej procedurze ortogonalizacji, na każdym kroku znajdujemy wektor $ \be_k $ odejmując od wektora $ \al_k $ rzut ortogonalny $ \al_k $ na podprzestrzeń rozpiętą przez poprzednie wektory.

Twierdzenie (#) Niech $ W $ będzie podprzestrzenią liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $. Istnieje wówczas przekształcenie liniowe $ P:V\to V $ - rzut ortogonalny $ V $ na $ W $, takie, że

$ (1) $\qquad $ P(\be)=\be $ dla $ \be\in W $

$ (2) $\qquad $ \al-P(\al)\perp W $ dla $ \al\in V $.

Dowód: Zgodnie z Twierdzeniem [link] możemy wybrać układ ortogonalny $ \be_1,\ldots,\be_m $ rozpinający $ W $ i \nolinebreak niech

$$P(\al)=\sum_{i=1}^{m}\frac{\is{\al}{\be_i}}{\is{\be_i}{\be_i}}\be_i.$$

Podobnie jak w dowodzie [link], dla $ j\leq m $,

$ \is{\be_j}{\al-P(\al)}= \is{\be_j} {\al-\sum_{i\leq m} \frac{\is{\al}{\be_i}}{\is{\be_i}{\be_i}}\be_i}= \is{\be_j}{\al}-\sum_{i\leq m} \frac{\is{\al}{\be_i}}{\is{\be_i}{\be_i}}\is{\be_j}{\be_i}= \is{\be_j}{\al}- \frac{\is{\al}{\be_j}}{\is{\be_j}{\be_j}}\is{\be_j}{\be_j}=0 $,

a stąd $ \is{\be}{\al-P(\al)}=0 $ dla $ \be=\sum_{j\leq m} a_j\be_j\in W $, czyli (2).

Jeśli $ \be\in W $, to $ \be-P(\be)\in W $ i z (2), $ \is{\be-P(\be)}{\be-P(\be)}=0 $, co daje $ \be-P(\be)=\0 $, czyli (1). □

Uwaga (#) Zauważmy, że w sytuacji opisanej w Twierdzeniu [link], dla $ \al\in V $, warunki $ \be\in W $ oraz $ \al-\be\perp W $ charakteryzują wektor $ \be $ jednoznacznie, co więcej jest to jedyny wektor z $ W $ taki, że $ ||\al-\be||=\inf\set{||\al-\ga||:\ga\in W} $. Istotnie, dla $ \ga\in W $, $ \ga-\be\in W $, więc $ (\al-\be)\perp (\be-\ga) $ i z formuły Piagorasa, $ ||\al-\ga||^2=||(\al-\be)+(\be-\ga)||^2= ||\al-\be||^2+||\be-\ga||^2\geq ||\al-\be||^2 $, przy czym dla $ \ga\neq \be $ nierówność jest ostra.

Tak więc rzut ortogonalny $ P:V\to W $ można opisać jako przekształcenie, które dla każdego wektora $ \al\in V $ wybiera z $ W $ (jedyny) wektor $ P(\al) $ minimalizujący długości $ ||\al-\ga|| $, $ \ga\in W $.

Jak zobaczymy za chwilę, istnienie rzutu ortogonalnych pozwala uzupełnić każdą podprzestrzeń liniowej przestrzeni euklidesowej składnikiem prostym, ortogonalnym do tej przestrzeni.

Twierdzenie (#) Niech $ W $ będzie podprzestrzenią liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ i niech $ W^\perp=\set{\al\in V:\al\perp W} $. Wówczas $ V=W\oplus W^\perp $ jest sumą ortogonalną.
Dowód: Niech $ P:V\to W $ będzie rzutem ortogonalnym na $ W $. Zauważmy, że $ \im P=W $ oraz $ \ker P=W^\perp $. Ponieważ $ W\cap W^\perp=\set{\0} $ i $ \dim V=\d P+\r P $, więc $ V=W\oplus W^\perp $ i oczywiście $ W\perp W^\perp $. □

Podprzestrzeń $ W^\perp $ nazywamy dopełnieniem ortogonalnym przestrzeni $ W $ w $ V $. Zauważmy, że rzut ortogonalny $ V $ na $ W $ jest rzutem na $ W $ równoległym do $ W^\perp $ zdefiniowanym w [link]. Symetrię względem $ W $ równoległą do $ W^\perp $ nazywamy symetrią ortogonalną względem $ W $.

Wyznacznik Grama i objętość

W tej części wyjaśnimy, że moduł wyznacznika macierzy kwadratowej można interpretować jako objętość równoległościanu rozpiętego na wierszach (równoważnie - kolumnach) tej macierzy w wielowymiarowej przestrzeni euklidesowej. Ważnym elementem naszych rozważań jest wyznacznik Grama wprowadzony poniżej.

Definicja (#) Macierzą Grama układu wektorów $ (\al_1,\ldots,\al_m) $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ nazywamy $ (m\times m) $-macierz

$$G(\al_1,\ldots,\al_m)=\mk{ccc}{\is{\al_1}{\al_1}& \cdots&\is{\al_1}{\al_m}\\ \vdots&&\vdots\\ \is{\al_m}{\al_1}&\cdots& \is{\al_m}{\al_m}}.$$

Wyznacznik $ \Gamma(\al_1,\ldots,\al_m)=\det (G(\al_1,\ldots,\al_m)) $ nazywamy wyznacznikiem Grama układu $ (\al_1,\ldots,\al_m) $.

Uwaga (#) Macierz Grama $ G(\al_1,\ldots,\al_m) $ układu wektorów w $ (V,\is{\ }{\,}) $ wyznacza wartości iloczynu skalarnego na $ \lin(\al_1,\ldots,\al_m) $: \ dla $ \al=\sum_ia_{i}\al_i $, $ \be=\sum_ja_{j}\al_j $,

$$\is{\al}{\be}= \is{\sum_ia_{i}\al_i}{\sum_jb_{j}\al_j}= \sum_{ij}a_{i}b_j\is{\al_i}{\al_j}= [a_{1},\ldots,a_{m}]G(\al_1,\ldots,\al_m)\mk{c}{b_{1}\\\vdots\\b_{m}}.$$
Lemat (#) Niech $ (\al_1,\ldots,\al_m) $ będzie układem wektorów w $ (V,\is{\ }{\,}) $ i niech $ \be_k=\sum_ia_{ik}\al_i $, $ k\leq m $. Wówczas $ \Gamma(\be_1,\ldots,\be_m)=(\det A)^2\, \Gamma(\al_1,\ldots,\al_m) $, dla macierzy $ A=[a_{ij}]_{i,j=1}^m $.
Dowód: Niech $ A=[A_1,\ldots,A_m] $ (tzn.\ $ A_k $ jest $ k $-tą kolumną macierzy $ A $) i połóżmy $ G(\al_1,\ldots,\al_m)=G $. Zgodnie z Uwagą [link], $ (k,l) $-ty wyraz macierzy $ G(\be_1,\ldots,\be_m) $ ma postać $ \is{\be_k}{\be_l}=A_k^T G A_l $, więc $ G(\be_1,\ldots,\be_m)=A^TG A $, a \nolinebreak stąd $ \Gamma(\be_1,\ldots,\be_m)=\det A^T \det G\, \det A=(\det A)^2\, \Gamma(\al_1,\ldots,\al_m) $. □
Uwaga (#) Jeśli układ $ (\al_1,\ldots,\al_m) $ jest liniowo zależny, to $ \Gamma(\al_1,\ldots,\al_m)=0 $, bo wówczas wiersze macierzy $ G(\al_1,\ldots,\al_m) $ są liniowo zależne.

Jak wynika w szczególności z kolejnego twierdzenia, wyznacznik Grama układu liniowo niezależnego jest dodatni.

Twierdzenie (#) Niech $ (\al_1,\ldots,\al_m) $ będzie układem wektorów w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $. Jeśli układ wektorów $ (\be_1,\ldots,\be_m) $ otrzymuje się w procesie ortogonalizacji Grama-Schmidta z \nolinebreak układu $ (\al_1,\ldots,\al_m) $, to $ \Gamma(\al_1,\ldots,\al_m)=\Gamma(\be_1,\ldots,\be_m)= ||\be_1||^2\cdot\ldots\cdot||\be_m||^2 $.
Dowód: Zgodnie z formułą (1) w Twierdzeniu [link] $ \al_k=\sum_i a_{ik}\be_i $, gdzie macierz $ A=[a_{ij}]_{i,j=1}^m $ ma na głównej przekątnej jedynki, a pod główną przekątną zera. Zatem $ \det A=1 $ i z Lematu [link] mamy $ \Gamma(\al_1,\ldots,\al_m)=\Gamma(\be_1,\ldots,\be_m) $. Ponadto macierz $ G(\be_1,\ldots,\be_m) $ jest diagonalna i ma na głównej przekątnej wyrazy $ \is{\be_i}{\be_i}=||\be_i||^2 $, więc $ \Gamma(\be_1,\ldots,\be_m)=||\be_1||^2\cdot\ldots\cdot||\be_m||^2 $. □
Stwierdzenie (#) Niech $ W $ będzie podprzestrzenią liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ rozpiętą na liniowo niezależnym układzie $ (\al_1,\ldots,\al_m) $ i niech $ P:V\to W $ będzie rzutem ortogonalnym $ V $ na $ W $. Wówczas dla $ \al\in V $,

$$||\al-P(\al)||= \sqrt{\frac{\Gamma(\al_1,\ldots,\al_m,\al)}{\Gamma(\al_1,\ldots,\al_m)}}\,.$$
Dowód: Jeśli $ \al\in W $, to po obu stronach równości mamy zero, zob.\ Uwaga [link]. Niech $ \al\not\in W $ i niech układ $ (\be_1,\ldots,\be_m,\be) $ będzie wynikiem ortogonalizacji Grama-Schmidta układu $ (\al_1,\ldots,\al_m,\al) $. Wówczas $ \be=\al-P(\al) $ oraz

$ \Gamma(\al_1,\ldots,\al_m,\al)= ||\be_1||^2\cdot\ldots\cdot||\be_m||^2\cdot||\be||^2 $ \ \ i \ \ $ \Gamma(\al_1,\ldots,\al_m)= ||\be_1||^2\cdot\ldots\cdot||\be_m||^2 $,

co dowodzi tezy. □

Uwaga Wyznacznik Grama układu wektorów nie zależy od ich kolejności.

Istotnie, niech $ (\al_1,\ldots,\al_m) $ będzie układem wektorów w $ (V,\is{\ }{\,}) $ i $ \pi:\set{1,\ldots,m}\to\set{1,\ldots,m} $ permutacją. Wówczas $ \al_{\pi(j)}=\sum_i a_{ij}\al_i $, gdzie $ A=[a_{ij}]_{ij=1}^m $ jest macierzą powstałą z permutacji kolumn macierzy jednostkowej. Zatem $ (\det A)^2=1 $ i zgodnie z Lematem [link], $ \Gamma(\al_{\pi(1)},\ldots,\al_{\pi(m)})= \Gamma(\al_1,\ldots,\al_m) $.

Dla układu wektorów $ (\al_1,\ldots,\al_m) $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ równoległościanem rozpiętym na tym układzie nazywamy zbiór

$ R(\al_1,\ldots,\al_m)=\set{\sum_{i=1}^m t_i\al_i:t_i\in[0,1]}. $

Jeśli układ $ (\al_1,\al_2,\al_3) $ jest liniowo niezależny, to $ R(\al_1,\al_2) $ jest równoległobokiem na płaszczyźnie $ \lin(\al_1,\al_2) $, a $ R(\al_1,\al_2,\al_3) $ jest równoległościanem w trójwymiarowej przestrzeni euklidesowej $ \lin(\al_1,\al_2,\al_3) $.

Zgodnie z określeniem przyjętym w geometrii euklidesowej objętość równoległościanu $ R(\al_1,\ldots,\al_m) $ (dla $ m=2 $, pole równoległoboku $ R(\al_1,\al_2) $) powinna być równa iloczynowi objętości podstawy $ R(\al_1,\ldots,\al_{m-1}) $ przez wysokość $ ||\al_m-P(\al_m)|| $, gdzie $ P(\al_m) $ jest rzutem ortogonalnym $ \al_m $ na przestrzeń $ \lin(\al_1,\ldots,\al_{m-1}) $ rozpiętą na podstawie.

Definicja (#) Objętością ($ n $-wymiarową) układu $ (\al_1,\ldots,\al_{m}) $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ nazywamy liczbę

$ {\rm vol}(\al_1,\ldots,\al_{m})= \sqrt{\Gamma(\al_1,\ldots,\al_{m})}. $

Natychmiastową konsekwencją Wniosku [link] jest

Stwierdzenie Funkcja $ {\rm vol}(\al_1,\ldots,\al_{m}) $ jest jedyną funkcją, która układowi wektorów $ (\al_1,\ldots,\al_{m}) $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ przyporządkowuje liczbę nieujemną w taki sposób, że

$ (1) $\qquad $ {\rm vol}(\al)=||\al|| $

$ (2) $\qquad $ {\rm vol}(\al_1,\ldots,\al_{m})= ||\al_m-P(\al_m)||\,{\rm vol}(\al_1,\ldots,\al_{m-1}) $,

gdzie $ P $ jest rzutem ortogonalnym przestrzeni $ V $ na podprzestrzeń $ \lin(\al_1,\ldots,\al_{m-1}) $.

Uwaga Rozważmy kartezjańską przestrzeń euklidesową z Przykładu [link] (a) i niech $ A\in\M{n}{n}{\K} $ będzie macierzą o kolumnach $ A_1,\ldots,A_n $.

Wtedy $ G(A_1,\ldots,A_n)=A^TA $, więc $ \Gamma(A_1,\ldots,A_n)=(\det A)^2 $ i mamy

$ {\rm vol}(A_1,\ldots,A_n)=|\det A|. $

Następująca obserwacja pokazuje, że moduł wyznacznika endomorfizmu liniowej przestrzeni euklidesowej można interpretować jako współczynnik zmiany objętości przy tym endomorfizmie pełnowymiarowych równoległościanów.

Twierdzenie Niech $ \vp:V\to V $ będzie endomorfizmem liniowej przestrzeni euklidesowej $ (V\is{\ }{\,}) $. Dla dowolnej bazy $ (\al_1,\ldots,\al_n) $ w $ V $ zachodzi wówczas równość

$ {\rm vol}(\vp(\al_1),\ldots,\vp(\al_{n}))=|\det \vp|\cdot{\rm vol}(\al_1,\ldots,\al_{n}) $.

Dowód: Niech $ A=[a_{ij}]_{i,j=1}^m $ będzie macierzą endomorfizmu $ \vp $ w układzie współrzędnych związanym z bazą $ (\al_1,\ldots,\al_{n}) $ przestrzeni $ V $, tzn. $ \vp(\al_j)=\sum_i a_{ij}\al_i $. Z Lematu [link]

$ \Gamma(\vp(\al_1),\ldots,\vp(\al_{n}))=(\det A)^2\cdot\Gamma(\al_1,\ldots,\al_{n}) $,

a ponieważ $ \det\vp=\det A $, otrzymujemy tezę twierdzenia. □

Prostokątne układy współrzędnych

Wśród układów współrzędnych na liniowej przestrzeni euklidesowej wyróżnioną rolę pełnią układy zachowujące iloczyn skalarny - prostokątne układy współrzędnych.

Definicja (#) Układ współrzędnych $ \si:V\to\R^n $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ związany z bazą ortonormalną $ V $, będziemy nazywać prostokątnym układem współrzędnych.
Uwaga (#) Jeśli układ współrzędnych $ \si:V\to\R^n $ w przestrzeni $ (V,\is{\ }{\,}) $ jest związany z bazą ortonormalną $ (\al_1,\ldots,\al_n) $, to

  • [(a)]

    $ \si(\ga)= \mk{c}{\is{\ga}{\al_1}\\\vdots\\\is{\ga}{\al_n}} $ \ \ dla $ \ga\in V $,

    bo mnożąc $ \ga=\sum_ix_i\al_i $ obustronnie przez $ \al_j $ dostajemy $ \is{\ga}{\al_j}=x_j $;

  • [(b)]

    $ \is{\ga}{\al}=\is{\si(\ga)}{\si(\al)} $ \ dla $ \ga,\al\in V $,

    gdzie po prawej stronie równości jest iloczyn skalarny w kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ opisanej w Przykładzie [link] (a).

    Aby uzasadnić (b) rozpatrzmy $ \ga=\sum_ix_i\al_i $, $ \al=\sum_j y_j\al_j $ i zauważmy, że z warunku $ {\al_i}\perp{\al_j} $ dla \nolinebreak $ i\neq j $ oraz $ \is{\al_i}{\al_i}=1 $ wynika $ \is{\ga}{\al}=\is{\sum_i x_i\al_i}{\sum_j y_j\al_j}=\sum_i x_i y_i=\is{\si(\ga)}{\si(\al)} $.

Zauważmy też, że warunek zachowania iloczynu skalarnego odnotowany w (b) charakteryzuje prostokątne układy współrzędnych.

Uwaga (#) Z istnienia prostokątnych układów współrzędnych wynika także, że dla każdych dwóch \mbox{$ n $-wymiarowych} liniowych przestrzeni euklidesowych $ (V,\is{\ }{\,}) $ i $ (W,\is{\ }{\,}) $ istnieje izomorfizm $ \vp:V\to W $ zachowujący iloczyn skalarny, tzn.\ $ \is{\ga}{\al}=\is{\vp(\ga)}{\vp(\al)} $.

Istotnie, dla prostokątnych układów współrzędnych \mbox{$ \si:V\to\R^n $} i $ \ta:W\to\R^n $, z Uwagi [link] (b) wynika, że $ \vp=\ta^{-1}\circ\si $ zachowuje iloczyn skalarny.

Endomorfizmy przestrzeni euklidesowych

W tym rozdziale omówimy dwie ważne klasy endomorfizmów $ \vp:V\to V $ liniowych przestrzeni euklidesowych $ (V,\is{\ }{\,}) $ - endomorfizmy samosprzężone (tzn.\ takie, że $ \is{\al}{\vp(\be)}=\is{\vp(\al)}{\be} $) oraz izometrie liniowe (spełniające warunek $ \is{\al}{\be}=\is{\vp(\al)}{\vp(\be)} $).

Głównymi wynikami są dwa twierdzenia, z których pierwsze mówi, że endomorfizmy samosprzężone mają w pewnym prostokątnym układzie współrzędnych macierz diagonalną, a drugie, że izometrie liniowe mają w pewnym prostokątnym układzie współrzędnych macierz mającą na przekątnej albo $ \pm 1 $, albo też macierze obrotu płaszczyzny

$ \mk{rr}{\cos\theta&-\sin\theta\\\sin\theta&\cos\theta} $.

Oba te fakty można wyprowadzić z zasadniczego twierdzenia algebry, przy czym macierz obrotu o kąt $ \theta $ odpowiada zespolonej wartości własnej $ \la=\cos\theta+i\sin\theta $ izometrii liniowej. Takie uzasadnienie naszkicujemy w części [link] uzupełnień.

Warto też jednak pokazać dowody tych twierdzeń nie wychodzące poza dziedzinę rzeczywistą i to podejście przedstawimy poniżej.

Endomorfizmy samosprzężone

Definicja Endomorfizm $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ jest samosprzężony, jeśli $ \is{\al}{\vp(\be)}=\is{\vp(\al)}{\be} $ dla $ \al,\be\in V $.
Uwaga (#) Niech $ A\in\M{n}{n}{\R} $. Endomorfizm $ \vp(X)=AX $ kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ jest samosprzężony wtedy i tylko wtedy, gdy macierz $ A $ jest symetryczna, , czyli $ A=A^T $.

Istotnie, warunek $ \is{X}{\vp(Y)}=\is{\vp(X)}{Y} $ oznacza, że $ X^TAY=(AX)^TY=X^TA^TY $, a więc, z \nolinebreak dowolności $ X,Y\in\R^n $, jest on równoważny symetrii macierzy $ A $.

Dwie podstawowe własności endomorfizmów samosprzężonych (charakteryzujące tę klasę), to istnienie wektorów własnych i zachowywanie przestrzeni ortogonalnych do podprzestrzeni niezmienniczych.

Drugą z tych własności bardzo łatwo uzasadnić.

Uwaga (#) Niech $ \vp:V\to V $ będzie endomorfizmem samosprzężonym liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ i niech $ W\subset V $ będzie podprzestrzenią taką, że $ \vp(W)\subset W $. Wówczas $ \vp(W^\perp)\subset W^\perp $.

Istotnie, jeśli $ \al\in W^\perp $, to dla dowolnego $ \be\in W $ mamy $ 0=\is{\al}{\vp(\be)}=\is{\vp(\al)}{\be} $, a więc $ \vp(\al)\in W^\perp $.

Przejdziemy teraz do dowodu istnienia wektorów własnych dla endomorfizmów samosprzężonych.

Twierdzenie (#) Dla każdego endomorfizmu samosprzężonego $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ istnieje wektor własny $ \be\in V $ taki, że

$ (\ast) $ $ ||\be||=1 $ \ oraz \ $ \is{\be}{\vp(\be)}= \sup\set{\is{\al}{\vp(\al)}:||\al||=1} $.

Dowód: Istnienie wektora spełniającego $ (\ast) $ wynika z twierdzenia Weierstrassa zastosowanego do funkcji $ \al\to\is{\al}{\vp(\al)} $ na sferze jednostkowej $ \set{\al\in V:||\al||=1} $, co wyjaśnimy w uzupełnieniach, zob.\ Lemat [link].

Dla dowodu twierdzenia wystarczy teraz pokazać, że wektor $ \be $ spełniający $ (\ast) $ jest wektorem własnym \nolinebreak $ \vp $. Tak jest jeśli $ \vp(\be)= 0 $. Załóżmy więc $ \vp(\be)\neq 0 $ i dla $ t $ z przedziału $ J= (-\frac{||\be||}{||\vp(\be)||},\frac{||\be||}{||\vp(\be)||})\subset \R $ połóżmy

$$\al(t)=\frac{1}{||\be+t\vp(\be)||}(\be+t\vp(\be))\ .$$

Określmy funkcję $ \phi:J\to \R $ wzorem

$$\phi(t)=\is{\al(t)}{\vp(\al(t))}= \frac{\is{\be}{\vp(\be)}+2t\is{\vp(\be)}{\vp(\be)}+t^2\is{\vp(\be)}{\vp^2(\be)}} {\is{\be}{\be}+2t\is{\be}{\vp(\be)}+ t^2\is{\vp(\be)}{\vp(\be)}}$$

(w liczniku skorzystaliśmy z równości $ \is{\be}{\vp^2(\be)}=\is{\vp(\be)}{\vp(\be)} $ wynikającej z samosprzężoności $ \vp $).

Ponieważ $ ||\al(t)||=1 $ i $ \al(0)=\be $, z $ (\ast) $ wynika, że funkcja $ \phi $ osiąga maksimum w punkcie $ t=0 $, a więc $ \phi'(0)=0 $. Z drugiej strony,

$$\phi'(0)=\frac{ 2\is{\vp(\be)}{\vp(\be)}\is{\be}{\be}- 2\is{\be}{\vp(\be)}\is{\be}{\vp(\be)} }{\is{\be}{\be}^2}\ ,$$

więc $ \is{\be}{\vp(\be)}^2=\is{\be}{\be}\is{\vp(\be)}{\vp(\be)} $ i z warunku równości w nierówności Schwarza, zob. [link], dostajemy $ \vp(\be)\in\nolinebreak\lin(\be) $. □

Łącząc Twierdzenie [link] i Uwagę [link] otrzymujemy główne twierdzenie tej części

Twierdzenie (#) Dla każdego endomorfizmu samosprzężonego $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ istnieje baza ortonormalna $ V $ złożona z wektorów własnych $ \vp $. W prostokątnym układzie współrzędnych związanym z tą bazą endomorfizm $ \vp $ ma macierz diagonalną.
Dowód: Załóżmy, że pierwsza część tezy jest prawdziwa dla endomorfizmów samosprzężonych na przestrzeniach euklidesowych wymiaru mniejszego niż $ \dim V $.

Niech $ \be $ będzie wektorem własnym dla $ \vp $, $ ||\be||=1 $ i niech $ U=\lin(\be)^\perp $. Z Uwagi [link], obcięcie $ \vp|U $ jest endomorfizmem smosprzężonym $ U $ i założenie indukcyjne zapewnia istnienie bazy ortonormalnej \nolinebreak $ U $ złożonej z wektorów własnych $ \vp $. Dołączając do tej bazy wektor $ \be $ dostajemy ortonormalną bazę $ V $ złożoną z \nolinebreak wektorów własnych $ \vp $. Druga część tezy wynika z części pierwszej, zob. Uwaga [link]. □

Przed przeformułowaniem tego twierdzenia w języku macierzowym, wprowadzimy klasę macierzy ortogonalnych, ściśle związanych z izometriami liniowymi.

Definicja (#) Macierz $ C\in\M{n}{n}{\R} $ jest ortogonalna, jeśli $ C^T=C^{-1} $.

Zauważmy, że warunek ortogonalności, $ C^TC=I_n $ oznacza, że kolumny macierzy $ C $ tworzą bazę ortonormalną w kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $. Ponadto, ortogonalność $ C $ jest równoważna ortogonalności macierzy $ C^T $, bo warunki $ C^TC=I_n $ i $ CC^T=I_n $ są równoważne.

Stwierdzenie (#) Dla każdej macierzy symetrycznej $ A\in\M{n}{n}{\R} $ istnieje macierz ortogonalna $ C\in\M{n}{n}{\R} $ taka, że macierz $ C^TAC $ jest diagonalna.
Dowód: Rozpatrzmy kartezjańską przestrzeń euklidesową $ (\R^n,\is{\ }{\,}) $ i endomorfizm $ \vp(X)=AX $ tej przestrzeni. Jak zauważyliśmy w Uwadze [link], endomorfizm $ \vp $ jest samosprzężony i niech $ \si:\R^n\to\R^n $ będzie prostokątnym układem współrzędnych związanym z ortonormalną bazą $ (C_1,\ldots,C_n) $ w $ (\R^n,\is{\ }{\,}) $, złożoną z wektorów własnych $ \vp $. Macierz $ \MP{\si}{\si}{\vp}=M(\si\circ\vp\circ\si^{-1})=M(\si)AM(\si^{-1}) $ jest diagonalna, a \nolinebreak $ C=M(\si^{-1})=[C_1,\ldots,C_n] $ jest macierzą ortogonalną, więc $ C^{T}AC=C^{-1}AC=\MP{\si}{\si}{\vp} $. □

Izometrie liniowe

Definicja (#) Izomorfizm $ \vp:V\to W $ liniowych przestrzeni euklidesowych $ (V,\is{\ }{\,})_V $ i $ (W,\is{\ }{\,})_W $ nazywamy izometrią liniową, jeśli $ \vp $ zachowuje iloczyn skalarny, tzn.\ spełnia warunek

$$\is{\ga}{\al}_V=\is{\vp(\ga)}{\vp(\al)}_W \ \mbox{ dla } \ \ga,\al\in V.$$

W szczególności, każdy prostokątny układ współrzędnych $ \si: V\to\R^n $ jest izometrią liniową, a w [link] zauważyliśmy, że dla dowolnych dwóch $ n $-wymiarowych liniowych przestrzeni euklidesowych $ (V,\is{\ }{\,}_V) $ i $ (W,\is{\ }{\,}_W) $ istnieje izometria liniowa $ V $ na $ W $.

Uwaga Endomorfizm $ \vp:\R^n\to\R^n $ kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ jest izometrią liniową wtedy i tylko wtedy, gdy macierz $ M(\vp) $ jest ortogonalna.

Istotnie, jeśli $ \vp $ jest izometrią liniową, to kolumny macierzy $ M(\vp)=[\vp(\ep_1),\ldots,\vp(\ep_n)] $ tworzą bazę ortonormalną $ \R^n $ jako obrazy wektorów ortonormalnej bazy standardowej, więc $ M(\vp)^TM(\vp)=I_n $, czyli $ M(\vp) $ jest macierzą ortogonalną.

Uwaga (#) Dla każdej izometrii liniowej $ \vp:\R^2\to \R^2 $ dwuwymiarowej kartezjańskiej przestrzeni euklidesowej $ (\R^2,\is{\ }{\,}) $ istnieje prostokątny układ współrzędnych $ \si:\R^2\to\R^2 $ taki, że

$ \MP{\si}{\si}{\vp}=\mk{rr}{ \cos \theta&-\sin \theta\\ \sin \theta&\cos \theta} $ (i wówczas $ \vp $ jest obrotem $ \R^2 $ o kąt $ \theta $, $ \si=\id_{\R^2} $)

lub też

$ \MP{\si}{\si}{\vp}=\mk{rr}{1&0\\0&-1} $ (i wówczas $ \vp $ jest symetrią ortogonalną $ V $ względem pewnej prostej).

Istotnie, macierz $ M(\vp)=[\vp(\ep_1),\vp(\ep_2)] $ jest ortogonalna. Jeśli $ \vp(\ep_1)=[a,b]^T $

dla $ a,b\in \R^2 $, to $ M(\vp) $ ma postać

$$\mk{rr}{a&-b\\b&a}\ \mbox{ lub } \ \mk{rr}{a&b\\b&-a}, \mbox{ gdzie } a^2+b^2=1.$$

W pierwszym przypadku $ \det\vp=1 $ i wówczas $ \vp $ jest obrotem $ \R^2 $ o kąt $ \theta $ taki, że $ a=\cos\theta $, $ b=\sin\theta $.

W drugim przypadku $ \det\vp=-1 $, wielomian charakterystyczny $ w_\vp(x)=x^2-1=(1-x)(-1-x) $, więc $ \R^2 $ ma ortonormalną bazę $ (C_1,C_2) $ taką, że $ \vp(C_1)=C_1 $ i $ \vp(C_2)=-C_2 $. W prostokątnym układzie współrzędnych $ \si:\R^2\to\R^2 $ związanym z tą bazą $ \MP{\si}{\si}{\vp} $ jest macierzą diagonalną z $ 1,-1 $ na przekątnej.

Z tej uwagi wynika, że każda izometria liniowa $ \ps:W\to W $ płaszczyzny euklidesowej $ (W,\is{\ }{\,}) $ jest obrotem tej płaszczyzny (jeśli $ \det \ps=1 $) lub symetrią ortogonalną względem pewnej prostej $ U\subset \nolinebreak W $ (jeśli $ \det \ps=-1 $). Pokażemy, że izometrie liniowe przestrzeni euklidesowej wymiaru \nolinebreak $ \geq 2 $ są złożeniem obrotów we wzajemnie ortogonalnych płaszczyznach i symetrii ortogonalnej względem podprzestrzeni zawierającej te płaszczyzny.

Twierdzenie (#) Dla każdej izometrii liniowej $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ wymiaru $ n $ istnieje prostokątny układ współrzędnych $ \si:V\to\R^n $ taki, że $ \MP{\si}{\si}{\vp} $ ma na przekątnej macierze obrotów $ \mk{rr}{ \cos \theta&-\sin \theta\\ \sin \theta&\cos \theta} $ lub skalary $ \pm 1 $.

W języku macierzowym Twierdzenie [link] formułuje się następująco.

Stwierdzenie (#) Dla każdej macierzy ortogonalnej $ A\in\M{n}{n}{\R} $ istnieje macierz ortogonalna $ C $ taka, że $ C^TAC\ (=C^{-1}AC) $ ma na przekątnej macierze obrotów

lub skalary $ \pm 1 $.

Do dowodu twierdzenia potrzebna będzie następująca obserwacja wynikająca z Twierdzenia [link].

Lemat (#) Dla każdej izometrii liniowej $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ wymiaru $ \geq 2 $ istnieje podprzestrzeń $ W\subset V $ taka, że $ \vp(W)\subset W $ oraz $ \dim W\leq 2 $.
Dowód: Zauważmy najpierw, że podstawiając $ \be=\vp(\al) $ w równości $ \is{\ga}{\al}=\is{\vp(\ga)}{\vp(\al)} $, warunek zachowania iloczynów skalarnych można przepisać w postaci $ \is{\ga}{\vp^{-1}(\be)}=\is{\vp(\ga)}{\be} $. Zastępując w \nolinebreak tym warunku izometrię liniową $ \vp $ przez $ \vp^{-1}:V\to V $, dostajemy również $ \is{\ga}{\vp(\be)}=\is{\vp^{-1}(\ga)}{\be} $, a stąd

$$\is{\ga}{(\vp+\vp^{-1})(\be)}=\is{\ga}{\vp(\be)}+\is{\ga}{\vp^{-1}(\be)}= \is{\vp^{-1}(\ga)}{\be}+\is{\vp(\ga)}{\be}= \is{(\vp^{-1}+\vp)(\ga)}{\be},$$

co oznacza, że endomorfizm $ \vp+\vp^{-1}:V\to V $ jest samosprzężony.

Z Twierdzenia [link] istnieje więc niezerowy wektor $ \al\in V $ i $ \la\in\R $ takie, że $ (\vp+\vp^{-1})(\al)=\la\al $. Zatem $ \vp(\vp+\vp^{-1})(\al)=\la\vp(\al) $ i stąd $ \vp^2(\al)=\la\vp(\al)-\al $.

Niech $ W=\lin(\al,\vp(\al)) $. Ponieważ, jak zauważyliśmy $ \vp^2(\al)\in W $, mamy $ \vp(W)\subset W $. □

{\bf Dowód Twierdzenia [link].} Załóżmy, że teza jest prawdziwa dla izometrii liniowych przestrzeni euklidesowych wymiaru mniejszego niż $ \dim V=n $ i niech $ W\subset V $ będzie podprzestrzenią wymiaru $ k\leq 2 $ spełniającą warunki Lematu [link].

Jeśli $ k=1 $, to $ \vp|W $ jest identycznością lub operacją mnożenia przez $ -1 $. Jeśli $ k=2 $, to $ \vp|W $ jest obrotem $ W $ lub symetrią ortogonalną $ W $ względem pewnej prostej, zob. Uwaga [link]. Zatem w $ W $ istnieje prostokątny układ współrzędnych $ \ta:W\to\R^k $ taki, że macierz $ \MP{\ta}{\ta}{\vp|W} $ jest macierzą obrotu lub macierzą diagonalną mającą na przekątnej $ 1,-1 $.

Ponieważ $ \vp $ jest izometrią liniową i $ \vp(W)=W $, mamy również $ \vp(W^\perp)=W^\perp $. Ustalmy prostokątny układ współrzędnych $ \ta_\perp:W^\perp\to\R^{n-k} $ w $ W^\perp $ dany przez założenie indukcyjne.

Dla prostokątnego układu współrzędnych $ \si: V\to\R^n $ związanego z bazą ortonormalną powstałą przez dołączenie do bazy $ W^\perp $ związanej z $ \ta_\perp $, bazy $ W $ związanej z $ \ta $, macierz $ \MP{\si}{\si}{\vp} $ jest postaci opisanej w \nolinebreak twierdzeniu.\null
\null$ \blacksquare $    

Na zakończenie tej części podamy Twierdzenie [link] charakteryzujące izometrie liniowe przy pomocy warunku słabszego niż warunek przyjęty w definicji, wyjaśniającego przy tym lepiej terminologię.

Uwaga (#) Dla izomorfizmu $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ warunek zachowywania iloczynu skalarnego jest równoważny (formalnie słabszemu) warunkowi zachowywania normy

$$ ||\al||=||\vp(\al)|| \ \mbox{ dla } \ \al\in V, $$

Istotnie, z $ \is{\ga-\al}{\ga-\al}= \is{\ga}{\ga}-2\is{\ga}{\al}+\is{\al}{\al} $ dla $ \ga,\al\in V $ mamy

$ (\ast)<table class="displaymath"><tr><td class="dspleft"><img class="teximage" src="/sites/default/files/tex/2f3c9c5b8b502478e61bae67a7d3b7ffee51766f.png" alt="9ddaf1850a3cc041cf56190628e60f6a:2649:" /></td><td class="dspright"></td></tr></table>\is{\ga}{\al}=\is{\bar{f}(\ga)}{\bar{f}(\al)} \ \mbox{ dla } \ {\ga},{\al}\in A.<table class="displaymath"><tr><td class="dspleft"><img class="teximage" src="/sites/default/files/tex/830bbd9d2a8ebf24d8e34557c4449c6597659250.png" alt="9ddaf1850a3cc041cf56190628e60f6a:2650:" /></td><td class="dspright"></td></tr></table>\is{\ps(\ga)}{\ps(\al_j)}=\is{\ga}{\al_j}= \is{\bar{f}(\ga)}{\bar{f}(\al_j)}= \is{\bar{f}(\ga)}{\ps(\al_j)} \ \mbox{ dla }\ j\leq m, $$ więc $ \is{\ps(\ga)-\bar{f}(\ga)}{\be}=0 $ dla $ \be\in W $, a stąd $ ||\ps(\ga)-\bar{f}(\ga)||=\0 $, czyli $ \ps|A=\bar{f} $.

Dla zakończenia dowodu wystarczy teraz przedłużyć $ \ps $ do izometrii liniowej $ \vp:V\to V $ przy pomocy dowolnej izometrii liniowej przeprowadzającej $ U^\perp $ na $ W^\perp $. □

Sprzężenie endomorfizmu przestrzeni euklidesowej

W tej części opiszemy kanoniczny izomorfizm przestrzeni euklidesowej z przestrzenią sprzężoną i wyjaśnimy związek operacji sprzężenia endomorfizmu opisanej w Definicji [link] z pojęciem endomorfizmu samosprzężonego przestrzeni euklidesowej.

Niech $ (V,\is{\ }{\,}) $ będzie liniową przestrzenią euklidesową wymiaru $ n $. Każdemu wektorowi $ \al\in V $ przyporządkujmy funkcjonał $ f_\al\in V^\ast $ określony wzorem

\[ f_\al(\ga)=\is{\ga}{\al}. \]

Przekształcenie $ \al\to f_\al $ jest liniowe i jeśli $ \al\neq\0 $, to $ f_\al\neq\0 $ (w $ V^\ast $), bo $ f_\al(\al)=||\al||^2\neq 0 $, a więc to przyporządkowanie jest izomorfizmem $ V $ na $ V^\ast $. Ten kanoniczny izomorfizm pozwala utożsamiać $ V $ z $ V^\ast $, przy ustalonym iloczynie skalarnym w $ V $.

Zauważmy, że jeśli $ (\al_1,\ldots,\al_n) $ jest bazą ortonormalną w $ V $, to układ $ (f_{\al_1},\ldots,f_{\al_n}) $ jest bazą dualną do niej w $ V^\ast $, bo $ f_{\al_i}(\al_j)=\is{\al_i}{\al_j} $.

Niech $ \vp:V\to V $ będzie endomorfizmem i niech $ \vp^\ast:V^\ast\to V^\ast $ będzie endomorfizmem sprzężonym określonym w [link]. Utożsamienie $ V^\ast $ z $ V $ pozwala interpretować $ \vp^\ast $ jako endomorfizm $ \vp^\ast:V\to V $ (oznaczany tak samo jak endomorfizm na $ V^\ast $) taki, że dla $ \al\in V $ mamy (w $ V^\ast $)

$$f_{\vp^\ast(\al)}=\vp^\ast(f_\al),$$

gdzie po prawej stronie równości występuje endomorfizm $ \vp^\ast:V^\ast\to V^\ast $, a po lewej jego odpowiednik $ \vp^\ast:\nolinebreak V\to\nolinebreak V $. Z \nolinebreak (1) obliczamy wartość funkcjonału $ f_{\vp^\ast(\al)} $ na wektorze $ \ga\in V $ jako $ f_{\vp^\ast(\al)}(\ga)=\is{\ga}{\vp^\ast(\al)} $, a z [link], prawa strona równości ma na $ \ga $ wartość $ \vp^\ast(f_\al)(\ga)=f_\al(\vp(\ga))=\is{\vp(\ga)}{\al} $.

Wykorzystując izomorfizm kanoniczny otrzymaliśmy więc endomorfizm $ \vp^\ast:V\to V $ taki, że

\[ \is{\ga}{\vp^\ast(\al)}=\is{\vp(\ga)}{\al}. \]

Endomorfizm $ \vp^\ast:V\to V $ opisany formułą (2) nazywamy endomorfizmem sprzężonym do $ \vp $ ze względu na iloczyn skalarny $ \is{\ }{\,} $.

W szczególności, samosprzężoność $ \vp $ oznacza, że $ \vp^\ast=\vp $, a warunek $ \vp^\ast=\vp^{-1} $ określa izometrie liniowe.

Przestrzenie afiniczne

W tym rozdziale skupimy uwagę na geometrii - dokładniej, geometrii analitycznej. Zbliżając nasz język do języka geometrii, wprowadzimy pojęcie przestrzeni afinicznej, obiektu, w którym wyróżnia się przestrzeń punktów $ E $ i przestrzeń wektorów swobodnych $ \s{E} $ nad $ E $, działających na $ E $ jako bijekcje - przesunięcia, przy czym dodawaniu wektorów w $ \s E $ odpowiada składanie przesunięć w $ E $.

Zaczniemy od omówienia struktury afinicznej przestrzeni $ \K^n $.

Struktura afiniczna przestrzeni współrzędnych

Struktura afiniczna przestrzeni $ \K^n $ związana jest z warstwami - przesunięciami podprzestrzeni liniowych tej przestrzeni oraz przekształceniami afinicznymi - złożeniami endomorfizmów $ \K^n $ z przesunięciami.

O ile wektor zerowy w $ \K^n $ pełni wyróżnioną rolę względem klasy przekształceń liniowych, $ \K^n $ jest przestrzenią jednorodną ze względu na przekształcenia afiniczne - klasa takich przekształceń nie wyróżnia żadnego elementu $ \K^n $.

Definicja (#) Warstwą podprzestrzeni $ W\subset\K^n $ przechodzącą przez wektor $ X_0\in\K^n $ nazywamy zbiór $ X_0+W=\set{X_0+Z:Z\in W}\subset \K^n $.

Jeśli $ X_0\not\in W $, to warstwa $ X_0+W $ nie jest podprzestrzenią liniową $ \K^n $, bo $ \0\not\in X_0+W $.

W Twierdzeniu [link] pokazaliśmy, że zbiór rozwiązań niesprzecznego układu równań $ AX=B $, gdzie $ A\in\nolinebreak\M{m}{n}{\K} $, $ B\in\K^m $, jest warstwą $ X_\ast+N(A) $ podprzestrzeni $ N(A) $ rozwiązań jednorodnego układu $ AX=\0 $ przechodzącą przez (dowolne) rozwiązanie $ X_\ast $ układu $ AX=B $.

Zauważmy też, że dla macierzy $ A\in\nolinebreak\M{m}{n}{\K} $ warstwa $ X_0+N(A)\in\K^n $ jest zbiorem rozwiązań układu równań $ AX=B $, gdzie $ B=AX_0 $. Z Twierdzenia [link] wynika więc, że każda warstwa w $ \K^n $ jest zbiorem rozwiązań pewnego niesprzecznego układu równań liniowych.

Zbiór $ R $ rozwiązań niesprzecznego układu równań liniowych $ AX=B $ wyznacza zbiór $ \set{Y-X:X,Y\in R} $ rozwiązań układu jednorodnego, więc każda warstwa $ R $ jednoznacznie wyznacza podprzestrzeń $ W $ taką, że $ R=X_\ast+W $ dla dowolnego $ X_\ast\in R $. Wymiar $ W $ nazywamy wymiarem warstwy $ R $. Warstwy wymiaru \nolinebreak $ 1 $ nazywamy prostymi, a warstwy wymiaru $ n-1 $, hiperpłaszczyznami w $ \K^n $.

Definicja (#) Mówimy, że przekształcenie $ f:\K^n\to\K^m $ jest afiniczne, jeśli $ f(X)=AX+B $ dla $ A\in\M{m}{n}{\K} $, $ B=f(\0)\in\K^m $. Przekształcenie afiniczne $ f $ wyznacza przekształcenie liniowe $ \vp:\K^n\to\K^m $ dane wzorem $ \vp(X)=f(X)-f(\0)=AX $, które nazywamy częścią liniową $ f $ i \nolinebreak oznaczamy przez $ \p{f} $. Przekształcenie afiniczne $ f:\K^n\to\K^n $ nazywamy izomorfizmem afinicznym $ \K^n $, jeśli macierz $ A $ jest odwracalna.
Uwaga (#) Niech $ f(X)=AX+B $ będzie przekształceniem afinicznym $ \K^n $ w $ \K^m $.

  • [(a)] Dla dowolnego $ X\in\K^n $

    $ (\ast) $ $ f(X+Z)=f(X)+\p{f}(Z) $ dla $ Z\in \K^n $.

    Istotnie, $ f(X+Z)=A(X+Z)+B=AX+AZ+B=f(X)+AZ $.

  • [(b)] Jeśli $ m=n $ i $ f $ jest izomorfizmem afinicznym $ \K^n $, to $ f $ ma przekształcenie odwrotne, które też jest izomorfizmem afinicznym $ \K^n $, bo z $ Y=AX+B $ mamy $ f^{-1}(Y)=A^{-1}(Y-B)=A^{-1}Y+A^{-1}(-B) $.
  • [(c)] Złożenie przekształcenia afinicznego $ f $ z przekształceniem afinicznym $ g:\K^m\to\K^l $ jest przekształceniem afinicznym $ g\circ f:\K^n\to\K^l $, bo dla $ f(X)=AX+B $ i $ g(Y)=CY+D $ złożenie $ g\circ f $ jest dane wzorem $ g\circ f(X)=C(AX+B)+D=(CA)X+(CB+D) $.

Odnotujmy na koniec, że przekształcenia afiniczne $ f:\K^n\to\K^m $ przekształcają warstwy w $ \K^n $ na \nolinebreak warstwy w $ \K^m $, zob.\ $ (\ast) $ w Uwadze [link].

Przestrzenie afiniczne

Przed wprowadzeniem ogólnej definicji przestrzeni afinicznej, wyjaśnimy to pojęcie na podstawowym przykładzie kartezjańskiej przestrzeni afinicznej $ \ek{n} $.

Przykład (#) Pisząc $ \ek{n} $ wskazujemy, że elementy $ n $-tej potęgi kartezjańskiej $ \K $ traktujemy jako punkty, odróżniając $ \ek{n} $ od przestrzeni liniowej $ \K^n $, której elementami są wektory-kolumny.

Punkty będziemy oznaczać literami $ p,q,\ldots $, a współrzędne punktu będziemy zapisywać w nawiasach okrągłych, $ p=(x_1,\ldots,x_n) $. Każda para punktów $ p=(x_1,\ldots,x_n) $, $ q=(y_1,\ldots,y_n) $ w $ \ek{n} $ wyznacza wektor $ \ve{pq}=[y_1-x_1,\ldots,y_n-x_n]^T\in\K^n $.

Wektor $ Z=[z_1,\ldots,z_n]^T\in\K^n $ można zaczepić w dowolnym punkcie $ p=(x_1,\ldots,x_n)\in\K^n $, w wyniku czego otrzymuje się punkt $ p+Z=(x_1+z_1,\ldots,x_n+z_n) $ (w szczególności, $ p+\ve{pq}=q $). Tak więc, każdy wektor $ Z\in\K^n $ wyznacza bijekcję $ p\to p+Z $ przestrzeni punktów $ \ek{n} $ na siebie - przesunięcie o wektor $ Z $, przy czym $ p+(X+Y)=(p+X)+Y $, a więc operacji dodawania wektorów w $ \K^n $ odpowiada składanie przesunięć o te wektory w $ \ek{n} $.

Pojęcie przestrzeni afinicznej pozwala uwolnić się od współrzędnych przypisanych punktom, jak to ma miejsce w Przykładzie [link].

Definicja (#) Przestrzenią afiniczną nad ciałem $ \K $ nazywamy trójkę $ (E,\s E,\ka) $, gdzie $ E $ jest niepustym zbiorem punktów, $ \s E $ jest przestrzenią liniową nad $ \K $, której elementy nazywamy wektorami swobodnymi nad $ E $, a \ $ \ka:E\times\s E\to E $ jest operacją zaczepiania wektorów swobodnych w punktach taką, że przyjmując oznaczenie $ \ka(p,\ga)=p+\ga $, mamy

$ (0) $      $ p+\0=p $ dla $ p\in E $,

$ (1) $      $ (p+\ga)+\al=p+(\ga+\al) $ dla $ \ga,\al\in\s E $,

$ (2) $      Dla każdej pary punktów $ p,q\in E $ istnieje dokładnie jeden wektor $ \ga\in \s E $ taki, że $ p+\ga=q $ $ ( $będziemy go oznaczać symbolem $ \ve{pq}) $.

Dla uproszczenia oznaczeń, zamiast $ (E,\s E,\ka) $ będziemy często pisać $ E $, a elementy $ \s{E} $ będziemy nazywać po prostu wektorami nad $ E $.

Wymiarem $ \dim E $ przestrzeni afinicznej $ E $ będziemy nazywać wymiar przestrzeni $ \s E $.

Uwaga (#)

  • [(a)] Warunek (2) w definicji oznacza, że dla ustalonego $ p\in E $ (punktu początkowego) przyporządkowanie wektorowi $ \ga\in\s E $ punktu $ p+\ga\in E $ (końca wektora $ \ga $ zaczepionego w $ p $) ustala wzajemnie jednoznaczną odpowiedniość między $ E $ i $ \s E $ (operacją odwrotną jest przyporządkowanie punktowi $ q $ wektora $ \ve{pq} $). Punkt początkowy $ p $ odpowiada wtedy wektorowi zerowemu.

  • [(b)] Warunek (1) mówi jak wektor przyporządkowany punktowi zmienia się w wyniku zastąpienia punktu początkowego $ p $ przez inny punkt $ q $: podstawiając $ q=p+\ve{pq} $ do $ r=q+\ve{qr} $ dostajemy $ r=(p+\ve{pq})+\ve{qr}=p+(\ve{pq}+\ve{qr}) $, a stąd
    $$\ve{pr}=\ve{pq}+\ve{qr}.$$

    W szczególności, dla $ r=p $ mamy $ \0=\ve{pp}=\ve{pq}+\ve{qp} $, czyli $ \ve{qp}=-\ve{pq} $.

Przykład (#) Niech $ V $ będzie przestrzenią liniową nad $ \K $. Podobnie jak w Przykładzie [link], pisząc $ \ev $ rozpatrujemy $ V $ jako zbiór punktów i określamy przestrzeń afiniczną $ (\ev,V,\ka) $ definiując operację zaczepienia wektora $ \ga\in V $ w punkcie $ p\in\ev $ wzorem $ \ka(p,\ga)=p+\ga $, gdzie plus po prawej stronie jest operacją dodawania wektorów w $ V $.

W przestrzeni afinicznej $ E $ wyróżnimy niepuste podzbiory odpowiadające warstwom w $ \K^n $ zdefiniowanym w pierwszej części tego rozdziału.

Uwaga Niech $ W\subset \s E $ będzie podprzestrzenią liniową przestrzeni $ \s E $ wektorów swobodnych nad $ E $ i \nolinebreak niech $ p+W=\set{p+\be:\be\in W}\subset E $ będzie zbiorem końców wektorów z $ W $ zaczepionych w ustalonym punkcie $ p\in E $. Wówczas dla każdego punktu $ q\in p+W $ mamy $ q+W= p+W $.

Istotnie, $ q\in p+W $ oznacza, że $ q=p+\ga $ dla pewnego wektora $ \ga\in W $. Wtedy $ q+W=(p+\ga)+W=\set{(p+\ga)+\be:\be\in W}=\set{p+(\ga+\be):\be\in W}=p+W $.

Z tej uwagi wynika, że zbiór $ p+W $ wyznacza podprzestrzeń $ W $ wzorem $ W=\set{\ve{qr}:q,r\in p+W} $ i \nolinebreak jest zamknięty ze względu na operację zaczepiania wektorów z $ W $ w \nolinebreak punktach $ p+W $. Zatem zbiór $ p+W\subset E $ dziedziczy w naturalny sposób strukturę afiniczną z przestrzeni $ (E,\s E,\ka) $: zbiorem wektorów swobodnych nad $ p+W $ jest $ W $, a operacja zaczepiania wektorów w punktach $ p+W $ jest obcięciem operacji zaczepiania wektorów $ \ka:E\times \s E\to E $ do $ (p+W)\times W $.

Definicja Zbiory postaci $ p+W\subset E $, gdzie $ p\in E $, a $ W\subset\s{E} $ jest podprzestrzenią przestrzeni wektorów swobodnych nad $ E $ nazywamy podprzestrzeniami afinicznymi $ E $. Przestrzenią wektorów swobodnych nad $ p+W $ jest przestrzeń $ W=\set{\ve{qr}:q,r\in p+W} $, a $ \dim{W} $ jest wymiarem $ p+W $. Podprzestrzenie wymiaru \nolinebreak $ 1 $ nazywamy prostymi, a podprzestrzenie wymiaru $ \dim \s E-1 $, hiperpłaszczyznami.

Na zakończenie tej części podamy przykład przestrzeni afinicznej innej niż wcześniej omawiane. Warto jednak podkreślić, że jak się okaże, każdą przestrzeń afiniczną można utożsamić, z \nolinebreak zachowaniem struktury afinicznej, z przestrzenią afiniczną odpowiedniego wymiaru, opisaną w Przykładzie [link].

Przykład {\bf *} Niech $ V $ będzie niezerową przestrzenią liniową nad $ \K $ i niech $ f:V\to\K $ będzie niezerowym funkcjonałem liniowym. Jako $ E $ przyjmijmy zbiór jednowymiarowych podprzestrzeni $ V $, nie leżących w $ \ker f=\s E $. Operację \, $ \ka:E\times \s E\to E $ określamy następująco: jeśli $ p\in E $ jest jednowymiarową podprzestrzenią $ V $ oraz $ \ga\in\s E $, wybieramy niezerowy wektor $ \al\in p $ i definiujemy

$$\ka(p,\ga)=\lin(\al+f(\al)\ga).$$

Bez trudu sprawdza się, że operacja $ \ka $ jest określona poprawnie (prawa strona równości nie zależy od \nolinebreak wyboru $ \al\in p $) i spełnia warunki (0)-(2) Definicji [link]. Zatem $ (E,\s E,\ka) $ jest przestrzenią afiniczną.

Kombinacje afiniczne

Przeniesiemy teraz do przestrzeni afinicznych operację środka ciężkości układu punktów z wagami, odgrywającą ważną rolę w geometrii.

Uwaga Niech $ (p_0,\ldots,p_n) $ będzie układem punktów w przestrzeni afinicznej $ E $ nad $ \K $ i niech $ a_0,\ldots,a_n\in\K $ będą skalarami o sumie $ \sum_{j=0}^na_j=1 $. Wówczas, dla dowolnego punktu początkowego $ p\in E $, punkt

$ (\ast) $ $ q=p+\sum_{j=0}^n a_j\ve{pp_j} $

spełnia warunek

$ (\ast\ast)<table class="displaymath"><tr><td class="dspleft"><img class="teximage" src="/sites/default/files/tex/1408974249228fb882a5f373b10cb6d7342efa0b.png" alt="9ddaf1850a3cc041cf56190628e60f6a:3038:" /></td><td class="dspright"></td></tr></table>\af(p_0,\ldots,p_n)=p_0+\lin(\ve{p_0p_1},\ldots,\ve{p_0p_n}). $$ Co więcej, $ \af(p_0,\ldots,p_n) $ jest najmniejszą podprzestrzenią afiniczną $ E $ zawierającą wszystkie punkty $ p_j $.

Dowód: Ponieważ $ \ve{p_0p_0}=\0 $, z wzoru $ (\ast) $ dla $ p=p_0 $ dostajemy

$ \af(p_0,\ldots,p_n)=\set{p_0+\sum_{j=0}^n a_j\ve{p_0p_j}:\sum_{j=0}^n a_j=1}= \set{p_0+(a_0\ve{p_0p_0}+\sum_{j=1}^n a_j\ve{p_0p_j}):\sum_{j=0}^n a_j=1}=\set{p_0+\sum_{j=1}^n a_j\ve{p_0p_j}: a_1,\ldots,a_n\in\K}= p_0+\lin(\ve{p_0p_1},\ldots,\ve{p_0p_n}) $.

W szczególności, $ p_0\in\af(p_0,\ldots,p_n) $, a ponieważ powłoka afiniczna układu punktów nie zależy od ich kolejności, mamy stąd $ p_j\in\af(p_0,\ldots,p_n) $ dla $ j\leq n $. Podprzestrzenie afiniczne w $ E $ są zamknięte ze \nolinebreak względu na kombinacje afiniczne, więc $ \af(p_0,\ldots,p_n) $ jest najmniejszą podprzestrzenią afiniczną $ E $ zawierającą wszystkie $ p_j $. □

Definicja Mówimy, że układ punktów $ (p_0,\ldots,p_n) $ w przestrzeni afinicznej $ E $ jest afinicznie niezależny jeśli podprzestrzeń $ \af(p_0,\ldots,p_n) $ ma wymiar $ n $.
Uwaga Z Twierdzenia [link] wynika, że afiniczna niezależność układu punktów $ (p_0,\ldots,p_n) $ jest równoważna liniowej niezależności układu wektorów $ (\ve{p_0p_1},\ldots,\ve{p_0p_n}) $, przy czym $ p_0 $ można zastąpić dowolnym innym punktem układu, bo powłoka afiniczna nie zależy od kolejności punktów układu.

Układ bazowy, baza punktowa

W Uwadze [link] (a) odnotowaliśmy, że wybranie punktu początkowego $ p\in E $ ustala wzajemnie jednoznaczną odpowiedniość punktów $ E $ z wektorami z $ \s E $, $ q\to\ve{pq} $. Dodatkowy wybór bazy w $ \s{E} $ pozwala więc przyporządkować każdemu punktowi współrzędne.

Definicja Układem bazowym w przestrzeni afinicznej $ E $ nad $ \K $ nazywamy układ $ (p;\al_1,\ldots,\al_n) $ taki, że $ p\in E $, a $ (\al_1,\ldots,\al_n) $ jest bazą $ \s E $.
Definicja Bazą punktową w przestrzeni afinicznej $ E $ nad $ \K $ nazywamy układ punktów $ (p_0,\ldots,p_n) $ taki, że $ (p_0;\ve{p_0p_1},\ldots,\ve{p_0p_n}) $ jest układem bazowym w $ E $.

Jeśli $ (p_0,p_1,\ldots,p_n) $ jest bazą punktową $ E $, to punkt $ q\in E $ można jednoznacznie zapisać w układzie bazowym $ (p_0;\ve{p_0p_1},\ldots,\ve{p_0p_n}) $ w postaci $ q=p_0+\sum_{j=1}^na_j\ve{p_0p_j} $. Wtedy $ q=\sum_{j=0}^na_jp_j $ jest kombinacją afiniczną $ (p_0,p_1,\ldots,p_n) $, w której waga $ a_0=1-\sum_{j=1}^n a_j $ jest dobrana tak, by suma wag była jednością. Wagi $ a_0,\ldots,a_n $ nazywamy współrzędnymi barycentrycznymi punktu $ q $.

Zbiór współrzędnych barycentrycznych, interpretowanych jako elementy $ \K^{n+1} $, tworzy w tej przestrzeni hiperpłaszczyznę opisaną równaniem $ \sum_{j=0}^nx_j=1 $.

Przekształcenia afiniczne

Rozpatrując przekształcenia między przestrzeniami punktów przestrzeni afinicznych będziemy zawsze zakładać, że dziedzina i przeciwdziedzina są przestrzeniami nad tym samym ciałem $ \K $.

Przekształcenia afiniczne przestrzeni afinicznych, to przekształcenia, które w ustalonych układach bazowych są opisane przez przekształcenia afiniczne z $ \K^n $ w $ \K^m $, postaci $ Y=AX+B $, określone na początku tego rozdziału. Wygodniej jednak będzie przyjąć jako definicję warunek niezależny od wyboru układów bazowych.

Definicja (#) Niech $ E,F $ będą przestrzeniami afinicznymi nad $ \K $. Funkcję $ f:E\to F $ nazywamy przekształceniem afinicznym, jeśli dla pewnego $ p\in E $ istnieje przekształcenie liniowe $ \p{f}:\s{E}\to \s{F} $, zwane częścią liniową $ f $, spełniające warunek

$ (\ast) $ $ f(p+\al)=f(p)+\p{f}(\al) $ dla $ \al\in \s{E} $.

Uwaga (#)

  • [(a)] W warunku $ (\ast) $ można, bez zmiany $ \p{f} $, zastąpić punkt $ p $ dowolnym punktem $ q\in E $, bo dla $ q=p+\ga $ mamy $ f(q+\al)=f(p+\ga+\al)=f(p)+\p{f}(\ga+\al)= f(p)+\p{f}(\ga)+\p{f}(\al)=f(q)+\p{f}(\al) $.
  • [(b)] $ f $ jest wyznaczone przez podanie obrazu $ f(p) $ jakiegokolwiek punktu $ p\in E $ i części liniowej $ \p{f} $.
  • [(c)] Złożenie przekształceń afinicznych $ g\circ f $ jest przekształceniem afinicznym i $ \ve{g\circ f}=\p{g}\circ\p{f} $.\\ Istotnie, $ g(f(p+\al))=g(f(p)+\p{f}(\al))=g(f(p))+\p{g}(\p{f}(\al)) $.

Niech $ f:E\to E $ będzie przekształceniem afinicznym. Jeśli $ \p{f}=\0 $, to $ f $ jest przekształceniem stałym.

Jeśli $ \p{f}=\id $, to $ f $ jest przesunięciem $ f(p+\al)=f(p)+\al=(p+\ve{pf(p)})+\al=(p+\al)+\ve{pf(p)} $.

Jeśli $ \p{f}=c\cdot\id $, $ c\neq 1 $, to $ f $ nazywamy jednokładnością o skali $ c $ (środkiem tej jednokładności jest punkt $ q=p+(1-c)^{-1}\ve{pf(p)} $ spełniający warunek $ f(q)=q $).

Przekształcenie afiniczne $ f:E\to E $ nazywamy rzutem na podprzestrzeń $ p+W $ równoległym do \nolinebreak $ U $ (symetrią względem $ p+W $ równoległą do $ U $), jeśli $ f(p)=p $ i część liniowa $ f $ jest rzutem $ \s E $ na $ W $ równoległym do $ U $ (symetrią względem $ W $ równoległą do $ U $).

Definicja Przekształcenie afiniczne $ f:E\to F $ nazywamy izomorfizmem afinicznym jeśli część liniowa $ \p{f}:\s{E}\to\s{F} $ jest izomorfizmem liniowym.
Uwaga Izomorfizm afiniczny $ f:E\to F $ ma funkcję odwrotną $ f^{-1}:F\to E $, która jest izomorfizmem afinicznym zadanym warunkami $ f^{-1}(f(p))=p $ \ i \ $ \ve{(f^{-1})}=(\p{f}\,)^{-1}:\s{F}\to\s{E} $.

Mówimy, że przestrzenie afiniczne $ E,F $izomorficzne jeśli istnieje izomorfizm afiniczny $ E $ na $ F $, co zgodnie z Wnioskiem [link] jest równoważne równości wymiarów $ \dim E=\dim F $.

\mNa koniec tej części odnotujemy ważną własność przekształceń afinicznych (w istocie, charakteryzującą tę klasę przekształceń).

Uwaga (#) Przekształcenia afiniczne zachowują kombinacje afiniczne.

Istotnie, dla przekształcenia afinicznego $ f:E\to F $ warunek $ (\ast) $ oznacza, że $ \p{f}(\ve{pq})=\ve{f(p)f(q)} $, $ p,q\in E $. Stąd dla kombinacji afinicznej $ \sum_{j=0}^n a_jp_j $ w $ E $, gdzie $ \sum_{j=0}^n a_j=1 $,

$ f(\sum_{j=0}^n a_jp_j)=f(p+\sum_{j=0}^n a_j\ve{pp_j})=f(p)+\p{f}(\sum_{j=0}^n a_j\ve{pp_j})=f(p)+\sum_{j=0}^n a_j\p{f}(\ve{pp_j})=f(p)+\sum_{j=0}^n a_j\ve{f(p)f(p_j)}=\sum_{j=0}^n a_jf(p_j) $.

Afiniczne układy współrzędnych

Definicja (#) Przestrzeń afiniczną $ (E,(\s{E},\is{\ }{\,}),\ka) $ nad $ \R $, gdzie w skończenie wymiarowej przestrzeni wektorów swobodnych $ \s{E} $ nad $ E $ ustalony jest iloczyn skalarny $ \is{\ }{\,} $, będziemy nazywali afiniczną przestrzenią euklidesową.

W dalszym ciągu będziemy mówili po prostu o przestrzeni euklidesowej $ E $, jeśli jasne jest jaki iloczyn skalarny został ustalony w $ \s{E} $.

Definicja Odległość między punktami przestrzeni euklidesowej określamy wzorem $ d(p,q)=||\ve{pq}|| $, gdzie $ ||\ve{pq}||=\sqrt{\is{\ve{pq}}{\ve{pq}}} $ jest normą wektora swobodnego $ \ve{pq} $ w $ (\s{E},\is{\ }{\,}) $.
Przykład W przestrzeni euklidesowej $ \ee $, gdzie w przestrzeni wektorów swobodnych $ \R^n $ ustalony jest iloczyn skalarny $ \is{X}{Y}=X^TY $, odległość między punktami $ p=(x_1,\ldots,x_n) $, $ q=(y_1,\ldots,y_n) $ jest określona wzorem $ d(p,q)=\sqrt{\sum_{j=1}^n(y_j-x_j)^2} $.
Definicja Rzutem ortogonalnym przestrzeni euklidesowej $ E $ na podprzestrzeń afiniczną $ p+W\subset E $ nazywamy przekształcenie afiniczne $ f:E\to E $ dane wzorem $ f(p+\al)=p+P(\al) $, gdzie $ P:\s{E}\to W $ jest rzutem ortogonalnym $ \s{E} $ na $ W $. Symetrią ortogonalną $ E $ względem $ p+W $ nazywamy przekształcenie afiniczne $ g:E\to E $ określone wzorem $ g(p+\al)=p+\p{g}(\al) $, gdzie $ \p{g} $ jest symetrią ortogonalną $ \s{E} $ względem $ W $.

Niech $ f:E\to E $ będzie rzutem ortogonalnym przestrzeni euklidesowej $ E $ na podprzestrzeń $ p+ W $. Zgodnie z Uwagą [link], rzut ortogonalny $ r=f(q) $ punktu $ q $ jest jedynym punktem $ p+W $ spełniającym warunek $ d(r,q)=\inf\set{d(\xx,q):\xx\in p+W} $.

Minimalna odległość $ d(r,q) $ punktu $ q $ od $ p+W $ jest normą rzutu ortogonalnego wektora $ \ve{pq} $ na dopełnienie ortogonalne $ W^\perp $ podprzestrzeni $ W $ w $ \s{E} $, nazywamy ją odległością punktu $ q $ od podprzestrzeni $ p+W $.

Jeśli $ U $ i $ W $ są podprzestrzeniami $ \s{E} $, $ p,q\in E $, to kres dolny odległości między punktami podprzestrzeni $ q+U $ i $ p+W $, $ \inf\{d(p+\be,q+\ga):\be\in W,\ga\in U\}= \inf\{d(p+\be-\ga,q):\be\in W, \ga\in U\} $ jest odległością punktu $ q $ od podprzestrzeni $ p+(W+U) $ równą normie rzutu wektora $ \ve{pq} $ na podprzestrzeń $ (W+U)^\perp $ - jest to odległość między podprzestrzeniami $ q+U $ i $ p+W $ przestrzeni $ E $.

Definicja Afiniczny układ współrzędnych $ \si_p:E\to\R^n $ w przestrzeni euklidesowej $ E $ nazywamy prostokątnym, jeśli $ \si:\s{E}\to\R^n $ jest prostokątnym układem współrzędnych w $ \s{E} $.

Izometrie przestrzeni euklidesowych.

Izometrie przestrzeni euklidesowej to przekształcenia $ f:E\to E $ zachowujące odległość: dla $ p,q\in E $,

\m$  (\ast) $ $ d(f(p),f(q))=d(p,q) $

\mKażdy izomorfizm afiniczny $ f:E\to E $, którego część liniowa jest izometrią liniową, jest oczywiście izometrią. Pokażemy, że wszystkie izometrie $ E $ są takiej postaci.

Twierdzenie (#) Izometrie przestrzeni euklidesowej $ E $ są przekształceniami afinicznymi, których część liniowa jest izometrią liniową przestrzeni $ \s{E} $ wektorów swobodnych nad $ E $.
Dowód: Ustalmy punkt $ p\in E $ i połóżmy $ {\p{f}}(\ve{pq})=\ve{f(p)f(q)} $. Wtedy $ \p{f}:\s{E}\to\s{E} $ jest dobrze określone i $ f(q)=f(p)+\p{f}(\ve{pq}) $ dla $ q\in E $, więc nasza teza mówi, że $ \p{f} $ jest izometrią liniową. Wyprowadzimy ją z Twierdzenia [link] dowodząc, że $ \p{f} $ spełnia warunek $ (\ast\ast) $ podany w założeniach tego twierdzenia.

Warunek $ {\p{f}}(\0)=\0 $ jest oczywiście spełniony. Rozważmy wektory $ \ve{pq},\ve{pr}\in\s{E} $. Z $ (\ast) $ dla $ q,r\in E $ mamy $ ||\ve{qr}||=||\ve{f(q)f(r)}|| $, a z drugiej strony, $ \ve{qr}=\ve{pr}-\ve{pq} $ i, analogicznie, $ \ve{f(q)f(r)}=\ve{f(p)f(r)}-\ve{f(p)f(q)} $, czyli $ ||\ve{pr}-\ve{pq}||=||{\p{f}}(\ve{pr})-{\p{f}}(\ve{pq})|| $, więc $ \p{f} $ spełnia warunek $ (\ast\ast) $ w [link]. □

Ważnym wnioskiem z Twierdzenia [link] jest fakt, że odległość w przestrzeni euklidesowej $ E $ pozwala scharakteryzować przesunięcia tej przestrzeni (a więc pozwala zdefiniować przestrzeń wektorów swobodnych nad $ E $).

Stwierdzenie Przekształcenie $ f:E\to E $ przestrzeni euklidesowej $ E $ jest przesunięciem o pewien wektor wtedy i tylko wtedy, gdy $ f $ jest izometrią i $ \sup\set{d(q,f(q)):q\in E}< \infty $.
Dowód: Oczywiście, przesunięcie $ q\to q+\al $ jest izometrią $ E $ i $ d(q,q+\al)=||\al|| $.

Na odwrót, niech $ f $ będzie izometrią taką, że $ \sup\set{d(q,f(q)):q\in E}< \infty $. Zgodnie z [link], $ f $ jest przekształceniem afinicznym. Ustalmy $ p\in E $ i rozważmy przekształcenie afiniczne $ g:E\to E $ będące złożeniem $ f $ z przesunięciem o wektor $ \ve{f(p)p} $. Wtedy $ g(p)=p $ i wystarczy pokazać, że $ g=\id_E $, bo stąd natychmiast wynika, że $ f $ jest przesunięciem o wektor $ \ve{pf(p)} $.

Zauważmy, że $ \sup\set{d(q,g(q)):q\in E}< \infty $. Gdyby $ g(p+\al)\neq p+\al $ dla pewnego wektora $ \al\in\s{E} $, to z $ g(p+\al)=p+\p{g}(\al) $ mielibyśmy $ \p{g}(\al)-\al\neq \0 $, czyli $ ||\p{g}(\al)-\al||\neq 0 $. Wtedy $ \lim_{t\rightarrow\infty}||\p{g}(t\al)-t\al||= \lim_{t\rightarrow\infty}|t|||\p{g}(\al)-\al||=\infty $, czyli $ \lim_{t\rightarrow\infty}d(p+t\al,g(p+t\al))=\infty $, sprzecznie z założeniem. □

Twierdzenie [link] pozwala wzmocnić Twierdzenie [link] w następujący sposób.

Powiemy, że przekształcenie $ f:H\to E $ niepustego podzbioru $ H\subset E $ przestrzeni euklidesowej $ E $ w $ E $ jest izometrią, jeśli $ f $ zachowuje odległości punktów z $ H $, czyli spełnia warunek $ (\ast) $ dla $ p,q\in H $.

Twierdzenie {\bf $ ^\ast $} Dla każdej izometrii $ f:H\to E $ podzbioru $ H\subset E $ przestrzeni euklidesowej $ E $ istnieje izometria liniowa $ \vp:\s{E}\to\s{E} $ taka, że $ f(q)=f(p)+\vp(\ve{pq}) $ dla $ p,q\in H $.
Dowód: Ustalmy punkt $ p\in H $ i połóżmy $ A=\set{\ve{pq}:q\in H} $. Tak jak w dowodzie Twierdzenia [link], sprawdza się, że funkcja $ \bar{f}:A\to A $ dana przez $ {\bar{f}}(\ve{pq})=\ve{f(p)f(q)} $ dla $ \ve{pq}\in A $, spełnia założenia Twierdzenia [link] i wyprowadza się stąd tezę twierdzenia. □

Przestrzenie Euklidesowe

W geometrii, przestrzeń euklidesowa, to zbiór punktów $ E $ z zadaną odległością $ d(p,q) $ między punktami, która, po wprowadzeniu odpowiedniego układu współrzędnych w $ E $, jest opisana formułą $ d(p,q)=\sqrt{\sum_{j=1}^n(y_j-x_j)^2} $, $ p=(x_1,\ldots,x_n) $, $ q=(y_1,\ldots,y_n) $.

Pojęcie przestrzeni euklidesowej wprowadzimy w przyjętym przez nas formalizmie przestrzeni afinicznych nad ciałem liczb rzeczywistych, ustalając w przestrzeni wektorów swobodnych iloczyn skalarny.

Afiniczne przestrzenie euklidesowe

Definicja (#) Przestrzeń afiniczną $ (E,(\s{E},\is{\ }{\,}),\ka) $ nad $ \R $, gdzie w skończenie wymiarowej przestrzeni wektorów swobodnych $ \s{E} $ nad $ E $ ustalony jest iloczyn skalarny $ \is{\ }{\,} $, będziemy nazywali afiniczną przestrzenią euklidesową.

W dalszym ciągu będziemy mówili po prostu o przestrzeni euklidesowej $ E $, jeśli jasne jest jaki iloczyn skalarny został ustalony w $ \s{E} $.

Definicja Odległość między punktami przestrzeni euklidesowej określamy wzorem $ d(p,q)=||\ve{pq}|| $, gdzie $ ||\ve{pq}||=\sqrt{\is{\ve{pq}}{\ve{pq}}} $ jest normą wektora swobodnego $ \ve{pq} $ w $ (\s{E},\is{\ }{\,}) $.
Przykład W przestrzeni euklidesowej $ \ee $, gdzie w przestrzeni wektorów swobodnych $ \R^n $ ustalony jest iloczyn skalarny $ \is{X}{Y}=X^TY $, odległość między punktami $ p=(x_1,\ldots,x_n) $, $ q=(y_1,\ldots,y_n) $ jest określona wzorem $ d(p,q)=\sqrt{\sum_{j=1}^n(y_j-x_j)^2} $.
Definicja Rzutem ortogonalnym przestrzeni euklidesowej $ E $ na podprzestrzeń afiniczną $ p+W\subset E $ nazywamy przekształcenie afiniczne $ f:E\to E $ dane wzorem $ f(p+\al)=p+P(\al) $, gdzie $ P:\s{E}\to W $ jest rzutem ortogonalnym $ \s{E} $ na $ W $. Symetrią ortogonalną $ E $ względem $ p+W $ nazywamy przekształcenie afiniczne $ g:E\to E $ określone wzorem $ g(p+\al)=p+\p{g}(\al) $, gdzie $ \p{g} $ jest symetrią ortogonalną $ \s{E} $ względem $ W $.

Niech $ f:E\to E $ będzie rzutem ortogonalnym przestrzeni euklidesowej $ E $ na podprzestrzeń $ p+ W $. Zgodnie z Uwagą [link], rzut ortogonalny $ r=f(q) $ punktu $ q $ jest jedynym punktem $ p+W $ spełniającym warunek $ d(r,q)=\inf\set{d(\xx,q):\xx\in p+W} $.

Minimalna odległość $ d(r,q) $ punktu $ q $ od $ p+W $ jest normą rzutu ortogonalnego wektora $ \ve{pq} $ na dopełnienie ortogonalne $ W^\perp $ podprzestrzeni $ W $ w $ \s{E} $, nazywamy ją odległością punktu $ q $ od podprzestrzeni $ p+W $.

Jeśli $ U $ i $ W $ są podprzestrzeniami $ \s{E} $, $ p,q\in E $, to kres dolny odległości między punktami podprzestrzeni $ q+U $ i $ p+W $, $ \inf\{d(p+\be,q+\ga):\be\in W,\ga\in U\}= \inf\{d(p+\be-\ga,q):\be\in W, \ga\in U\} $ jest odległością punktu $ q $ od podprzestrzeni $ p+(W+U) $ równą normie rzutu wektora $ \ve{pq} $ na podprzestrzeń $ (W+U)^\perp $ - jest to odległość między podprzestrzeniami $ q+U $ i $ p+W $ przestrzeni $ E $.

Definicja Afiniczny układ współrzędnych $ \si_p:E\to\R^n $ w przestrzeni euklidesowej $ E $ nazywamy prostokątnym, jeśli $ \si:\s{E}\to\R^n $ jest prostokątnym układem współrzędnych w $ \s{E} $.

Izometrie przestrzeni euklidesowych

Izometrie przestrzeni euklidesowej to przekształcenia $ f:E\to E $ zachowujące odległość: dla $ p,q\in E $,

$ (\ast) $ $ d(f(p),f(q))=d(p,q) $

Każdy izomorfizm afiniczny $ f:E\to E $, którego część liniowa jest izometrią liniową, jest oczywiście izometrią. Pokażemy, że wszystkie izometrie $ E $ są takiej postaci.

Twierdzenie (#) Izometrie przestrzeni euklidesowej $ E $ są przekształceniami afinicznymi, których część liniowa jest izometrią liniową przestrzeni $ \s{E} $ wektorów swobodnych nad $ E $.
Dowód: Ustalmy punkt $ p\in E $ i połóżmy $ {\p{f}}(\ve{pq})=\ve{f(p)f(q)} $. Wtedy $ \p{f}:\s{E}\to\s{E} $ jest dobrze określone i $ f(q)=f(p)+\p{f}(\ve{pq}) $ dla $ q\in E $, więc nasza teza mówi, że $ \p{f} $ jest izometrią liniową. Wyprowadzimy ją z Twierdzenia [link] dowodząc, że $ \p{f} $ spełnia warunek $ (\ast\ast) $ podany w założeniach tego twierdzenia.

Warunek $ {\p{f}}(\0)=\0 $ jest oczywiście spełniony. Rozważmy wektory $ \ve{pq},\ve{pr}\in\s{E} $. Z $ (\ast) $ dla $ q,r\in E $ mamy $ ||\ve{qr}||=||\ve{f(q)f(r)}|| $, a z drugiej strony, $ \ve{qr}=\ve{pr}-\ve{pq} $ i, analogicznie, $ \ve{f(q)f(r)}=\ve{f(p)f(r)}-\ve{f(p)f(q)} $, czyli $ ||\ve{pr}-\ve{pq}||=||{\p{f}}(\ve{pr})-{\p{f}}(\ve{pq})|| $, więc $ \p{f} $ spełnia warunek $ (\ast\ast) $ w [link]. □

Ważnym wnioskiem z Twierdzenia [link] jest fakt, że odległość w przestrzeni euklidesowej $ E $ pozwala scharakteryzować przesunięcia tej przestrzeni (a więc pozwala zdefiniować przestrzeń wektorów swobodnych nad $ E $).

Stwierdzenie Przekształcenie $ f:E\to E $ przestrzeni euklidesowej $ E $ jest przesunięciem o pewien wektor wtedy i tylko wtedy, gdy $ f $ jest izometrią i $ \sup\set{d(q,f(q)):q\in E}< \infty $.
Dowód: Oczywiście, przesunięcie $ q\to q+\al $ jest izometrią $ E $ i $ d(q,q+\al)=||\al|| $.

Na odwrót, niech $ f $ będzie izometrią taką, że $ \sup\set{d(q,f(q)):q\in E}< \infty $. Zgodnie z [link], $ f $ jest przekształceniem afinicznym. Ustalmy $ p\in E $ i rozważmy przekształcenie afiniczne $ g:E\to E $ będące złożeniem $ f $ z przesunięciem o wektor $ \ve{f(p)p} $. Wtedy $ g(p)=p $ i wystarczy pokazać, że $ g=\id_E $, bo stąd natychmiast wynika, że $ f $ jest przesunięciem o wektor $ \ve{pf(p)} $.

Zauważmy, że $ \sup\set{d(q,g(q)):q\in E}< \infty $. Gdyby $ g(p+\al)\neq p+\al $ dla pewnego wektora $ \al\in\s{E} $, to z $ g(p+\al)=p+\p{g}(\al) $ mielibyśmy $ \p{g}(\al)-\al\neq \0 $, czyli $ ||\p{g}(\al)-\al||\neq 0 $. Wtedy $ \lim_{t\rightarrow\infty}||\p{g}(t\al)-t\al||= \lim_{t\rightarrow\infty}|t|||\p{g}(\al)-\al||=\infty $, czyli $ \lim_{t\rightarrow\infty}d(p+t\al,g(p+t\al))=\infty $, sprzecznie z założeniem. □

Twierdzenie [link] pozwala wzmocnić Twierdzenie [link] w następujący sposób.

Powiemy, że przekształcenie $ f:H\to E $ niepustego podzbioru $ H\subset E $ przestrzeni euklidesowej $ E $ w $ E $ jest izometrią, jeśli $ f $ zachowuje odległości punktów z $ H $, czyli spełnia warunek $ (\ast) $ dla $ p,q\in H $.

Twierdzenie {\bf $ ^\ast $} Dla każdej izometrii $ f:H\to E $ podzbioru $ H\subset E $ przestrzeni euklidesowej $ E $ istnieje izometria liniowa $ \vp:\s{E}\to\s{E} $ taka, że $ f(q)=f(p)+\vp(\ve{pq}) $ dla $ p,q\in H $.
Dowód: Ustalmy punkt $ p\in H $ i połóżmy $ A=\set{\ve{pq}:q\in H} $. Tak jak w dowodzie Twierdzenia [link], sprawdza się, że funkcja $ \bar{f}:A\to A $ dana przez $ {\bar{f}}(\ve{pq})=\ve{f(p)f(q)} $ dla $ \ve{pq}\in A $, spełnia założenia Twierdzenia [link] i wyprowadza się stąd tezę twierdzenia. □

Formy kwadratowe

W tym rozdziale rozpatrujemy wyłącznie przestrzenie liniowe nad ciałami $ \K $ charakterystyki różnej od $ 2 $ (tzn.\, $ 1+1\neq 0 $ w $ \K $).

Formy kwadratowe

Macierz symetryczna $ A=A^T\in\M{n}{n}{\K} $ wyznacza formę kwadratową $ Q:\K^n\to\K $ wzorem

$ (\ast) $ $ Q(X)=X^TAX,\ \ A=A^T\in\M{n}{n}{\K}. $

Z formą $ Q $ związany jest funkcjonał dwuliniowy $ h:\K^n\times\K^n\to\K $ - forma biegunowa $ Q $,

$ (\ast\ast) $ $ h(X,Y)=X^TAY,\ \</p>
<p>Q(X)=h(X,X). $

Złożenie formy kwadratowej $ Q $ wyznaczonej przez $ A $ z izomorfizmem liniowym $ \ps:\K^n\to\K^n $ jest formą kwadratową wyznaczoną przez macierz symetryczną $ B=C^TAC $, $ C=M(S) $, tzn.\ $ Q\circ\ps(X)=X^TBX $; w szczególności, macierze $ B $ i $ A $ są kongruentne, zob.\ [link].

Główny wynik tego rozdziału mówi, że izomorfizm $ \ps $ można zawsze dobrać tak, aby $ Q\circ\ps(X)=\sum_jd_jx_j^2 $ ($ x_j $ - współrzędne $ X $) lub równoważnie, w języku macierzowym, że każda macierz symetryczna jest kongruentna z macierzą diagonalną.

Nasze rozważania będziemy prowadzić w ogólniejszym ujęciu. Zaczniemy od określenia symetrycznych funkcjonałów dwuliniowych na przestrzeni $ V $ i związanych z nimi form kwadratowych.

Definicja (#) Niech $ V $ będzie przestrzenią liniową nad $ \K $. Funkcjonał $ h:V\times V\to\K $ jest symetrycznym funkcjonałem dwuliniowym jeśli $ h(\al,\be)=h(\be,\al) $ i dla każdego $ \be\in V $ funkcjonał $ \al\to h(\al,\be) $ jest liniowy. Funkcjonał $ Q:V\to\K $ dany wzorem $ Q(\al)=h(\al,\al) $ nazywamy formą kwadratową wyznaczoną przez $ h $ i mówimy, że $ h $ jest formą biegunową dla $ Q $.

W szczególności, iloczyn skalarny $ \is{\ }{\,} $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ nad $ \R $ jest symetrycznym funkcjonałem dwuliniowym - formą biegunową dla formy kwadratowej $ ||\al||^2=\is{\al}{\al} $.

Uwaga (#) Jeśli $ h $ jest formą biegunową dla formy kwadratowej $ Q $, to z dwuliniowości $ h $ mamy

$ h(\al+\be,\al+\be)=h(\al,\al)+2h(\al,\be)+h(\be,\be) $, więc

$$h(\al,\be)=\frac{1}{2}(Q(\al+\be)-Q(\al)-Q(\be)),$$

Podobnie jak dla iloczynu skalarnego w przestrzeniach euklidesowych, symetryczny funkcjonał dwuliniowy $ h:V\times V\to \K $ pozwala związać z każdym układem $ (\al_1,\ldots,\al_m) $ wektorów w $ V $ symetryczną macierz Grama , zob.\ Definicja [link],

$$G_h(\al_1,\ldots,\al_m)=[h(\al_i,\al_j)]_{i,j=1}^m,$$

która wyznacza wartości funkcjonału $ h $ na powłoce liniowej tego układu, zob.\ Uwaga [link].

Twierdzenie (#) Niech $ h:V\times V\to \K $ będzie symetrycznym funkcjonałem dwuliniowym, układ $ (\al_1,\ldots,\al_n) $ bazą w $ V $ i niech $ \si:V\to \K^n $ będzie układem współrzędnych związanym z tą bazą. Wówczas funkcjonał $ h $ jest opisany wzorem

$$h(\al,\be)=X^TAY \mbox{ dla } X=\si(\al), Y=\si(\be),$$

gdzie $ A=G_h(\al_1,\ldots,\al_n) $ jest macierzą Grama bazy $ (\al_1,\ldots,\al_n) $.

Dowód: Jak w Uwadze [link], dla $ \al=\sum_i x_i\al_i $, $ \be=\sum_j y_j\al_j $, z dwuliniowości $ h $ mamy $ h(\al,\be)=h(\sum_i x_i\al_i,\sum_j y_j\al_j)=\sum_{i,j=1}^n x_iy_jh(\al_i,\al_j)=\si(\al)^T G_h(\al_1,\ldots,\al_n)\,\si(\be) $. □
Uwaga (#)

  • [(a)] Niech $ h:V\times V\to\K $ będzie symetrycznym funkcjonałem dwuliniowym i niech bazy $ (\al_1,\ldots,\al_n) $, $ (\be_1,\ldots,\be_n) $ w $ V $ będą związane z układami współrzędnych $ \si,\ta:V\to\K^n $, odpowiednio. Wówczas $ G_h(\be_1,\ldots,\be_n)=C^TAC $ dla $ A=G_h(\al_1,\ldots,\al_n) $ i odwracalnej macierzy $ C=M(\si\circ\ta^{-1}) $ (bo $ j $-ta kolumna $ C $ ma postać $ \si(\ta^{-1}(\ep_j))=\si(\be_j) $, zob.\ dowód Lematu [link]).

  • [(b)] Niech $ Q(X)=X^TAX $ będzie formą kwadratową na $ \K^n $ wyznaczoną przez macierz symetryczną $ A $ i niech $ \ps:\K^n\to\K^n $ będzie izomorfizmem. Wówczas $ Q\circ\ps(Y)=Y^T(C^TAC)Y $ dla odwracalnej macierzy $ C=M(\ps) $ (wystarczy we wzorze na $ Q(X) $ podstawić $ X=CY $ i skorzystać ze wzoru $ (CY)^T=Y^TC^T $ lub przyjąć w (a) $ \si=\id_{\K^n} $ i $ \ta^{-1}=S $).

Uwaga [link] prowadzi do ważnej relacji równoważności w zbiorze $ (n\times n) $-macierzy.

Definicja (#) Macierze $ A, B\in\M{n}{n}{\K} $ są kongruentne, jeśli istnieje macierz odwracalna $ C\in\M{n}{n}{\K} $ taka, że $ B=C^TAC $.

Tak więc, zgodnie z Uwagą [link],

jeśli $ Q $ jest formą kwadratową opisaną wzorem $ (\ast) $, macierze kongruentne do $ A $, są to dokładnie symetryczne macierze opisujące formy kwadratowe $ Q\circ\ps $, gdzie $ \ps $ jest izomorfizmem $ \K^n $.

Zauważmy też, że macierze kongruentne mają równe rzędy, bo mnożenie przez macierz odwracalną nie zmienia rzędu macierzy.

Definicja (#) Rzędem $ \r(h) $ symetrycznego funkcjonału dwuliniowego $ h:V\times V\to \K $ nazywamy rząd jego macierzy Grama w dowolnej bazie $ V $. Rzędem $ \r(Q) $ formy kwadratowej $ Q:V\to \K $ nazywamy rząd formy biegunowej $ Q $.

Na zakończenie podamy dwa przydatne przykłady macierzy kongruentnych z macierzą $ \mk{rr}{0&c\\c&0}\in\M{2}{2}{\K} $.

Przykład (#) Dla $ c\in\K $:

(a)     $ \mk{rr}{1&-1\\1&1}\mk{rr}{0&c\\c&0}\mk{rr}{1&1\\-1&1}=\mk{rr}{-2c&0\\0&2c}\ ;\quad (b)\quad \mk{rr}{1&1\\0&1}\mk{rr}{0&c\\c&0}\mk{rr}{1&0\\1&1}=\mk{rr}{2c&c\\c&0}. $

Algorytm Lagrange'a

Algorytm Lagrange'a jest użyteczną procedurą, którą wykorzystamy do dowodu następującego głównego wyniku w tej części.

Twierdzenie (#) Każda macierz symetryczna $ A=A^T\in\M{n}{n}{\K} $ jest kongruentna z macierzą diagonalną, tzn.\ istnieje macierz odwracalna $ C\in\M{n}{n}{\K} $ taka, że

$$C^TAC=\mk{ccc}  {d_1&&\0\vspace{-2pt}\\  &\ddots&\vspace{-2pt}\\  \0&&d_n} ,$$

przy czym wyrazy niezerowe na przekątnej poprzedzają wyrazy zerowe

Zanim przystąpimy do dowodu tego twierdzenia, podamy jego interpretację w języku form kwadratowych na $ \K^n $.

Stwierdzenie (#) Dla każdej niezerowej formy kwadratowej $ Q:\K^n\to\K $ istnieje izomorfizm $ \ps:\K^n\to\K^n $ taki, że $ Q\circ S(Y)=\sum_{j=1}^r d_jy_j^2 $, dla $ Y=[y_1,\ldots,y_n]^T $, gdzie $ d_j\neq 0 $, $ j\leq r=\r(Q) $.

W dowodzie twierdzenia będziemy wykonywać operacje elementarne na wierszach i kolumnach $ A $. Zauważmy, że jeśli macierz elementarna $ M $ jest macierzą operacji elementarnej $ \E $ na wierszach (czyli zgodnie z Uwagą [link], iloczyn $ MA $ jest macierzą otrzymaną z $ A $ przez wykonanie operacji $ \E $ na jej wierszach)

to iloczyn $ AM^T=(MA^T)^T $ powstaje z $ A $ przez wykonanie odpowiedniej operacji na jej kolumnach.

{\bf Dowód Twierdzenia [link] (algorytm Lagrange'a).} Niech $ A=[a_{ij}]_{i,j=1}^n\in\M{n}{n}{\K} $ będzie niezerową macierzą symetryczną.

(I) Załóżmy, że $ a_{11}\neq 0 $. Wówczas odejmując pierwszy wiersz pomnożony przez $ \frac{a_{i1}}{a_{11}} $ od $ i $-tego, dla $ i\geq 2 $, wyzerujemy wszystkie wyrazy pierwszej kolumny pod $ a_{11} $. Jeśli $ M $ jest iloczynem odpowiednich macierzy elementarnych, to z $ A=A^T $ wynika, że $ (MAM^T)^T=(M^T)^TA^TM^T= MAM^T $, więc iloczyn $ MAM^T $ jest symetryczną macierzą postaci

$$MAM^T=\mk{c|ccc}{ a_{11}&0&\cdots&0\\\hline 0&&&\\ \vdots&&B&\\ 0&&&},$$

(operowanie pierwszą kolumną $ MA $ na kolejnych kolumnach zeruje wyrazy $ a_{12}=a_{21},\ldots,a_{1n}= a_{n1} $ pierwszego wiersza na prawo od $ a_{11} $). W szczególności, macierz $ B $ jest symetryczna.

(II) Jeśli $ a_{11}=0 $ ale $ a_{ii}\neq 0 $ dla pewnego $ i>1 $, to dla macierzy $ M $ operacji elementarnej zamieniającej pierwszy wiersz z $ i $-tym macierz symetryczna $ MAM^T $ ma w lewym górnym rogu wyraz $ a_{ii} $, a więc spełnia warunek w (I).

(III) Jeśli $ a_{ii}=0 $ dla $ i=1,\ldots,n $, to z $ A\neq\0 $ i $ A=A^T $ wynika, że istnieją $ i>j $ takie, że $ a_{ij}\neq 0 $. Wzorujemy się wtedy na kongruencji z Przykładu [link] (a) przyjmując $ M=[m_{kl}]_{k,l=1}^n $, gdzie wyrazy na przekątnej $ M $ są jedynkami, $ m_{ij}=1, m_{ji}=-1 $, a pozostałe wyrazy $ M $ są zerowe. Macierz symetryczna $ MAM^T $ ma na przekątnej niezerowe wyrazy $ \mp 2a_{ij} $, a więc spełnia warunek w (II) (lub w (I), jeśli $ j=1 $).

Tak więc, mnożąc odpowiednie macierze opisane w (I),(II),(III) otrzymamy macierz odwracalną $ M_1\in\M{n}{n}{\K} $ taką, że

$$M_1AM_1^T=\mk{c|ccc}{ d_{1}&0&\cdots&0\\\hline 0&&&\\ \vdots&&A_1&\\ 0&&&}, \ A_1=A_1^T, \ d_1\neq 0.$$

Jeśli macierz $ A_1\neq \0 $, to powtarzając tę procedurę dla $ A_1 $ otrzymamy macierz odwracalną $ M_2\in\M{n}{n}{\K} $ (postaci $ MM_1 $) taką, że

$$ M_2AM_2^T=\mk{cc|cc}{ d_{1}&0&\cdots&0\\ 0&d_2&\cdots&0\\\hline \vdots&\vdots&\ \ A_2&\\ 0&0&&}, \ A_2=A_2^T, \ d_1,d_2\neq 0.$$

Po $ r=\r A $ takich krokach znajdziemy macierz odwracalną $ M_r\in\M{n}{n}{\K} $ taką, że

$$M_rAM_r^T=\mk{ccc|c}{ d_{1}&&0&\0\\ &\ddots&&\\ 0&&d_r&\0\\\hline \0&&\0&\0}, \ d_1,\ldots,d_r\neq 0$$

i przyjmujemy $ C=M_r^T $. \null
\null$ \blacksquare $    

Uwaga (#) Macierz $ M_r=C^T $ występującą w dowodzie twierdzenia można otrzymać, podobnie jak przy odwracaniu macierzy, z macierzy jednostkowej $ I_n $ wykonując na jej wierszach operacje takie same jak wykonywane w trakcie redukcji operacje na wierszach macierzy $ A $ (mnożenie z lewej strony przez macierz $ M $ opisaną w (III) odpowiada zastąpieniu $ j $-tego wiersza przez różnicę $ j $-tego i $ i $-tego wiersza, zaś $ i $-tego wiersza przez sumę tych wierszy, zob.\ Przykład [link] (a)).

Twierdzenie [link] można sformułować równoważnie w następujący sposób.

Twierdzenie (#) Dla każdego symetrycznego funkcjonału dwuliniowego $ h:V\times V\to \K $ istnieje baza $ (\be_1,\ldots,\be_n) $ w $ V $ taka, że $ h(\be_i,\be_j)=0 $ dla $ i\neq j $ oraz $ h(\be_j,\be_j)=0 $ dla $ j>\r(h) $.

Niezależnie od wyprowadzenia Twierdzenia [link] z [link], warto też podać bezpośrednie uzasadnienie, które jest interpretacją algorytmu Lagrange'a w języku funkcjonałów dwuliniowych, podkreślającą związek tego algorytmu z procedurą wykorzystaną przy ortogonalizacji Grama-Schmidta.

{\bf Dowód Twierdzenia [link].} Załóżmy, że $ h $ jest funkcjonałem niezerowym i ustalmy dowolną bazę $ (\al_1,\ldots,\al_n) $ w przestrzeni $ V $.

(I) Jeśli $ h(\al_1,\al_1)\neq 0 $, to przyjmujemy

$$\be_1=\al_1 \mbox{ i } \al'_i=\al_i-\frac{h(\al_i,\al_1)}{h(\al_1,\al_1)}\al_1\ , \ i=2,\ldots,n.$$

Wówczas dla $ i\geq 2 $ mamy $ h(\al'_i,\be_1)= h(\al_i-\frac{h(\al_i,\al_1)}{h(\al_1,\al_1)}\al_1,\al_1)= h(\al_i,\al_1)-h(\al_i,\al_1)=0 $.

(II) Jeśli $ h(\al_1,\al_1)=0 $ ale $ h(\al_i,\al_i)\neq 0 $ dla pewnego $ i>0 $, to zamieniamy w bazie $ \al_1 $ z $ \al_i $ miejscami i jesteśmy w sytuacji takiej jak w (I).

(III) Jeśli $ h(\al_i,\al_i)=0 $ dla $ i=1,\ldots,n $, to istnieją $ i>j $ takie, że $ h(\al_i,\al_j)=c\neq 0 $. Wówczas, podobnie jak w Przykładzie [link] (a), $ h(\al_j-\al_i,\al_j-\al_i)=-2c $ (a także $ h(\al_j+\al_i,\al_j+\al_i)=2c $ i $ h(\al_j-\al_i,\al_j+\al_i)=0 $). Zastępując w bazie $ (\al_1,\ldots,\al_n) $ wektor $ \al_j $ przez $ \al_j-\al_i $, a wektor $ \al_i $ przez $ \al_j+\al_i $ doprowadzamy do sytuacji takiej jak w (II) (lub (I), jeśli $ j=1 $).

Tak więc, operacje opisane w (I),(II),(III) pozwalają przejść od bazy $ (\al_1,\ldots,\al_n) $ do bazy $ (\be_1,\al'_2,\ldots,\al'_n) $ takiej, że $ h(\al'_i,\be_1)= 0 $ dla $ i\geq 2 $.

Stosując tę samą procedurę do bazy $ (\al'_2,\ldots,\al'_n) $ przestrzeni $ \lin(\al'_2,\ldots,\al'_n) $ dostajemy bazę $ (\be_1,\be_2,\al''_3\ldots,\al''_n) $ przestrzeni $ V $ taką, że $ h(\be_i,\be_j)=0 $ dla $ i<j\leq 2 $ oraz $ h(\al''_i,\be_j)=0 $ dla $ j=1,2 $, $ i\geq 3 $.

Po $ r=\r(h) $ krokach dostaniemy bazę $ (\be_1,\ldots,\be_n) $ przestrzeni $ V $ taką, że $ h(\be_i,\be_j)=0 $ dla $ i<j\leq n $ oraz $ h(\al,\be)=0 $ dla $ \al,\be\in\lin (\be_{r+1},\ldots,\be_n) $. \null
\null$ \blacksquare $    

Uwaga (#)

  • [(a)] Opisanym w dowodzie operacjom prowadzącym od bazy $ (\al_1,\ldots,\al_n) $ do bazy $ (\be_1,\ldots,\be_n) $ odpowiadają opisane w dowodzie Twierdzenia [link] operacje na wierszach i kolumnach macierzy Grama $ A=[a_{ij}]_{i,j=1}^n= [h(\al_i,\al_j)]_{i,j=1}^n $ funkcjonału $ h $ w bazie $ (\al_1,\ldots,\al_n) $.
  • [(b)] Etapy (II) i (III) algorytmu można zastąpić operacją elementarną odpowiadającą macierzy elementarnej użytej w Przykładzie [link] (b). Jeśli $ a_{11}=0 $ i $ a_{i1}= 0 $ dla $ i>1 $, to w macierzy $ A $ pierwsza kolumna (i wiersz) są zerowe. Przechodzimy wtedy do redukcji macierzy Grama układu $ (\al_2,\ldots,\al_n) $ (oznaczanej przez $ A_1 $ w dowodzie [link]). Jeśli $ a_{11}=0 $ i $ a_{i1}\neq 0 $ dla pewnego $ i>1 $, to zastępujemy wektor $ \al_1 $ przez $ \al_1+\al_i $ (do pierwszego wiersza $ A $ dodajemy $ i $-ty i symetrycznie, do pierwszej kolumny dodajemy $ i $-tą), co prowadzi do sytuacji takiej jak w (I). Po nie więcej niż $ n $ takich krokach dostajemy nową bazę (macierz diagonalną), która po zmianie kolejności wektorów (wierszy i kolumn) spełnia tezę Twierdzenia [link] ( [link]).

Warunek Jacobiego

Algorytm Lagrange'a przebiega szczególnie prosto dla macierzy symetrycznych spełniających następujący warunek.

Definicja (#) Macierz symetryczna $ A=[a_{ij}]_{i,j=1}^n $ spełnia warunek Jacobiego, jeśli dla $ k=1,\ldots,n $, \ $ \Delta_k=\det [a_{ij}]_{i,j=1}^k\neq0 $; wyznaczniki $ \Delta_k $ nazywamy minorami wiodącymi macierzy $ A $.
Twierdzenie (#) Jeśli $ A=A^T\in\M{n}{n}{\K} $ jest macierzą symetryczną spełniającą warunek Jacobiego, to istnieje macierz odwracalna $ C $ taka, że iloczyn $ C^TAC $ jest macierzą diagonalną mającą na przekątnej wyrazy $ \Delta_1, \frac{\Delta_2}{\Delta_{1}},\ldots, \frac{\Delta_n}{\Delta_{n-1}} $.
Dowód: Dla macierzy symetrycznej $ A $ spełniającej warunek Jacobiego, w algorytmie Lagrange'a przedstawionym w poprzedniej części, wykonuje się jedynie operacje opisane w (I), bo $ a_{11}=\Delta_1\neq 0 $ i wykonywane w (I) operacje elementarne typu (I)$ _{a(1)+(i)} $ nie zmieniają żadnego z minorów $ \Delta_k $ (działamy tylko pierwszym wierszem lub kolumną na dalsze wiersze lub kolumny). W szczególności $ d_1=\Delta_1 $ i $ \Delta_2=d_1d_2 $, gdzie $ d_2 $ jest wyrazem w lewym górnym rogu macierzy $ A_1 $, co pokazuje, że $ d_2\neq 0 $, więc w kolejnym kroku również można się ograniczyć do zachowujących minory $ \Delta_k $ operacji elementarnych.

Po $ n-1 $ takich krokach dostajemy macierz $ M $ taką, że $ MAM^T $ jest macierzą diagonalną mającą na przekątnej wyrazy $ d_1,d_2,\ldots,d_n $ oraz minory wiodące takie jak odpowiednie minory wiodące macierzy $ A $, a stąd $ \Delta_k=d_1\cdot\ldots\cdot d_k $, czyli $ d_k=\frac{\Delta_k}{\Delta_{k-1}} $, dla $ k>1 $. □

Zauważmy, że w dowodzie założenie $ \Delta_n\neq 0 $ nie było wykorzystywane, więc założenia twierdzenia możemy nieco osłabić, do warunku $ \Delta_k\neq 0 $ dla $ k<n $.

Przestrzenie z formą kwadratową

Wyróżnienie w przestrzeni liniowej $ V $ formy kwadratowej $ Q $ pozwala mówić o ortogonalności wektorów w $ (V,Q) $.

Definicja Niech $ (V,Q) $ będzie przestrzenią liniową nad $ \K $ z wyróżnioną formą kwadratową $ Q:V\to \K $ i niech $ h:V\times V\to \K $ będzie formą biegunową dla $ Q $, $ Q(\al)=h(\al,\al) $. Wektory $ \al,\be\in V $ są ortogonalne, $ \al\perp\be $, jeśli $ Q(\al+\be)=Q(\al)+Q(\be) $ lub równoważnie, jeśli $ h(\al,\be)=0 $, zob.\ Uwaga [link]. Baza $ (\be_1,\ldots,\be_n) $ w przestrzeni $ (V,Q) $ jest ortogonalna jeśli $ \be_i\perp\be_j $ dla $ i\neq j $.

Zgodnie z Twierdzeniem [link], w każdej przestrzeni $ (V,Q) $ istnieje baza ortogonalna.

Definicja Niech $ Q:V\to\K $ będzie formą kwadratową. Mówimy, że wektor $ \al\in V $ jest izotropowy dla $ Q $, jeśli $ Q(\al)=0 $. Anihilatorem formy $ Q $ nazywamy podprzestrzeń liniową $ An(Q)=\set{\al\in V:\al\perp\be \mbox{ dla każdego } \be\in V} $ przestrzeni $ V $.

Zilustrujemy te pojęcia na ważnym przykładzie płaszczyzny Minkowskiego.

Przykład Płaszczyzną Minkowskiego $ (\R^2,x_1^2-x_2^2) $ nazywamy przestrzeń liniową $ \R^2 $ z formą kwadratową $ Q(X)=x_1^2-x_2^2 $ dla $ X=[x_1,x_2]^T $.

Jeśli wektor $ Y=[a,b]^T $ jest taki, że $ Q(Y)=a^2-b^2=1 $, to wektor $ Z=[b,a]^T $ jest ortogonalny do $ Y $ na płaszczyźnie Minkowskiego (bo $ Q(Z)=-1 $, więc $ Q(Y+Z)=(a+b)^2-(a+b)^2=0= Q(Y)+Q(Z) $). Każda taka para $ (Y,Z) $ jest bazą ortogonalną w $ (\R^2,x_1^2-x_2^2) $.

Wektory $ [1,1]^T $, $ [1,-1]^T $ są izotropowe na płaszczyźnie Minkowskiego i rozpinają $ \R^2 $, ale $ An(Q)=\set{\0} $.

Uwaga (#) Jeśli $ (\be_1,\ldots,\be_n) $ jest bazą ortogonalną w przestrzeni $ (V,Q) $, to anihilator $ An(Q) $ jest rozpięty na wektorach izotropowych z tej bazy i $ \dim An(Q)=n-\r(Q) $, bo macierz Grama $ G_h(\be_1,\ldots,\be_n) $ formy biegunowej $ h $ dla $ Q $, jako diagonalna macierz rzędu $ \r(Q) $, ma $ n-\r(Q) $ zerowych wierszy (i kolumn) odpowiadających wektorom izotropowym bazy $ (\be_1,\ldots,\be_n) $ rozpinającym $ An(Q) $.

Twierdzenie Sylvestera o bezwładności

Dla przestrzeni liniowych nad ciałem liczb rzeczywistych wzmocnimy Twierdzenie [link] i uzupełnimy w istotny sposób obserwację z Uwagi [link].

Uwaga (#) W przestrzeni liniowej $ (V,Q) $ nad $ \R $ istnieje baza ortogonalna $ (\ga_1,\ldots,\ga_n) $ taka, że dla $ r=\r(Q) $ i pewnego $ s\leq r $

$ (\ast) $ $ Q(\sum_{j=1}^nz_j\ga_j)=z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2 $,

tzn.\ diagonalna macierz Grama $ G_h(\ga_1,\ldots,\ga_n) $ formy biegunowej dla $ Q $ ma na przekątnej $ s $ jedynek, $ r-s $ minus jedynek i $ n-r $ zer.

Istotnie, zgodnie z Twierdzeniem [link] i Uwagą [link], istnieje baza ortogonalną $ (\be_1,\ldots,\be_n) $ w $ (V,Q) $ taka, że $ An(Q)=\lin(\be_{r+1},\ldots,\be_n) $. Zmieniając kolejność wektorów $ (\be_1,\ldots,\be_r) $ możemy ponadto założyć, że $ Q(\be_j)>0 $ dla $ j=1,\ldots,s $ i $ Q(\be_j)<0 $ dla $ j=s+1,\ldots,r $.

Z ortogonalności bazy $ (\be_1,\ldots,\be_n) $ wynika, że $ Q(\sum_{j=1}^ny_j\be_j)=\sum_{j=1}^nQ(y_j\be_j)=\sum_{j=1}^ry_j^2Q(\be_j) $. Kładąc $ \ga_j=\frac{1}{\sqrt{|Q(\be_j)|}}\be_j $ dla $ j\leq r $ i $ \ga_j=\be_j $ dla $ j>r $ otrzymujemy bazę ortogonalną $ (\ga_1,\ldots,\ga_n) $ spełniającą $ (\ast) $, bo $ Q(\sum_{j=1}^nz_j\ga_j)= \sum_{j=1}^rQ(z_j\frac{1}{\sqrt{|Q(\be_j)|}}\be_j)+\sum_{j=r+1}^nQ(z_j\be_j)= \sum_{j=1}^rz_j^2\frac{1}{|Q(\be_j)|}Q(\be_j) $.

Pokażemy, że wskaźniki $ s $ i $ r-s $ po prawej stronie wzoru $ (\ast) $ nie zależą od wyboru bazy.

Twierdzenie {\bf(o bezwładności).} (#) Niech $ (V,Q) $ będzie przestrzenią liniową nad $ \R $ z wyróżnioną formą kwadratową. Istnieje wówczas rozkład na sumę prostą $ V=An(Q)\oplus U\oplus W $ taki, że $ Q(\ga)>0 $ dla $ \ga\in U\setminus\set{\0} $, $ Q(\be)<0 $ dla $ \be\in W\setminus\set{\0} $, przy czym wymiary $ s_+(Q)=\dim U $, $ s_-(Q)=\dim W $ nie zależą od wyboru $ U $ i $ W $ w tym rozkładzie.
Dowód: Jeśli $ (\ga_1,\ldots,\ga_n) $, $ r $ i $ s $ są takie jak w Uwadze [link], $ V_+=\lin(\ga_1,\ldots,\ga_s) $, $ V_-=\lin(\ga_{s+1},\ldots,\ga_r) $ oraz $ An(Q)=\lin(\ga_{r+1},\ldots,\ga_n) $, to z $ (\ast) $ mamy

$ (\ast\ast) $ $ Q(\ga)>0 \mbox{ dla } \ga\in V_+\setminus\set{\0} \mbox{ i }  Q(\be)<0 \mbox{ dla } \be\in V_-\setminus\set{\0}, $

co pokazuje, że rozkład $ V=An(Q)\oplus V_+\oplus V_- $ spełnia warunki twierdzenia.

Niech $ V=An(Q)\oplus U\oplus W $ będzie dowolnym rozkładem $ V $ takim, że forma $ Q $ jest dodatnia na $ U\setminus\set{\0} $ i ujemna na $ W\setminus\set{\0} $. Wtedy forma $ Q $ jest niedodatnia na $ An(Q)\oplus W $ (i nieujemna na $ An(Q)\oplus U $), bo dla $ \al+\be\in An(Q)\oplus W $, z $ \al\perp\be $ mamy $ Q(\al+\be)=Q(\al)+Q(\be)\leq 0 $ (i podobnie dla $ \al+\ga\in An(Q)\oplus U $).

Z $ (\ast\ast) $ mamy więc $ V_+\cap (An(Q)\oplus W)=\set{\0} $, co daje $ \dim V_+\leq \dim U $ (i analogicznie, $ \dim V_-\leq \dim W $, bo $ V_-\cap (An(Q)\oplus U)=\set{\0} $), a ponieważ $ \dim V_++\dim V_-=\dim U+\dim W=n-r $, otrzymujemy stąd $ \dim U=\dim V_+ $ oraz $ \dim W=\dim V_- $. □

Twierdzenie o bezwładności pozwala, jak zobaczymy w [link], na prostą klasyfikację macierzy symetrycznych w $ \M{n}{n}{\R} $ z dokładnością do relacji kongruencji.

Definicja Sygnaturą formy kwadratowej nazywa się liczbę $ s(Q)=s_+(Q)-s_-(Q) $.

Zauważmy, że ponieważ $ \r(Q)=s_+(Q)+s_-(Q) $\ ,

$$s_+(Q)=\frac{1}{2}(\r(Q)+s(Q))\ , \quad s_-(Q)=\frac{1}{2}(\r(Q)-s(Q))$$
Uwaga (#) Niech $ J_{s,r}\in\M{n}{n}{\R} $ będzie macierzą diagonalną mającą na przekątnej kolejno $ s $ jedynek, $ r-s $ minus jedynek i $ n-r $ zer. Macierz symetryczna $ A=A^T\in\M{n}{n}{\R} $ jest kongruentna z macierzą $ J_{s,r} $ wtedy i tylko wtedy, gdy dla formy kwadratowej $ Q:\R^n\to \R $ danej wzorem $ Q(X)=X^TAX $ mamy $ r=\r(Q) $ i $ s=s_+(Q) $.

Istotnie, macierz $ A $ jest kongruentna z macierzą $ J_{s,r} $ wtedy i tylko wtedy, gdy istnieje izomorfizm liniowy $ S:\R^n\to\R^n $ taki, że $ Q\circ S(Z)=Z^TJ_{s,r}\,Z $ zob.\ Uwaga [link] (b).

Interpretując $ S^{-1} $ jako układ współrzędnych $ \ta:\R^n\to\R^n $ związany z bazą $ (S(\ep_1),\ldots,S(\ep_n)) $, zob.\ Uwaga [link], widzimy, że jest to równoważne istnieniu opisanej w Uwadze [link] bazy ortogonalnej w przestrzeni $ (\R^n,Q) $. Z definicji sygnatury, istnienie takiej bazy oznacza, że $ \r(Q)=r $ i $ s_+(Q)=s $.

Na zakończenie podamy ważną charakteryzację dodatniej określoności form kwadratowych - kryterium Sylvestera.

Uwaga Niech $ A=A^T\in\M{n}{n}{\R} $, niech $ \Delta_1,\ldots,\Delta_n $ będą minorami wiodącymi macierzy $ A $ (zob.\ [link]) i niech $ Q(X)=X^TAX $.

  • [(a)] Forma kwadratowa $ Q $ jest dodatnio określona, tzn.\ ma sygnaturę $ s(Q)=n $, wtedy i tylko wtedy, gdy wszystkie minory $ \Delta_j $ są dodatnie i wówczas forma biegunowa dla $ Q $, $ h(X,Y)=X^TAY $ jest iloczynem skalarnym w $ \R^n $.
  • [(b)] Forma kwadratowa $ Q $ jest ujemnie określona, tzn.\ ma sygnaturę $ s(Q)=-n $, wtedy i tylko wtedy, gdy $ (-1)^j\Delta_j>0 $ dla $ j=1,2,\ldots $\,.

Istotnie, jeśli forma $ Q $ jest dodatnio określona, to forma biegunowa $ h(X,Y)=X^TAY $ jest iloczynem skalarnym, więc wszystkie minory $ \Delta_j $ są dodatnie jako wyznaczniki macierzy Grama $ G_h(\ep_1,\ldots,\ep_j) $, zob.\ Twierdzenie [link]. Jeśli forma $ Q $ jest ujemnie określona, to $ -h $ jest iloczynem skalarnym, więc wszystkie minory wiodące macierzy $ -A $ są dodatnie. Implikacje odwrotne wynikają z Twierdzenia [link].

Funkcje kwadratowe

Także i w tym rozdziale utrzymujemy założenie, że ciało $ \K $ ma charakterystykę różną od $ 2 $.

Funkcje kwadratowe na $\mathbb{K}^n$

Definicja (#) Funkcją kwadratową na $ \K^n $ nazywamy funkcję $ f:\K^n\to\K $ postaci

$ (\ast) $ $ f(X)=X^TAX+B^TX+c $, gdzie $ A=A^T\in\M{n}{n}{\K} $, $ A\neq\0 $, $ B\in\K^n $, $ c=f(\0)\in\K $.

Niezerową formę kwadratową $ Q(X)=X^TAX $ będziemy nazywać częścią kwadratową funkcji $ f $.

Uwaga (#) Funkcja kwadratowa $ f $ wyznacza swoją część kwadratową. Istotnie, dla $ X,Y\in\K^n $ mamy $ f(X+Y)-f(X)-f(Y)+f(\0)=(X+Y)^TA(X+Y)+B^T(X+Y)+c- (X^TAX+B^TX+c)-(Y^TAY+B^TY+c)+c=X^TAY+Y^TAX=2X^TAY $.

Dla $ n=1 $ funkcję kwadratową $ f(x)=ax^2+bx+c=0 $, $ a\neq 0 $, redukuje się do postaci $ ay^2+c' $ podstawieniem $ y=x+\frac{b}{2a} $ odpowiadającym złożeniu $ f\circ g $ funkcji $ f $ z przesunięciem $ g(y)=y-\frac{b}{2a} $. Ta obserwacja jest szczególnym przypadkiem głównego twierdzenia w tej części - twierdzenia o redukcji afinicznej.

Uwaga (#) Dla izomorfizmu afinicznego $ g:\K^n\to\K^n $ danego wzorem $ g(Z)=MZ+X_0 $, zob.\ [link], i funkcji kwadratowej $ f:\K^n\to\K $ opisanej formułą $ (\ast) $, złożenie $ f\circ g:\K^n\to\K $ jest funkcją kwadratową opisaną wzorem

$ (\ast\ast) $ $ f\circ g(Z)=Z^TA'Z+B'^TZ+c' $, gdzie $ A'=M^TAM $, $ B'=(2X_0^TA+B^T)M $, $ c'=f(X_0) $.

W szczególności, macierz $ A' $ części kwadratowej funkcji $ f\circ g $ jest kongruentna z macierzą $ A $.

Istotnie, podstawiając $ g(Z)=MZ+X_0 $ do $ (\ast) $ dostajemy $ (MZ+X_0)^TA(MZ+X_0)+B^T(MZ+X_0)+c= (MZ)^TA(MZ)+((MZ)^TAX_0+X_0^TAMZ+B^TMZ)+(X_0^TAX_0+B^TX_0+c) $ i ponieważ składniki tej sumy są skalarami, a macierz $ A $ jest symetryczna, mamy $ (MZ)^TAX_0=X_0^TAMZ $, więc wyrażenie w pierwszym nawiasie można zapisać w postaci $ (2X_0^TA+B^T)MZ $.

Pokażemy, że izomorfizm $ g $ można dobrać tak, by złożenie $ f\circ g(Z) $ było dane prostym wzorem.

Twierdzenie {\bf (o redukcji afinicznej).}(#) Dla każdej funkcji kwadratowej $ f:\K^n\to\K $ istnieje izomorfizm afiniczny $ g:\K^n\to\K^n $ taki, że $ f\circ g(Z) $ jest dane jednym ze wzorów:

(AI)$ _r $ $ f\circ g(Z)=d_1z_1^2+\ldots+d_rz_r^2+c' $, \qquad $ d_j\neq 0 $ dla $ j\leq r $,

(AII)$ _r $ $ f\circ g(Z)=d_1z_1^2+\ldots+d_rz_r^2+z_n $, $ d_j\neq 0 $ dla $ j\leq r<n $,

gdzie $ Z=[z_1,\ldots,z_n]^T $, a $ r=\r(Q) $ jest rzędem części kwadratowej $ f $.

{\bf Dowód twierdzenia.} Niech $ f $ będzie funkcją daną wzorem $ (\ast) $. Z Twierdzenia [link] istnieje macierz odwracalna $ M\in\M{n}{n}{\K} $ taka, że $ M^TAM $ jest macierzą diagonalną mającą na przekątnej niezerowe wyrazy $ d_1,\ldots,d_r $ na kolejnych pierwszych $ r $ miejscach oraz $ n-r $ zer na pozostałych miejscach.

Dla izomorfizmu liniowego $ g_1(Y)=MY $, gdzie $ Y=[y_1,\ldots,y_n]^T $, złożenie $ f\circ g_1 $ jest opisane wzorem $ f\circ g_1(Y)=Y^TM^TAMY+B^TMY+c $ i przyjmując $ B^TM=[a_1,\ldots,a_n] $, dostajemy $ f\circ g_1(Y)= d_1y_1^2+\ldots+d_ry_r^2+a_1y_1+\ldots+a_ny_n+c= d_1(y_1+\frac{a_1}{2d_1})^2+\ldots+d_r(y_r+\frac{a_r}{2d_r})^2+ a_{r+1}y_{r+1}+\ldots+a_ny_n+c' $.

Izomorfizm $ g_2 $ odwrotny do podstawienia $ z_j=y_j+\frac{a_j}{2d_j} $ dla $ j\leq r $ i $ z_j=y_j $ dla $ j>r $ jest przesunięciem takim, że złożenie $ f\circ g_1\circ g_2 $ jest opisane wzorem $ f\circ g_1\circ g_2(Z)= d_1z_1^2+\ldots+d_rz_r^2+a_{r+1}z_{r+1}+\ldots+a_nz_n+c' $, $ Z=[z_1,\ldots,z_n]^T $.

(I) Jeśli wszystkie współczynniki $ a_{r+1},\ldots,a_n $ są zerowe, to dla $ g=g_1\circ g_2 $ mamy wzór (AI)$ _r $.

(II) Jeśli dla pewnego $ i>r $ współczynnik $ a_i\neq 0 $, to podstawienie $ \tilde{z}_i=a_{r+1}z_{r+1}+\ldots+a_nz_n+c' $ oraz $ \tilde{z}_j=z_j $ dla $ j\neq i $ jest odwracalne, a izomorfizm afiniczny $ g_3 $ odwrotny do tego podstawienia prowadzi do wzoru $ f\circ g_1\circ g_2\circ g_3(\tilde{Z})= d_1\tilde{z}_1^2+\ldots+d_r\tilde{z}_r^2+\tilde{z}_i $, $ \tilde{Z}=[\tilde{z}_1,\ldots,\tilde{z}_n]^T $, z którego po zmianie współrzędnej $ \tilde{z}_i $ z $ \tilde{z}_n $, określającej izomorfizm $ g_4 $, dostajemy dla $ g=g_1\circ g_2\circ g_3\circ g_4 $ wzór (AII)$ _r $. \null
\null$ \blacksquare $    

Uwaga (#) Jeśli, w oznaczeniach Twierdzenia [link], układ równań $ 2AX+B=\0 $ ma rozwiązanie $ X_0\in\K^n $, to $ \0^T=(2AX_0+B)^T=2X_0^TA+B^T $, więc z $ (\ast\ast) $ dla izomorfizmu afinicznego $ g(Z)=MZ+X_0 $ (gdzie macierz $ M $ jest taka jak w dowodzie twierdzenia), złożenie $ f\circ g $ jest opisane wzorem (AI)$ _r $.

Uwaga [link] wskazuje własność wyróżniającą funkcje kwadratowe redukujące się do postaci (AI)$ _r $.

Definicja (#) Wektor $ X_0\in\K^n $ nazywamy środkiem symetrii funkcji $ f:\K^n\to\K $, jeśli $ f(X_0+X)=f(X_0-X) $ dla $ X\in\K^n $. Zbiór środków symetrii funkcji $ f $ oznaczamy przez $ C(f) $.

Pokażemy, że układ równań z Uwagi [link] opisuje zbiór środków symetrii funkcji kwadratowej $ f $.

Uwaga (#) Dla funkcji kwadratowej $ f $ danej wzorem $ (\ast) $ równość $ f(X_0+X)=f(X_0-X) $ oznacza (ze wzoru $ (\ast\ast) $ dla $ M=\pm I_n $), że $ X^TAX+(2X_0^TA+B^T)X+c'=(-X)^TA(-X)+(2X_0^TA+B^T)(-X)+c' $, czyli $ (2X_0^TA+B^T)X=0 $, a stąd zbiór $ C(f) $ jest zbiorem rozwiązań układu równań $ 2AX+B=\0 $.
Uwaga (#) Niech $ f $ i $ g $ będą takie jak w Twierdzeniu [link] i załóżmy, że $ f'=f\circ g $ jest dana wzorem (AI)$ _r $. Zbiór $ C(f') $ jest opisany układem równań $ z_{1}=\ldots=z_r=0 $ i $ f' $ jest stale równa $ c' $ na tym zbiorze. Co więcej, $ C(f)=g(C(f')) $ (bo dla $ X_0=g(Z_0) $ i $ X=\p{g}(Z) $ mamy $ f(X_0\pm X)=f(g(Z_0\pm Z)) $, więc $ X_0\in C(f) $ jeśli $ Z_0\in C(f') $) i $ f $ jest stale równa $ c' $ na $ C(f) $. Funkcja $ f'' $ dana wzorem (AII)$ _r $ nie ma środków symetrii, więc nie może być zredukowana do żadnej funkcji danej wzorem (AI)$ _r $.

Klasyfikacja funkcji kwadratowych na $\mathbb{R}^n$

Dla $ \K=\R $ tezę Twierdzenia [link] można wzmocnić, korzystając z Uwagi [link].

Twierdzenie (#) Dla każdej funkcji kwadratowej $ f:\R^n\to\R $ istnieje izomorfizm afiniczny $ g:\R^n\to\R^n $ taki, że złożenie $ f\circ g(Z) $ jest opisane jednym ze wzorów:

(AI)$ _{s,r} $ $ f\circ g(Z)=z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2+c' $, \ \qquad $ s\leq r\leq n $,

(AII)$ _{s,r} $ $ f\circ g(Z)=z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2+z_n $, \qquad $ s\leq r<n $,

gdzie $ Z=[z_1,\ldots,z_n]^T $, a $ r=\r(Q) $ i $ s=s_+(Q) $ dla formy $ Q $ będącej częścią kwadratową $ f $.

Definicja Powiemy, że funkcje $ f,f':\R^n\to\R $ są afinicznie równoważne jeśli istnieje izomorfizm afiniczny $ g:\R^n\to\R^n $ taki, że $ f'=f\circ g $.

Z Uwag [link] i [link] wynika następująca obserwacja.

Uwaga (#) Każda funkcja kwadratowa na $ \R^n $ jest afinicznie równoważna dokładnie jednej z funkcji typu (AI)$ _{s,r} $ lub (AII)$ _{s,r} $ z Twierdzenia [link].

W kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ redukcję opisaną w Twierdzeniu [link], z pewnymi niewielkimi zmianami, można zrealizować przy pomocy izometrii (czyli izomorfizmów afinicznych $ \R^n $, których część liniowa jest opisana macierzą ortogonalną, zob.\ Twierdzenie [link]).

Twierdzenie {\bf (o redukcji euklidesowej).}(#) Dla każdej funkcji kwadratowej $ f:\R^n\to\R $ na kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ istnieje izometria $ g:\R^n\to\R^n $ taka, że złożenie $ f\circ g(Z) $ jest opisane jednym ze wzorów:

(EI)$ _{\la_1,\ldots,\la_r} $ $ f\circ g(Z)=\la_1z_1^2+\ldots+\la_rz_r^2+c' $, \qquad $ \la_1\geq\ldots\geq\la_r $ i $ \la_j\neq 0 $ dla $ j\leq r $,

(EII)$ _{\la_1,\ldots,\la_r} $ $ f\circ g(Z)=\la_1z_1^2+\ldots+\la_rz_r^2+b z_n $, $ \la_1\geq\ldots\geq\la_r $ i $ \la_j\neq 0 $ dla $ j\leq r<n $,

gdzie $ Z=[z_1,\ldots,z_n]^T $, a $ \la_1,\ldots,\la_r $ są niezerowymi wartościami własnymi symetrycznej macierzy $ A\in\M{n}{n}{\R} $ takiej, że forma $ Q(X)=X^TAX $ jest częścią kwadratową $ f $.

Dowód: W dowodzie [link] trzeba jedynie dokonać następujących modyfikacji.

Izomorfizm $ g_1 $ należy zastąpić izometrią liniową $ g_1(X)=MX $, gdzie $ M $ jest macierzą ortogonalną otrzymaną z występującej we Wniosku [link] macierzy ortogonalnej $ C $, której kolumny zostały uporządkowane tak, aby odpowiadający im ciąg wartości własnych miał na początkowych $ r=\r A $ miejscach nierosnący ciąg wyrazów niezerowych i $ n-r $ zer na końcu.

Izomorfizm $ g_3\circ g_4 $ w kroku (II) należy zastąpić izometrią liniową $ g_3=\ta^{-1} $, gdzie $ \ta:\R^n\to\R^n $ jest prostokątnym układem współrzędnych nie zmieniającym pierwszych $ r $ współrzędnych wektora $ Z=[z_1,\ldots,z_n]^T $ i zastępującego ostatnią współrzędną sumą $ \frac{1}{b}(a_{r+1}z_{r+1}+\ldots+a_nz_n+c') $, gdzie $ b=\sqrt{\sum_{j=r+1}^na_j^2} $. Macierz ortogonalna $ M(g_3)=M({\ta})^{-1}=M({\ta})^T $ ma kolumny $ g_3(\ep_j)=\ep_j $ dla $ j\leq r $, a jej ostatnią kolumną jest $ g_3(\ep_n)=\frac{1}{b}\sum_{j=r+1}^n a_j\ep_j $.

Definicja Powiemy, że funkcje kwadratowe $ f,f':\R^n\to\R $ na kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ są euklidesowo równoważne, jeśli istnieje izometria $ g:\R^n\to\R^n $ taka, że $ f'=f\circ g $.

Z Twierdzenia [link], podobnie jak w Uwadze [link], wynika następująca obserwacja.

Uwaga (#) Każda funkcja kwadratowa na kartezjańskiej przestrzeni euklidesowej $ (\R^n,\is{\ }{\,}) $ jest euklidesowo równoważna dokładnie jednej z funkcji typu (EI)$ _{\la_1,\ldots,\la_r} $ lub (EII)$ _{\la_1,\ldots,\la_r} $ z Twierdzenia [link].

Hiperpowierzchnie stopnia 2

W dalszym ciągu zakładamy, że ciało $ \K $ ma charakterystykę różną od $ 2 $.

Hiperpowierzchnie stopnia 2

Hiperpowierzchnie stopnia $ 2 $ w przestrzeni afinicznej $ E $ są niepustymi zbiorami punktów w $ E $ opisanymi w ustalonym afinicznym układzie współrzędnych równaniem kwadratowym, to znaczy równaniem postaci $ f(X)=0 $, gdzie $ f $ jest funkcją kwadratową na $ \K^n $. Dodatkowo uznajemy, że hiperpłaszczyzn w $ E $, które można opisać równaniem liniowym $ B^TX+c=0 $ (a także równaniem kwadratowym $ (B^TX+c)^2=0 $) nie będziemy uważać za hiperpowierzchnie stopnia $ 2 $. Dokładniej, przyjmujemy następującą definicję.

Definicja Niech $ E $ będzie przestrzenią afiniczną. Niepusty zbiór $ H\in E $, który nie jest hiperpłaszczyzną, jest hiperpowierzchnią stopnia $ 2 $, jeśli dla pewnego afinicznego układu współrzędnych $ \si_p:E\to\K^n $ i funkcji kwadratowej $ f:\K^n\to\K $,

$ H=\set{\xx\in E: f(X)=0 \mbox{ dla }X=\si_p(\xx)} $.

Będziemy wtedy mówili, że równanie $ f(X)=0 $ opisuje $ H $ w układzie współrzędnych $ \si_p $.

Twierdzenie (#) Dla hiperpowierzchni $ H $ stopnia $ 2 $ w przestrzeni afinicznej $ E $ nad $ \K $ można wybrać afiniczny układ współrzędnych $ \ta_q:E\to \K^n $ taki, ze hiperpowierzchnia $ H $ jest opisana w tym układzie jednym z równań

(AI)$ _r $ $ d_1z_1^2+\ldots+d_rz_r^2+c'=0 $, \qquad $ d_j\neq 0 $ dla $ j\leq r $,

(AII)$ _r $ $ d_1z_1^2+\ldots+d_rz_r^2+z_n=0 $, $ d_j\neq 0 $ dla $ j\leq r<n $,

gdzie $ \ta_q(\xx)=[z_1,\ldots,z_n]^T $.

Dowód: Ustalmy afiniczny układ współrzędnych $ \si_p:E\to\K^n $ i funkcję kwadratową $ f:\K^n\to\K $ taką, że równanie $ f(X)=0 $ opisuje $ H $ w układzie $ \si_p $. Z twierdzenia o redukcji afinicznej, istnieje izomorfizm afiniczny $ g:\K^n\to\K^n $ taki, że złożenie $ f\circ g $ jest dane jednym z wzorów (AI)$ _r $ lub (AII)$ _r $. Wówczas

$ H=\set{\xx\in E: f\circ \si_p(\xx)=0}= \set{\xx\in E:(f\circ g)\circ (g^{-1}\circ \si_p)(\xx)=0} $,

a więc, korzystając z równoważności $ (i)\iff(ii) $ w Twierdzeniu [link], możemy przyjąć $ \ta_q=g^{-1}\circ \si_p $. □

W równaniu (AI)$ _r $ można ponadto zakładać, że $ c' $ jest zerem lub jedynką, bo jeśli $ c'\neq 0 $, to obie strony (AI)$ _r $ można pomnożyć przez $ (c')^{-1} $, nie zmieniając zbioru rozwiązań.

W dalszej części będziemy rozważać wyłącznie hiperpowierzchnie w przestrzeni afinicznej $ E $ nad ciałem liczb rzeczywistych. Dla $ \K=\R $, zastępując w powyższym dowodzie twierdzenie o redukcji afinicznej Twierdzeniem [link], można dodatkowo uprościć równania (AI)$ _r $ i (AII)$ _r $.

Twierdzenie (#) Dla hiperpowierzchni $ H $ stopnia $ 2 $ w przestrzeni afinicznej $ E $ nad $ \R $ można wybrać afiniczny układ współrzędnych $ \ta_q:E\to \R^n $ taki, że hiperpowierzchnia $ H $ jest opisana w tym układzie jednym z równań

\ (AI$ _0 $)$ _{s,r} $ $ z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2=0 $,
$ 0<\frac{r}{2}\leq s\leq r\leq n $,

\ (AI$ _1 $)$ _{s,r} $ $ z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2+1=0 $,
$ 0\leq s\leq r\leq n $,

\ (AII)$ _{s,r} $ $ z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2+z_n=0 $,
$ 0<\frac{r}{2}\leq s\leq r<n $,

gdzie $ \ta_q(\xx)=[z_1,\ldots,z_n]^T $.

Dowód: Jak w dowodzie Twierdzenia [link], załóżmy, że $ f:\R^n\to\R $ jest funkcją kwadratową taką, że równanie $ f(X)=0 $ opisuje $ H $ w afinicznym układzie współrzędnych $ \si_p:E\to\R^n $.

Jeśli $ f $ ma środek symetrii $ X_0 $, to możemy założyć, że $ f $ przyjmuje w $ X_0 $ wartość $ 0 $ lub $ 1 $, bo jeśli $ f(X_0)\neq 0 $, to $ f $ można zastąpić przez $ \frac{1}{f(X_0)}f $.

Jeśli $ f $ zeruje się w swoim środku symetrii, lub też $ f $ nie ma środka symetrii, to zastępując w razie potrzeby $ f $ przez $ -f $, możemy założyć, że część kwadratowa $ Q $ funkcji $ f $ spełnia warunek $ s_+(Q)\geq s_-(Q) $. Dla $ s=s_+(Q) $ i $ r=\r(Q)=s_+(Q)+ s_-(Q) $ mamy wtedy $ r\leq 2s $, czyli $ \frac{r}{2}\leq s $.

Dla tak zmodyfikowanej funkcji kwadratowej $ f $, opisującej $ H $ w układzie $ \si_p $, istnieje izomorfizm afiniczny $ g:\R^n\to\R^n $ taki, że złożenie $ f\circ g $ jest dane jednym z wzorów (AI)$ _r $ lub (AII)$ _r $ z Twierdzenia [link]. Podobnie jak w dowodzie Twierdzenia [link], dostajemy stąd tezę przyjmując $ \ta_q=g^{-1}\circ \si_p $. □

Występujące w Twierdzeniu [link] równania będziemy nazywali równaniami kanonicznymi.

Równania (AI$ _1)_{r,r} $ (postaci $ z_1^2+\ldots+z_{r}^2+1=0 $) są sprzeczne, a równania (AI$ _0)_{r,r} $ (postaci $ z_1^2+\ldots+z_{r}^2=0 $) opisują podprzestrzenie afiniczne wymiaru $ n-r $ w $ E $ (zbiory rozwiązań układu równań $ z_1=\ldots=z_r=0 $).

Definicja (#) Niech $ E $ będzie przestrzenią afiniczną nad $ \R $. Mówimy, że $ H\subset E $ jest hiperpowierzchnią właściwą w $ E $, jeśli $ H $ jest hiperpowierzchnią stopnia $ 2 $, która nie jest podprzestrzenią afiniczną $ E $.

Z kolejnej uwagi wynika, że wszystkie pozostałe równania kanoniczne opisują hiperpowierzchnie właściwe.

Uwaga (#) Jeśli hiperpowierzchnia $ H $ stopnia $ 2 $ w przestrzeni afinicznej $ E $ nad $ \R $ jest, w układzie współrzędnych $ \ta_q $ związanym z układem bazowym $ (q;\be_1,\ldots,\be_n) $ w $ E $, opisana jednym z równań kanonicznych, z wyłączeniem równań typu (AI$ _0)_{r,r} $ i (AI$ _1)_{r,r} $, to istnieje prosta $ L_0\subset E $ przecinająca $ H $ w dokładnie dwóch punktach.

Istotnie, dla każdego z takich równań kanonicznych możemy zdefiniować prostą $ L_0 $ w układzie współrzędnych $ \ta_q $ następująco:

- prosta $ z_r=1 $ i $ z_j=0 $ dla pozostałych $ j>2 $ ($ L_0=q+\be_r+\lin(\be_1) $)
dla równań (AI$ _0)_{s,r} $, $ s<r $,

- prosta $ z_j=0 $ dla $ j\neq r $ ($ L_0=q+\lin(\be_r) $)
dla równań (AI$ _1)_{s,r} $, $ s<r $,

- prosta $ z_{r+1}=-1 $ i $ z_j=0 $ dla pozostałych $ j>2 $ ($ L_0=q+(-\be_{r+1})+\lin(\be_{1}) $)
dla równań (AII)$ _{s,r} $.

Podamy teraz przykłady hiperpowierzchni właściwych w $ \R^n $ dla $ n=2,3 $ uwzględniając, dla każdego z typów równań kanonicznych, wskazane przez nas ograniczenia na indeksy $ s $ i $ r $:

(AI$ _0)_{s,r} $ - $ 0<\frac{r}{2}\leq s<r\leq n $,

(AI$ _1)_{s,r} $ - $ 0\leq s<r\leq n $,

(AII)$ _{s,r} $ - $ 0<\frac{r}{2}\leq s\leq r<n $.

Hiperpowierzchnie właściwe w $ \R^2 $ nazywamy krzywymi stopnia $ 2 $.

\[ \begin{center} \begin{tabular}{|l|c|c|r|l|} \hline grupa&r&s&równanie kanoniczne&krzywa\\ \hline\hline (AI_0)&2&1&z_1^2-z_{2}^2=0&para przecinających się prostych (z_1=\pm z_2)\\ \hline\hline (AI_1)&2&1&z_1^2-z_{2}^2+1=0&hiperbola\\ \hline -_{''}-&2&0&-z_1^2-z_{2}^2+1=0&elipsa\\ \hline -_{''}-&1&0&-z_1^2+1=0&para prostych równoległych (z_1=\pm 1)\\ \hline\hline (AII)&1&1&z_1^2+z_2=0&parabola\\ \hline \end{tabular} \end{center} \]

Hiperpowierzchnie właściwe w $ \R^3 $ nazywamy powierzchniami stopnia $ 2 $. W identyfikacji powierzchni pomaga analiza jej przekrojów płaszczyznami (na przykład takimi jak wskazane w tabeli).

TeX Embedding failed!

Klasyfikacja hiperpowierzchni właściwych

Jeśli hiperpowierzchnia $ H $ stopnia $ 2 $ w $ E $ jest podprzestrzenią afiniczną $ E $ wymiaru $ n-r $ opisaną w pewnym afinicznym układzie współrzędnych równaniem kanonicznym $ z_1^2+\ldots+z_r^2=0 $, to $ r>1 $ (bo $ H $ nie jest hiperpłaszczyzną) i $ H $ jest też opisana równaniem $ 2z_1^2+\ldots+z_r^2=0 $, które nie jest krotnością równania kanonicznego. Natomiast hiperpowierzchnia właściwa wyznacza swoje równanie z dokładnością do stałej.

Twierdzenie (#) Niech $ H $ będzie hiperpowierzchnią właściwą w przestrzeni afinicznej $ E $ nad $ \R $. Jeśli $ f,f_\ast:\R^n\to\R $ są funkcjami kwadratowymi takimi, że równania $ f(X)=0 $ i $ f_\ast(X)=0 $ opisują $ H $ w tym samym afinicznym układzie współrzędnych w $ E $, to $ f_\ast=\la f $ dla pewnego $ \la\in\R $.

Dowód tego twierdzenia podamy w części [link] uzupełnień.

Stwierdzenie Hiperpowierzchnia właściwa w przestrzeni afinicznej $ E $ nad $ \R $ wyznacza swoje równanie kanoniczne.
Dowód: Niech $ \si_p,\ta_q:E\to\R^n $ będą afinicznymi układami współrzędnych w $ E $, $ f,f_\ast:\R^n\to\R $ funkcjami kwadratowymi i załóżmy, że równanie $ f(X)=0 $ opisuje $ H $ w układzie $ \si_p $, a równanie $ f_\ast(Z)=0 $ jest kanoniczne i opisuje $ H $ w układzie $ \ta_q $. Pokażemy, że redukcja równania $ f(X)=0 $ prowadzi do równania kanonicznego takiego samego typu i z takimi samymi indeksami $ r,s $ jak równanie $ f_\ast(Z)=0 $.

Mamy $ \xx\in H \iff f\circ\si_p(\xx)=0 \iff f\circ\si_p\circ((\ta_q)^{-1}\circ\ta_q)(\xx)=0 $. Zatem równanie $ f\circ(\si_p\circ(\ta_q)^{-1})(Z)=0 $ opisuje hiperpowierzchnię $ H $ w układzie $ \ta_q $ i z Twierdzenia [link] istnieje $ \la\in\R $ takie, że $ f_\ast=\la f\circ(\si_p\circ(\ta_q)^{-1}) $. Zgodnie z Twierdzeniem [link], złożenie $ \si_p\circ(\ta_q)^{-1}:\R^n\to\R^n $

jest izomorfizmem afinicznym $ \R^n $, więc funkcje $ f_\ast $ oraz $ \la f $ są afinicznie równoważne i teza wynika z Uwagi [link]. □

Definicja Mówimy, że hiperpowierzchnie właściwe $ H,H' $ w przestrzeni afinicznej $ E $ nad $ \R $ mają ten sam typ afiniczny, jeśli istnieje izomorfizm afiniczny $ g:E\to E $ taki, że $ g(H)=H' $.
Twierdzenie (#) Hiperpowierzchnie właściwe $ H,H' $ w przestrzeni afinicznej $ E $ nad $ \R $ mają ten sam typ afiniczny wtedy i tylko wtedy, gdy wyznaczają to samo równanie kanoniczne.
Dowód: Niech $ g:E\to E $ będzie izomorfizmem afinicznym. Jeśli $ g(H) $ jest hiperpowierzchnią stopnia $ 2 $ opisaną w układzie $ \ta_q $ równaniem $ f(Z)=0 $, to $ \xx\in H \iff g(\xx)\in g(H)\iff f\circ\ta_q(g(\xx))=0 $, więc hiperpowierzchnia $ H $ jest opisana równaniem $ f(X)=0 $ w układzie $ \si_p=\ta_q\circ g $, zob.\ Twierdzenie [link].

Jeśli $ \si_p,\ta_q:E\to\R^n $ są afinicznymi układami współrzędnych w $ E $ takimi, że dla funkcji kwadratowej $ f:\R^n\to\R $ równanie $ f(X)=0 $ opisuje $ H $ w układzie $ \si_p $, a równanie $ f(Z)=0 $ opisuje $ H' $ w układzie $ \ta_q $, to $ \xx\in H \iff f\circ\si_p(\xx)=0 \iff f\circ(\ta_q\circ(\ta_q)^{-1})\circ\si_p(\xx)=0\iff f\circ\ta_q\circ((\ta_q)^{-1}\circ\si_p)(\xx)=0\iff (\ta_q)^{-1}\circ\si_p(\xx)\in H' $. Izomorfizm afiniczny $ (\ta_q)^{-1}\circ\si_p:E\to E $ przeprowadza więc $ H $ na $ H' $, zob.\ Twierdzenie [link]. □

Geometryczną własnością odróżniającą hiperpowierzchnie opisane równaniami typu (AI)$ _0 $, (AI)$ _1 $ od hiperpowierzchni opisanych równaniami typu (AII) jest istnienie środka symetrii hiperpowierzchni.

Definicja (#) Niech $ H $ będzie niepustym podzbiorem przestrzeni afinicznej $ E $. Punkt $ p\in E $ nazywamy środkiem symetrii zbioru $ H $ jeśli dla $ \al\in\p{E} $ warunki $ p+\al\in E $ i $ p+(-\al)\in E $ są równoważne.
Twierdzenie Niech $ H $ będzie hiperpowierzchnią właściwą w przestrzeni afinicznej $ E $ nad $ \R $. Jeśli $ f:\R^n\to\R $ jest funkcją kwadratową taką, że równanie $ f(Y)=0 $ opisuje $ H $ w układzie współrzędnych $ \si_p:E\to \R^n $, to punkt $ q\in E $ jest środkiem symetrii $ H $ wtedy i tylko wtedy, gdy $ \si_p(q) $ jest środkiem symetrii funkcji $ f $.
Dowód: Ustalmy $ q\in E $, $ X_0=\si_p(q) $ i niech $ X=\si(\al) $ dla $ \al\in\p{E} $. Wtedy

$ \si_p(q+\al)=X_0+X $ \ \ oraz \ \ $ \si_p(q+(-\al))=X_0-X $.

Zatem $ q $ jest środkiem symetrii hiperpowierzchni $ H $, jeśli $ X_0 $ jest środkiem symetrii funkcji $ f $.

Załóżmy, że $ q $ jest środkiem symetrii $ H $ i niech $ g:\R^n\to\R^n $ będzie symetrią afiniczną $ \R^n $ względem $ X_0 $, tzn.\ $ g(X_0+X)=X_0-X $. Złożenie $ f_\ast=f\circ g:\R^n\to\R $ jest funkcją kwadratową taką, że równanie $ f_\ast(Y)=0 $ opisuje $ H $ w układzie $ \si_p $, bo $ q+\al\in H \iff q-\al\in H\iff f(X_0-X)=0\iff f_\ast(X_0+X)=0 $.

Z Twierdzenia [link] istnieje $ \la\in\R $ takie, że $ f=\la f_\ast $, czyli $ f(X_0+X)=\la f(X_0-X) $ dla $ X\in\R^n $ i pozostaje wykazać, że $ \la=1 $. Jeśli funkcja $ f $ jest dana wzorem $ (\ast) $ z Definicji [link], to rachując jak w Uwadze [link], dostajemy $ X^TAX+(2X_0^TA+B^T)X+c'= (-X)^T\la A(-X)+\la(2X_0^TA+B^T)(-X)+\la c' $, a ponieważ $ f $ wyznacza swoją część kwadratową, $ A=\la A $ i z $ A\neq\0 $ wnioskujemy, że $ \la=1 $. □

Stwierdzenie Niech $ H $ będzie hiperpowierzchnią właściwą w przestrzeni afinicznej $ E $ nad $ \R $.

  • [(I)$ _0 $] Jeśli $ H $ jest opisana równaniem kanonicznym typu $ (AI)_0 $, to $ H $ ma środek symetrii i zawiera wszystkie swoje środki symetrii.

  • [(I)$ _1 $] Jeśli $ H $ jest opisana równaniem kanonicznym typu $ (AI)_1 $, to $ H $ ma środek symetrii i nie zawiera żadnego swojego środka symetrii.
  • [(II)] Jeśli $ H $ jest opisana równaniem kanonicznym typu $ (AII) $, to $ H $ nie ma środków symetrii.

Na zakończenie tej części podamy kilka uwag dotyczących hiperpowierzchni właściwych w przestrzeni euklidesowej $ E $.

Podobnie jak w Twierdzeniu [link], dowodzi się, że każda taka hiperpowierzchnia jest opisana w pewnym prostokątnym układzie współrzędnych $ \ta_q $ równaniem $ f(Z)=0 $, gdzie $ f $ jest jedną z funkcji występujących w Twierdzeniu [link]. Z Twierdzenia [link] wynika, że takie równanie jest wyznaczone z dokładnością do stałej $ \la\in\R $.

Uznając dwa takie proporcjonalne równania za równoważne, dowodzi się, podobnie jak w Twierdzeniu [link], następujące twierdzenie.

Twierdzenie (#) Hiperpowierzchnie właściwe $ H,H' $ w przestrzeni euklidesowej $ E $ są izometryczne wtedy i tylko wtedy, gdy w pewnych prostokątnych układach współrzędnych są opisane równoważnymi równaniami.

Uzupełnienia

Twierdzenie Weierstrassa

W tej części wyjaśnimy pominięte w tekście elementy dowodów związane z twierdzeniem Weierstrassa o istnieniu ekstremów funkcji ciągłych.

Zaczniemy od Lematu [link] użytego w dowodzie zasadniczego twierdzenia algebry.

Lemat (#)

Dla wielomianu zespolonego $ w(z)=a_0+a_1z+\ldots+z^n $ i $ K=\set{z\in\c:|\Re z|,|\Im z|\leq M} $ istnieje $ z_0\in K $ takie, że $ |w(z_0)|= \inf\set{|w(z)|: z\in K} $.

Dowód: Zaczniemy od warunku (ustalającego ciągłość funkcji $ |w(z)| $ zmiennej zespolonej). Dla każdego ciągu $ (z_m)_{m} $ liczb zespolonych

$ (\ast) $ $ \lim_{m}|z_m-z_0|= 0 \ \Rightarrow \ \lim_m |w(z_m)|=|w(z_0)| $.

Istotnie, dla $ h\in\c $ mamy $ w(z_0+h)-w(z_0)=A_1h+\ldots+A_nh^n $,

stąd $ |\,|w(z_0+h)|-|w(z_0)|\,|\leq |w(z_0+h)-w(z_0)|\leq |h|(|A_1|+\ldots+|A_n||h|^{n-1}) $.

Podstawiając w tej nierówności za $ h $ różnicę $ z_m-z_0 $ dostajemy $ (\ast) $.

Niech

$$\mu=\inf\set{|w(z)|:z\in K}.$$

Dla $ m=1,2,\ldots $ wybierzmy $ z_m=a_m+ib_m\in K $ tak, by ciąg $ (|w(z_m)|)_m $ zbiegał do $ \mu $. Z twierdzenia Bolzano-Weierstrassa możemy założyć, przechodząc w razie potrzeby do podciągu, że ciąg $ (a_m)_m $ jest zbieżny do pewnego $ a_0 $ z przedziału $ [-M,M] $. Przechodząc ponownie do podciągu możemy ponadto założyć, że ciąg $ (b_m)_m $ jest zbieżny do pewnego $ b_0\in[-M,M] $. Dla $ z_0=a_0+ib_0 $ mamy $ |z_m-z_0|=\sqrt{(a_m-a_0)^2+(b_m-b_0)^2} $, więc $ \lim_m |z_m-z_0|=0 $, a stąd i z $ (\ast) $ dostajemy $ \mu=\lim_m |w(z_m)|=|w(z_0)| $. □

W dowodzie Twierdzenia [link] korzystaliśmy z pewnej własności funkcji na sferze jednostkowej w liniowej przestrzeni euklidesowej, analogicznej do udowodnionej w Lemacie [link]. Podamy teraz uzasadnienie tej własności, przy czym podobieństwo do dowodu Lematu [link] nie jest przypadkowe - obie własności wynikają z twierdzenia Weierstrassa o funkcjach ciągłych na zwartych przestrzeniach metrycznych.

Lemat (#) Dla endomorfizmu $ \vp:V\to V $ liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ istnieje wektor $ \be\in V $ taki, że $ ||\be||=1 $ \ oraz \ $ \is{\be}{\vp(\be)}= \sup\set{\is{\al}{\vp(\al)}:||\al||=1} $.
Dowód: Połóżmy $ Q(\al)=\is{\al}{\vp(\al)} $ dla $ \al\in V $. Sprawdzimy najpierw, że dla każdego ciągu wektorów $ (\al_m)_{m} $ takich, że $ ||\al_m||=1 $

$ (\ast)<table class="displaymath"><tr><td class="dspleft"><img class="teximage" src="/sites/default/files/tex/1646f273d133af3e7b773af503e0dbbf53529a72.png" alt="9ddaf1850a3cc041cf56190628e60f6a:4432:" /></td><td class="dspright"></td></tr></table>\mu=\sup\set{Q(\al):||\al||=1}. $$

Dla $ m=1,2,\ldots $ wybierzmy wektory $ \al_m $ o normie $ 1 $ tak, by ciąg $ (Q(\al_m))_m $ zbiegał do $ \mu $. Podobnie jak w dowodzie Lematu [link] wystarczy teraz pokazać, że dla pewnego podciągu $ (\al_{m_k})_k $ istnieje $ \be\in V $ takie, że $ \lim_k||\al_{m_k}-\be||=0 $, bo z warunku $ |\,||\al_m||-||\be||\,|\leq ||\al_m-\be|| $ wynika, że wtedy także $ ||\be||=1 $.

Udowodnimy przez indukcję ze względu na $ \dim V $, że dla każdego ciągu wektorów $ V $ o normie $ \leq 1 $ można znaleźć taki podciąg $ (\al_{m_k})_k $ i wektor $ \be $. Dla przestrzeni jednowymiarowych teza wynika z twierdzenia Bolzano-Weierstrassa. Załóżmy, że $ \dim V>1 $ i teza jest prawdziwa dla przestrzeni wymiaru mniejszego niż $ \dim V $.

Niech $ V=W\oplus L $ będzie sumą ortogonalną, gdzie $ \dim L=1 $ i niech $ \al_m=\be_m+\ga_m $ będzie rozkładem $ \al_m $ na ortogonalne składowe. Z założenia indukcyjnego wynika, że ciąg $ (\be_m)_m $ zawiera podciąg $ (\be_{m_j})_j $ taki, że $ \lim_j||\be_{m_j}-\be_0||=0 $ dla pewnego $ \be_0\in W $. Z twierdzenia Bolzano-Weierstrassa możemy wybrać z ciągu $ (\ga_{m_j})_j $ podciąg $ (\ga_{m_{j_k}})_k $ zbieżny do pewnego $ \ga_0\in L $. Dla wektora $ \be=\be_0+\ga_0 $ mamy wówczas $ \lim_k||\al_{m_{j_k}}-\be||=0 $. □

Zespolona wartość własna macierzy rzeczywistej

Dla macierzy $ A\in\M{n}{n}{\R} $ oznaczmy przez $ \vp $ endomorfizm $ \vp(X)=AX $ przestrzeni $ \R^n $ wyznaczony przez $ A $ i załóżmy, że $ Z=X+iY\in\c^n $, gdzie $ X,Y\in\R^n $, jest wektorem własnym $ A $ odpowiadającym zespolonej wartości własnej $ \la=a+ib\not\in\R $. Pokażemy, że

  • [(a)] wektory $ X,Y $ rozpinają w $ \R^n $ płaszczyznę $ W=\lin(X,Y) $ taką, że $ \vp(W)=W $ i macierz endomorfizmu $ \vp|W:W\to W $ w układzie współrzędnych związanym z bazą $ (X,Y) $ płaszczyzny $ W $ ma postać $ \mk{rr}{a&b\\-b&a} $;
  • [(b)] $ A^T\neq A $, por.\ Twierdzenie [link];
  • [(c)] jeśli $ A $ jest macierzą ortogonalną, to $ |\la|=1 $ i w kartezjańskiej przestrzeni euklidesowej, zob.\ [link] (a), $ ||X||=||Y|| $ oraz $ X\perp Y $. W szczególności, $ \vp|W $ jest obrotem $ W $, por.\ Lemat [link].

Istotnie, z równości $ AZ=\la Z $ mamy $ AX+iAY=(a+ib)(X+iY)=(aX-bY)+i(bX+aY) $. Porównując części rzeczywiste i urojone po obu stronach dostajemy stąd wzory

$ (\ast) $ $ AX=aX-bY $ \ oraz \ $ AY=bX+aY $

pokazujące, że $ \vp(W)\subset W $.

Połóżmy $ \overline{Z}=X-iY $. Z $ (\ast) $ mamy $ A\overline{Z}=AX-iAY=(aX-bY)-i(bX+aY)=(a-ib)(X-iY) $, czyli wektor $ \overline{Z} $ jest wektorem własnym $ A $ odpowiadającym wartości własnej $ \overline{\la} $. Zatem wektory $ Z,\overline{Z} $ rozpinają płaszczyznę $ \lin(Z,\overline{Z})\subset\c^n $. Wektory $ X=\frac{1}{2}(Z+\overline{Z}) $ i $ Y=-\frac{i}{2}(Z-\overline{Z}) $ są bazą tej płaszczyzny (nad $ \c $), więc są również liniowo niezależne nad $ \R $.

Stąd wynika (a), bo $ (\ast) $ określa postać macierzy $ \vp|W $ w tej bazie, a z $ \det(\vp|W)=a^2+b^2=|\la|> 0 $ mamy $ \vp(W)=W $.

Dla dowodu (b) załóżmy, że macierz $ A $ jest symetryczna. Wtedy $ (AZ)^T\overline{Z}=Z^T(A\overline{Z}) $, więc $ \la (Z^T\overline{Z})=(AZ)^T\overline{Z}=Z^T(A\overline{Z})= Z^T(\overline{\la}\, \overline{Z})= \overline{\la} (Z^T\overline{Z}) $. Ponieważ $ Z^T\overline{Z}=(X+iY)^T(X-iY)=||X^2||+||Y||^2>0 $, dostajemy $ \la=\overline{\la} $, sprzecznie z założeniem, że $ \la\not\in\R $.

Jeśli $ A $ jest macierzą ortogonalną, to $ \vp $ jest izometrią liniową kartezjańskiej przestrzeni euklidesowej, więc $ \det (\vp|W)=1=|\la| $, co daje pierwszą część (c). Mamy też $ AZ=\la Z $ oraz $ A^TZ=A^{-1}Z=\la^{-1}Z $. Zatem $ \la (Z^TZ)=(AZ)^TZ=Z^T(A^TZ)= Z^T(\la^{-1}Z)= \overline{\la} (Z^TZ) $. Ponieważ $ \la\neq\overline{\la} $, dostajemy stąd $ Z^TZ=0 $, czyli $ 0=(X+iY)^T(X+iY)=(||X^2||-||Y||^2)+2i(X^TY) $, co dowodzi (c).

Orientacja liniowej przestrzeni euklidesowej

Powiemy, że macierz $ A\in\M{n}{n}{\R} $ jest nieosobliwa jeśli $ \det A\neq 0 $ (równoważnie, macierz $ A $ jest odwracalna, zob.\ Uwaga [link]).

Drogą nieosobliwą w $ \M{n}{n}{\R} $ łączącą macierze nieosobliwe $ A,B\in\M{n}{n}{\R} $ będziemy nazywali przyporządkowanie każdemu $ t $ z przedziału $ [0,1]\subset\R $ macierzy nieosobliwej $ A(t)=[a_{ij}(t)]_{ij=1}^n $ takie, że $ A(0)=A $, $ A(1)=B $ i każda z funkcji $ a_{ij} $ jest ciągła.

Funkcja $ \det A(t) $ jest wtedy ciągła i nie zeruje się na $ [0,1] $, więc $ \det A $, $ \det B $ mają ten sam znak.

Pokażemy, że z równości znaków wyznaczników wynika istnienie takiej drogi: jeśli $ \det A>0 $, to istnieje nieosobliwa droga łącząca macierz $ A $ z macierzą jednostkową $ I_n $; jeśli dodatkowo macierz $ A $ jest ortogonalna, to istnieje taka droga złożona z macierzy ortogonalnych.

Załóżmy najpierw, że $ A $ jest macierzą ortogonalną. Z Wniosku [link] istnieje macierz ortogonalna $ C $ taka, że $ J=C^TA\,C $ ma na przekątnej macierze obrotów i jedynki ($ 2 $ wyrazy $ -1 $ na przekątnej $ J $ określają obrót o kąt $ \pi $ w odpowiedniej płaszczyźnie). Ponieważ macierz obrotu $ \R^2 $ o kąt $ \theta $ można połączyć (mnożąc kąt obrotu przez 1-t) z macierzą $ I_2 $, istnieją macierze ortogonalne $ J(t) $ tworzące drogę łączącą $ J $ z $ I_n $. Macierze $ CJ(t)\,C^T $ są wtedy ortogonalne i określają drogę łączącą $ A $ z $ I_n $.

Dla odwracalnej macierzy $ A $ nietrudno zauważyć, interpretując geometrycznie kolejne kroki procesu ortonormalizacji Grama-Schmidta układu kolumn $ A $, że powstającą w tym procesie macierz ortogonalną można połączyć drogą nieosobliwą z macierzą $ A $. Wraz z wcześniejszą obserwacją daje to nieosobliwą drogę łączącą macierz $ A $ z $ I_n $.

Istnienie takich dróg pozwala na następującą interpretację orientacji w liniowej przestrzeni euklidesowej $ \R^n $: baza $ (A_1,\ldots,A_n) $ jest zorientowana zgodnie z bazą standardową $ (\ep_1,\ldots,\ep_n) $ wtedy i tylko wtedy, gdy dla każdego $ t $ z przedziału $ [0,1] $ istnieje baza $ (A_1(t),\ldots,A_n(t)) $ taka, że $ A_j(0)=A_j $, $ A_j(1)=\ep_j $ oraz współrzędne wektorów $ A_j(t) $ zależą od $ t $ w sposób ciągły. Co więcej, dla ortonormalnej bazy $ (A_1,\ldots,A_n) $ istnieją takie bazy $ (A_1(t),\ldots,A_n(t)) $, które są dodatkowo ortonormalne.

Równania opisujące hiperpowierzchnię właściwą

W tej części podamy dowód Twierdzenia [link] mówiącego, że hiperpowierzchnia właściwa $ H $ stopnia $ 2 $ w przestrzeni afinicznej $ E $ nad $ \R $ wyznacza swoje równanie z dokładnością do stałej.

Załóżmy więc, że $ f,f_\ast:\R^n\to\R $ są funkcjami kwadratowymi takimi, że równania $ f(X)=0 $ i $ f_\ast(X)=0 $ opisują $ H $ w afinicznym układzie współrzędnych $ \si_p:E\to\R^n $. Dla uproszczenia oznaczeń połóżmy $ \phi=f\circ\si_p $ i $ \phi_\ast=f_\ast\circ\si_p $. Pokażemy, że $ \phi_\ast=\la \phi $ dla pewnego $ \la\in\R $.

Niech funkcja $ f $ będzie dana wzorem

$$f(X)=X^TAX+B^TX+c, \mbox{ gdzie } A=A^T\in\M{n}{n}{\R}, B\in\R^n, c\in\R$$

i oznaczmy przez $ Q $ część kwadratową $ f $, $ Q(X)=X^TAX $.

Jeśli $ L=q+\lin(\be) $ jest prostą w $ E $, $ X=\si_p(q) $ i $ Z=\si(\be) $, to $ \si_p(q+t\be)=\si_p(q)+\si(t\be)=X+tZ $, więc wartości funkcji $ \phi $ na prostej $ L $ są dane wzorem $ \phi(q+t\be)= f(X+tZ)=t^2Z^TAZ+t(2X^TA+B^T)Z+f(X) $ (zob.\ Uwaga [link] dla $ g(Z)=tZ+X $). Zatem

$ (\smile)\qquad\qquad\qquad \phi(q+t\be)=at^2+bt+c\  $, \ gdzie $ a=Q\circ\si(\be) $ i $ c=\phi(q) $.

Zgodnie z Uwagą [link], istnieje prosta $ L_0=q_0+\lin(\be_0) $ przecinająca $ H $ w dokładnie dwóch punktach. Z $ (\smile) $ wynika, że $ a=Q(\si(\be_0))\neq 0 $. Bez zmniejszenia ogólności możemy założyć, że $ a>0 $ (zastępując w razie potrzeby $ \phi $ przez $ -\phi $) oraz $ \phi(q_0)<0 $ (przesuwając w razie potrzeby punkt początkowy $ q_0 $ na $ L_0 $).

Połóżmy $ \lambda=\frac{\phi_\ast(q_0)}{\phi(q_0)} $ i niech $ E_\ast=\set{q\in E:\phi_\ast(q)=\lambda \phi(q)} $. Oczywiście $ H\cup\set{q_0}\subset E_\ast $.

Z $ (\smile) $ dla funkcji $ \phi_\ast $ i funkcji $ \lambda \phi $ wynika, że każda prosta w $ E $ zawierająca trzy punkty zbioru $ E_\ast $ zawiera się w $ E_\ast $.

Niech $ L=q_0+\lin(\be) $ będzie prostą taką, że $ Q(\si(\be))>0 $. Z $ (\smile) $ dla $ \phi $ na $ L $ wnioskujemy, że zbiór $ L\cap H $ jest dwupunktowy, a $ q_0\in L\setminus H $ daje wtedy $ L\subset E_\ast $. Pokazaliśmy więc, że $ \set{q_0+\be: Q(\si(\be))>0}\subset E_\ast $.

Weźmy teraz dowolne $ q=q_0+\ga\in E $. Punkty prostej $ L_q=q+\lin(\be_0) $ możemy przedstawić w postaci $ q_0+(\ga+t\be_0) $. Powtarzając uzasadnienie $ (\smile) $ widzimy, że $ Q(\si(\ga+t\be_0))=t^2Q(\si(\be_0))+tb+Q(\si(\ga))>0 $ dla dostatecznie dużych $ t $ (bo $ Q(\si(\be_0))>0 $). Dla takich $ t $ punkty $ q_0+(\ga+t\be_0) $ prostej $ L_q $ są w $ E_\ast $, więc cała prosta $ L_q $ jest w $ E_\ast $ i stąd $ q\in L_q\subset E_\ast $. Mamy więc $ E_\ast=E $, co daje tezę.