Formy kwadratowe

W tym rozdziale rozpatrujemy wyłącznie przestrzenie liniowe nad ciałami $ \K $ charakterystyki różnej od $ 2 $ (tzn.\, $ 1+1\neq 0 $ w $ \K $).

Formy kwadratowe

Macierz symetryczna $ A=A^T\in\M{n}{n}{\K} $ wyznacza formę kwadratową $ Q:\K^n\to\K $ wzorem

$ (\ast) $ $ Q(X)=X^TAX,\ \ A=A^T\in\M{n}{n}{\K}. $

Z formą $ Q $ związany jest funkcjonał dwuliniowy $ h:\K^n\times\K^n\to\K $ - forma biegunowa $ Q $,

$ (\ast\ast) $ $ h(X,Y)=X^TAY,\ \</p>
<p>Q(X)=h(X,X). $

Złożenie formy kwadratowej $ Q $ wyznaczonej przez $ A $ z izomorfizmem liniowym $ \ps:\K^n\to\K^n $ jest formą kwadratową wyznaczoną przez macierz symetryczną $ B=C^TAC $, $ C=M(S) $, tzn.\ $ Q\circ\ps(X)=X^TBX $; w szczególności, macierze $ B $ i $ A $ są kongruentne, zob.\ [link].

Główny wynik tego rozdziału mówi, że izomorfizm $ \ps $ można zawsze dobrać tak, aby $ Q\circ\ps(X)=\sum_jd_jx_j^2 $ ($ x_j $ - współrzędne $ X $) lub równoważnie, w języku macierzowym, że każda macierz symetryczna jest kongruentna z macierzą diagonalną.

Nasze rozważania będziemy prowadzić w ogólniejszym ujęciu. Zaczniemy od określenia symetrycznych funkcjonałów dwuliniowych na przestrzeni $ V $ i związanych z nimi form kwadratowych.

Definicja (#) Niech $ V $ będzie przestrzenią liniową nad $ \K $. Funkcjonał $ h:V\times V\to\K $ jest symetrycznym funkcjonałem dwuliniowym jeśli $ h(\al,\be)=h(\be,\al) $ i dla każdego $ \be\in V $ funkcjonał $ \al\to h(\al,\be) $ jest liniowy. Funkcjonał $ Q:V\to\K $ dany wzorem $ Q(\al)=h(\al,\al) $ nazywamy formą kwadratową wyznaczoną przez $ h $ i mówimy, że $ h $ jest formą biegunową dla $ Q $.

W szczególności, iloczyn skalarny $ \is{\ }{\,} $ w liniowej przestrzeni euklidesowej $ (V,\is{\ }{\,}) $ nad $ \R $ jest symetrycznym funkcjonałem dwuliniowym - formą biegunową dla formy kwadratowej $ ||\al||^2=\is{\al}{\al} $.

Uwaga (#) Jeśli $ h $ jest formą biegunową dla formy kwadratowej $ Q $, to z dwuliniowości $ h $ mamy

$ h(\al+\be,\al+\be)=h(\al,\al)+2h(\al,\be)+h(\be,\be) $, więc

$$h(\al,\be)=\frac{1}{2}(Q(\al+\be)-Q(\al)-Q(\be)),$$

Podobnie jak dla iloczynu skalarnego w przestrzeniach euklidesowych, symetryczny funkcjonał dwuliniowy $ h:V\times V\to \K $ pozwala związać z każdym układem $ (\al_1,\ldots,\al_m) $ wektorów w $ V $ symetryczną macierz Grama , zob.\ Definicja [link],

$$G_h(\al_1,\ldots,\al_m)=[h(\al_i,\al_j)]_{i,j=1}^m,$$

która wyznacza wartości funkcjonału $ h $ na powłoce liniowej tego układu, zob.\ Uwaga [link].

Twierdzenie (#) Niech $ h:V\times V\to \K $ będzie symetrycznym funkcjonałem dwuliniowym, układ $ (\al_1,\ldots,\al_n) $ bazą w $ V $ i niech $ \si:V\to \K^n $ będzie układem współrzędnych związanym z tą bazą. Wówczas funkcjonał $ h $ jest opisany wzorem

$$h(\al,\be)=X^TAY \mbox{ dla } X=\si(\al), Y=\si(\be),$$

gdzie $ A=G_h(\al_1,\ldots,\al_n) $ jest macierzą Grama bazy $ (\al_1,\ldots,\al_n) $.

Dowód: Jak w Uwadze [link], dla $ \al=\sum_i x_i\al_i $, $ \be=\sum_j y_j\al_j $, z dwuliniowości $ h $ mamy $ h(\al,\be)=h(\sum_i x_i\al_i,\sum_j y_j\al_j)=\sum_{i,j=1}^n x_iy_jh(\al_i,\al_j)=\si(\al)^T G_h(\al_1,\ldots,\al_n)\,\si(\be) $. □
Uwaga (#)

  • [(a)] Niech $ h:V\times V\to\K $ będzie symetrycznym funkcjonałem dwuliniowym i niech bazy $ (\al_1,\ldots,\al_n) $, $ (\be_1,\ldots,\be_n) $ w $ V $ będą związane z układami współrzędnych $ \si,\ta:V\to\K^n $, odpowiednio. Wówczas $ G_h(\be_1,\ldots,\be_n)=C^TAC $ dla $ A=G_h(\al_1,\ldots,\al_n) $ i odwracalnej macierzy $ C=M(\si\circ\ta^{-1}) $ (bo $ j $-ta kolumna $ C $ ma postać $ \si(\ta^{-1}(\ep_j))=\si(\be_j) $, zob.\ dowód Lematu [link]).

  • [(b)] Niech $ Q(X)=X^TAX $ będzie formą kwadratową na $ \K^n $ wyznaczoną przez macierz symetryczną $ A $ i niech $ \ps:\K^n\to\K^n $ będzie izomorfizmem. Wówczas $ Q\circ\ps(Y)=Y^T(C^TAC)Y $ dla odwracalnej macierzy $ C=M(\ps) $ (wystarczy we wzorze na $ Q(X) $ podstawić $ X=CY $ i skorzystać ze wzoru $ (CY)^T=Y^TC^T $ lub przyjąć w (a) $ \si=\id_{\K^n} $ i $ \ta^{-1}=S $).

Uwaga [link] prowadzi do ważnej relacji równoważności w zbiorze $ (n\times n) $-macierzy.

Definicja (#) Macierze $ A, B\in\M{n}{n}{\K} $ są kongruentne, jeśli istnieje macierz odwracalna $ C\in\M{n}{n}{\K} $ taka, że $ B=C^TAC $.

Tak więc, zgodnie z Uwagą [link],

jeśli $ Q $ jest formą kwadratową opisaną wzorem $ (\ast) $, macierze kongruentne do $ A $, są to dokładnie symetryczne macierze opisujące formy kwadratowe $ Q\circ\ps $, gdzie $ \ps $ jest izomorfizmem $ \K^n $.

Zauważmy też, że macierze kongruentne mają równe rzędy, bo mnożenie przez macierz odwracalną nie zmienia rzędu macierzy.

Definicja (#) Rzędem $ \r(h) $ symetrycznego funkcjonału dwuliniowego $ h:V\times V\to \K $ nazywamy rząd jego macierzy Grama w dowolnej bazie $ V $. Rzędem $ \r(Q) $ formy kwadratowej $ Q:V\to \K $ nazywamy rząd formy biegunowej $ Q $.

Na zakończenie podamy dwa przydatne przykłady macierzy kongruentnych z macierzą $ \mk{rr}{0&c\\c&0}\in\M{2}{2}{\K} $.

Przykład (#) Dla $ c\in\K $:

(a)     $ \mk{rr}{1&-1\\1&1}\mk{rr}{0&c\\c&0}\mk{rr}{1&1\\-1&1}=\mk{rr}{-2c&0\\0&2c}\ ;\quad (b)\quad \mk{rr}{1&1\\0&1}\mk{rr}{0&c\\c&0}\mk{rr}{1&0\\1&1}=\mk{rr}{2c&c\\c&0}. $

Algorytm Lagrange'a

Algorytm Lagrange'a jest użyteczną procedurą, którą wykorzystamy do dowodu następującego głównego wyniku w tej części.

Twierdzenie (#) Każda macierz symetryczna $ A=A^T\in\M{n}{n}{\K} $ jest kongruentna z macierzą diagonalną, tzn.\ istnieje macierz odwracalna $ C\in\M{n}{n}{\K} $ taka, że

$$C^TAC=\mk{ccc}  {d_1&&\0\vspace{-2pt}\\  &\ddots&\vspace{-2pt}\\  \0&&d_n} ,$$

przy czym wyrazy niezerowe na przekątnej poprzedzają wyrazy zerowe

Zanim przystąpimy do dowodu tego twierdzenia, podamy jego interpretację w języku form kwadratowych na $ \K^n $.

Stwierdzenie (#) Dla każdej niezerowej formy kwadratowej $ Q:\K^n\to\K $ istnieje izomorfizm $ \ps:\K^n\to\K^n $ taki, że $ Q\circ S(Y)=\sum_{j=1}^r d_jy_j^2 $, dla $ Y=[y_1,\ldots,y_n]^T $, gdzie $ d_j\neq 0 $, $ j\leq r=\r(Q) $.

W dowodzie twierdzenia będziemy wykonywać operacje elementarne na wierszach i kolumnach $ A $. Zauważmy, że jeśli macierz elementarna $ M $ jest macierzą operacji elementarnej $ \E $ na wierszach (czyli zgodnie z Uwagą [link], iloczyn $ MA $ jest macierzą otrzymaną z $ A $ przez wykonanie operacji $ \E $ na jej wierszach)

to iloczyn $ AM^T=(MA^T)^T $ powstaje z $ A $ przez wykonanie odpowiedniej operacji na jej kolumnach.

{\bf Dowód Twierdzenia [link] (algorytm Lagrange'a).} Niech $ A=[a_{ij}]_{i,j=1}^n\in\M{n}{n}{\K} $ będzie niezerową macierzą symetryczną.

(I) Załóżmy, że $ a_{11}\neq 0 $. Wówczas odejmując pierwszy wiersz pomnożony przez $ \frac{a_{i1}}{a_{11}} $ od $ i $-tego, dla $ i\geq 2 $, wyzerujemy wszystkie wyrazy pierwszej kolumny pod $ a_{11} $. Jeśli $ M $ jest iloczynem odpowiednich macierzy elementarnych, to z $ A=A^T $ wynika, że $ (MAM^T)^T=(M^T)^TA^TM^T= MAM^T $, więc iloczyn $ MAM^T $ jest symetryczną macierzą postaci

$$MAM^T=\mk{c|ccc}{ a_{11}&0&\cdots&0\\\hline 0&&&\\ \vdots&&B&\\ 0&&&},$$

(operowanie pierwszą kolumną $ MA $ na kolejnych kolumnach zeruje wyrazy $ a_{12}=a_{21},\ldots,a_{1n}= a_{n1} $ pierwszego wiersza na prawo od $ a_{11} $). W szczególności, macierz $ B $ jest symetryczna.

(II) Jeśli $ a_{11}=0 $ ale $ a_{ii}\neq 0 $ dla pewnego $ i>1 $, to dla macierzy $ M $ operacji elementarnej zamieniającej pierwszy wiersz z $ i $-tym macierz symetryczna $ MAM^T $ ma w lewym górnym rogu wyraz $ a_{ii} $, a więc spełnia warunek w (I).

(III) Jeśli $ a_{ii}=0 $ dla $ i=1,\ldots,n $, to z $ A\neq\0 $ i $ A=A^T $ wynika, że istnieją $ i>j $ takie, że $ a_{ij}\neq 0 $. Wzorujemy się wtedy na kongruencji z Przykładu [link] (a) przyjmując $ M=[m_{kl}]_{k,l=1}^n $, gdzie wyrazy na przekątnej $ M $ są jedynkami, $ m_{ij}=1, m_{ji}=-1 $, a pozostałe wyrazy $ M $ są zerowe. Macierz symetryczna $ MAM^T $ ma na przekątnej niezerowe wyrazy $ \mp 2a_{ij} $, a więc spełnia warunek w (II) (lub w (I), jeśli $ j=1 $).

Tak więc, mnożąc odpowiednie macierze opisane w (I),(II),(III) otrzymamy macierz odwracalną $ M_1\in\M{n}{n}{\K} $ taką, że

$$M_1AM_1^T=\mk{c|ccc}{ d_{1}&0&\cdots&0\\\hline 0&&&\\ \vdots&&A_1&\\ 0&&&}, \ A_1=A_1^T, \ d_1\neq 0.$$

Jeśli macierz $ A_1\neq \0 $, to powtarzając tę procedurę dla $ A_1 $ otrzymamy macierz odwracalną $ M_2\in\M{n}{n}{\K} $ (postaci $ MM_1 $) taką, że

$$ M_2AM_2^T=\mk{cc|cc}{ d_{1}&0&\cdots&0\\ 0&d_2&\cdots&0\\\hline \vdots&\vdots&\ \ A_2&\\ 0&0&&}, \ A_2=A_2^T, \ d_1,d_2\neq 0.$$

Po $ r=\r A $ takich krokach znajdziemy macierz odwracalną $ M_r\in\M{n}{n}{\K} $ taką, że

$$M_rAM_r^T=\mk{ccc|c}{ d_{1}&&0&\0\\ &\ddots&&\\ 0&&d_r&\0\\\hline \0&&\0&\0}, \ d_1,\ldots,d_r\neq 0$$

i przyjmujemy $ C=M_r^T $. \null
\null$ \blacksquare $    

Uwaga (#) Macierz $ M_r=C^T $ występującą w dowodzie twierdzenia można otrzymać, podobnie jak przy odwracaniu macierzy, z macierzy jednostkowej $ I_n $ wykonując na jej wierszach operacje takie same jak wykonywane w trakcie redukcji operacje na wierszach macierzy $ A $ (mnożenie z lewej strony przez macierz $ M $ opisaną w (III) odpowiada zastąpieniu $ j $-tego wiersza przez różnicę $ j $-tego i $ i $-tego wiersza, zaś $ i $-tego wiersza przez sumę tych wierszy, zob.\ Przykład [link] (a)).

Twierdzenie [link] można sformułować równoważnie w następujący sposób.

Twierdzenie (#) Dla każdego symetrycznego funkcjonału dwuliniowego $ h:V\times V\to \K $ istnieje baza $ (\be_1,\ldots,\be_n) $ w $ V $ taka, że $ h(\be_i,\be_j)=0 $ dla $ i\neq j $ oraz $ h(\be_j,\be_j)=0 $ dla $ j>\r(h) $.

Niezależnie od wyprowadzenia Twierdzenia [link] z [link], warto też podać bezpośrednie uzasadnienie, które jest interpretacją algorytmu Lagrange'a w języku funkcjonałów dwuliniowych, podkreślającą związek tego algorytmu z procedurą wykorzystaną przy ortogonalizacji Grama-Schmidta.

{\bf Dowód Twierdzenia [link].} Załóżmy, że $ h $ jest funkcjonałem niezerowym i ustalmy dowolną bazę $ (\al_1,\ldots,\al_n) $ w przestrzeni $ V $.

(I) Jeśli $ h(\al_1,\al_1)\neq 0 $, to przyjmujemy

$$\be_1=\al_1 \mbox{ i } \al'_i=\al_i-\frac{h(\al_i,\al_1)}{h(\al_1,\al_1)}\al_1\ , \ i=2,\ldots,n.$$

Wówczas dla $ i\geq 2 $ mamy $ h(\al'_i,\be_1)= h(\al_i-\frac{h(\al_i,\al_1)}{h(\al_1,\al_1)}\al_1,\al_1)= h(\al_i,\al_1)-h(\al_i,\al_1)=0 $.

(II) Jeśli $ h(\al_1,\al_1)=0 $ ale $ h(\al_i,\al_i)\neq 0 $ dla pewnego $ i>0 $, to zamieniamy w bazie $ \al_1 $ z $ \al_i $ miejscami i jesteśmy w sytuacji takiej jak w (I).

(III) Jeśli $ h(\al_i,\al_i)=0 $ dla $ i=1,\ldots,n $, to istnieją $ i>j $ takie, że $ h(\al_i,\al_j)=c\neq 0 $. Wówczas, podobnie jak w Przykładzie [link] (a), $ h(\al_j-\al_i,\al_j-\al_i)=-2c $ (a także $ h(\al_j+\al_i,\al_j+\al_i)=2c $ i $ h(\al_j-\al_i,\al_j+\al_i)=0 $). Zastępując w bazie $ (\al_1,\ldots,\al_n) $ wektor $ \al_j $ przez $ \al_j-\al_i $, a wektor $ \al_i $ przez $ \al_j+\al_i $ doprowadzamy do sytuacji takiej jak w (II) (lub (I), jeśli $ j=1 $).

Tak więc, operacje opisane w (I),(II),(III) pozwalają przejść od bazy $ (\al_1,\ldots,\al_n) $ do bazy $ (\be_1,\al'_2,\ldots,\al'_n) $ takiej, że $ h(\al'_i,\be_1)= 0 $ dla $ i\geq 2 $.

Stosując tę samą procedurę do bazy $ (\al'_2,\ldots,\al'_n) $ przestrzeni $ \lin(\al'_2,\ldots,\al'_n) $ dostajemy bazę $ (\be_1,\be_2,\al''_3\ldots,\al''_n) $ przestrzeni $ V $ taką, że $ h(\be_i,\be_j)=0 $ dla $ i<j\leq 2 $ oraz $ h(\al''_i,\be_j)=0 $ dla $ j=1,2 $, $ i\geq 3 $.

Po $ r=\r(h) $ krokach dostaniemy bazę $ (\be_1,\ldots,\be_n) $ przestrzeni $ V $ taką, że $ h(\be_i,\be_j)=0 $ dla $ i<j\leq n $ oraz $ h(\al,\be)=0 $ dla $ \al,\be\in\lin (\be_{r+1},\ldots,\be_n) $. \null
\null$ \blacksquare $    

Uwaga (#)

  • [(a)] Opisanym w dowodzie operacjom prowadzącym od bazy $ (\al_1,\ldots,\al_n) $ do bazy $ (\be_1,\ldots,\be_n) $ odpowiadają opisane w dowodzie Twierdzenia [link] operacje na wierszach i kolumnach macierzy Grama $ A=[a_{ij}]_{i,j=1}^n= [h(\al_i,\al_j)]_{i,j=1}^n $ funkcjonału $ h $ w bazie $ (\al_1,\ldots,\al_n) $.
  • [(b)] Etapy (II) i (III) algorytmu można zastąpić operacją elementarną odpowiadającą macierzy elementarnej użytej w Przykładzie [link] (b). Jeśli $ a_{11}=0 $ i $ a_{i1}= 0 $ dla $ i>1 $, to w macierzy $ A $ pierwsza kolumna (i wiersz) są zerowe. Przechodzimy wtedy do redukcji macierzy Grama układu $ (\al_2,\ldots,\al_n) $ (oznaczanej przez $ A_1 $ w dowodzie [link]). Jeśli $ a_{11}=0 $ i $ a_{i1}\neq 0 $ dla pewnego $ i>1 $, to zastępujemy wektor $ \al_1 $ przez $ \al_1+\al_i $ (do pierwszego wiersza $ A $ dodajemy $ i $-ty i symetrycznie, do pierwszej kolumny dodajemy $ i $-tą), co prowadzi do sytuacji takiej jak w (I). Po nie więcej niż $ n $ takich krokach dostajemy nową bazę (macierz diagonalną), która po zmianie kolejności wektorów (wierszy i kolumn) spełnia tezę Twierdzenia [link] ( [link]).

Warunek Jacobiego

Algorytm Lagrange'a przebiega szczególnie prosto dla macierzy symetrycznych spełniających następujący warunek.

Definicja (#) Macierz symetryczna $ A=[a_{ij}]_{i,j=1}^n $ spełnia warunek Jacobiego, jeśli dla $ k=1,\ldots,n $, \ $ \Delta_k=\det [a_{ij}]_{i,j=1}^k\neq0 $; wyznaczniki $ \Delta_k $ nazywamy minorami wiodącymi macierzy $ A $.
Twierdzenie (#) Jeśli $ A=A^T\in\M{n}{n}{\K} $ jest macierzą symetryczną spełniającą warunek Jacobiego, to istnieje macierz odwracalna $ C $ taka, że iloczyn $ C^TAC $ jest macierzą diagonalną mającą na przekątnej wyrazy $ \Delta_1, \frac{\Delta_2}{\Delta_{1}},\ldots, \frac{\Delta_n}{\Delta_{n-1}} $.
Dowód: Dla macierzy symetrycznej $ A $ spełniającej warunek Jacobiego, w algorytmie Lagrange'a przedstawionym w poprzedniej części, wykonuje się jedynie operacje opisane w (I), bo $ a_{11}=\Delta_1\neq 0 $ i wykonywane w (I) operacje elementarne typu (I)$ _{a(1)+(i)} $ nie zmieniają żadnego z minorów $ \Delta_k $ (działamy tylko pierwszym wierszem lub kolumną na dalsze wiersze lub kolumny). W szczególności $ d_1=\Delta_1 $ i $ \Delta_2=d_1d_2 $, gdzie $ d_2 $ jest wyrazem w lewym górnym rogu macierzy $ A_1 $, co pokazuje, że $ d_2\neq 0 $, więc w kolejnym kroku również można się ograniczyć do zachowujących minory $ \Delta_k $ operacji elementarnych.

Po $ n-1 $ takich krokach dostajemy macierz $ M $ taką, że $ MAM^T $ jest macierzą diagonalną mającą na przekątnej wyrazy $ d_1,d_2,\ldots,d_n $ oraz minory wiodące takie jak odpowiednie minory wiodące macierzy $ A $, a stąd $ \Delta_k=d_1\cdot\ldots\cdot d_k $, czyli $ d_k=\frac{\Delta_k}{\Delta_{k-1}} $, dla $ k>1 $. □

Zauważmy, że w dowodzie założenie $ \Delta_n\neq 0 $ nie było wykorzystywane, więc założenia twierdzenia możemy nieco osłabić, do warunku $ \Delta_k\neq 0 $ dla $ k<n $.

Przestrzenie z formą kwadratową

Wyróżnienie w przestrzeni liniowej $ V $ formy kwadratowej $ Q $ pozwala mówić o ortogonalności wektorów w $ (V,Q) $.

Definicja Niech $ (V,Q) $ będzie przestrzenią liniową nad $ \K $ z wyróżnioną formą kwadratową $ Q:V\to \K $ i niech $ h:V\times V\to \K $ będzie formą biegunową dla $ Q $, $ Q(\al)=h(\al,\al) $. Wektory $ \al,\be\in V $ są ortogonalne, $ \al\perp\be $, jeśli $ Q(\al+\be)=Q(\al)+Q(\be) $ lub równoważnie, jeśli $ h(\al,\be)=0 $, zob.\ Uwaga [link]. Baza $ (\be_1,\ldots,\be_n) $ w przestrzeni $ (V,Q) $ jest ortogonalna jeśli $ \be_i\perp\be_j $ dla $ i\neq j $.

Zgodnie z Twierdzeniem [link], w każdej przestrzeni $ (V,Q) $ istnieje baza ortogonalna.

Definicja Niech $ Q:V\to\K $ będzie formą kwadratową. Mówimy, że wektor $ \al\in V $ jest izotropowy dla $ Q $, jeśli $ Q(\al)=0 $. Anihilatorem formy $ Q $ nazywamy podprzestrzeń liniową $ An(Q)=\set{\al\in V:\al\perp\be \mbox{ dla każdego } \be\in V} $ przestrzeni $ V $.

Zilustrujemy te pojęcia na ważnym przykładzie płaszczyzny Minkowskiego.

Przykład Płaszczyzną Minkowskiego $ (\R^2,x_1^2-x_2^2) $ nazywamy przestrzeń liniową $ \R^2 $ z formą kwadratową $ Q(X)=x_1^2-x_2^2 $ dla $ X=[x_1,x_2]^T $.

Jeśli wektor $ Y=[a,b]^T $ jest taki, że $ Q(Y)=a^2-b^2=1 $, to wektor $ Z=[b,a]^T $ jest ortogonalny do $ Y $ na płaszczyźnie Minkowskiego (bo $ Q(Z)=-1 $, więc $ Q(Y+Z)=(a+b)^2-(a+b)^2=0= Q(Y)+Q(Z) $). Każda taka para $ (Y,Z) $ jest bazą ortogonalną w $ (\R^2,x_1^2-x_2^2) $.

Wektory $ [1,1]^T $, $ [1,-1]^T $ są izotropowe na płaszczyźnie Minkowskiego i rozpinają $ \R^2 $, ale $ An(Q)=\set{\0} $.

Uwaga (#) Jeśli $ (\be_1,\ldots,\be_n) $ jest bazą ortogonalną w przestrzeni $ (V,Q) $, to anihilator $ An(Q) $ jest rozpięty na wektorach izotropowych z tej bazy i $ \dim An(Q)=n-\r(Q) $, bo macierz Grama $ G_h(\be_1,\ldots,\be_n) $ formy biegunowej $ h $ dla $ Q $, jako diagonalna macierz rzędu $ \r(Q) $, ma $ n-\r(Q) $ zerowych wierszy (i kolumn) odpowiadających wektorom izotropowym bazy $ (\be_1,\ldots,\be_n) $ rozpinającym $ An(Q) $.

Twierdzenie Sylvestera o bezwładności

Dla przestrzeni liniowych nad ciałem liczb rzeczywistych wzmocnimy Twierdzenie [link] i uzupełnimy w istotny sposób obserwację z Uwagi [link].

Uwaga (#) W przestrzeni liniowej $ (V,Q) $ nad $ \R $ istnieje baza ortogonalna $ (\ga_1,\ldots,\ga_n) $ taka, że dla $ r=\r(Q) $ i pewnego $ s\leq r $

$ (\ast) $ $ Q(\sum_{j=1}^nz_j\ga_j)=z_1^2+\ldots+z_s^2-z_{s+1}^2-\ldots-z_r^2 $,

tzn.\ diagonalna macierz Grama $ G_h(\ga_1,\ldots,\ga_n) $ formy biegunowej dla $ Q $ ma na przekątnej $ s $ jedynek, $ r-s $ minus jedynek i $ n-r $ zer.

Istotnie, zgodnie z Twierdzeniem [link] i Uwagą [link], istnieje baza ortogonalną $ (\be_1,\ldots,\be_n) $ w $ (V,Q) $ taka, że $ An(Q)=\lin(\be_{r+1},\ldots,\be_n) $. Zmieniając kolejność wektorów $ (\be_1,\ldots,\be_r) $ możemy ponadto założyć, że $ Q(\be_j)>0 $ dla $ j=1,\ldots,s $ i $ Q(\be_j)<0 $ dla $ j=s+1,\ldots,r $.

Z ortogonalności bazy $ (\be_1,\ldots,\be_n) $ wynika, że $ Q(\sum_{j=1}^ny_j\be_j)=\sum_{j=1}^nQ(y_j\be_j)=\sum_{j=1}^ry_j^2Q(\be_j) $. Kładąc $ \ga_j=\frac{1}{\sqrt{|Q(\be_j)|}}\be_j $ dla $ j\leq r $ i $ \ga_j=\be_j $ dla $ j>r $ otrzymujemy bazę ortogonalną $ (\ga_1,\ldots,\ga_n) $ spełniającą $ (\ast) $, bo $ Q(\sum_{j=1}^nz_j\ga_j)= \sum_{j=1}^rQ(z_j\frac{1}{\sqrt{|Q(\be_j)|}}\be_j)+\sum_{j=r+1}^nQ(z_j\be_j)= \sum_{j=1}^rz_j^2\frac{1}{|Q(\be_j)|}Q(\be_j) $.

Pokażemy, że wskaźniki $ s $ i $ r-s $ po prawej stronie wzoru $ (\ast) $ nie zależą od wyboru bazy.

Twierdzenie {\bf(o bezwładności).} (#) Niech $ (V,Q) $ będzie przestrzenią liniową nad $ \R $ z wyróżnioną formą kwadratową. Istnieje wówczas rozkład na sumę prostą $ V=An(Q)\oplus U\oplus W $ taki, że $ Q(\ga)>0 $ dla $ \ga\in U\setminus\set{\0} $, $ Q(\be)<0 $ dla $ \be\in W\setminus\set{\0} $, przy czym wymiary $ s_+(Q)=\dim U $, $ s_-(Q)=\dim W $ nie zależą od wyboru $ U $ i $ W $ w tym rozkładzie.
Dowód: Jeśli $ (\ga_1,\ldots,\ga_n) $, $ r $ i $ s $ są takie jak w Uwadze [link], $ V_+=\lin(\ga_1,\ldots,\ga_s) $, $ V_-=\lin(\ga_{s+1},\ldots,\ga_r) $ oraz $ An(Q)=\lin(\ga_{r+1},\ldots,\ga_n) $, to z $ (\ast) $ mamy

$ (\ast\ast) $ $ Q(\ga)>0 \mbox{ dla } \ga\in V_+\setminus\set{\0} \mbox{ i }  Q(\be)<0 \mbox{ dla } \be\in V_-\setminus\set{\0}, $

co pokazuje, że rozkład $ V=An(Q)\oplus V_+\oplus V_- $ spełnia warunki twierdzenia.

Niech $ V=An(Q)\oplus U\oplus W $ będzie dowolnym rozkładem $ V $ takim, że forma $ Q $ jest dodatnia na $ U\setminus\set{\0} $ i ujemna na $ W\setminus\set{\0} $. Wtedy forma $ Q $ jest niedodatnia na $ An(Q)\oplus W $ (i nieujemna na $ An(Q)\oplus U $), bo dla $ \al+\be\in An(Q)\oplus W $, z $ \al\perp\be $ mamy $ Q(\al+\be)=Q(\al)+Q(\be)\leq 0 $ (i podobnie dla $ \al+\ga\in An(Q)\oplus U $).

Z $ (\ast\ast) $ mamy więc $ V_+\cap (An(Q)\oplus W)=\set{\0} $, co daje $ \dim V_+\leq \dim U $ (i analogicznie, $ \dim V_-\leq \dim W $, bo $ V_-\cap (An(Q)\oplus U)=\set{\0} $), a ponieważ $ \dim V_++\dim V_-=\dim U+\dim W=n-r $, otrzymujemy stąd $ \dim U=\dim V_+ $ oraz $ \dim W=\dim V_- $. □

Twierdzenie o bezwładności pozwala, jak zobaczymy w [link], na prostą klasyfikację macierzy symetrycznych w $ \M{n}{n}{\R} $ z dokładnością do relacji kongruencji.

Definicja Sygnaturą formy kwadratowej nazywa się liczbę $ s(Q)=s_+(Q)-s_-(Q) $.

Zauważmy, że ponieważ $ \r(Q)=s_+(Q)+s_-(Q) $\ ,

$$s_+(Q)=\frac{1}{2}(\r(Q)+s(Q))\ , \quad s_-(Q)=\frac{1}{2}(\r(Q)-s(Q))$$
Uwaga (#) Niech $ J_{s,r}\in\M{n}{n}{\R} $ będzie macierzą diagonalną mającą na przekątnej kolejno $ s $ jedynek, $ r-s $ minus jedynek i $ n-r $ zer. Macierz symetryczna $ A=A^T\in\M{n}{n}{\R} $ jest kongruentna z macierzą $ J_{s,r} $ wtedy i tylko wtedy, gdy dla formy kwadratowej $ Q:\R^n\to \R $ danej wzorem $ Q(X)=X^TAX $ mamy $ r=\r(Q) $ i $ s=s_+(Q) $.

Istotnie, macierz $ A $ jest kongruentna z macierzą $ J_{s,r} $ wtedy i tylko wtedy, gdy istnieje izomorfizm liniowy $ S:\R^n\to\R^n $ taki, że $ Q\circ S(Z)=Z^TJ_{s,r}\,Z $ zob.\ Uwaga [link] (b).

Interpretując $ S^{-1} $ jako układ współrzędnych $ \ta:\R^n\to\R^n $ związany z bazą $ (S(\ep_1),\ldots,S(\ep_n)) $, zob.\ Uwaga [link], widzimy, że jest to równoważne istnieniu opisanej w Uwadze [link] bazy ortogonalnej w przestrzeni $ (\R^n,Q) $. Z definicji sygnatury, istnienie takiej bazy oznacza, że $ \r(Q)=r $ i $ s_+(Q)=s $.

Na zakończenie podamy ważną charakteryzację dodatniej określoności form kwadratowych - kryterium Sylvestera.

Uwaga Niech $ A=A^T\in\M{n}{n}{\R} $, niech $ \Delta_1,\ldots,\Delta_n $ będą minorami wiodącymi macierzy $ A $ (zob.\ [link]) i niech $ Q(X)=X^TAX $.

  • [(a)] Forma kwadratowa $ Q $ jest dodatnio określona, tzn.\ ma sygnaturę $ s(Q)=n $, wtedy i tylko wtedy, gdy wszystkie minory $ \Delta_j $ są dodatnie i wówczas forma biegunowa dla $ Q $, $ h(X,Y)=X^TAY $ jest iloczynem skalarnym w $ \R^n $.
  • [(b)] Forma kwadratowa $ Q $ jest ujemnie określona, tzn.\ ma sygnaturę $ s(Q)=-n $, wtedy i tylko wtedy, gdy $ (-1)^j\Delta_j>0 $ dla $ j=1,2,\ldots $\,.

Istotnie, jeśli forma $ Q $ jest dodatnio określona, to forma biegunowa $ h(X,Y)=X^TAY $ jest iloczynem skalarnym, więc wszystkie minory $ \Delta_j $ są dodatnie jako wyznaczniki macierzy Grama $ G_h(\ep_1,\ldots,\ep_j) $, zob.\ Twierdzenie [link]. Jeśli forma $ Q $ jest ujemnie określona, to $ -h $ jest iloczynem skalarnym, więc wszystkie minory wiodące macierzy $ -A $ są dodatnie. Implikacje odwrotne wynikają z Twierdzenia [link].