2011-01-15 22;01;22.PDF

(2584 KB) Pobierz
657558560 UNPDF
266
Analiza regresji i korelacji
Analiza, regresji i korelacji
jako parametry dwuwymiarowego rozkładu normalnego, obliczamy warto-
ści ich estymatorów, posługując się metodą tzw. najmniejszych kwadratów.
Przed przystąpieniem do wykonania odpowiednich obliczeń korzystnie
jest sporządzić „wykres korelacyjny". Wykonujemy go w ten sposób, że na
prostokątny układ współrzędnych X,Y nanosimy punkty eksperymental-
ne, których współrzędne odpowiadają odpowiednim wartościom ^ i y i ;
zmierzonym na kolejnych elementach próby losowej (i = l, . . . ,n). Kształt
uzyskanego w ten sposób układu punktów, tzw. chmury punktów, może
stanowić przesłankę dotyczącą zasadności wykonania obliczeń regresyj-
nych. Jeżeli chmura punktów ma kształt zbliżony do przedstawionego na
rycinie 7.la, wówczas przeprowadzenie obliczeń wydaje się uzasadnione,
natomiast w przypadku ukazanym na rycinie 7.1b odstąpienie od rachun-
ków nie powinno budzić zastrzeżeń.
3.5 — —-
7.1.1. Estymacja współczynnika korelacji
Estymatorem zgodnym współczynnika korelacji p (wzór 3.149), mierzą-
cego siłę zależności pomiędzy dwiema rozważanymi cechami, jest wartość
statystyki:
a
3.5 — ~
: b
.
zwana współczynnikiem korelacji z próby i obliczana na podstawie n par
wartości (x it y t ) obserwowanych w tej próbie.
Podobnie jak sam współczynnik korelacji p, tak i jego estymator r przyj-
muje wartości z przedziału [-1, 1], przy czym im bliższa jedności jest war-
tość bezwzględna tego estymatora, tym korelację uznaje się za silniejszą.
Wartość bezwzględna r bliska zeru wskazuje na potencjalny brak
zależności pomiędzy badanymi cechami. O korelacji ujemnej mówimy, gdy
r<0, jeśli natomiast r>0, korelacja jest dodatnia.
Określenie „korelacja silna" bądź „słaba"uznaje się jedynie za orien-
tacyjne, nie ma bowiem wartości granicznej „górnej", po przekroczeniu
której korelację nazywa się silną, i „dolnej", poniżej której korelacja jest
słaba. Unikając tych pojęć, usiłujemy udzielić odpowiedzi na pytanie, czy
korelacja istnieje, a więc czy istotnie różni się od zera?
3.0
3.0
2.5
2.5 -\
2.0
2.0 :
1.5
1.5
1.0
1.0
0.5
0.5-
0.0
0.0 -
O
7.1.2. Test istotności dla współczynnika korelacji
O
4
6
8
10
4
6
10
X
X
Zakładamy, że dwuwymiarowy rozkład analizowanych cech mierzal-
nych X i Y jest rozkładem normalnym lub do niego zbliżonym. Z badanej
populacji losujemy n -elementową próbę, otrzymując wyniki x j ) y ; (i=l, . . . ,
n), na podstawie których weryfikujemy hipotezę H 0 : p =0 (korelacja nie
istnieje) wobec hipotezy alternatywnej H t : p ^0 (korelacja istnieje).
Po obliczeniu wartości współczynnika korelacji z próby r, według wzoru
(6.1), przystępujemy do wyznaczenia wartości statystyki t zgodnie ze
wzorem:
Ryć. 7.1. Wykresy korelacyjne: a - kształt chmury punktów uzasadniający
przeprowadzenie obliczeń regresyjnych; b - kształt chmury punktów
wskazujący na brak zależności między badanymi zmiennymi
Po sporządzeniu wykresu korelacyjnego i podjęciu decyzji o przystą-
pieniu do obliczeń w pierwszej kolejności estymuje się współczynnik
korelacji, a po zweryfikowaniu hipotezy, że badana korelacja różni się
istotnie od zera (istnieje), stosuje się metodę najmniejszych kwadratów dla
wyznaczenia współczynników funkcji regresji.
(7.2)
657558560.001.png
Analiza regresji i korelacji
Analiza regresji i korelacji
269
która ma przy założeniu prawdziwości hipotezy zerowej rozkład t Studenta
o liczbie stopni swobody równej n-2. Tak jak w każdym z omówipnych
dotąd testów wykorzystujących statystykę t Studenta, oprócz hipotezy
alternatywnej w postaci wymuszającej dwustronny obszar krytyczny,
możliwe jest przyjęcie hipotezy H„ przy której obszar krytyczny będzie
lewostronny (H, : p<0) bądź prawostronny (H,: p>0). W zależności od
postaci hipotezy alternatywnej wyznacza się prawdopodobieństwo p (jak
we wspomnianych testach), a porównując z wartością poziomu istotności a
(przyjętą z góry) odrzuca się, bądź stwierdza brak podstaw do odrzucenia
hipotezy H 0 . Tak wiec, jeżeli zajdzie relacja p>a, to nie oddalimy hipotezy
o braku korelacji pomiędzy badanymi cechami mierzalnymi, natomiast w
przypadku przeciwnym (p <_a ) przyjmiemy, że korelacja jest istotna.
po przyrównaniu uzyskanych pochodnych cząstkowych do zera - rozwią-
zanie układu dwóch równań liniowych ze względu na a i 6.
Tak więc obliczamy pochodne cząstkowe dS/da i dS/db, otrzymując:
(7.4)
i=l
z kolei przyrównując prawe strony do zera, dzieląc obustronnie przez 2
oraz przechodząc znakiem sumy przez wyrażenia zawarte w nawiasach,
uzyskujemy układ dwóch równań liniowych:
Zy,. Xl -a,Ix, 2 -b.£x,=0
«'=!
i-l
i»l
(7.5)
n r.
Zy,-a-£x,--n-b = 0
7.1.3. Estymacja liniowej funkcji regresji
Omawiając w punkcie 3.7.2 zagadnienie regresji pierwszego rodzaju
wskazano, że w przypadku, gdy dwuwymiarowy rozkład badanych cech jest
rozkładem normalnym, wtedy funkcja regresji ma postać liniową (3.130).
W praktyce jednak, wobec braku informacji o postaci funkcyjnej dwuwy-
miarowego rozkładu badanych cech, obydwa parametry liniowej funkcji
regresji (3.130) a i /? zastępuje się ich estymatorami, których wartości
wyznaczamy za pomocą metody najmniejszych kwadratów. Postulat
(3.131) przyjmuje wtedy postać:
Jeżeli w drugim równaniu układu (7.5) podzielimy obie strony przez n,
a do obydwu dodamy b, otrzymujemy:
o = f 2.y.-oj Ix, -=y-a-x
1=1
1=1
(7.6)
które wstawiamy do równania pierwszego, z którego po odpowiednich
prze- kształceniach otrzymujemy:
a =
Ż x l y, -njcy
(7.7)
S=£(y r a-x,-b) 2 =min
(7.3)
gdzie: a i b są estymatorami rzeczywistych współczynników regresji,
natomiast x i oraz y t stanowią wartości obydwu zmiennych dla kolejnych
elementów próby losowej.
Wartość S sumy kwadratów odchyleń prostej regresji drugiego rodzaju
od współrzędnych y ; we wzorze (7.3) jest funkcją a i 6, a nie - jak mogłoby
się wydawać - x : i y { . Metoda najmniejszych kwadratów polega na takim
wyznaczeniu wartości estymatorów a i b, aby suma S uzyskała minimum.
Cel ten można osiągnąć poprzez zróżniczkowanie S po a i 6, a następnie -
Estymując współczynniki regresji, najpierw obliczamy wartość esty-
matora współczynnika kierunkowego a (7.7), a po wstawieniu go do wzoru
(7.6) wartość estymatora drugiego współczynnika równania 6 (rzędna
początkowa), co w konsekwencji prowadzi do równania:
y = a-x + b
(7.8)
Dysponując współczynnikami regresji y względem x, możemy uzupełnić
wykres korelacyjny prostą regresji. Jak wiadomo, każdą prostą wyznaczają
1=1
657558560.002.png
Analiza regresji i korelacji
jednoznacznie 2 punkty. W przypadku prostej regresji niezbędne 2 punkty
' -* *-- _1_1-^.„^V^
mamy natychmiast po zakończeniu obliczeń.
aliry ilclbjŁ-mŁiiŁ*^* r v
Zauważmy, przekształcając wzór (7.6) do postaci:
hipotezy alternatywnej H, :a#a c (H, :a<a 0 lub H, :a>a 0 ). W przypadku
szczególnym, gdy a a =0, weryfikuje się hipotezę o braku zależności pomię-
dzy zmiennymi X i Y (prosta regresji jest równoległa do osi x).
Przebieg testu jest następujący. Na podstawie wyników /z-elementowej
próby (par *,., y J oblicza się wartość statystyki t zgodnie ze wzorem:
y = a -x + b
(7.9)
że punkt o współrzędnych ( x,y ) spełnia równanie prostej regresji, a wiec
przechodzi ona przez ten punkt. Fakt ten sygnalizowano już omawiając
regresję pierszego rodzaju (pkt 3.7.2). Drugi punkt leżący na prostej
regresji ma oczywiście współrzędne (O, 6). Nie zawsze jednak można go
wykorzystać. Czasem wykres korelacyjny wykonujemy dla zakresu zmien-
nej X, znacznie oddalonego od wartości 0. Wtedy oś rzędnych nie prze-
chodzi na wykresie korelacyjnym przez punkt, którego współrzędna x=0,
a co za tym idzie punkt (O, b) leży poza obszarem wykresu. W takiej sytu-
acji wybieramy jeden ze skrajnych - ze względu na współrzędną x - pun-
któw eksperymentalnych i wstawiając tę wartość do równania regresji (7.8)
obliczamy współrzędną y tego punktu. Teraz, mając dwa punkty, można
wykreślić linię regresji i wizualnie ocenić jakość jej dopasowania do
chmury punktów eksperymentalnych.
(7.10)
gdzie:
a - wartość estymatora współczynnika kierunkowego prostej regresji
obliczona za pomocą wzoru (7.7),
a 0 - wartość hipotetycznego współczynnika kierunkowego,
s r - odchylenie przeciętne od prostej regresji (tzw. odchylenie reszto-
we) obliczone według wzoru:
=^ i (y. -j-) 2
(7.11)
£ i=l
Statystyka t ma przy założeniu prawdziwości hipotezy zerowej rozkład
t Studenta o n-2 stopniach swobody. Aby zweryfikować hipotezę zerową,
ustala się prawdopodobieństwo p na analogicznych zasadach, jak w przy-
padku testu t dla współczynnika korelacji (pkt 7.1.2).
Można wykazać, dokonując odpowiednich przekształceń wzoru (7.11),
że w przypadku, w którym a 0 =0, wartość statystyki t w. teście istotności
dla współczynnika kierunkowego prostej regresji jest tożsamościowe równa
wartości statystyki t, obliczanej w ramach testu dla współczynnika kore-
lacji. Tak więc, jeżeli wcześniej przeprowadzono weryfikację hipotezy
o braku korelacji, wówczas weryfikowanie hipotezy o zerowym nachyleniu
prostej regresji jest zbędne.
7.1.4. Test istotności dla współczynnika kierunkowego prostej
regresji
Po naniesieniu prostej regresji na wykres korelacyjny można zadać
sobie pytanie, czy jej nachylenie w stosunku do osi x jest istotnie różne
(większe, mniejsze) od zera? Podstawą takiej oceny nie może być kąt
zawarty pomiędzy prostą regresji a osią x, ponieważ zależy on od skali
rysunku i jednostek, w jakich mierzy się obydwie zmienne X, Y. Pytanie
o istotność nachylenia prostej regresji, jest w gruncie rzeczy pytaniem o to,
czy regresja w ogóle istnieje, czy też jest to prosta równoległa do osi x, co
oznacza, że zmienna Y nie zależy od zmiennej X. Na tak postawione
pytanie można udzielić odpowiedzi po zastosowaniu testu istotności dla
7.1.5. Przedział ufności dla współczynnika kierunkowego prostej
regresji
współczynnika kierunkowego regresji.
Test ten polega na zweryfikowaniu hipotezy zerowej H 0 : a= a 0 , gdzie c„
jest hipotetycznym współczynnikiem kierunkowym prostej regresji, wobec
Po wykazaniu, że prosta regresji ma nachylenie istotnie różne, większe
lub mniejsze od zera (regresja istnieje), można dokonać obliczeń zwiążą-
• ;K
.:V„
657558560.003.png
Zgłoś jeśli naruszono regulamin