c3.pdf

wiczenia 3

Klasyﬁkacja metod¡ k-NN (k-Nearest Neighbours)

1. Generujemy system decyzyjny testowy i treningowy za pomoc¡ programu

ds generatorTT.exe.

2. Otrzymany system testowy klasyﬁkujemy metod¡ 2-NN (w konceptach decy-

zyjnych) za pomoc¡ systemu treningowego stosuj¡c metryki,

a) Euklidesa (szczególny przypadek metryki Minkowskiego z pot¦g¡ 2)

b) Canberra

c) Czebyszewa

d) Manhattan

e) Bezwzgl¦dny współczynnik korelacji Pearsona

3. Tworzymy Confusion Matrix (na wzór RSESowej tabeli wyników klasyﬁkacji)

dla zbadanych metryk, zawieraj¡ce informacje o przeprowadzonej klasyﬁkacji.

4. Na koniec tworzymy ranking wyników, wypisuj¡c wyniki od metryki daj¡cej

najlepsze rezultaty do metryki najmniej skutecznej.

Preferowan¡ form¡ rozwi¡zania jest implementacja w dowolnym j¦zyku pro-

gramowania.

Podstawowa teoria do ¢wiczenia

• Dla danego systemu testowy ( X,A,c ) i treningowego ( Y,A,c ), gdzie X,Y to od-

powiednio uniwersum obiektów testowych i treningowych, A = ( a 1 ,a 2 ,...,a n ) jest

zbiorem atrybutów warunkowych, c 2 D = { c 1 ,c 2 ,...,c m } jest atrybutem decyzyj-

nym.

Dla obiektów x 2 X,y 2 Y postaci,

x = a 1 ( x ) a 2 ( x ) ...a n ( x ) c ( x )

y = a 1 ( y ) a 2 ( y ) ...a n ( y ) c ( y )

zdeﬁniujmy podstawowe metryki,

Metryka Euklidesa jest deﬁniowana nast¦puj¡co,

d ( x,y ) =

( a 1 ( x ) − a 1 ( y )) 2 + ( a 2 ( x ) − a 2 ( y )) 2 + ... + ( a n ( x ) − a n ( y )) 2

czyli zapisuj¡c ogólnie:

v u u t

n X

d ( x,y ) =

( a i ( x ) − a i ( y )) 2

i =1

Metryka Canberra jest postaci,

n X

| a i ( x ) − a i ( y )

a i ( x ) + a i ( y ) |

Metryka Czebyszewa okre±lana jest wzorem,

d ( x,y ) =

i =1

d ( x,y ) = max ( | a i ( x ) − a i ( y ) | ) ,dlai = 1 , 2 ,...,n

Metryka Manhattan przedstawia si¦ nast¦puj¡co,

n X

d ( x,y ) =

| a i ( x ) − a i ( y ) |

i =1

Bezwzgl¦dny współczynnik korelacji Pearsona mo»e by¢ u»ywany w poni»szy

sposób,

d ( x,y ) = 1 −| r x,y |

n X

( a i ( x ) − x

P n i =1 ( a i ( x ) − x ) 2 )( a i ( y ) − y

r x,y =

P n i =1 ( a i ( y ) − y ) 2 )

q 1

i =1

n X

x =

a i ( x ) ,y =

a i ( y )

i =1

Procedura algorytmu k-NN w konceptach decyzyjnych

• Wczytujemy system testowy ( X,A,c ) i treningowy ( Y,A,c ), gdzie X,Y to od-

powiednio uniwersum obiektów testowych i treningowych, A = ( a 1 ,a 2 ,...,a n ) jest

zbiorem atrybutów warunkowych, c 2 D = { c 1 ,c 2 ,...,c m } jest atrybutem decyzyj-

nym.

• Ustalamy metryk¦ d liczenia odległo±ci mi¦dzy obiektami, oraz ilo±¢ najbli»szych

s¡siadów decyduj¡cych o klasyﬁkacji k ,

• Klasyﬁkujemy wszystkie obiekty testowe za pomoc¡ k najbli»szych obiektów, ka»-

dej z klas systemu treningowego, (decyzj¦ przekazuje klasa, której obiekty s¡ najbli-

»ej testowego w sensie metryki d ),

• Po zako«czeniu klasyﬁkacji, tworzymy Confusion Matrix, zawieraj¡c¡ informa-

cje o jako±ci klasyﬁkacji systemu testowego X :

Na wzór parametrów jako±ci klasyﬁkacji u»ywanych w ¢wiczeniu 2, do Confusion

Matrix wpisujemy warto±ci

Dla 8 c 2 D

acc c = ilo ±¢ obiekt ó wpoprawniesklasyfikowanychwkoncepciedecyzyjnymc

ilo ±¢ obiekt ó wchwyconychwkoncepciec

cov c = ilo ±¢ obiekt ó wchwyconychwkoncepciec

ilo ±¢ obiekt ó wkonceptuc

x + ilo ±¢ obiekt ó wzpozosta ł ychklasb ł¦ dnietrafiaj ¡ cychdoklasyc

TPR c =

przyjmujemy, »e x = ilo ±¢ obiekt ó wpoprawniesklasyfikowanychwkoncepciedecyzyjnymc

Ostatecznie wyliczamy warto±ci globalne, które umieszczamy pod Confusion Ma-

trix,

acc global = ilo ±¢ obiekt ó wpoprawniesklasyfikowanychwca ł ymsystemieTST

ilo ±¢ obiekt ó wchwyconychwsystemieTST

cov global = ilo ±¢ obiekt ó wchwyconychwca ł ymsystemieTST

ilo ±¢ obiekt ó wsystemuTST

Przykładowa klasyﬁkacja 2-NN

Wczytujemy sytem testowy postaci,

Tab ela 1: System Testowy ( X, A,c )

a 1 a 2 a 3 a 4 c

x 1 2

x 2 1

x 3 9

x 4 4

oraz system treningowy

Tabel a 2: System Treningowy ( Y ,A,c )

a 1 a 2 a 3 a 4 c

y 1 1

y 2 10

y 3 2

y 4 10

y 5 3

y 6 2

Ustalmy k =2 i d jako metryk¦ Euklidesa

Metryka Euklidesa działa nast¦puj¡co, dla obiektów

x = a 1 ( x ) a 2 ( x ) ...a n ( x ) c ( x )

y = a 1 ( y ) a 2 ( y ) ...a n ( y ) c ( y )

d ( x,y ) =

( a 1 ( x ) − a 1 ( y )) 2 + ( a 2 ( x ) − a 2 ( y )) 2 + ... + ( a n ( x ) − a n ( y )) 2

czyli zapisuj¡c ogólnie:

v u u t

n X

d ( x,y ) =

( a i ( x ) − a i ( y )) 2

i =1

Przechodzimy do klasyﬁkacji obiektów testowych:

Dla x 1 2 4 2 1 4

d ( x 1 ,y 1) =

(2 − 1) 2 + (4 − 3) 2 + (2 − 1) 2 + (1 − 1) 2 =

d ( x 1 ,y 2) = p 6 5

d ( x 1 ,y 3) =

d ( x 1 ,y 4) =

1 14

d ( x 1 ,y 5) = p 3

d ( x 1 ,y 6) =

Dwóch najbli»szych s¡sia dó w o bi ektu testowego x 1 w koncepcie 2 to y 3 ,y 1

Klasa 2 głosuje z moc¡ p 2 + p 3

Najbli»szymi s¡siadami x 1 w kl as ie decyzyjnej 4 s¡ y 6 ,y 5

K la sa 4 g łosuj e z m oc ¡ p 2 + p 3

2 +

St¡d obiekt x 1 nie jest chwytany, nie jeste±my w stanie powiedzie¢, która klasa jest

bli»ej w sensie dwóch najbli»szych s¡siadów.

2 +

3 =

Dla x 2 1 2 1 1 2

d ( x 2 ,y 1) = 1

d ( x 2 ,y 2) =

8 4

d ( x 2 ,y 3) = p 2

d ( x 2 ,y 4) =

16 6

d ( x 2 ,y 5) =

1 5

d ( x 2 ,y 6) =

Klasa 2 głosuje z moc¡ 1 + p 2

Klasa 4 gło su je z mo c¡

2 +

1 + p 2 < p 2 + p 15

Obiekt x 2 dostaje decyzj¦ 2, jest poprawnie sklasyﬁkowany.

Dla x 3 9 7 10 7 4

d ( x 3 ,y 1) =

197

d ( x 3 ,y 2) =

117

d ( x 3 ,y 3) = p 18 2

d ( x 3 ,y 4) =

d ( x 3 ,y 5) = p 129

d ( x 3 ,y 6) =

182

Klasa 2 głosuje z moc¡

11 7 +

182

K las a 4 głosu je z mo c¡ p 50 + p 129

182

Obiekt x 3 dostaje decyzj¦ 4, jest poprawnie sklasyﬁkowany.

50 +

129 <

117 +

Dla x 4 4 4 10 10 2

d ( x 4 ,y 1) =

172

d ( x 4 ,y 2) = p 182

d ( x 4 ,y 3) =

167

d ( x 4 ,y 4) = p 151

d ( x 4 ,y 5) =

130

d ( x 4 ,y 6) =

167

Klasa 2 głosuje z moc¡

167 +

172

K lasa 4 gł osu je z moc ¡ p 1 30 + p 151

172

Obiekt x 4 dostaje decyzj¦ 4, jest bł¦dnie sklasyﬁkowany.

130 +

151 <

167 +

Podsumowuj¡c klasyﬁkacj¦:

Obiekt x 1 nie jest chwytany

Obiekt x 2 dostaje decyzj¦ 2, jest poprawnie sklasyﬁkowany

Obiekt x 3 dostaje decyzj¦ 4, jest poprawnie sklasyﬁkowany

Obiekt x 4 dostaje decyzj¦ 4, jest bł¦dnie sklasyﬁkowany.

Confusion Matrix jest postaci:

Tabela 3: Confusion Matrix

4 No.ofobj.AccuracyCoverage

0 . 5

1 . 0

0 . 5

TruePositiveRate 1 . 0

0 . 5

Dodatkowe pytanie

• Jak powinna wygl¡da¢ obsługa bł¦dów metody k-NN, czyli jakie ograniczenia

wprowadzanych danych mo»emy napotka¢?

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: