SI5301_w4.pdf
(
119 KB
)
Pobierz
QPrint
Wykþad 4. Ukryte modele Markowa (HMM Î Hidden Markov Model)
Wspþczesne systemy rozpoznawania mowy opierajĢ siħ na zaþoŇeniu, Ňe mowa jest sekwen-
cjĢ pewnych elementarnych dyskretnych jednostek (tzw. jednostek fonetycznych). W zaleŇnoĻci od
przeznaczenia systemu jako jednostki fonetyczne moŇna przyjĢę: sþowa, sylaby, fonemy (ewentu-
alnie trifony lub diafony
1
). Proces generowania sþowa áAlaÑ oraz jego identyfikacji przedstawia
poniŇszy rysunek:
wektor cech:
w
1
w
2
w
3
w
4
w
5
w
6
w
7
w
8
w
9
w
10
w
11
w
12
w
13
w
14
w
15
jednostki:
a
l
a
DysponujĢc ciĢgiem dyskretnych obrazw akustycznych (wektorw cech) nie jesteĻmy w sta-
nie przyporzĢdkowaę mu jednoznacznej sekwencji jednostek mowy. RozwiĢzaniem tego problemu
moŇe byę zastosowanie ukrytych modelu Markowa (HMM). Proces rozpoznawana mowy za
pomocĢ HMM przedstawia poniŇszy schemat:
Diafon (difon, tranzem) Î para fonemw, przejĻcie miħdzy fonemami
1
Realizacjħ systemu automatycznego rozpoznawania mowy moŇna podzielię na dwie fazy:
- uczenie (trening), ktre polega na estymacji parametrw zbioru modeli HMM za pomocĢ
wypowiedzi uczĢcych,
- rozpoznanie, ktre polega na wyznaczeniu transkrypcji fonetycznej (ewentualnie gramatycznej)
nieznanych, rozpoznawanych wypowiedzi.
Ukryte modele Markowa sĢ statystycznĢ metodĢ klasyfikacji sekwencji zdarzeı. Do celw
rozpoznawania mowy po raz pierwszy zostaþy uŇyte przez Bakera, Jelinka i Levinsona (firma IBM)
w poþowie lat siedemdziesiĢtych. W metodzie tej sygnaþ mowy traktowany jest jako ciĢg kolejnych
wektorw parametrw okreĻlanych w krtkich odcinkach czasu (np. ramkach trwajĢcych 10 Î 30
ms). Zakþada siħ, Ňe sygnaþ mowy w czasie odpowiadajĢcym dþugoĻci ramki jest stacjonarny.
Rozpoznawany fragment mowy np. sþowo moŇna wwczas przedstawię jako ciĢg T obserwacji:
O = O
1
, O
2
, ... , O
T
Dla kaŇdej klasy rozpoznawanych sygnaþw mowy naleŇy utworzyę oddzielny model. Rozpoznanie
polega wwczas na dopasowaniu analizowanego ciĢgu do zapamiħtanych ciĢgw wzorcowych.
KaŇdy model (ciĢg wzorcowy) jest automatem skoıczonym posiadajĢcym N stanw:
Q = {q
1
, q
2
, ... ,q
N
}
Automat skoıczony reprezentujĢcy HMM definiuje siħ jako
= <, A, B>, gdzie:
= [
1
,
2
, ... ,
N
] opisuje rozkþad prawdopodobieıstw znalezienia siħ w stanie q
i
w chwili t = 0,
A = [a
ij
] (i,j =1.. N) jest macierzĢ opisujĢcĢ prawdopodobieıstwa przejĻę miħdzy stanami,
B = [b
i
(o
j
)] (i = 1.. N, j = 1.. M ; M Î liczba moŇliwych zdarzeı generowanych przez dany stan)
jest macierzĢ opisujĢcĢ prawdopodobieıstwa pojawienia siħ j-tej obserwacji w stanie q
i
:
b
i
(o
j
) = P(o
j
| q
i
)
PoniŇszy rysunek przedstawia przykþadowy automat o dwch stanach reprezentujĢcy model pew-
nego sþowa:
0,6
1,0
A
0,4
B
A
= 0,9
b
A
(O
1
) = 0,8
b
A
(O
2
) = 0,2
B
= 0,1
b
B
(O
1
) = 0,0
b
B
(O
2
) = 1,0
2
Tworzenie systemu automatycznego rozpoznawania mowy obejmuje nastħpujĢce etapy:
- przygotowanie danych (tworzenie plikw transkrypcyjnych, kodowanie danych, budowa sþowni-
ka, zdefiniowanie gramatyki),
- tworzenie ukrytych modeli Markowa (zdefiniowanie poczĢtkowych modeli, estymacja ostatecz-
nych modeli),
- opracowanie procedury rozpoznawania (np. rozpoznawanie jednostek izolowanych),
- weryfikacja i testowanie systemu (rozpoznawanie danych testowych np. wykorzystanych w proce-
sie uczenia, praca w czasie rzeczywistym).
Postaę zbioru uczĢcego, gdy modele tworzone sĢ na poziomie sþw przedstawia rysunek:
zero
1
zero
2
zero
3
jeden
1
jeden
2
jeden
3
jeden
4
jeden
5
dwa
1
dwa
2
dwa
3
dwa
4
...
M
0
M
1
M
2
Poszczeglne wypowiedzi naleŇĢce do zbioru uczĢcego zapisywane sĢ w oddzielnych plikach (np.
rozszerzenie .wav). Dla kaŇdego pliku dŅwiħkowego naleŇy podaę postaę tekstowĢ wypowiedzi
(pliki .txt). Dodatkowo, dla wszystkich zarejestrowanych wypowiedzi naleŇy podaę ich transkry-
pcje fonetyczne (ewentualnie gramatyczne). Transkrypcjħ fonetycznĢ tworzĢ ciĢgi fonemw:
Dla nielicznego zbioru uczĢcego transkrypcje fonetyczne moŇna wyznaczyę rħcznie. NajczħĻciej
jednak (szczeglnie w przypadku duŇych zbiorw) transkrypcje fonetyczne uzyskuje siħ automa-
tycznie: na podstawie plikw tekstowych oraz sþownika wymowy danego jħzyka.
3
Transkrypcje gramatyczne sĢ wykorzystywane, gdy wypowiedŅ jest zþoŇona z kilku wyrazw (sĢ
opisem wystħpujĢcych w wypowiedzi wyrazw). Przykþad gramatyki zdefiniowanej dla systemu
sterowania robotem za pomocĢ gþosu przedstawia rysunek:
Sygnaþ mowy powinien zostaę poddany rwnieŇ segmentacji (indeksacji). Proces ten polega
na okreĻleniu momentw rozpoczħcia i zakoıczenia siħ poszczeglnych jednostek fonetycznych
tworzĢcych danĢ wypowiedŅ (zgodnie z transkrypcjĢ fonetycznĢ). Segmentacja moŇe byę przepro-
wadzona rħcznie lub automatycznie.
Przed rozpoczħciem procesu tworzenia modeli HMM naleŇy dokonaę ekstrakcji charaktery-
styk (parametrw) z sygnaþw mowy (np. opis sygnaþu mowy za pomocĢ wspþczynnikw LPC,
MCCC).
Ukryte modele Markowa HMM tworzone sĢ dla wszystkich wyrŇnionych jednostek fonety-
cznych (sþw, fonemw, trifonw itd.). Wymaga to wykonania dla kaŇdego modelu nastħpujĢcych
operacji:
- okreĻlenia zþoŇonoĻci modelu (liczby stanw modelu),
- estymacji wartoĻci parametrw modelu w procesie uczenia.
Proces uczenia polega na wyznaczeniu elementw macierzy A, wektora prawdopodobieıstw poczĢ-
tkowych oraz wektora rozkþadw wyjĻciowych B = [B
i
(O
t
)]. Jest to proces zþoŇony i przebiega w
4
kilku etapach (wyznaczenie poczĢtkowych wartoĻci parametrw, reestymacja parametrw). Do
tworzenia modeli wykorzystywane sĢ nastħpujĢce algorytmy:
- algorytm Viterbiego,
- algorytm Baum-Welcha,
- algorytm áembedded trainingÑ.
Problemy z utworzeniem odpowiednich modeli HMM wynikajĢ z nastħpujĢcych czynnikw:
- segmentacja sygnaþu mowy (podziaþ na staþe odcinki czasowe nie jest najlepszym rozwiĢzaniem,
stĢd stosuje siħ algorytmy automatycznej segmentacji, ktrych celem jest maksymalizacja
prawdopodobieıstwa wygenerowania danej obserwacji dla danego modelu HMM),
- koniecznoĻę kwantyzacji wektorowej obserwacji (oszacowanie prawdopodobieıstw wystħpo-
wania dowolnej obserwacji w dowolnym stanie jest praktycznie nie realizowalne).
Rozpoznanie polega na stwierdzeniu, ktry model do danego ciĢgu wejĻciowego. Jest to ten model,
ktry posiada najwiħksze prawdopodobieıstwo wygenerowania danego ciĢgu zdarzeı.
Obliczenie prawdopodobieıstwa jest procedurĢ iteracyjnĢ:
1
(i) =
1
b
i
(O
1
)
1
N
t+1
(j) = [
t
( )
i a
ij
] b
j
(O
t+1
)
i
=
Przykþad
Rozpatrzmy dwustanowy model sþowa o stanach q
1
= A i q
2
= B o parametrach jak na rysunku:
0,6
1,0
0,4
A
B
A
= 0,9
b
A
(O
1
) = 0,8
b
A
(O
2
) = 0,2
B
= 0,1
b
B
(O
1
) = 0,0
b
B
(O
2
) = 1,0
Dany jest ciĢg obserwacji O = {O
2
, O
2
, O
2
}. Obliczyę prawdopodobieıstwo wystĢpienia takiej
obserwacji w powyŇszym modelu.
Metoda 1:
MoŇliwe 3-elementowe sekwencje stanw to: AAA, AAB, ABB, BBB. Prawdopodobieıstwa ich
wystĢpienia wynoszĢ odpowiednio:
5
Plik z chomika:
xyzgeo
Inne pliki z tego folderu:
hmm (2).pdf
(504 KB)
Ewolucyjne_Metory_Uczenia_Ukrytych_Modeli_Markowa (1).pdf
(577 KB)
B2_07-HMM.pdf
(249 KB)
Rozprawa_FaMar.pdf
(11572 KB)
walsh(1).pdf
(254 KB)
Inne foldery tego chomika:
sieci neuronowe
sztuczna inteligencja
Zgłoś jeśli
naruszono regulamin