16_19.pdf

(83 KB) Pobierz
Cyfrowe formaty fonii. Więcej dźwięków z komputera
P R O J E K T Y Z A G R A N I C Z N E
Cyfrowe formaty fonii
Więcej dźwięków z komputera
W†ci¹gu kilku ostatnich
lat komputer zmieni³ siÍ
z†procesora tekstu/grafiki
w†uniwersalne urz¹dzenie
odpowiednie, miÍdzy innymi,
do zapisywania i†odtwarzania
sygna³Ûw fonii i†wizji.
W†szczegÛlnoúci,
w†odniesieniu do reprodukcji
fonii powsta³o wiele rÛønych
formatÛw. Niniejszy artyku³
opisuje najwaøniejsze z†nich
w†skrÛcie, a†obecnie
popularny MP3
w†szczegÛ³ach.
Dziú komputer bez düwiÍku jest
rzadkoúci¹. Czy bÍdzie to wyrafi-
nowana gra komputerowa czy pros-
te piski ostrzegawcze towarzysz¹ce
rozmaitym komendom, düwiÍk jest
nieodzowny. DüwiÍk sta³ siÍ waøny
nawet dla uøytkownikÛw Interne-
tu. Obecnie moøesz s³uchaÊ roz-
g³oúni radiowych lub ³adowaÊ mu-
zykÍ za poúrednictwem sieci.
W†wyniku wszystkich tych moøli-
wych zastosowaÒ i†rÛønorodnoúci
typÛw komputerÛw, jakie pojawi³y
siÍ w†ci¹gu minionych mniej wiÍ-
cej dziesiÍciu lat, powsta³a mno-
goúÊ formatÛw plikÛw do przecho-
wywania sygna³Ûw fonii.
miÍci: oko³o 1MB na kaøde szeúÊ
sekund düwiÍku o†jakoúci CD.
Istnieje kilka sposobÛw ogranicza-
nia wymaganej pamiÍci. Jednym
z†nich jest obniøenie czÍstotliwoú-
ci prÛbkowania z†44,1kHz do, po-
wiedzmy, 10kHz, co zmniejsza
szerokoúÊ pasma. Innym jest re-
jestrowanie sygna³u w†formacie
monofonicznym zamiast stereofo-
nicznym, co niestety takøe pogar-
sza jakoúÊ. Trzecim jest obniøenie
rozdzielczoúci z†16 bitÛw do, po-
wiedzmy, 8†bitÛw, co powoduje
pogorszenie stosunku sygna³u do
szumÛw i†zwiÍkszenia zniekszta³-
ceÒ. A†czwart¹, szeroko stosowa-
n¹ metod¹ jest kompresja sygna³u
w†trakcie zapisu i†dekompresja
w†trakcie odtwarzania.
Niemal kaødy system kompu-
terowy (Atari, Unix, Intel i†tak
dalej) ma swÛj w³asny specyficz-
ny format plikÛw, co spowodowa-
³o pewne zamieszanie, jak to
istniej¹ce w†przypadku formatÛw
graficznych. Moøna powiedzieÊ,
øe istnieje osza³amiaj¹ca mnogoúÊ
formatÛw, co nie pomaga uøyt-
kownikowi. W† tab. 1 zawarto prze-
gl¹d najczÍúciej spotykanych for-
matÛw kodowania fonii wraz z†ich
krÛtkim opisem.
Kwantyzacja
DziÍki wprowadzeniu p³yt
kompaktowych (CD) niemal 20 lat
temu, wielu ludzi wie, co naleøy
rozumieÊ przez "düwiÍk cyfrowy".
W†skrÛcie dla tych, ktÛrzy nie
wiedz¹: analogowy sygna³ fonii
jest przetwarzany przez przetwor-
nik analogowo-cyfrowy (ADC) na
wielk¹ liczbÍ s³Ûw binarnych. Pro-
ces ten nazywa siÍ kwantyzacj¹
lub digitalizacj¹. SzybkoúÊ, z†jak¹
odbywa siÍ przetwarzanie w†przy-
padku CD wynosi 44100 razy na
sekundÍ dla lewego kana³u i†tyleø
samo dla prawego.
Poniewaø rozdzielczoúÊ typo-
wych przetwornikÛw stosowanych
w†CD wynosi 16 bitÛw, wskutek
kwantyzacji sygna³u fonii powsta-
je strumieÒ danych o†szybkoúci
oko³o 1,4Mb/s. StrumieÒ ten, wraz
z†dodatkowymi danymi korekcji
b³ÍdÛw i†innymi informacjami, jest
rejestrowany na p³ycie. W†trakcie
odtwarzania nastÍpuje po prostu
odwrÛcenie procesu: laser odczy-
tuje dane z†p³yty, a†przetwornik
cyfrowo-analogowy (DAC) t³uma-
czy je na sygna³y analogowe.
W†komputerze sygna³y fonii s¹
przetwarzane w†podobny sposÛb.
NiezbÍdna elektronika ADC i†DAC
mieúci siÍ na karcie düwiÍkowej,
natomiast twardy dysk funkcjonu-
je zazwyczaj jako medium prze-
chowywania. W†komputerze stru-
mieÒ bitÛw jest zapisywany w†pli-
ku danych.
Przechowywanie s³Ûw binar-
nych wymaga wielkiej iloúci pa-
Editorial items appearing on
pages 13..19 are the copyright
property of (C) Segment B.V., the
Netherlands, 1998 which reserves
all rights.
KompresowaÊ albo nie
kompresowaÊ
Kompresja plikÛw fonii jest
naprawdÍ z³oøona, poniewaø nie
moøna ³atwo okreúliÊ pewnych
podobieÒstw pomiÍdzy wielk¹
liczb¹ prÛbek. W†konsekwencji,
istnieje tylko kilka bezstratnych
metod kompresji sygna³Ûw fonii.
Jedn¹ z†nich jest standard ADPCM
(pod Windows) dla popularnego
formatu WAV.
Jest jednak moøliwa kompresja
sygna³Ûw fonii, jeøeli dopuúcimy
pewn¹ utratÍ szczegÛ³Ûw, tak jak
przy obrÛbce cyfrowych obrazÛw.
W†przypadku obrazÛw cyfrowych
metoda kompresji zosta³a opraco-
wana przez Joint Photographic
Expert Group (JPEG), podgrupÍ
Joint Technical Commitee 1†(JTC1)
ISO (International Standards Orga-
nization), konsultanta NarodÛw
Zjednoczonych i†IEC (International
Electrotechnical Commission). In-
16
Elektronika Praktyczna 12/99
 
P R O J E K T Y Z A G R A N I C Z N E
Tab. 1. Przegląd najczęściej spotykanych formatów fonii.
AIF Format początkowo opracowany dla Macintosha. Jest dość popularny w Internecie
i oferuje wiele różnych szybkości próbkowania i rozdzielczości. Przeglądarki Netscape
i Microsoft pracują w nim bez trudności.
AU Zapoczątkowany przez firmy NeXT i SUN, stał się popularny w sieci web i do dziś ciągle
jest stosowany. Ma wiele wariantów, ale zazwyczaj dane są skompresowane do formatu
8−bitowego w standardzie “u−law”. Większość przeglądarek może w nim pracować.
ES Potokowy format fonii firmy EchoCast. Dostępne są odtwarzacze dla Windows i Maci−
tosha.
IFF Format dźwięku Amiga obsługujący tylko 8−bitowy dźwięk mono: umożliwia swobodny
wybór szybkości próbkowania.
LCC Wysoce skompresowany format (możliwe są współczynniki do 1:50), aktualnie dostęp−
ny tylko dla Windows, ale inne wersje są opracowywane.
MID Format MIDI nie jest prawdziwym formatem fonii, ale standardem do wymiany danych
sterujących pomiędzy elektronicznymi instrumentami muzycznymi. Przeglądarki mogą
obsługiwać MIDI za pośrednictwem rozszerzeń.
MOD Oryginalny format Amigi będący reminiscencją MIDI. Plik MOD zawiera bank z próbka−
mi i instrukcjami, jak te próbki powinny być odtwarzane. Wymaga rozszerzenia MOD.
MP3 Aktualnie najbardziej popularny format fonii. Dostępne rozmaite rozszerzenia.
RA, RAM, RPM Popularny w Internecie potokowy format fonii firmy RealAudio. Dostępne są rozszerze−
nia (plug−ins) dla niemal wszystkich platform.
powinny byÊ w³¹czone do stru-
mienia danych, czy nie. Skutkuje
to systemem eliminuj¹cym redun-
dancjÍ (nadmiarowoúci informa-
cji), umoøliwiaj¹c zasadnicz¹ re-
dukcjÍ danych bez pogarszania
düwiÍku.
Algorytm ten zosta³ dalej wzbo-
gacony przez IIS we wspÛ³pracy
z†Uniwersytetem w Erlangen i†zo-
sta³ zaakceptowany jako ISO
MPEG-1 Layer 3†(IS 11172-3 i†IS
13818-3).
Warstwy
Bez redukcji danych, sygna³y
fonii zawieraj¹ prÛbki o†szerokoú-
ci 8†lub 16 bitÛw, pobierane
z†czÍstotliwoúci¹ dwukrotnie
wiÍksz¹ niø czÍstotliwoúÊ w†tych
sygna³ach najwyøsza.
Zosta³o juø powiedziane, øe
digitalizacja sygna³Ûw fonii skut-
kuje przep³ywem strumienia bi-
tÛw o†wartoúci oko³o 1,4Mb/s.
Najdoskonalsze obecnie systemy
kompresji potrafi¹ go ograniczyÊ
w†stosunku 1:12 bez s³yszalnego
pogorszenia düwiÍku. Moøliwe s¹
wspÛ³czynniki redukcji w†stosun-
ku aø do 1:24 i†ci¹gle jeszcze
jakoúÊ düwiÍku bÍdzie lepsza od
otrzymanego po obniøeniu czÍs-
totliwoúci prÛbkowania lub roz-
dzielczoúci dla otrzymania porÛw-
nywalnej kompresji.
Standard MPEG-1 opisuje trzy
warstwy kompresji: Layer 1, Layer
2†i†Layer 3. Wszystkie one s¹
zdolne do wytworzenia düwiÍku
o†jakoúci niemal CD. W† tab. 2
zawarto charakterystykÍ tych
trzech warstw. Definicje zawarte
w†normie odnosz¹ siÍ jedynie do
stosowanego kodera i†formatu da-
nych. Informacja ta umoøliwia
producentom projektowanie deko-
derÛw zgodnie z†ich w³asnymi
wymaganiami.
Jeúli nie stosuje siÍ reprodukcji
stereofonicznej i,†co wiÍcej, do-
puszcza siÍ ograniczon¹ szerokoúÊ
pasma, moøna zastosowaÊ nawet
jeszcze wyøsze wspÛ³czynniki
kompresji. Najwyøsza z†warstw,
Layer 3, stosuje najniøszy stru-
mieÒ bitÛw (kbit/s) i†tworzy naj-
lepsz¹ jakoúÊ düwiÍku.
Wszystkie trzy kodeki s¹ hie-
rarchicznie kompatybilne, co ozna-
cza, øe dekoder dla warstwy
Layer 3†moøe byÊ rÛwnieø stoso-
wany dla warstw 1†i†2. Nie jest
to jednak moøliwe w†odwrotn¹
stronÍ. Im wyøszy numer wars-
twy, tym bardziej z³oøony staje
SND
Apple, Amiga i Tandy stosowały ten przyrostek dla plików fonii. Pewne warianty są
kompatybilne z formatem AU.
STR
Format dla profesjonalnej obróbki dźwięku na Macintoshu.
VDO
Inny potokowy format fonii. Wymaga rozszerzenia (plug−in) takiego, jak VDO live player.
VMD
Potokowy format fonii zwany Internet Wave. Dostępny wraz z bezpłatnym koderem/
dekoderem dla Windows.
VOC
Format Voice, opracowany przez Creative Labs, twórcę dobrze znanych kart Sounblas−
ter.
WAV
Często stosowany format stał się dobrze znany od czasu wprowadzenia Windows. Ofe−
ruje wiele różnych szybkości próbkowania, rozdzielczości i współczynników kompresji.
XDM
Format MPEG firmy StreamWorks dla potokowej fonii. Istnieje specjalny odtwarzacz dla
Windows.
na podgrupa JTC1, Motion Pictu-
res Expert Group lub MPEG, usta-
nowi³a standard dla kompresji
düwiÍku. Obecnie MPEG-1 Layer
3†(MP3) jest formatem popularnym
wúrÛd uøytkownikÛw Internetu.
nii zaj¹³ siln¹ pozycjÍ jako kom-
presor muzyczny. Wiele wspÛ³-
czesnych komputerÛw sprzedaje
siÍ z†zainstalowanym oprogramo-
waniem kodowania i†dekodowa-
nia MP3. RÛwnieø wielka liczba
plikÛw MP3 jest rozsiewana po-
przez Internet i†s¹ juø kompilacje
p³yt CD zawieraj¹ce pliki MP3.
NiektÛrzy producenci zaczÍli udo-
stÍpniaÊ MP3 Walkman: pÛ³prze-
wodnikowy odtwarzacz CD, stosu-
j¹cy jako noúnik pamiÍÊ ìflashî.
Fonia w czasie
rzeczywistym
W†pierwszych dniach istnienia
fonii w†komputerze ca³y plik fo-
niczny musia³ byÊ za³adowany do
pamiÍci komputera, zanim mÛg³
zostaÊ odtworzony. By³o to szcze-
gÛlnie przykre w†trakcie skroúnego
³adowania plikÛw poprzez Internet.
Wraz z†nastaniem szybkich mo-
demÛw sta³o siÍ moøliwe rozwiniÍ-
cie technik umoøliwiaj¹cych od-
twarzanie plikÛw fonicznych
w†trakcie ³adowania skroúnego.
SzczegÛlnie godny uwagi udzia³
mia³ w†tym proces zwany ìAODî
(ang. Audio-On-Demand), ìreal ti-
me radioî lub ìstreaming radioî,
opracowany przez firmÍ RealAudio.
Opracowany dla DAB
Jako udzia³owiec ogÛlnoeuro-
pejskiego projektu Eureka 147
(opracowania naziemnego systemu
cyfrowej radiofonii - DAB), nie-
miecki Fraunhofer Institut fuer
Integrierte Schaltungen (Instytut
Fraunhofera ds. Uk³adÛw Scalo-
nych) opracowa³ uk³ad koduj¹cy
(codec - coder/decoder) dla DAB.
Odpowiedni algorytm kodowa-
nia uwzglÍdnia pewne w³aúci-
woúci s³uchu ludzkiego i†na tej
podstawie okreúla, czy pewien
aspekt düwiÍkowy fragmentu mu-
zyki ma szansÍ dotarcia do s³u-
chaczy, czy nie. W†zaleønoúci od
tego prawdopodobieÒstwa okreúla
nastÍpnie, czy odpowiednie dane
MP3: dobra jakoúÊ przy
wysokiej kompresji
Aktualnie MP3 jest najbardziej
popularnym spoúrÛd wszystkich
formatÛw fonii. W†bardzo krÛtkim
czasie ten protokÛ³ kompresji fo-
Elektronika Praktyczna 12/99
17
30568302.002.png
P R O J E K T Y Z A G R A N I C Z N E
Tab. 2. Tryby fonii MPEG−1.
Współczynnik metoda
opis
cyfrowego. W†takich warunkach
MPEG-1 Layer 3†stosuje bufor udo-
stÍpniaj¹cy pewn¹ dodatkow¹ po-
jemnoúÊ. OprÛønienie bufora na-
stÍpuje, gdy düwiÍk jest kodowa-
ny z†szybkoúci¹ bitÛw niøsz¹ niø
dostÍpna w†kanale.
£¹czenie stereo
Wiele ma³ych systemÛw stereo
hi-fi stosuje wspÛlny g³oúnik naj-
niøszych tonÛw (woofer). Pomimo
tego s³uchacz odnosi wraøenie, øe
düwiÍk jest emitowany nie z†tego
g³oúnika, ale raczej z†g³oúnikÛw-
satelitÛw. Badania wykazuj¹, øe
poniøej pewnych czÍstotliwoúci
ludzki s³uch nie jest w†stanie
rozstrzygn¹Ê, z†ktÛrego kierunku
dochodzi düwiÍk. Techniki kom-
presji mog¹ wykorzystaÊ tÍ w³aú-
ciwoúÊ poprzez pomijanie infor-
macji stereo poniøej pewnej czÍs-
totliwoúci granicznej. Oznacza to,
øe poniøej tej czÍstotliwoúci syg-
na³ jest kodowany tylko w†formie
monofonicznej.
Kodowanie Huffmana
Kodowanie MPEG-1 Layer 3†sto-
suje klasyczn¹ technikÍ: kodowanie
Huffmana. Stosuje siÍ je po prze-
prowadzeniu rzeczywistej kompres-
ji danych, do zakodowania infor-
macji cyfrowej. A†wiÍc nie jest to
system kompresji, ale bardzo sku-
teczna technika kodowania. Algo-
rytm Huffmana generuje kod
o†zmiennej d³ugoúci i†ca³kowitej
liczbie bitÛw. Sygna³y waøne trans-
ponuj¹ siÍ na krÛtkie kody, te
mniej znacz¹ce na d³uøsze.
Poniewaø kody Huffmana maj¹
specyficzny nag³Ûwek, dekoduj¹
siÍ doskonale, pomimo swojej
zmiennej d³ugoúci. Dekodowanie
jest bardzo szybkie, poniewaø
kompresji
1:4
Layer 1
sygnał stereo generuje strumień bitów 384kbit/s
1:6 − 1:8
Layer 2
sygnał stereo generuje strumień bitów 256 − 192kbit/s
1:10 − 1:12
Layer 3
sygnał stereo generuje strumień bitów 128 − 112kbit/s
siÍ koder i†tym wyøsze wspÛ³-
czynniki kompresji moøna stoso-
waÊ.
W†tab. 3 zawarto wspÛ³czynni-
ki kompresji moøliwe do uzyska-
nia w†Layer 3†i†gdzie kaødy z†nich
moøna zastosowaÊ. Testy ods³u-
chowe przy rÛønej publicznoúci
wykazuj¹, øe osi¹gi Layer 3†pozo-
staj¹ doskona³e przy wspÛ³czyn-
nikach kompresji 1:12 - przy
zwi¹zanym z†tym strumieniem bi-
tÛw 64kb/s na kana³ fonii. Jeúli
w†pewnych zastosowaniach pas-
mo akustyczne zostanie ograniczo-
ne do 10kHz, jest moøliwa dobra
reprodukcja stereo przy wspÛ³-
czynniku kompresji 1:24.
T³o
Dla uzyskania zasadniczej re-
dukcji szerokoúci niezbÍdnego
pasma cyfrowego, w MPEG-1
Layer 3 stosowane s¹ rÛøne tech-
niki i†skrÛty. Najwaøniejszymi
z†nich s¹:
- dolny prÛg s³yszalnoúci,
- efekt maskowania,
- odk³adanie bajtÛw,
- ³¹czenie stereo,
- kodowanie Huffmana.
OmÛwimy je kolejno:
Dolny prÛg s³yszalnoúci
Badania wykazuj¹, øe dolny
prÛg ludzkiego s³yszenia nie jest
liniowy: wznosi siÍ pomiÍdzy
2kHz i†5kHz. Jego w³aúciwoúci
zosta³y opisane przez Fletchera
i†Munsona. Nie jest konieczne
kodowanie düwiÍku leø¹cego po-
niøej progu, poniewaø s³uchacz
i†tak nie moøe go us³yszeÊ.
Efekt maskowania
Wykorzystuje siÍ fakt, øe ludz-
kie s³uch nie postrzega s³abych
düwiÍkÛw, ktÛre s¹ ca³kowicie lub
czÍúciowo zamaskowane przez du-
øo silniejsze. Badania wykazuj¹,
øe wskutek maskowania pewne
düwiÍki nie musz¹ byÊ kodowane,
co pozwala zaoszczÍdziÊ wcale
niema³o miejsca. St¹d wszystkie
kodery MPEG-1 Layer 3†zawieraj¹
model psychoakustyczny, w†ktÛ-
rym jest wbudowana ta w³aúci-
woúÊ ludzkiego s³uchu.
Odk³adanie bajtÛw
CzÍsto zdarza siÍ, øe muzyczny
pasaø nie moøe byÊ zakodowany
przy dostÍpnym strumieniu bitÛw.
A†wiÍc jakoúÊ düwiÍku musi byÊ
chwilowo adaptowana, by umoø-
liwiÊ strumieniowi bitÛw zmiesz-
czenie siÍ w†pojemnoúci kana³u
Jednolita struktura
Wszystkie trzy warstwy kom-
presji maj¹ tÍ sam¹ strukturÍ.
Zastosowana w†nich technika ko-
dowania jest znana jako percep-
tualne kszta³towanie szumu albo
perceptualne kodowanie transfor-
maty podpasma. Koder analizuje
sk³adowe widmowe sygna³u fonii
za pomoc¹ banku filtrÛw (patrz
rys. 1 ) i†korzysta z†modelu psy-
choakustycznego do okreúlenia do-
strzegalnych poziomÛw szumÛw.
Z†kolei informacja podlega kwan-
tyzacji i†kodowaniu w†sposÛb za-
pewniaj¹cy, øe zostan¹ wziÍte
pod uwagÍ dwa waøne warunki:
maksymalny strumieÒ bitÛw
i†efekt maskowania.
Wszystkie trzy warstwy stosuj¹
ten sam bank filtrÛw o†32 pod-
pasmach. Wszystkie one dopusz-
czaj¹ czÍstotliwoúci prÛbkowania
32kHz, 44,1kHz, 48kHz i†s¹ w†sta-
nie pracowaÊ ze strumieniami
bitÛw 32kb/s lub wiÍkszymi.
Podpasmo 0
Podpasmo 1
Podpasmo 2
Tab. 3. Ułatwienia dostępne w MPEG−1 Layer 3
Jakość Współczynnik Szerokość Tryb Strumień bitów
dźwięku kompresji pasma (kHz)
Bank flitrów
polifazowych
Podpasmo 3
(kb/s)
Telefoniczna
1:96
2,5
mono
8
Podpasmo 4
Lepsza niż
1:48
4,5
mono
16
krótkofalowa
Lepsza niż
Podpasmo 31
1:24
7,5
mono
32
Rys. 1. Każda warstwa MPEG−1
wykorzystuje bank 32 filtrów. To,
czy sygnał podlega maskowaniu,
czy nie, określa się po jego
skwantowaniu.
średniofalowa
Radio FM
1:24 − 1:26
11
stereo
56 − 64
Niemal CD
1:16
15
stereo
96
CD
1:12 − 1:14
>15
stereo
112 − 128
18
Elektronika Praktyczna 12/99
30568302.003.png 30568302.004.png
P R O J E K T Y Z A G R A N I C Z N E
moøna korzystaÊ z†tablic. Techni-
ka ta daje oszczÍdnoúÊ miejsca
rzÍdu mniej wiÍcej 20 procent.
Technika Huffmana jest ideal-
nym uzupe³nieniem kompresji za-
leønej od percepcji. W†pasaøach
zawieraj¹cych wiele czÍstotliwoú-
ci jednoczeúnie, kodowanie zaleø-
ne od percepcji zapewnia znaczn¹
redukcjÍ poprzez wyeliminowanie
sygna³Ûw zamaskowanych. Ponie-
waø wÛwczas pojawia siÍ kilka
identycznych sygna³Ûw, to kodo-
wanie Huffmana ma niewielki
skutek.
W†trakcie pasaøy z†kilkoma rÛø-
nymi düwiÍkami wystÍpuje nie-
wiele efektÛw maskowania. Dzieje
siÍ tak wtedy, gdy kodowanie
Huffmana oszczÍdza znacznie wiÍ-
cej miejsca, poniewaø jest to
informacja ze znaczn¹ redundan-
cj¹ (nadmiarowa). A†wiÍc takie
pasaøe mog¹ byÊ reprezentowane
przez krÛtkie kody.
EE
Artyku³ publikujemy na pod-
stawie umowy z redakcj¹ mie-
siÍcznika "Elektor Electronics".
Elektronika Praktyczna 12/99
19
30568302.001.png
Zgłoś jeśli naruszono regulamin