R3.pdf

(84 KB) Pobierz
Microsoft Word - GFJP_R3.doc
Marek widzi ski
Gramatyka formalna j zyka polskiego
Wydawnictwa Uniwersytetu Warszawskiego
Warszawa 1992
3 KONCEPCJA GRAMATYKI FORMALNEJ WSPÓŁCZESNEJ POLSZCZYZNY
3.1 Sformalizowany opis współczesnej polszczyzny
Od dziesi ciu lat z gór prowadzone s w o rodku warszawskim
oraz białostockim prace nad sformalizowanym opisem gramatycznym i
słownikowym współczesnego j zyka polskiego. Taki cel wytyczył so-
bie nieformalny zespół lingwistów i informatyków - uczestników
seminarium "Formalny opis j zyka naturalnego", prowadzonego przez
Zygmunta Saloniego. Do zespołu tego nale m. in. j zykoznawcy:
Urszula Andrejewicz, Mirosław Ba ko, Włodzimierz Gruszczy ski,
Dorota Kopci ska, Anna Łojasiewicz, Marianna Rogowska, Zygmunt
Saloni, Marek widzi ski, Marek Wi niewski i Ewa Zakrzewska - oraz
informatycy: Janusz Bie i Stanisław Szpakowicz. Szereg innych
osób pozostaje w lu niejszym zwi zku z zespołem.
Pierwszy zarys koncepcji bardziej rygorystycznego, ni si to
zazwyczaj praktykuje, opisu syntaktycznego polszczyzny sformu-
łowany został w pracy Z. Saloniego "Cechy składniowe polskiego
czasownika" (Saloni (1976a)). Monografi t poprzedził o dwa lata
artykuł tego autora o klasyfikacji gramatycznej leksemów polskich
(Saloni (1974)). Obie prace rozwijaj ide dystrybucyjnego, czysto
powierzchniowego opisu gramatycznego. Opis taki stawia sobie za
cel zdanie sprawy w sposób wyczerpuj cy i jawny ze wszystkich
zwi zków i zale no ci mi dzy składnikami konstrukcji j zykowych
nych poziomów, a wi c z budowy, składu i dyspozycji
zewn trznych tych konstrukcji. W praktyce sprowadza si on do seg-
mentacji konstrukcji oraz przypisania jej okre lonych reprezenta-
cji. W wypadku konstrukcji fleksyjnych reprezentacja ta to indeks
klasy gramatycznej i oznaczenie wzorca odmiany. W wypadku kon-
strukcji składniowych reprezentacja ma posta pewnej struktury
hierarchicznej, któr nazwa mo na struktur powierzchniow . Od-
zwierciedla ona składniowo istotne własno ci gramatyczne reprezen-
towanej konstrukcji.
Dystrybucyjny opis fleksyjny podj ł przed czterdziestoma laty
Jan Tokarski (Tokarski (1951), (1973)). Jego wyniki zostały nawet
wdro one: informacja gramatyczna w słownikach j zyka polskiego
(SJP Dor. (1958-70), SPP (1971), SJP PWN (1978-81)), a tak e
wykład elementów gramatyki polskiej w słownikach dwuj zycznych
jest dziełem Tokarskiego. Dystrybucyjny opis składniowy polszczy-
zny zainicjował Henryk Misz z zespołem (Misz (1967), Misz - Szu-
pryczy ska (1966), Kallas (1974), (1980), Szupryczy ska (1973),
(1980)). Podobnie ukierunkowane metodologicznie opisy opracowali
polscy generatywi ci - Zbigniew Goł b (1967) i Kazimierz Pola ski
(1966), (1967), (1970).
Pokrewie stwo metodologiczne ł czy zespół warszawsko-bia-
łostocki ze strukturalistami rosyjskimi, a zwłaszcza Andrzejem Za-
lizniakiem (Zaliznjak (1967), (1977)) i Igorem Mielczukiem (Mel'-
uk (1974), (1988)) - prawd rzekłszy, w wi kszym stopniu ni z
klasycznym ameryka skim deskryptywizmem (Bloomfield (1933), Hoc-
kett (1958), Harris (1957), (1962), (1968)) czy generatywizmem
(Chomsky (1957), (1965), (1970), Jackendoff (1977)).
W dotychczasowej i obecnej działalno ci zespołu wyró ni
mo na trzy wzgl dnie niezale ne nurty.
Nurt pierwszy to prace nad opisem fleksyjnym i słownikowym
współczesnej polszczyzny. Obok wspomnianego artykułu Z. Saloniego
(1974) nale tu takie publikacje, jak Bie - Saloni (1982), Gru-
szczy ski i in. (1981), Saloni (1983), Saloni - Szpakowicz -
widzi ski (1983), Saloni - widzi ski (1984), jak równie seria
prac magisterskich po wi conych analizie informacji gramatycznej w
słownikach polskich, a zwłaszcza w SJP Dor. (1958-71); prace te
wykonane zostały przez seminarzystów polonistyki w Białymstoku pod
kierunkiem Z. Saloniego (m. in. Lipi ska (1982), Kaniecka (1982)).
Drugi nurt wyznacza seria prac składniowych operuj cych apa-
ratem poj ciowym, który wyło ony został w wersji pełnej w pracy
Saloniego i widzi skiego (1981), (1987). Z opracowa szcze-
gółowych wymieni warto takie publikacje, jak: Andrejewicz (1984),
(1989), Gruszczy ski - Saloni (1978), Kopci ska (1988), (1990),
Łojasiewicz (1978), (1981), (1983), Saloni (1976b), (1977a),
(1977b), (1986), widzi ski (1978), (1980), (1981a), (1981b),
(1982), Zakrzewska (1979) i in.
Nurt trzeci to prace nad gramatyk formaln współczesnej pol-
szczyzny pisanej. Zapocz tkował go Stanisław Szpakowicz monografi
o automatycznej analizie składniowej zda polskich (Szpakowicz
(1978), (1983)), w której sformułował koncepcj formalnego opisu
polskiej składni, proponuj c kompletn gramatyk formaln
współczesnej polszczyzny. Od kilku lat S. Szpakowicz i M.
widzi ski rozwijaj t koncepcj , modyfikuj c aparat i rozszerza-
j c baz empiryczn . Do tej pory powstało sze prac, stanowi cych
pierwsze wersje fragmentów przygotowywanej gramatyki formalnej,
mianowicie cztery artykuły Szpakowicza i widzi skiego (1981a),
(1981b), (1982), (1986) i dwa M. widzi skiego (1983), (1986).
Niniejsza monografia jest kolejnym ogniwem tej serii, nawi zuje
za bezpo rednio do przedostatniego tytułu.
Szczegóły koncepcji gramatyki formalnej współczesnej pol-
szczyzny zostan omówione w punkcie 3.3 oraz w rozdziale
nast pnym.
3.2 Poj cie gramatyki formalnej
Gramatyka formalna to, niezale nie od przyj tego formalizmu,
definicja pewnego zbioru wyra e , który nazywa si j zykiem for-
malnym. J zyk ten jest dany przez gramatyk , czyli istnieje tylko
o tyle, o ile si t gramatyk sformułuje. J zyk naturalny, w
odró nieniu od formalnego, istnieje niezale nie od tego, czy jego
gramatyka została napisana. Sporz dzenie gramatyki formalnej dla
danego j zyka naturalnego to zdefiniowanie pewnego zbioru wyra e
(j zyka formalnego), który jest podobny do danego j zyka natural-
nego, rozumianego jako zbiór wszystkich mo liwych wypowiedze . W
ideale zbiory te powinny si pokrywa , praktycznie jednak nie jest
to osi galne. Gramatyk formaln sporz dzon dla danego j zyka
mo na uzna za wła ciw , je li definiuje wystarczaj co reprezenta-
tywny podzbiór tego j zyka i tylko ten podzbiór. Mówi c pro ciej,
gramatyka formalna definiuje zwykle tylko fragment danego j zyka
naturalnego, ale czyni to dokładnie.
Gramatyk formaln ujmuje si zwykle jako czwórk nast -
puj cych obiektów:
(a) słownik terminalny,
(b) słownik nieterminalny,
(c) symbol pocz tkowy,
(d) produkcje.
Istnieje wiele ró nych gramatyk formalnych, a i sama gramatyka
formalna definiowana bywa inaczej. Jednym z typów jest gramatyka
kombinatoryczna (por. Blikle (1971: 112)).
Słownik terminalny takiej gramatyki to zbiór interpretowanych
jako elementarne jednostek, z których zbudowane s wyra enia defi-
niowanego j zyka. Przy budowaniu gramatyki formalnej dla j zyka
naturalnego za elementy terminalne warto uwa a kształty form wy-
razowych.
Słownik nieterminalny obejmuje inwentarz symboli pomocni-
czych, odpowiadaj cych - w interpretacji lingwistycznej - takim
jednostkom składniowym, jak wypowiedzenie, zdanie, fraza nominal-
na, czasownikowa forma wyrazowa itp.
Symbol pocz tkowy (element zbioru (b)) to nazwa definiowanej
jednostki najwy szego poziomu - np. wypowiedzenie.
Produkcje wreszcie to reguły definiuj ce jednostk pocz tkow
oraz, po drodze, jednostki pomocnicze nale ce do zbioru (b). Pro-
dukcje maj posta reguł zast powania. Po lewej stronie produkcji
znajduje si symbol nieterminalny odpowiadaj cy jednostce definio-
wanej, po prawej za , poprzedzonej strzałk lub znakiem równo ci,
wyst puje ci g symboli nieterminalnych lub terminalnych. Gramaty-
ka, której wszystkie produkcje maj t posta , jest gramatyk bez-
kontekstow (Blikle (1971: 144)); gramatyka, w której zast powanie
danego symbolu nieterminalnego przez odpowiedni ci g symboli ogra-
niczone jest do okre lonego kontekstu, jest gramatyk kontekstow
(Blikle (1971: 118)). Ci g symboli po prawej stronie produkcji
mo e by słowem pustym: mamy wówczas do czynienia z gramatyk nie-
monotoniczn (skracaj c ).
Gramatyka formalna wyznacza w pełni zbiór wyra e obj tych
opisem. Niektóre gramatyki umo liwiaj automatyczne rozstrzyganie
o przynale no ci danego wyra enia do j zyka, innymi słowy - o jego
poprawno ci gramatycznej.
3.3 Gramatyka formalna współczesnej polszczyzny pisanej
We wspomnianej w 3.1 pracy S. Szpakowicza (1978), (1983)
przedstawiona została koncepcja sformalizowanego opisu składnio-
wego polszczyzny. Opis ten wykorzystuje formalizm gramatyki meta-
morficznej (Colmerauer (1978), Klu niak - Szpakowicz (1983)). Po-
ni ej przedstawi w sposób nieformalny wzbogacon i rozszerzon
wersj tej koncepcji, kład c nacisk na interpretacje lingwistycz-
ne. Poni sz gramatyk uwa a mo na za gramatyk kontekstow skra-
caj c .
Słownik terminalny tej gramatyki pomy lany został docelowo
jako zbiór słów, tj. kształtów form wyrazowych, i znaków inter-
punkcyjnych. W niniejszej pracy słownika takiego z oczywistych
powodów nie podaj . Zakładam roboczo, e dysponuj gotowym spisem
realizacji leksykalnych tych jednostek składniowych, które wy-
st puj jawnie w opisie. Spis ten nazwa mo na leksykonem;
rozwi zanie takie zostało przyj te i uzasadnione w dwu pracach
Szpakowicza i widzi skiego (1981a), (1981b). Leksykon zawiera
wszystkie elementy terminalne, ale równie ich dystrybucyjne ekwi-
walenty o dowolnym stopniu zło ono ci. Zadaniem leksykonu jest
symulowanie analizy jednostek składniowych, które nie s szcze-
gółowo definiowane.
Słownik nieterminalny obejmuje obszerny zestaw jednostek
składniowych. Wprowadzone tu nazewnictwo ró ni si wyra nie od
tradycyjnej terminologii syntaktycznej. Jest od niej bogatsze i w
wi kszym stopniu ukierunkowane morfologicznie, wykorzystuje bowiem
raczej dane szkolnego rozbioru gramatycznego ni logicznego. Z
drugiej jednak strony przewa aj cej wi kszo ci proponowanych tu
terminów odpowiadaj jasne intuicje lingwistyczne. Terminologia ta
została w du ej cz ci wypracowana wespół ze S. Szpakowiczem.
Wszystkie jednostki składniowe nieterminalne reprezentowane
s przez pary postaci <nazwa jednostki, komplet warto ci parame-
trów>; nieliczne maj drugi element pary pusty. Parametry formali-
zuj norodne cechy składniowe jednostek, takie jak charaktery-
styka fleksyjna, negacja, zale no , typ frazy zdaniowej, oznacze-
nie spójnika i in. Warto ci parametrów s albo ustalone, albo nie
ustalone, ale warto nie ustalon mo na traktowa jako skrót no-
tacyjny: wprowadza si j do danej reguły po to, aby unikn wypi-
sywania osobnych reguł dla ka dej warto ci ustalonej z osobna.
Symbolem pocz tkowym jest WYPOWIEDZENIE. W ideale wypowiedze-
nie jest jednostk unilateraln , czyli napisem nie zinterpretowa-
nym - ci giem ci gów liter rozpoczynaj cym si wielk liter , a
ko cz cym kropk lub znakiem równowa nym.
Nie wszystkie wyra enia empiryczne, które spełniaj powy sze
intuicyjne okre lenie i którym praktyka szkolna przyporz dkowuje
etykietk wypowiedzenia, b d tutaj opisane jako realizacje jed-
nostki o nazwie WYPOWIEDZENIE. Opis zawarty w tej pracy obejmuje
tylko pewien podzbiór wła ciwy polskich wypowiedze (w tradycyjnym
sensie): nie opisuje si tutaj wypowiedze niezdaniowych, czyli
równowa nikowych.
Chocia wypowiedzenie nie ma w poni szym opisie adnych para-
metrów, wprowadzenie ich jest mo liwe, a nawet proste. Opis
składniowy sprowadza si zatem do bilateralizacji jednostki unila-
teralnej, do przypisania jej okre lonej reprezentacji - struktury
hierarchicznej. Tak ujmuj funkcj opisu syntaktycznego Saloni i
widzi ski (1987: r. I, II).
Produkcje definiuj jedne jednostki składniowe jako ci gi
innych jednostek składniowych; szczególnym wypadkiem takiego ci gu
jest słowo puste. Porz dek linearny jest ustalony - w tym sensie,
e ka d permutacj składników opisuje osobna reguła. Cho nie
sposób uzna takiego potraktowania porz dku linearnego za
rozwi zanie problemu szyku w polszczy nie, przyzna trzeba, e
uwzgl dnienie ró nych permutacji stanowi znaczne wysubtelnienie
opisu w porównaniu z tradycyjnym opisem syntaktycznym polszczyzny.
Powa nym argumentem przemawiaj cym za takim rozwi zaniem jest to,
e cho polszczyzna jest j zykiem o szyku wzgl dnie swobodnym,
wiele typów konstrukcji składniowych wykazuje silne ograniczenia
szyku. Mo na je zaobserwowa np. w pewnych typach zda zło onych,
w zdaniach składowych podrz dnych lub we frazach współrz dnych.
W regułach wyst puj niekiedy warunki, które b d ustalaj w
okre lony sposób, b d wi warto ci odpowiednich parametrów.
Warunki mo na uwa a za skróty notacyjne. Gramatyka podana w tej
pracy zawiera niemal wył cznie reguły bezkontekstowe: tylko trzy
reguły s regułami kontekstowymi, mianowicie niektóre z tych,
które definiuj przecinek ortograficzny.
Opis przedstawiony w niniejszej pracy ukierunkowany jest w
wi kszym stopniu lingwistycznie (empirycznie) ni informatycznie.
Przyjmuj tutaj tak wysoki stopie szczegółowo ci empirycznej, e
bezpo rednia implementacja nawet fragmentów podanej w tej pracy
gramatyki nie wydaje si mo liwa. Nie sposób jednak nie zgodzi
si z twierdzeniem, e łatwiej zredukowa opis bardziej rozbudowa-
ny ni rozbudowa zbyt ubogi.
Opis przedstawiony w tej pracy ma charakter statyczny. To, e
nie jest on nastawiony specjalnie na analiz ani na syntez , wyni-
ka wprost z zało enia du ej dokładno ci empirycznej. Mimo to dadz
si pomy le zastosowania analityczne i syntetyczne, chocia te
drugie wydaj si mniej naturalne. Nie ma w tym opisie adnej re-
prezentacji semantycznej, st d wypowiedzenia musiałyby by synte-
tyzowane jak gdyby na o lep.
ródłem danych lingwistycznych jest intuicyjna niebinarna
analiza składnikowa du ej liczby wyra e - od najprostszych do
bardzo rozbudowanych (por. widzi ski (1978), Saloni - widzi ski
(1987)). Analiza taka, z natury rzeczy wieloetapowa,
przyporz dkowuje konstrukcjom składniowym struktur hierarchiczn .
Ka da jednostka składniowa danego poziomu, rozumiana oczywi cie
jako typ, klasa abstrakcji wyra e niemal równowa nych dystrybu-
cyjnie, mo e by interpretowana jako ci g jednostek poziomu
bezpo rednio ni szego. Jednostk opisu w szkicowanej tutaj grama-
tyce jest, przeciwnie ni w składni szkolnej, konstrukcja: reali-
zacja najprostsza danej konstrukcji - przez pojedyncz form wyra-
Zgłoś jeśli naruszono regulamin