Abstract
Dit proefschrift analyseert de computationele eigenschappen van hedendaagse performance-modellen van menselijke taalverwerking, zoals Data-Oriented Parsing (DOP) (Scha, 1990; Scha, 1992; Bod, 1995a). Het constateert enkele belangrijke beperkingen en tekortkomingen, en doet voorstellen voor verbeterde modellen en al-gorithmes, gebaseerd op technieken uit Explanation-Based Learning. Experimenten met implementaties van deze algorithmes leveren
... read more
bemoedigende resultaten op.Het is algemeen bekend dat formele grammatica s van natuurlijke talen zeer ambigu zijn. Vaak kennen deze grammatica s zeer veel analyses toe aan een uiting. Het overgrote deel van deze analyses wordt door een mens echter helemaal niet waargenomen. Desam-bigu¨ering, het kiezen van die ene analyse die door een mens als meest plausibel wordt
beschouwd, vormt een van de belangrijkste doelstellingen van de huidige performance modellen van natuurlijke taal parsering. Veel van deze modellen implementeren desam-bigu¨ering door gebruik te maken van een probabilistische grammatica, die bestaat uit regels waaraan toepassings-waarschijnlijkheden zijn toegekend. Deze waarschijnlijkhe-den
worden geschat op basis van een geannoteerd corpus (een tree-bank), dat bestaat uit
een grote, representatieve hoeveelheid uitingen die elk voorzien is van een boomstruktuur
die de juiste analyse van de uiting representeert. De toepassings-waarschijnlijkheden van
de regels in een dergelijke probabilistische grammatica maken het mogelijk de verschil-lende
analyses van een uiting te rangschikken op waarschijnlijkheid, zodat de analyse met
de hoogste kans als de meest plausibele analyse uitgekozen kan worden.
Het Data-Oriented Parsing (DOP) model onderscheidt zich van andere performance-modellen
doordat de probabilistische grammatica die gebruikt wordt een zeer redundant
karakter heeft. In dit model wordt een tree-bank die iemands taal-ervaring representeert,
in zijn geheel opgeslagen in het geheugen. Vervolgens dient dit geheugen als databank
voor het parseren van nieuwe uitingen door middel van analogie. In de thans bestaande
realisaties van dit model, wordt een nieuwe input-zin geanalyseerd doordat er nagegaan
wordt op welke manieren deze zin gegenereerd had kunnen worden door het combineren
van parti ¨ ele analyses (brokstukken van de bomen in de tree-bank). De voorkomens-frequenties
van de verschillende brokstukken in de databank kunnen dan gebruikt worden
197?198 Samenvatting
om de waarschijnlijkheden van de verschillende mogelijke analyses te berekenen.
Plausibele performance-modellen zijn erg ineffici¨ ent, en dat geldt in sterke mate voor
DOP. Modellen die in zekere mate in staat zijn om input-zinnen suksesvol te desam-bigu¨
eren op basis van de informatie in een tree-bank, lijken wat betreft hun effici¨ entie-eigenschappen
helemaal niet op het menselijke taalverwerkings-vermogen. Het is evident
dat effici¨ entie in menselijk gedrag in het algemeen en in taalkundig gedrag in het bijzon-der,
een essentieel kenmerk is van intelligentie. Bovendien vormen echte applicaties,
waarin effici¨ entie altijd belangrijk is, het natuurlijke biotoop van performance-modellen.
Dit proefschrift betreft de computationele complexiteit en de effici¨ entie van proba-bilistische
desambigu¨ erings-modellen in het algemeen en van het DOP model in het bij-zonder.
Allereerst presenteren we in een theoretisch geori¨ enteerd hoofdstuk een
complexiteits-analyse van probabilistische desambigu¨ ering binnen het DOP model en
soortgelijke modellen. Deze analyse impliceert dat effici¨ ente desambigu¨ ering met zulke
modellen niet bereikt zal kunnen worden met behulp van uitsluitend conventionele
optimalisatie-technieken. Daarom wordt in de volgende hoofdstukken een nieuwe aan-pak
van het ineffici¨ entie-probleemontwikkeld. Deze aanpak integreert twee verschillende
optimalisatie-methodes: een conventionele en een niet-conventionele. De conventionele
optimalisatie richt zich op het bereiken van effici¨ ente deterministisch polynomiale-tijd de-sambigu¨
erings-algorithmes voor DOP. De niet-conventionele optimalisatie, die centraal
staat in het proefschrift, richt zich op het specialiseren van performance modellen voor
domeinen met een specifiek taalgebruik door middel van leren. Beide manieren van aan-pak
worden in dit proefschrift toegepast op het DOP model, en empirisch getoetst op
bestaande, applicatie-gerichte, tree-banks.
De motivaties, methodes, en bijdragen van het proefschrift worden hieronder met be-trekking
tot ieder van deze onderwerpen samengevat.
Computationele complexiteit: De computationele complexiteits-studie gepresenteerd
in hoofdstuk 3, bevat bewijzen dat verschillende problemen van probabilistische desam-bigu¨
ering NP-hard zijn. Dit betekent dat ze niet opgelost kunnen worden m.b.v. deter-ministische
polynomiale-tijd algorithmes. Deze desambigu¨ erings-problemen worden hier
beschouwd voor twee soorten grammatica s: het soort grammatica s dat door DOP wordt
gebruikt, genaamd Stochastic Tree-Substitution Grammars (STSG s), en de traditionele
Stochastic Context-Free Grammars (SCFGs). Voor STSG s wordt van de volgende prob-lemen
bewezen dat ze NP-hard zijn: (1) het berekenen van de meest waarschijnlijke parse
(Most Probable Parse - MPP) van een uiting, (2) het berekenen van de MPP van een
woord-graaf
2
, en (3) het berekenen van de meest waarschijnlijke zin van een woord-graaf.
We bewijzen tevens dat ook voor SCFGs het berekenen van de meest waarschijnlijke zin
van een woord-graaf NP-hard is.
2
Een woord-graaf wordt als output opgeleverd door een spraakherkenner die een gesproken uiting analy-seert.
Het is een Stochastic Finite State Transducer die de verschillende hypotheses van de spraakherkenner
(en hun rangschikking) effici¨ ent representeert.?Samenvatting 199
Ge¨ optimaliseerde algorithmes: Voorafgaande aan het werk dat in dit proefschrift wordt
gepresenteerd bestonden er slechts ineffici¨ ente non-deterministische exponenti¨ ele tijd-scomplexiteit
algorithmes voor het desambigu¨ eren onder DOP (Bod, 1995a). Deze situ-atie
heeft vaak geresulteerd in onbetrouwbare en tijdrovende empirische experimenten. In
dit proefschrift worden de eerste effici¨ ente deterministisch polynomiale-tijd algorithmes
voor desambigu¨ eren onder het DOP model beschreven (hoofdstuk 5). Deze algorithmes
richten zich op het berekenen van de meest waarschijnlijke derivatie (Most Probable
Derivation - MPD). Een belangrijke bijdrage aan de effici¨ entie van desambigu¨ ering onder
DOP wordt geleverd door het beperken van de invloed van de meest vertragende factor:
de grootte van een DOP STSG. Dit wordt bereikt door twee methodes te combineren:
(1) een conventionele optimalisatie van de algorithmes, zodat deze algorithmes een lin-eaire
tijdscomplexiteit in de STSG grootte hebben, en (2) verschillende heuristieken die
een DOP STSG reduceren tot een kleinere doch meer accurate grammatica. Samen resul-teren
deze twee optimalisaties in een versnelling van twee ordes van grootte, vergeleken
met de algorithmes die gebruikt werden voorafgaande aan dit werk. Bovendien, omdat
de grootte van een DOP STSG kleiner is geworden, is het effect van het sparse-data
probleem veel kleiner geworden dan oorspronkelijk het geval was.
Specialisatie door middel van ambigu¨iteits-reductie: Centraal in dit proefschrift staat
een niet-conventionele optimalisatie methode die performance modellen specialiseert voor
specifieke domeinen van taalgebruik (hoofdstuk 4). In veel taalverwerkings toepassingen
is het taalgebruik op een of andere manier beperkt. Deze beperkingen worden bepaald
door het systeem-ontwerp (bijvoorbeeld beperkte vrijheid in dialogen) en/of door de
keuze van het domein van de applicatie, bijvoorbeeld openbaar vervoer informatie, ticket
reserverings systemen en computer handleidingen. Een interessante eigenschap van menselijk
taalbegruik in specifieke domeinen is dat het minder breed en minder ambigu is dan het
taalgebruik dat verondersteld wordt door linguistische Broad-Coverage Grammatica s
(BCGs). Deze eigenschap van menselijk taalgebruik heeft betrekking op hele domeinen,
meer dan op individuele uitingen. Zulke eigenschappen kunnen worden gemeten als
statistische biases in samples van geanalyseerde uitingen uit het domein. Wij menen de
ineffici¨ entie van de huidige performance-modellen grotendeels te kunnen verklaren uit het
feit dat ze geen rekening houden met zulke statistische biases in beperkte domeinen. Deze
modellen maken gebruik van tree-banks die geannoteerd zijn onder linguistische BCGs,
die juist gericht zijn op niet-beperkt taalgebruik. De desambigu¨ erings-algorithmes die
door de huidige performance-modellen worden gebruikt, hebben daardoor een feitelijk ti-jdsverbruik
dat onafhankelijk is van de eigenschappen van het domein. Het tijdsverbruik
van deze algorithmes is alleen afhankelijk van de eigenschappen van individuele zinnen
(b.v. zinslengte), en van de BCG (b.v. de ambiguiteit van de BCG). In dit proefschrift
wordt een direkt verband gelegd tussen deze situatie en het ontbreken, in de huidige per-formance
modellen, van een aantrekkelijke eigenschap van menselijke taalverwerking:
frequente en minder ambigu¨ e uitingen worden door een mens effici¨ enter geanalyseerd.
Volgens dit proefschrift kan deze eigenschap verkregen worden door het interpreteren van
de statistische biases in beperkte domeinen binnen een Informatie-Theoretisch raamwerk,?200 Samenvatting
dat performance-modellen specialiseert voor beperkte domeinen.
Het proefschrift presenteert een raamwerk dat deze idee¨ en implementeert, genaamd
het Ambiguity-Reduction Specialization (ARS) framework . Het ARS framework in-corporeert
de bovengenoemde effici¨ entie eigenschappen in performance modellen, door
middel van een off-line leeralgorithme dat gebruik maakt van een tree-bank. Het doel
van dit leeralgorithme is het beperken van zowel de herkennings-kracht als de ambigu¨iteit
van de linguistische BCG die voor de annotatie van de tree-bank werd gebruikt, zodat
er gespecialiseerd wordt voor het domein. Dit resulteert in een gespecialiseerde gram-matica,
en ineengespecialiseerde tree-bank geannoteerd onder deze grammatica. Deze
nieuwe tree-bank kan dienen voor het verkrijgen van een kleinere en minder ambigu¨ e
probabilistische grammatica onder een bepaald performance-model. In het ARS frame-work
wordt (voor het eerst) deze specialisatie-taak uitgedrukt in termen van beperkte
optimalisatie. De algorithmes voor de uitvoering van deze taak kunnen daardoor gefor-muleerd
worden als leeralgorithmes die gebaseerd zijn op beperkte optimalisatie. Er wor-den
twee verschillende specialisatie-algorithmes gepresenteerd. Het principi¨ elere algo-rithme
is gebaseerd op de noties van entropie en Shannon s optimale codelengte,het
practischere algorithme is gebaseerd op intu¨itive statistische maten. Tevens presenteert
dit proefschrift een nieuw parseer-algorithme dat de gespecialiseerde grammatica en de
oorspronkelijke BCG integreert op een complementaire manier, zodat de parser geen tijd-verlies
lijdt wanneer de gespecialiseerde grammatica faalt in het herkennen van de input.
Empirisch onderzoek: De boven genoemde leer- en parseeralgorithmes zijn
ge¨implementeerd in computer programma s, en worden gebruikt in een project van de
Nederlanse organisatie voor Wetenschappelijke Onderzoek (NWO). Het proefschrift rap-porteert
(hoofdstuk 6) uitgebreide empirische experimenten die de boven besproken the-oretische
idee¨ en testen op twee tree-banks, OpenbaarVervoer Informatie Systeem (OVIS)
en Air Travel Inquiry System (ATIS). Deze tree-banks representeren twee domeinen, twee
talen en twee desambigueertaken: het desambigueren van uitingen en het desambigueren
van woord-grafen in een dialoogsysteem. In deze experimenten wordt het meer practis-che,
maar minder optimale leeralgorithme, toegepast op het specialiseren van het DOP
model voor gelimiteerde domeinen. De experimenten laten zien dat in beide domeinen de
resulterende gespecialiseerde DOP STSG s (genaamd SDOP STSGs) substantieel kleiner
zijn dan de oorspronkelijke DOP STSG s. Bovendien, in ´ e´ en van de domeinen (OVIS)
zijn, op beide desambigueertaken, de SDOP STSG s niet alleen minstens zo accuraat als
de oorspronkelijke DOP STSG s, maar ook veel effici¨ enter. In het andere domein (ATIS)
zijn de SDOP STSG s ook effici¨ enter dan de oorspronkelijke DOP STSG s, maar deze
effici¨ entie verbetering wordt bereikt slechts voor DOP modellen die onbruikbaar zijn in
de praktijk.
Tevens wordt de hypothese getoetst dat de gepresenteerde specialisatie-methode re-sulteert
in effici¨ entere parsering van frequente en minder ambigu¨ e uitingen. Ondanks het
feit dat dit wordt getest in een sub-optimaal experiment op het OVIS domein blijkt dat
deze hypothese ondersteund wordt door de emipirische resultaten. De parseertijd van de
SDOP STSGs is kleiner voor frequente invoer, dit in tegenstelling tot de parseertijd van?Samenvatting 201
DOP STSGs, die duidelijk onafhankelijk is van de frequentie van de invoer.
De conclusie heeft betrekking op beide onderzoeksonderwerpen die aan elkaar wor-den
gerelateerd in dit proefschrift: enerzijds de computationele en effici¨ entie-aspecten van
het DOP model, en anderzijds het specialiseren van performance-modellen voor beperkte
domeinen. De studie naar de computationele aspecten van het DOP model levert een
complexiteits-analyse en een effici¨ ent algorithme op. De empirische resultaten laten
duidelijk zien dat het nieuwe algorithme een aanzienlijke effici¨ entie-verbetering oplev-ert.
Deze resultaten maken echter ook duidelijk dat de computationele aspecten en de ef-fici¨
entie van het DOP -model verdere onderzoek vereisen. De studie naar het specialiseren
van performance modellen voor gelimiteerde domeinen heeft nieuwe inzichten omtrent
het modelleren van effici¨ entie-eigenschappen van menselijk taalverwerking opgeleverd.
Onze hypothese betreffende de relatie tussen statistische biases en deze eigenschappen
blijkt ondersteund te worden door de empirische resultaten. Het zou echter voorbarig
zijn te concluderen dat de gepresenteerde methode suksesvol toepasbaar is op elk beperkt
domein. De studie in dit proefschrift is immers beperkt gebleven tot sub-optimale im-plementaties
die verschillende approximaties bevatten, als gevolg van beperkingen in de
tot nu toe beschikbare hardware. Het is daarom noodzakelijk om deze studie voort te
zetten in toekomstig onderzoek.
show less