Você está na página 1de 8

45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8.

November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

Alencar, Leonel Figueiredo de. Automatische Satzanalyse für Studierende der Germanistik bzw. des
Faches DaF. In: Xavier, Wiebke Röben de Alencar (Hrsg.). Akten des Seminars: Deutsch-
Brasilianische Kulturbeziehungen und DaF/Relações culturais Brasil-Alemanha e o Ensino de
Alemão Língua Estrangeira. Rio de Janeiro, 2008. ISBN: 978-85-61731-01-4

Automatische Satzanalyse für Studierende der Germanistik bzw. des Faches DaF

Leonel Figueiredo de Alencar1

Zusammenfassung: In diesem Papier wird davon ausgegangen, dass eine Beschäftigung mit der Linguistik für Studen-
ten nicht nur der Germanistik, sondern auch des Faches DaF unumgänglich ist. Um das Erlernen formaler Syntaxmodel-
le zu erleichtern, konzipierten wir ein Computerprogramm namens Donatus, das die Modellierung von Sprachausschnit-
ten mittels kontextfreier Grammatiken unterstützt. Damit lassen sich über die NLTK-Programmbibliothek ohne Pro-
grammierkenntnisse Parser erstellen, die auf die automatische Analyse einzelner Sätze sowie ganzer Korpora ange-
wandt werden können. Graphische Repräsentationen der Analysen in Form von Baumdiagrammen können auch auto-
matisch erstellt werden.
Stichwörter: Syntax, Phrasenstrukturgrammatik, Computerlinguistik, NLTK, Python.

1 Einleitung

In diesem Papier gehen wir der Frage nach, wie der Computer angewandt werden kann, um Er-
kenntnisse aus der Linguistik im Studium der Germanistik bzw. Deutsch als Fremdsprache (DaF)
auf eine lebendigere Art und Weise einzusetzen.
Dass man es im Rahmen des ersteren Faches mit sprachwissenschaftlichen Teildisziplinen wie
Phonologie, Morphologie oder Syntax zu tun bekommt, bedürfte keiner Rechtfertigung, zumal all
dies traditionell zur Germanistik gehört. Demgegenüber mag es für viele umstritten sein, ob die
Linguistik innerhalb des Faches DaF eine Rolle zu spielen hat. Dabei sollte man beachten, dass die
Didaktik und Methodik DaF ohne Einbettung in einen breit ausgelegten interdisziplinären Rahmen,
in dem die Linguistik ein wesentlicher Bestandteil ist, zu einer vorwissenschaftlichen Ansammlung
subjektiver Rezepte zu verkommen droht (vgl. Neuner 2003: 225).
In diesem Zusammenhang kommt der Syntax eine besondere Rolle zu, insofern als sie die Nahtstel-
le zwischen den anderen grammatischen Teildisziplinen darstellt. Eine Beschäftigung mit dieser
Grammatikkomponente darf also keinem zum DaF-Unterricht qualifizierenden Studiengang fehlen.
Die Auseinandersetzung mit Grundbegriffen und Methoden der Syntaxtheorie seitens angehender
Deutschlehrer ist nicht zuletzt auch damit begründet, dass Standardnachschlagewerke zur deutschen
Sprache ohne Vertrautheit mit der jeweiligen Terminologie oft so gut wie unbrauchbar sind.
Möchte man z.B. wissen, was die Dudengrammatik unter Partikel (im engeren Sinne) versteht,
stößt man auf eine morphosyntaktisch geprägte Definition, die auf den Satzgliedbegriff zurück-
greift. Demnach sind Partikeln unflektierbare Wörter, die „nicht als Satzglieder auftreten können“
(Eisenberg et al. 1998: 377).
Dieser Anforderung entsprechend ist im DaF-Studium an der Universidade Federal do Ceará in For-
taleza die Lehrveranstaltung "Morphosyntax des Deutschen" obligatorisch zu absolvieren. Wie an
vielen Universitäten in Deutschland wird hier das Arbeitsbuch Deutsche Syntax von Pittner und
1
Leonel Figueiredo de Alencar, Prof. Dr.
(Universidade Federal do Ceará (UFC), Departamento de Letras Estrangeiras – Unidade Curricular de Língua Alemã)
E-Mail: prof_leonel-linguistik A T yahoo D O T com D O T br, Homepage http://www.leonel.profusehost.net/.

1 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

Berman (2004) verwendet, dem eine weitgehend formale Herangehensweise zugrunde liegt, wie sie
heutzutage typisch für die germanistische Linguistik ist.
Das vorliegende Papier soll "Donatus" vorstellen, ein von uns konzipiertes Computerprogramm, das
Germanistik- bzw. DaF-Studierende beim Erlernen formaler Syntaxmodelle unterstützen soll. Die-
ses Werkzeug, das in prototypischer Form in Python unter Anwendung des Natural Language
Toolkit (fortan: NLTK) implementiert ist und zukünftig weiterentwickelt werden soll, kann nicht
nur Beispiele aus dem o. g. Lehrbuch, sondern auch andere vom Benutzer gebildete, dem darin mo-
dellierten Grammatikfragment entsprechende Sätze analysieren und graphisch in Form von Baum-
diagrammen darstellen.
Dieser Beitrag ist folgendermaßen aufgebaut: Nach einem kurzen Überblick über die formale Syn-
tax in Abschnitt 2 wird in Abschnitt 3 auf das Modell der Phrasenstrukturgrammatik nach Pittner
und Berman eingegangen. Im nächsten Abschnitt wird gezeigt, wie man ausgehend von diesem An-
satz ein computerverarbeitbares Syntaxfragment des Deutschen im Formalismus der kontextfreien
Grammatik erstellen kann. Im Anschluss hieran wird in Abschnitt 5 erklärt, wie Sätze unter An-
wendung von Donatus gemäß einem der mitgelieferten Grammatiken oder den vom Benutzer selbst
eingegebenen grammatischen Regeln maschinell analysiert werden können.

2 Formale Syntax

Wie gesagt, fokussieren wir hier auf die Syntaxebene, weil sie (zumindest nach der Auffassung der
Generativen Grammatik) als die zentrale Komponente der Sprachfähigkeit fungiert (vgl. Klenk
2003: 53 ). Die Beziehungen zwischen den verschiedenen Ebenen der Sprachfähigkeit lassen sich
anhand der Übersicht 1 schematisch darstellen. Demnach ist zweierlei festzustellen. Einerseits muss
man beim Verstehen eines Satzes nicht nur die Bedeutung der einzelnen Wörter erschließen, was
unter Zugriff auf das mentale Lexikon erfolgt, sondern auch eine Satzbedeutung aus dem Geflecht
der syntaktischen Beziehungen innerhalb des Satzes bilden. Andererseits bestimmt die syntaktische
Struktur die Intonation eines Satzes.
[Lexikon]

[Syntax]

[Lautstruktur]

[Semantik]

Übersicht 1: Teilkomponenten der Sprachfähigkeit nach der Generativen Grammatik.

Die Beispiele in (1) (Meibauer et al. 2002: 125-126) illustrieren den ersteren Punkt. Satz (1 a) kann
sowohl als (1 b’) als auch als (1 c’) paraphrasiert werden, was direkt damit zusammenhängt, ob
sich die hervorgehobenen Wörter wie in (1 b) oder wie in (1 c) gruppieren.
(1) a. Leider schmeckt ihr selbst gebackenes Brot nicht.
b. Leider schmeckt [ihr selbst gebackenes Brot] nicht.
2 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

b'. Leider schmeckt das selbst gebackene Brot von ihr nicht.
c. Leider schmeckt [ihr] [selbst gebackenes Brot] nicht.
c'. Sie mag kein selbst gebackenes Brot.

Aus dem letzteren Punkt ergibt sich z. B., dass eine vollständige Beschreibung der Intonationsmus-
ter des Deutschen ohne Bezug auf syntaktisch geprägte Begriffe, wie W-Fage und Entscheidungs-
frage, unmöglich ist (vgl. dazu z. B. Bunk 2005).
Wie bereits angedeutet, wird hier die Syntax des Deutschen aus der Perspektive der Computerlingu-
istik betrachtet, die im engeren Sinne als Teildisziplin der Linguistik bzw. als Ansatz innerhalb der
theoretischen Linguistik verstanden wird (vgl. Klabunde et al. 2004: 2). Diese Disziplin geht der
Grundfrage nach, inwieweit sich das grammatische System einer Sprache und die Verarbeitung von
Sprache im Gehirn in der Sprachproduktion und -rezeption so präzise beschreiben lassen, dass As-
pekte des menschlichen Sprachverhaltens im Computer simuliert werden können.

Für diese Aufgabe stellt eine formale Herangehensweise an die Syntaxbeschreibung eine wesentli-
che Voraussetzung dar. Aktuelle Beispiele eines solchen Ansatzes liefert neben dem bereits er-
wähnten Arbeitsbuch von Pittner und Berman (2004) das Kapitel über Syntax in einem der Stan-
dardlehrbücher zur Einführung in die germanistische Linguistik (Meibauer et al. 2002).2
Es gibt zwei Hauptmerkmale einer formalen Syntaxbeschreibung:
(I) Hypothesen über die syntaktische Struktur werden vorwiegend mittels distributioneller und mor-
phologischer Kriterien überprüft, wobei semantische Kriterien "eine untergeordnete Rolle" spielen
(vgl. u.a. Pittner; Berman 2004: 15 und Meibauer et al. 2002: 133). Grammatische Urteile (etwa
über die Zusammengehörigkeit von Wörtern innerhalb eines Satzes) sollen durch Verfahren wie
z.B. dem Verschiebetest, nachgewiesen werden (Näheres dazu im nächsten Abschnitt ).
(II) Anstatt von oder zusätzlich zu einer natürlichsprachlichen Metasprache werden künstliche
Sprachen (vorwiegend auf der Logik und der Mathematik basierende symbolische Formalismen wie
auch graphische Formalismen) verwendet. Einer der meist verwendeten Formalismen überhaupt ist
die kontextfreie Grammatik (fortan: CFG, Abkürzung des entsprechenden englischen Ausdrucks),
auf die wir in Abschnitt 4 noch zu sprechen kommen werden.
Die CFG ist ein System aus Regeln, mit deren Hilfe sich u.a. die Wohlgeformtheit natürlichsprach-
licher syntaktischer Strukturen berechnen lässt. In (2) wird eine kontextfreie Regel mit ihrer Para-
phrase in natürlicher Sprache exemplifiziert. Diese Regel, die eine der möglichen Satzstrukturen des
Deutschen festlegt, wird in (3) anhand eines Baumdiagramms dargestellt.
(2) a. S → NP VP
b. "Ein Satz besteht aus (der Verkettung von) einer Nominalphrase
und einer Verbalphrase"
(3) S

NP VP

Beide Notationen sind völlig äquivalent, wobei Diagramme, insofern als sie Assoziationen zum All-
täglichen herstellen,3 benutzerfreundlicher als abstrakte Kalkülregeln sind (vgl. Engel 1994: 41-42).
Wir werden in Abschnitt 5 sehen, wie man syntaktische Analysen in Form von Baumdiagrammen
automatisch mit Hilfe des Computers erstellen kann.
2
Außer diesen Lehrbüchern liegt z.B. folgenden Handbüchern eine formale Orientierung zugrunde: Eisenberg et al.
(1998), Eisenberg (1999), Engel (1994, 2004), Eroms (2000) und Helbig und Buscha (2001).
3
Man denke in diesem Zusammenhang an Diagramme, die die Zusammensetzung einer Institution, z.B. einer Universi-
tät aus Fakultäten und Fachbereichen, darstellen, wobei die lineare Anordnung der Tochterknoten in diesem Fall nicht
signifikant ist.
3 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

3 Das Modell der PSG

In diesem Beitrag beschränken wir uns auf das Syntaxfragment der zwei ersten Kapitel von Pittner
und Berman (2004), dem die traditionelle Konstituentenstrukturgrammatik bzw. Phrasenstruktur-
grammatik (fortan: PSG) zugrunde liegt.4 Dabei handelt es sich um einen weitgehend formalisierten
Ansatz. Wie wir weiter unten sehen werden, kann diese Darstellung jedoch (schon aufgrund des
einführenden Charakters des Arbeitsbuches) nicht unmittelbar in einen computerverarbeitbaren
Formalismus übersetzt werden, weil sie oft nicht explizit genug ist.5
Zentraler Begriff der PSG ist die Phrase bzw. Syntagma. Die Wortgruppen in eckigen Klammern
in (4) bilden Phrasen, wobei unter Gruppe sowohl mehrelementige als auch einzelelementige ma-
thematische Tupel von Wörtern zu verstehen sind. Also kann eine Phrase aus einem einzigen Wort
bestehen (vgl. (4 b)). Andererseits können Phrasen aus Phrasen bestehen, die wiederum aus anderen
Phrasen bestehen (vgl. (5)). Keine Phrasen sind dagegen z. B. die Gruppen [Mitbewohnerin findet]
und [den Garten von].
(4) a. [Meine Mitbewohnerin] findet [den Garten von ihrem Freund] [viel zu klein].
b. [Sie] [findet den Garten viel zu klein].
(5) [Meine Mitbewohnerin] [findet [den Garten [von [ihrem Freund]]] [viel zu klein]].

Wie lassen sich Phrasen ermitteln? Dazu gibt es verschiedene Tests, von denen die wichtigsten der
Verschiebetest, der Pronominalisierungstest und der Koordinationstest sind. Dem ersten Test zufol-
ge ist eine Wortgruppe eine Phrase, wenn sich die einzelnen Elemente zusammen verschieben las-
sen.
Phrasenkategorie Kopf
Nominalphrase (NP) Nomen (N) oder Pronomen (Pron)
Adjektivphrase (AdjP) Adjektiv (Adj)
Adverbialphrase (AdvP) Adverb (Adv)
Präpositionalphrase (PP) Präposition (P)
Verbalphrase (VP) Verb (V)
Übersicht 2: Phrasenkategorien und ihre Köpfe.

Einen besonderen Fall des Verschiebetests stellt der Vorfeldtest dar. Dadurch lassen sich Satzglie-
der ermitteln. Wie bereits angedeutet, ist der Satzgliedbegriff eins der Kernkonzepte der Syntaxthe-
orie des Deutschen. Satzglieder sind im Deutschen Phrasen, die im Vorfeld (d.h. in der Position vor
dem konjugierten Verb im Aussagesatz) stehen können.
Beim Pronominalisierungstest wird die Substituierbarkeit durch ein Pronomen (oder ein anderes
Pro-Wort) überprüft (vgl. (6)). Nach dem Koordinationstest sind Wortgruppen Phrasen, die sich ko-
ordinieren lassen (vgl. (7)). Das Ergebnis der Koordination zweier Phrasen eines beliebigen Typs ist
wiederum eine Phrase dieses Typs.
(6) [Sie] findet [ihn] [so].
(7) Die meisten Witze [[über die Schwaben] und [über die Bayern]] findet sie nicht sehr komisch.
(Meibauer et al. 2002: 127)

4
Neuere Ansätze wie die X-bar-Theorie konnten deshalb nicht berücksichtigt werden.
5
Strenger formalisierte Ansätze bieten z.B. Klenk (2003) und Grewendorf, Hamm und Sternefeld (1989) an.

4 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

Jede Phrase eines Typs hat einen lexikalischen Kopf, der den Typ der Phrase, ihre Bezeichnung und
ihr syntaktisches Verhalten bestimmt. Phrasen sind also Projektionen eines Kopfes. In Übersicht 2
werden die wichtigsten Phrasenkategorien und ihre Köpfe dargestellt.
Aber nicht alle lexikalischen Kategorien projizieren Phrasen. Das ist bei den Partikeln (Part) und
Determinierern (Det) der Fall, weil sie peripher als Modifizierer in Phrasen auftreten, deren Köpfe
Elemente anderer Art sind. Dies wird in (8) und (9) veranschaulicht. In (8) fungiert nur als Fokus-
partikel (Fok). In (9) ist zu eine Steigerungspartikel (Stg).
(8) a. [Nur Peter] ging gestern ins Kino.
b. Er ging [nur gestern] ins Kino.
c. Peter ging gestern [nur ins Kino].
(9) Ich finde das Haus [zu klein].

Anders als die NP, die AdjP usw. lassen sich Verbalphrasen nicht pronominalisieren. Auch wenn
ihre Verschiebung beschränkt ist,6 können sie koordiniert werden (vgl. (10)). Also schließen wir
uns Analysen wie in (11) an (Pittner;Berman 2004: 29).
(10) Sie [liebt Peter] und [hasst Anna].
(11) [S [NP Die Katze] [VP liegt gemütlich auf dem Sofa]].

Pittner und Berman lassen eine wichtige Frage in ihrer Darstellung der Grundstrukturen der deut-
schen Syntax offen: wie sieht die Konstituentenstruktur von Sätzen wie (12) aus, die im Vorfeld
eine andere Konstituente als das Subjekt (vgl. die erste NP in (11)) aufweisen?
(12) a. Gemütlich liegt die Katze auf dem Sofa.
b. Auf dem Sofa liegt gemütlich die Katze.

In neueren Ansätzen zur deutschen Syntax wird davon ausgegangen, dass nicht nur die Verbergän-
zungen, sondern auch das Subjekt samt allen Verbangaben (wie gemütlich in (12)) innerhalb der VP
generiert werden. Erst durch Bewegung gelangen diese Konstituenten ins Vorfeld.7 Im nächsten
Abschnitt werden wir sehen, wie man diese Hypothese im Rahmen einer kontextfrei-
grammatischen Formulierung der traditionellen PSG ausdrücken kann.

4 Formalisierung der PSG im CFG-Modell

Im vorliegenden Abschnitt geht es darum zu zeigen, wie die noch nicht hundertprozentig formale
syntaktische Beschreibung der zwei ersten Kapitel von Pittner und Berman (2004) in einen compu-
terverarbeitbaren Formalismus übersetzt werden kann, sodass Sätze vom Computer automatisch
analysiert werden können.
Unter den computerverarbeitbaren grammatischen Formalismen ist die CFG am einfachsten und am
meisten verbreitet. Sie wurde 1957 von Chomsky vorgestellt und schon damals von ihm als unadä-
quat für die Beschreibung komplexerer syntaktischer Strukturen natürlicher Sprachen verworfen.
Trotzdem wird dieser Formalismus dank seiner Einfachheit immer noch als „Einsteigermodell“ in
Einführungen in die formale Syntax und automatische Satzanalyse verwendet.8
Voraussetzung für die Erstellung eines CFG-Fragments einer natürlichen Sprache ist ein sog. Kor-
pus, d.h. eine Sammlung von Beispielsätzen, die durch die Grammatik zu modellieren sind. Hierfür
benutzen wir das Korpus in (13).
(13) a. nur meine Mitbewohnerin hat einen Garten
b. sie findet den Garten klein
6
Zur VP-Topikalisierung vgl. z.B. Berman (2003:43).
7
Zu verschiedenen Versionen dieser Hypothese vgl. z.B. Berman (2003) und Grewendorf (2002).
8
Vgl. dazu Bird, Klein und Loper (2008), Klenk (2003), Grewendorf, Hamm und Sternefeld (1989) u.a.

5 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

c. dieses Haus hat keinen Garten


d. zu klein findet sie es
e. viel zu klein findet sie das
f. das Haus ist hell

Eine Grammatik im CFG-Format besteht aus zwei Komponenten: (I) syntaktische Regeln, die die
Kategorie und Zusammensetzung der Phrasen bestimmen (vgl. (14)) und (II) lexikalische Regeln,
die die Wörter einer Sprache einer lexikalischen Kategorie (Wortart) zuordnen (vgl. (15)). Anstatt
die verschiedenen alternativen Regeln für eine bestimmte Kategorie einzeln aufzulisten, können
CFG-Regeln mithilfe des Operators "|", der soviel wie ODER bedeutet, vereinfacht werden.
(14) S -> NP VP | AdjP VP
VP -> V NP | V NP AdjP | V NP AdjP | V NP NP
NP -> Det N | Pron | Fok NP | NP Fok
AdjP -> Adj | Stg Adj | Adj AdjP
(15) V -> "hat" | "ist" | "findet"
Det -> "meine" | "das" | "den" | "dieses" | "einen" | "keinen"
Pron -> "das" | "sie" | "es"
Adj -> "klein" | "hell" | "viel"
Stg -> "zu"
Fok -> "nur" | "auch"
N -> "Garten" | "Mitbewohnerin" | "Haus"

Mit den Regeln in (14) und (15) können wir alle Sätze in (13) analysieren, wobei viele weitere Bei-
spiele wie z.B. diejenigen in (16) auch analysiert werden können.
(16) a. meine Mitbewohnerin findet nur den Garten viel zu klein
b. keinen Garten hat dieses Haus

Natürlich modellieren die Regeln in (14) und (15) nur einen winzigen Ausschnitt des Deutschen.
Aber diese „Spielzeuggrammatik“ lässt sich auf relativ einfache Weise erweitern, indem man z.B.
die S-Regel folgendermaßen um alternative Besetzungen des Vorfelds erweitert:
(17) S -> NP VP | AdjP VP | PP VP | AdvP VP

Dabei stößt man schnell auf die Grenzen des CFG-Formalismus, wenn es darum geht, Phänomene
wie Kongruenz und Rektion zu beschreiben. Dazu gibt es ausdrucksstärkere Formalismen, wie z.B.
die Lexikalisch-Funktionale Grammatik (LFG), deren Behandlung hier aus Platzgründen außer
Acht gelassen werden muss.9

5 Computerimplementierung von CFG- Fragmenten mit


Donatus

Der NLTK (Bird; Klein; Loper 2008) zählt zu den heutzutage weltweit am meisten verwendeten
Systemen für die Einführung in die Computerlinguistik. Dabei handelt es sich um eine frei zugäng-
liche Programmbibliothek in Python, einer nicht nur höchst entwickelten, sondern auch besonders
lernerfreundlichen (und kostenlosen) Programmiersprache. Dieser „Werkzeugkasten“ enthält ver-
schiedene Module für die maschinelle Verarbeitung natürlicher Sprachen, insbesondere für die au-
tomatische syntaktische und semantische Analyse sowie für die Korpuslinguistik.
9
Zur Behandlung der Kongruenz und Rektion in der automatischen Satzanalyse vgl. z. B. Berman und Frank (1996)
und Klenk (2003).

6 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

Obwohl der NLTK die Anwendung z.B. von im CFG-Formalismus kodierten grammatischen Be-
schreibungen auf die Analyse von Sätzen am Computer erheblich erleichtert, zumal die notwendi-
gen Parser sowie Module für die graphische Darstellung von Konstituentenstrukturen bereitgestellt
werden, kann dabei auf Programmierkenntisse nicht verzichtet werden.
Demgegenüber bietet Donatus eine benutzerfreundliche Schnittstelle zu den Modulen des NLTK
an, die direkt in der automatischen Satzanalyse involviert sind, sowie weitere Python-Funktionen,
die ohne Pythonkenntnisse die Erstellung und die Überprüfung von CFG-Fragmenten ermöglichen.
Für Laien zugängliche Erläuterungen über die Programmfunktionen sind durch die eingebaute Hil-
fe-Funktion aufrufbar.10
Beispielgrammatiken des Deutschen mit steigender Komplexität werden mit dem Programm mitge-
liefert, die den grammatischen Stoff der zwei ersten Kapitel von Pittner und Berman (2004) abde-
cken. Trotzdem kann man viel besser Syntax lernen, wenn man versucht, Grammatikfragmente
selbst zu schreiben, die einen begrenzten Sprachausschnitt modellieren. Mit Donatus kann man ü-
berprüfen, inwieweit ein grammatisches Fragment korrekt ist.
Am Beispiel der in (14) und (15) dargestellten kontextfreien Grammatik zeigen wir jetzt schrittwei-
se, wie man mit Donatus einen Parser erstellen und testen kann.
Der erste Schritt besteht darin, die Sätze in (13) in einer Textdatei zu speichern. Mit der Funktion
bilde_Lexikon() wird dem Benutzer jedes der im Korpus vorkommenden Wörter am Bildschirm
gezeigt, wobei er aufgefordert wird, es nach Wortart zu klassifizieren. Aus diesen Informationen
bildet das Programm automatisch ein Lexikon in Form von CFG-Regeln wie in (15) und speichert
es in einer Textdatei. Die Syntax ist entweder in Form von CFG-Regeln oder in einer benutzer-
freundlicheren Notation wie in (18) zu formulieren und in einer Textdatei zu speichern.
(18) Satzglied= NP oder AdjP oder AdvP oder PP
VP besteht aus V und Satzglied^{0,3}
S besteht aus Satzglied und VP

In (18) haben wir nur die Kategorien VP und S definiert. Dieses Syntaxfragment muss noch um die
Definitionen der anderen Phrasenkategorien erweitert werden. Jede CFG-Regel der Form X -> Y Z
W kann im Donatus-Format als „X besteht aus Y und Z und W“ umformuliert werden. Das Dona-
tus-Format ist aber viel ausdrucksstärker als die CFG-Notation, weil es ermöglicht, Oberkategorien
wie das Satzglied zu definieren. Dadurch wird die Grammatikschreibung extrem vereinfacht. Man
vergleiche z.B. die Regeln für die VP in (14) und für den S in (17) mit ihren Pendants in (18).

Abbildung 1: Graphische Darstellung syntaktischer Ambiguität im NLTK.


Die Notation ^{0,3} an der Oberkategorie Satzglied in (18) bedeutet, dass wir null bis drei Satz-
glieder im Mittelfeld (im Gegensatz zu einem einzigen Satzglied im Vorfeld) haben können. Natür-
lich entspricht diese Begrenzung nicht der Realität ganz gewöhnlicher Sätze des Deutschen:
10
Donatus steht Forschern und Studenten für akademische, nicht kommerzielle Benutzung kostenlos zur Verfügung.
Bei Interesse Autor anmailen.

7 von 8
45 Jahre Casa de Cultura Alemã/Fortaleza 6.-8. November 2007
Deutsch-Brasilianische Kulturbeziehungen Akten des Kongresses
und DaF

(19) wegen der Kälte schläft die Katze im Winter den ganzen Tag gemütlich auf dem Sofa

In diesem Beispiel haben wir 5 Satzglieder im Mittelfeld. Von der Rechnerkapazität abgesehen
kann das System aber eine beliebig hohe Anzahl von Satzgliedern behandeln.
Donatus konvertiert automatisch diese benutzerfreundliche Notation in ein Script des (im Gegensatz
zu Python und NLTK leider nicht frei verfügbaren) Xerox-Programms xfst (Beesley; Karttunen
2003), das seinerseits aus den Script-Informationen einen endlichen Automaten bildet, der wohlge-
formte CFG-Regeln im NLTK-Format erzeugt.11 Definitionen wie in (18) werden also automatisch
in Regeln wie (17) konvertiert.
Nachdem das Lexikon und sie Syntax gespeichert worden sind, kann ein Parser durch die Funktion
starten() erstellt werden, wobei der Benutzer entscheiden kann, welche Parsingverfahren bzw. wel-
che Parsingstrategie zu verwenden ist. Damit können dann sowohl einzelne Sätze als auch ganze
Korpora auf einmal analysiert werden.
Der Benutzer kann sich eine graphische Repräsentation aller erfolgreichen Analysen zeigen lassen
(vgl. Abb. 1). Bei syntaktisch mehrdeutigen Sätzen werden die verschiedenen Bäume in einem ein-
zigen Fenster nebeneinander gezeigt. Das ist in Abb. 1 veranschaulicht, wo die Fokuspartikel als
Modifizierer entweder des Subjekts oder des Akkusativobjekts interpretiert werden kann.

Literaturverzeichnis

Beesley, K. R. und Karttunen, L. Finite state morphology. Stanford: CSLI Publications 2003.
Berman, J. und Frank, A. Deutsche und französische Syntax im Formalismus der LFG. Tübingen:
Niemeyer 1996.
Berman, J. Clausal Syntax of German. Stanford: CSLI 2003.
Bird, S., Klein, E. und Loper, E., Introduction to Natural Language Processing. 2008.
http://nltk.org/doc/en/book.pdf.
Bunk, G. J. S., Phonetik aktuell. Ismaning: Max Hueber 2005.
Eisenberg, P. et al., Grammatik der deutschen Gegenwartssprache. 6 Aufl. Mannheim: Dudenver-
lag 1998.
Eisenberg, P., Grundriss der deutschen Grammatik: Der Satz. Stuttgart und Weimar: J. B. Metzler
1999.
Engel, U., Syntax der deutschen Gegenwartssprache. 3. Aufl. Berlin: Erich Schmidt 1994.
Engel, U., Deutsche Grammatik. München: Iudicium 2004.
Eroms, H.-W., Syntax der deutschen Sprache. Berlin: Walter de Gruyter 2000.
Grewendorf, G.; Hamm, F. und Sternefeld, W., Sprachliches Wissen: Eine Einführung in moderne
Theorien der grammatischen Beschreibung. 3. Aufl. Frankfurt am Main: Suhrkamp 1989.
Grewendorf, G., Minimalistische Syntax. Tübingen und Basel: A. Francke 2002.
Helbig, G. und Buscha, J., Deutsche Grammatik: Ein Handbuch für den Ausländerunterricht. Ber-
lin: Langenscheidt 2001.
Klabunde, R. et al. (Hrsg.)., Computerlinguistik und Sprachtechnologie: eine Einführung. Heidel-
berg: Spektrum 2004.
Klenk, U., Generative Syntax. Tübingen: Narr 2003.
Meibauer, J. et al., Einführung in die germanistische Linguistik. Stuttgart: Metzler, 2002.
Neuner, G., „Vermittlungskonzepte: Historischer Überblick“, in: Bausch, K.-R.; Christ, H. und
Krumm, H.-J., Handbuch Fremdsprachenunterricht. 4. Aufl. Tübingen: A. Francke 2003. S. 225-
234.
Pittner, K. und Berman, J., Deutsche Syntax: Ein Arbeitsbuch. Tübingen: Narr 2004.
11
Zu Automaten vgl. Klabunde et. al. (2004).

8 von 8

Você também pode gostar