Automatisierte Erstellung neuer Sprachkorpora: Ein Beispiel anhand des Lëtzebuergeschen
©2008
Studienarbeit
45 Seiten
Zusammenfassung
Sprachtechnologien, einmal ein Thema für theoretische Forschung und Science-Fiction-Filme, sind Alltag geworden. Dank stetig steigender Rechenleistung und jahrzehntelangem Forschungsaufwand kann man heute Sprachsteuerung vielfältig einsetzen - beim Autofahren, Telefonieren, Surfen und Arbeiten. Hinter dieser ausgereiften Technologie steckt viel Arbeitsaufwand. Um Spracherkennung und Sprachsynthese, also die künstliche Erzeugung einer Stimme, möglich zu machen, müssen große Mengen von Sprachdaten analysiert und verarbeitet werden. Forscher und Entwickler verwenden diese Daten, um ihrer Computersoftware beizubringen, einen Begriff zu erkennen oder richtig auszusprechen.
Sprachtechnologien stehen und fallen mit der Menge guter Sprachdaten. Diese bestehen nicht nur aus reinen Aufnahmen; sie können auch Informationen über die einzelnen Phoneme, Silben und Wörter beinhalten. Sie beschreiben, wo jeder Laut anfängt und aufhört, welche Wortteile verwendet wurden und wie die Wörter, Phrasen und Sätze akzentuiert sind. Alle diese Informationen müssen für jeden Laut, jede Silbe, jedes Wort und jeden Satz vorhanden sein. Die Bereitstellung solcher annotierten Sprachdaten ist ein gewaltiger Aufwand. Gebildete Fachkräfte müssen zwischen 30 Minuten und einer Stunde Zeit opfern um eine Minute der Sprachaufnahmen zu bearbeiten. Oft sind dutzende oder hunderte Stunden solcher bearbeiteter Sprachaufnahmen notwendig, um ein ausgereiftes Spracherkennungs- oder Sprachsynthesesystem zu entwickeln. Wenn man bedenkt, dass die Zeit der notwendigen manuellen Bearbeitung mit 30 bzw. 60 multipliziert werden muss, so ist ein hoher Kostenfaktor erkennbar. Dieser Faktor lässt sich für große Sprachen rechtfertigen, da die Endsysteme für eine große Benutzergruppe zur Verfügung stehen werden. Bei kleineren Sprachen ist der Entwicklungsaufwand genau so groß, da die Zielgruppe jedoch viel kleiner ist, kann er oft nicht gerechtfertigt werden. So führt es dazu, dass kleinere Sprachen oft bei der Entwicklung moderner Technologien benachteiligt werden.
Diese Arbeit zeigt, wie man die Bearbeitung der Sprachdaten automatisieren kann um so den manuellen Bearbeitungsaufwand zu senken. Ziel ist es Sprachdaten, auch Sprachkorpora genannt, für kleinere Sprachen einfach und günstig verfügbar zu machen. Dabei soll ein Aligner etnwickelt werden, ein Programm, das Sprachaufnahmen und deren Transkription analysiert und den Lauten, Silben und Wörtern Zeitstempel zuweist. Die Zeitstempel müssen lediglich […]
Sprachtechnologien stehen und fallen mit der Menge guter Sprachdaten. Diese bestehen nicht nur aus reinen Aufnahmen; sie können auch Informationen über die einzelnen Phoneme, Silben und Wörter beinhalten. Sie beschreiben, wo jeder Laut anfängt und aufhört, welche Wortteile verwendet wurden und wie die Wörter, Phrasen und Sätze akzentuiert sind. Alle diese Informationen müssen für jeden Laut, jede Silbe, jedes Wort und jeden Satz vorhanden sein. Die Bereitstellung solcher annotierten Sprachdaten ist ein gewaltiger Aufwand. Gebildete Fachkräfte müssen zwischen 30 Minuten und einer Stunde Zeit opfern um eine Minute der Sprachaufnahmen zu bearbeiten. Oft sind dutzende oder hunderte Stunden solcher bearbeiteter Sprachaufnahmen notwendig, um ein ausgereiftes Spracherkennungs- oder Sprachsynthesesystem zu entwickeln. Wenn man bedenkt, dass die Zeit der notwendigen manuellen Bearbeitung mit 30 bzw. 60 multipliziert werden muss, so ist ein hoher Kostenfaktor erkennbar. Dieser Faktor lässt sich für große Sprachen rechtfertigen, da die Endsysteme für eine große Benutzergruppe zur Verfügung stehen werden. Bei kleineren Sprachen ist der Entwicklungsaufwand genau so groß, da die Zielgruppe jedoch viel kleiner ist, kann er oft nicht gerechtfertigt werden. So führt es dazu, dass kleinere Sprachen oft bei der Entwicklung moderner Technologien benachteiligt werden.
Diese Arbeit zeigt, wie man die Bearbeitung der Sprachdaten automatisieren kann um so den manuellen Bearbeitungsaufwand zu senken. Ziel ist es Sprachdaten, auch Sprachkorpora genannt, für kleinere Sprachen einfach und günstig verfügbar zu machen. Dabei soll ein Aligner etnwickelt werden, ein Programm, das Sprachaufnahmen und deren Transkription analysiert und den Lauten, Silben und Wörtern Zeitstempel zuweist. Die Zeitstempel müssen lediglich […]
Leseprobe
Inhaltsverzeichnis
5 Implementierung
23
5.1 Alignieren der phonetischen Annotation mithilfe des deutschen Aligners . . . . . . . . 24
5.2 Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen
mit den lëtzebuergeschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.3 Erstellung der Hidden-Markov-Modelle für lëtzebuergesche Phoneme . . . . . . . . . . 24
5.4 Integration der neuen Modelle in den Aligner. . . . . . . . . . . . . . . . . . . . . . . . 26
5.5 Anpassung der Vorverarbeitungskomponenten des Aligners . . . . . . . . . . . . . . . 26
5.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Evaluierung
27
6.1 Vergleich der Aligner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2 Programm zur automatischen Evaluierung der Ergebnisse . . . . . . . . . . . . . . . . 27
6.3 Korrektur und zweiter Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.4 Manuelle und automatische Alignierung . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7 Zusammenfassung und zukünftige Forschung
30
7.1 Erweiterung der Funktionalität des Aligners . . . . . . . . . . . . . . . . . . . . . . . . 31
7.2 Entwicklung eines lëtzebuergschen Aligners . . . . . . . . . . . . . . . . . . . . . . . . 32
7.3 Entwicklung eines Sprachkorpus für Lëtzebuergesch . . . . . . . . . . . . . . . . . . . . 32
AGilles-Korpus: Fragebuch Lëtzebuergesch
36
B Die Perl-Funktionssammlung ConversionLibrary.pm
38
5
1 Einleitung
1.1 Motivation
Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang
des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssyste-
me ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabe-
medium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme
und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen -
Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprach-
dialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser
erreichbaren Service zu bieten.
Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Ent-
wicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die
immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora ge-
nannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen reprä-
sentieren, können robuste und exible Spracherkennungssysteme entwickelt werden. Sie sind immer
weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.
Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäÿig. Obwohl die Forschung die Tech-
nologie vorantrieb, waren die Sprachkorpora für nur wenige, groÿe Sprachen verfügbar. Dies hat sich
mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind.
Die Suche im Katalog des Linguistic Data Consortium [Lin07] zeigt eine Sammlung unterschiedlicher
Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäÿig - für Deutsch und Französisch sind
in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist
das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch
keins.
Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung
von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts [Dra97] aufgenom-
men. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.
Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nach-
arbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für
die Aufnahme um das mehrfache übersteigt. Nach Gillis [GDG06] kann das Verhältnis von Annota-
tionszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer
Minute eines Audiosignals bis zu einer Stunde dauern.
1
1.2 Aufgabenstellung
Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines
Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine
Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen
1
Gillis nennt aber nur die Schätzungen für eine breite phonetische Annotation; für die enge Transkription ist dieser
Aufwand noch gröÿer.
6
2 LËTZEBUERGESCH
Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die
vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden
Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige
orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als
Ausgabe liefert er eine Datei, die eine mit Zeitstempeln versehene phonetische Transkription der Äu-
ÿerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignierung fehlerfrei
verlaufen ist, als eine Komponente eines Spracherkennungs- oder Synthesesystems genutzt werden.
Die Aufgabe stellt somit eine Variante des Henne-Ei-Problems dar. Um einen Aligner für das Lu-
xemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdaten erforderlich. An-
dererseits wird für die Erstellung solcher Sprachdaten ein Aligner benötigt. Das manuelle Alignieren
der Trainigsdaten ist möglich, jedoch im Zeitrahmen dieser Arbeit nicht realisierbar.
Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann,
sind Trainigsdaten aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus
[Gil99] sowie aus dem 6000-Mots-Korpus [ele07] eingesetzt. Da es sich hierbei um reine Sprachaufnah-
men handelt, werden diese zuerst manuell phonetisch annotiert. Die Annotierung erfolgt gleichzeitig
im deutschen und luxemburgischen Lautsystem [Wel95]. Danach folgt eine automatische Alignierung
mit dem deutschen Aligner, der von Stefan Rapp [Rap95] am Institut für Maschinelle Sprachverarbei-
tung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für
das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner
integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert
und die Testergebnisse automatisch ausgewertet.
Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebu-
ergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Aligniereung mindestens so
präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen
ist.
2 Lëtzebuergesch
2.1 Geschichte Luxemburgs
Die geographische Lage Luxemburgs sowie die turbulente Geschichte haben die linguistische Ent-
wicklung der Region stark beinusst. [Gil99, S. 3-5] enthält eine Zusammenfassung der wichtigsten
Ereignisse in der Geschichte des Landes. Die Tatsache, dass Luxemburg an der Grenze des romani-
schen und Germanischen Kulturraumes liegt, trug zu der Mehrsprachigkeit der Bewohner sowie der
Vielzahl der Dialekte bei. Die ersten Anzeichen einer kulturellen Dualität stammen bereits von 1340,
als Johann der Blinde (de blanne Jhang), Herrscher Luxemburgs, das Land zum ersten Mal in das
quartier wallon und das quartier allemand teilte. Bisher ist es jedoch umstritten, ob diese Aufteilung
administrative oder linguistische Gründe hatte.
Die gröÿten politischen Änderungen, die die moderne Sprachentwicklung maÿgeblich beeinusst ha-
ben, fanden in der 1. Hälfte des 19. Jahrhunderts statt. Infolge des Wiener Kongresses von 1815
musste das Land den östlichen Teil der deutschsprachigen Gebiete an Preuÿen abgeben. Eine weite-
2.2 Luxemburgisch
7
re Teilung folgte 1839; als Konsequenz des damals unterschriebenen Londoner Vertrags hat Belgien
den nahezu gesamten französischsprachigen Teil Luxemburgs annektiert. Die heutigen politischen
Grenzen des Landes haben sich seit der 1839 nicht mehr verändert. Dieses Jahr markiert auch die
Gründung des Nationalstaates und das Erlangen der Unabhängigkeit. Man muss dabei sagen, dass
das heutige Gebiet des Landes nahezu ausschlieÿlich aus historisch germanophonen Regionen besteht.
Die Tatsache, dass das Land an einer bi- bzw. trilingualen Tradition festhält, kann man jedoch sozial-
psychologisch erklären. Die Verschmelzung der Kulturen ist ein Teil der luxemburgischen Geschichte
und ein wichtiger Aspekt der nationalen Identität.
2.2 Luxemburgisch
Nach [Gil99, S. 7,8] ist das Lëtzebuergesche (Luxemburgische) aus dem Westmoselfränkischen ent-
standen. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen
Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu
dem Thema ist u.a. in [Bru53] zu nden.
Heutzutage stehen Deutsch, Französisch und Lëtzebuergesch in einem triglossischen Verhältnis zu-
einander. Lëtzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häugsten
verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den
Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt
und werden als Fremdsprachen wahrgenommen.
In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lëtzebuergesche wird hauptsächlich
im privaten und halböentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei
Sprachen vor, wobei der lëtzebuergesche Anteil in der Literatur konstant steigt. Die Tageszeitungen
sind zwei- oder dreisprachig. Die Texte des öentlichen Bereichs werden entweder auf Deutsch oder
Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet.
Nach [Gil99, S. 9] ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein
domänengebundener Wechsel in das Deutsche oder das Französische ndet nicht statt. Diese Tatsache
trit unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching
2
, das
integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist, ndet in
Luxemburg nicht statt.
Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenom-
men, die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung deniert.
Die ozielle ISO-639-1-Abkürzung für Lëtzebuergsch ist lb. In dem Standard ISO-639-2 [Int98] wur-
de diese Bezeichnung auf ltz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung lb-LU
(Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spra-
cherkennern durchgesetzt hat.
2
Code Switching (auch: Sprachwechsel, Kodewechsel) Das Metzler-Lexikon Sprache [Glü05] deniert es alsWechsel
zwischen zwei Sprachen oder Dialekten innerhalb einer Äuÿerung oder eines Dialogs bei bilingualen Sprechern/Schrei-
bern, meist durch Kontextfaktoren bedingt.
8
2 LËTZEBUERGESCH
2.3 Dialekte
Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien
und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert
werden. [Gil99, S. 50] listet neun Varietäten auf, die in 16 Regionen zu nden sind, drei davon in
Luxemburg.
Eine grobe Aufteilung der Luxemburger Dialekte bendet sich in [Gil99, S. 63]. Demnach kann das
Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden:
· Zentrum (Luxemburg-Stadt und Alzettetal)
· Süden (rund um Esch-sur-Alzette)
· Norden (Ösling)
· Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze)
2.4 Koiné
Der Begri 'Koiné' stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Spra-
che zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist [Gil99, S. 14].
Die Koinéisierung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das
klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden.
Dieser Begri wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet.
Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, das
sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten
ist. Für eine ausführliche Diskussion wird auf [Gil99, S. 12-22] verwiesen.
Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häugsten im Zentrum und im Süden
des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat.
Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese
Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.
2.5 Phonetik der luxemburgischen Koiné
Die unten aufgeführte Klassizierung der luxemburgischen Phonetik basiert auf den Untersuchungen
von Peter Gilles ([Gil99, S. 75], [Gil06]). Eine detaillierte Darstellung ist wichtig, um einen Vergleich
mit dem deutschen Lautsystem, auf dem der Aligner basiert, zu ermöglichen. Auf die Unterschiede
zwischen den beiden Systemen wird in Abschnitt 2.7 näher eingegangen.
Die folgenden Paaren stellen einen Diphtong sowie dessen freie Variante dar:
· ei - @i
· ou - @u
· æ;i - a;i
2.6 Phonetik des Deutschen
9
Tabelle 1: Konsonanten im Lëtzebuergeschen nach [Gil07]
plosiv nasal frikativ approximant
lateral
approx.
bilabial
p b
m
labiodental
f v
w
dental
aleveolar
t d
n
s z
l
postalveolar
S Z
retroex
präpalatal
C ý
j
velar
k g
N
x È
uvular
ö
pharyngal
glottal
P
h
Tabelle 2: Vokale im Lëtzebuergeschen nach [Gil06]
vorn
zentral
hinten
ungerundet gerundet
gerundet
i: i
y: y
u: u
geschlossen
e: e
ø:
@ 8
o: o õ
halb geschlossen
E:
£E
÷:
5
halb oen
a:
æ: æ
A
ã
oen
Die fett markierten Vokale kommen im Lëtzebuergeschen nur selten vor.
Abbildung 1: Diphtonge im Lëtzebuergeschen, nach [Gil06]
· æ;U - a;U
2.6 Phonetik des Deutschen
Der Aligner für das Luxemburgische baut auf der deutschen Version des Programms auf. Der ur-
sprüngliche Aligner ist imstande sämtliche Phoneme, die im deutschen Lautsystem vorkommen, zu
alignieren. Da dieses System die Grundlage für den luxemburgischen Aligner darstellt, wird es hier
10
2 LËTZEBUERGESCH
kompakt vorgestellt. Die unten vorgestellte Klassizierung der deutschen Konsonanten, Vokalen und
Diphtongen basiert auf [PM03]. In Kapitel 3 wird anschlieÿend darauf eingegangen, wie dieses Inven-
tar der deutschen Phoneme im Aligner abgebildet wird.
Tabelle 3: Die deutschen Konsonanten nach [PM03, S. 265]
plosiv nasal frikativ approximant
lateral
approx.
bilabial
p b
m
labiodental
f v
dental
aleveolar
t d
n
s z
l
postalveolar
S Z
retroex
palatal
ç
j
velar
k g
N
(x)
uvular
(X) K
pharyngal
glottal
(P)
h
Abbildung 2: Die Deutschen Vokale nach [PM03, S. 266]
Abbildung 3: Diphtonge im Deutschen [PM03, S. 266]
Für Beispieläuÿerungen, die diese Phoneme enthalten, wird auf [PM03]verwisen. Man muÿ hierbei
vermerken, dass Arikate, da sie aus Paaren von den bereits aufgelisteten Phonemen bestehen, nicht
in der Zusamenstellung berücksichtigt werden.
Die Phoneme [x] und [X] sind ausgeklammert, da sie laut [PM03] als allophonische Varianten von [ç]
zu betrachten sind und nur unter bestimmten Umständen orthographisch transkribiert werden. Das
gleiche gilt für den Glottisverschluss ([P]), der nur vor initialen Vokalen auftritt und kein orthogra-
phisches Gegenstück besitzt.
2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen
11
2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen
Ein Vergleich der beiden Lautsysteme zeigt, dass das Luxemburgische eine gröÿere Vielfalt an Pho-
nemen aufweist als das Deutsche. Manche Phoneme können als Aussprachevarianten gegenüber dem
Deutschen betrachtet werden, wie z.B. [i] und [I]. Andere kommen im Deutschen nicht vor, wie z.B.
der Halbkonsonant [w]. In Tabelle 4 werden diese Phoneme zusammengefasst, gemeinsam mit ihren
deutschen Gegenstücken, soweit vorhanden.
Tabelle 4: Luxemburgische Phoneme und ihre deutschen Varianten
Konsonanten
Vokale
Diphtonge
de
lb
de
lb
de
lb
-
w
a:
æ: (Variante)
-
i@
S
C
(ähnlich)
I
(h. geschlossen)
i (geschlossen)
-
u@
Z
ý
(ähnlich)
U
(h. geschlossen) u (geschlossen)
-
ei / @i
-
È
O
(h. geschlossen)
o (geschlossen)
-
ou / @u
@
8
(Variante)
-
æ;i / a;i
-
e (kurz)
-
æ
Im Nachfolgenden wird auf die Phoneme, die lediglich im Luxemburgischen und nicht im Deutschen
vorkommen, näher eingegangen. Die Liste basiert auf [Gil07].
Konsonanten:
· [w] - labiodentaler Approximant, Halbkonsonant. Beispiele: geschwat [g@"Swa:t], schwéier ["Sw@i5].
· [C] - stimmloser, präpalataler Frikativ, dem deutschen [S] sehr ähnlich. Beispiele: sécher ["zeC5],
kierperlech ["ki@p5l@C], néideg ["n@id@C].
· [ý] - stimmhafter, präpalataler Frikativ, dem deutschen [Z] sehr ähnlich. Beispiel: héijen ["h@iý@n].
· [È] - stimmhafter, velarer Frikativ. Beispiel: Jugend ["ju:È@nt].
Vokale:
· [æ] - vorne, kurz, fast oen, ungerundet, gespannt. Beispiele: Kächen ["kæC@n], Hengscht [hæNSt].
· [æ:] - vorne, lang, fast oen, ungerundet, gespannt. Wird als Variante von [a:] verwendet.
· [i] - vorne, kurz, geschlossen, ungerundet, gespannt. Beispiele: iddi ["idi], midd [mit], gin [gin],
kill [kil]. Im Deutschen wird stattdessen der kurze, fast geschlossene, ungespannte Vokal [I]
verwendet.
· [u] - hinten, kurz, geschlossen, gerundet, gespannt. Beispiele: Tulp [tulp], Kuch [kux]. Im Deut-
schen wird stattdessen der kurze, fast geschlossene, ungespannte Vokal [U] verwendet.
12
3 PHONETISCHE ALIGNIERUNG ALS ERKENNUNGSPROBLEM
· [o] - hinten, kurz, halb geschlossen, gerundet, gespannt. Beispiele: Post [post], Loscht [loSt]. Im
Deutschen wird stattdessen der kurze, halb oene, ungespannte Vokal [O] verwendet.
· [8] - zentral, kurz, leicht gerundet, halb geschlossen. Beispiele: mell [m8l], Lescht [l8St]. [8] wird
im Lëtzebuergeschen als gerundete, freie Variante von [@] verwendet.
· [e] - vorne, kurz, halb geschlossen, ungerundet, gespannt. Beispiele: Méck [mek], sécher ["zeC5],
kéng [keN]. Im Deutschen kommt dieser Vokal lediglich als eine lange Variante, [e:], v or.
Diphtonge:
· [i@] - vorne, geschlossen zentral, mittel. Beispiele: liesen ["li@z@n], Wieder ["vi@d5]
· [u@] - hinten, geschlossen zentral, mittel. Beispiele: Kueb [ku@p], Buedem ["bu@d@m].
· [ei], [@i] (freie Variante) - vorne, halb geschlossen vorne, geschlossen. Beispiel: spéit [Speit].
· [ou], [@u] (freie Variante) - hinten, halb geschlossen hinten, geschlossen. Beispiel: Schoul
[Soul]
.
· [æ;i], [a;i] (freie Variante) - vorne, fast oen, gespannt vorne, geschlossen, gespannt. Beispiele:
Zäit [tsæ;It], däin [dæ;In].
3 Phonetische Alignierung als Erkennungsproblem
.21=(37
(9$/8,(581*
,03/(0(17,(581*
3.1 Toolgestütze Spracherkennung mit dem Aligner
Der Aligner [Rap95] ist ein Werkzeug, das die phonetische Annotation von Sprachdaten automatisiert.
Dafür bietet er eine Reihe von Funktionalitäten. Zuerst ermöglicht er die automatische Erstellung von
phonetischen Transkriptionen anhand orthographisch transkribierter Daten. Weiterhin aliginiert er
die phonetische Analyse mit der Sprachaufnahme. In diesem Schritt wird jedes Phonem mit einem
Zeitstempel versehen, der markiert, wann das Phonem anfängt, und wann es endet. Letztendlich kann
der Aligner Zeitstempel für Silben- und Wortgrenzen vergeben. Für jede solche Kategorie (Phonem-,
Silben- und Wortmarkierung) wird eine separate Textdatei mit einer Sammlung von Zeitstempeln
erstellt.
3.2 Funktionsweise
Die Alignierung und die Spracherkennung unterscheiden sich nicht stark voneinander. Ein Spracher-
kenner versucht anhand einer Grammatik festzustellen, welche Wörter ein Audiosignal enthält. Die
Grammatik liefert dabei einen niten Satz der möglichen Äuÿerungen. Der Erkenner versucht festzu-
stellen, welche der in der Grammatik vorgegebenen Möglichkeiten am wahrscheinlichsten erscheint.
3.3 Phoneminventar und Aussprachelexikon
13
Der Inhalt der Aufnahme ist hierbei vorrangig, die genauen Zeitstempel der Einheits-(Wort-)grenzen
sind dafür von wenig Bedeutung.
Der Aligner ist auch ein Spracherkenner, jedoch mit dem umgekehrten Ansatz. Der Inhalt einer
Sprachaufnahme ist bereits bekannt und so, zweitrangig. Dafür spielen die genauen Einheitsgrenzen
die wichtige Rolle. Der Aligner macht eine Spracherkennung - jedoch mithilfe einer Grammatik, die
nur eine bestimmte folge von Einheiten erlaubt. Bei dem Aligner sind die Einheiten nicht ganze
Wörter, sondern einzelne Phoneme.
Das Programm basiert auf zwei Technologien. Die erste ist das CELEX-Lexikon [BPR93], das eine
hochqualitative phonetische Transkription gestattet. Das CELEX enthält neben phonetischen auch
morphosyntaktische Informationen, die eine Analyse auf Silben- und Wortebene ermöglichen. Der
Aligner akzeptiert ausschliesslich eine Folge von Phonemen als gültige Eingabe. Dank CELEX ist
es dem Benutzer jedoch möglich, lediglich die orthographische Transkription einer Sprachaufnahme
anzugeben. Die notwendige phonetische Transkription wird zur Laufzeit durch das Nachschalgen im
CELEX-Lexikon erstellt. Sollte ein Eintrag nicht im Lexikon vorhanden sein, wird eine phonetische
Transkription regelbasiert generiert [Rap95].
Die zweite wichtige Technologie ist das Konzept der Hidden-Markov-Modelle
3
. Diese Technologie ist in
dem HTK-Toolkit [YEG
+
06] implementiert. Mittels HTK wird ein Hidden-Markov-Modell für jedes
deutsche sowie jedes luxemburgische Phonem erstellt. Das HTK-Toolkit ist auch für das eigentliche
Alignieren der Phoneme zuständig.
3.3 Phoneminventar und Aussprachelexikon
Das Phoneminventar des Aligners basiert auf dem deutschen Lautsystem. Der Aligner ist imstande
jedes beliebige Phonem zu erlernen, also ein Hidden-Markov-Modell zu erstellen, für das er Beispiel-
daten zur Verfügung hat. Somit ist das Lautinventar des Programms stark von den verwendeten
Daten abhängig.
Das Deutsche Modul wurde mithilfe des Kiel-Korpus [Koh95]erstellt. Dementsprechend enthält die
Menge der Phonemmodelle lediglich die Lautmodelle, die in dem Korpus auch vorkommen. So ent-
steht die folgende Liste der unterstützten Phoneme:
Konsonanten: f v s z S Z ç j x h l ö N m n p b t d k g
Vokale: i: e: E: a: o: u: y: ø: @ 5 I E a O U Y oe
Diphtonge: aI aU OY
Der Aligner hat u.a. die Aufgabe aus einer orthographischen Transkription eine phonetische Tran-
skription zu generieren und die Phoneme mit der vorhandenen Audiodatei zu alignieren. Die Ge-
nerierung einer phonetischen Transkription muss hier zuverlässig funktionieren. Falsche, oder falsch
3
Für eine kompakte Einführung ist [YEG
+
06, S. 3-13] zu empfehlen.
Details
- Seiten
- Erscheinungsform
- Erstausgabe
- Erscheinungsjahr
- 2008
- ISBN (PDF)
- 9783863416423
- ISBN (Paperback)
- 9783863411428
- Dateigröße
- 2.2 MB
- Sprache
- Deutsch
- Institution / Hochschule
- Universität Stuttgart
- Erscheinungsdatum
- 2013 (Juli)
- Note
- 1
- Schlagworte
- Spracherkennung Phonetik Lëtzebuergesch Computerlinguistik Hidden-Markov-Modelle