Automatisierte Erstellung neuer Sprachkorpora: Ein Beispiel anhand des Lëtzebuergeschen

Gaal, Syxtus

Automatisierte Erstellung neuer Sprachkorpora: Ein Beispiel anhand des Lëtzebuergeschen

von Syxtus Gaal (Autor:in)

Germanistik - Linguistik

Technische Wissenschaften

Zusammenfassung

Sprachtechnologien, einmal ein Thema für theoretische Forschung und Science-Fiction-Filme, sind Alltag geworden. Dank stetig steigender Rechenleistung und jahrzehntelangem Forschungsaufwand kann man heute Sprachsteuerung vielfältig einsetzen - beim Autofahren, Telefonieren, Surfen und Arbeiten. Hinter dieser ausgereiften Technologie steckt viel Arbeitsaufwand. Um Spracherkennung und Sprachsynthese, also die künstliche Erzeugung einer Stimme, möglich zu machen, müssen große Mengen von Sprachdaten analysiert und verarbeitet werden. Forscher und Entwickler verwenden diese Daten, um ihrer Computersoftware beizubringen, einen Begriff zu erkennen oder richtig auszusprechen.
Sprachtechnologien stehen und fallen mit der Menge guter Sprachdaten. Diese bestehen nicht nur aus reinen Aufnahmen; sie können auch Informationen über die einzelnen Phoneme, Silben und Wörter beinhalten. Sie beschreiben, wo jeder Laut anfängt und aufhört, welche Wortteile verwendet wurden und wie die Wörter, Phrasen und Sätze akzentuiert sind. Alle diese Informationen müssen für jeden Laut, jede Silbe, jedes Wort und jeden Satz vorhanden sein. Die Bereitstellung solcher annotierten Sprachdaten ist ein gewaltiger Aufwand. Gebildete Fachkräfte müssen zwischen 30 Minuten und einer Stunde Zeit opfern um eine Minute der Sprachaufnahmen zu bearbeiten. Oft sind dutzende oder hunderte Stunden solcher bearbeiteter Sprachaufnahmen notwendig, um ein ausgereiftes Spracherkennungs- oder Sprachsynthesesystem zu entwickeln. Wenn man bedenkt, dass die Zeit der notwendigen manuellen Bearbeitung mit 30 bzw. 60 multipliziert werden muss, so ist ein hoher Kostenfaktor erkennbar. Dieser Faktor lässt sich für große Sprachen rechtfertigen, da die Endsysteme für eine große Benutzergruppe zur Verfügung stehen werden. Bei kleineren Sprachen ist der Entwicklungsaufwand genau so groß, da die Zielgruppe jedoch viel kleiner ist, kann er oft nicht gerechtfertigt werden. So führt es dazu, dass kleinere Sprachen oft bei der Entwicklung moderner Technologien benachteiligt werden.
Diese Arbeit zeigt, wie man die Bearbeitung der Sprachdaten automatisieren kann um so den manuellen Bearbeitungsaufwand zu senken. Ziel ist es Sprachdaten, auch Sprachkorpora genannt, für kleinere Sprachen einfach und günstig verfügbar zu machen. Dabei soll ein Aligner etnwickelt werden, ein Programm, das Sprachaufnahmen und deren Transkription analysiert und den Lauten, Silben und Wörtern Zeitstempel zuweist. Die Zeitstempel müssen lediglich […]

Leseprobe

Inhaltsverzeichnis

5 Implementierung

5.1 Alignieren der phonetischen Annotation mithilfe des deutschen Aligners . . . . . . . . 24

5.2 Alignierte phonetische Annotation - Ersetzung der deutschen Phonemmarkierungen

mit den lëtzebuergeschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.3 Erstellung der Hidden-Markov-Modelle für lëtzebuergesche Phoneme . . . . . . . . . . 24

5.4 Integration der neuen Modelle in den Aligner. . . . . . . . . . . . . . . . . . . . . . . . 26

5.5 Anpassung der Vorverarbeitungskomponenten des Aligners . . . . . . . . . . . . . . . 26

5.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6 Evaluierung

6.1 Vergleich der Aligner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.2 Programm zur automatischen Evaluierung der Ergebnisse . . . . . . . . . . . . . . . . 27

6.3 Korrektur und zweiter Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.4 Manuelle und automatische Alignierung . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7 Zusammenfassung und zukünftige Forschung

7.1 Erweiterung der Funktionalität des Aligners . . . . . . . . . . . . . . . . . . . . . . . . 31

7.2 Entwicklung eines lëtzebuergschen Aligners . . . . . . . . . . . . . . . . . . . . . . . . 32

7.3 Entwicklung eines Sprachkorpus für Lëtzebuergesch . . . . . . . . . . . . . . . . . . . . 32

AGilles-Korpus: Fragebuch Lëtzebuergesch

B Die Perl-Funktionssammlung ConversionLibrary.pm

1 Einleitung

1.1 Motivation

Die Spracherkennungstechnologie hat sich in den letzten Jahrzehnten stetig entwickelt. Der Umfang

des erkannten Wortschatzes, die Zuverlässigkeit sowie die Zugänglichkeit der Spracherkennungssyste-

me ist konstant gestiegen. Diese Technologie, die es dem Menschen ermöglicht, Sprache als Eingabe-

medium zu benutzen, ist inzwischen allgegenwärtig - sie ist Teil der meisten gängigen Betriebssysteme

und eingebaut in viele Mobiltelefone. Spracherkennung ist sehr populär als Teil von Dialogsystemen -

Applikationen, die dem Benutzer die Ein- und Ausgabe von Daten über das Telefon erlauben. Sprach-

dialogsysteme werden eingesetzt, um Hotlines zu entlasten und dem Kunden einen zügigeren, besser

erreichbaren Service zu bieten.

Die Forschung sowie die steigende Rechenleistung waren die wichtigsten Faktoren, die zu dieser Ent-

wicklung beigetragen haben. Sie haben es ermöglicht, immer zuverlässigere Erkenner zu bauen, die

immer mehr Trainingsdaten bearbeiten konnten. Dank Sprachdatensammlungen (auch Korpora ge-

nannt) die nicht nur eine, sondern eine Vielfalt von Alters-, Geschlechts, und Dialektgruppen reprä-

sentieren, können robuste und exible Spracherkennungssysteme entwickelt werden. Sie sind immer

weniger von den Eigenschaften des Sprechers bzw. seiner akustischen Umgebung abhängig.

Diese Entwicklung verlief jedoch nicht für alle Sprachen gleichmäÿig. Obwohl die Forschung die Tech-

nologie vorantrieb, waren die Sprachkorpora für nur wenige, groÿe Sprachen verfügbar. Dies hat sich

mit der Zeit teilweise ausgeglichen, so dass Daten auch für kleinere Sprechergruppen vorhanden sind.

Die Suche im Katalog des Linguistic Data Consortium [Lin07] zeigt eine Sammlung unterschiedlicher

Korpora für 62 Sprachen. Die Verteilung ist jedoch ungleichmäÿig - für Deutsch und Französisch sind

in der Sammlung jeweils sechs und vier Korpora von Telefonaufnahmen vorhanden. Bei kleineren ist

das nicht mehr der Fall. Für Ungarisch wurde bei dem LDC ein Korpus angeboten, für Niederländisch

keins.

Luxemburgisch ist dagegen eine der Sprachen, für die noch keine Korpora existieren. Eine Sammlung

von Telefongesprächen wurde in Luxemburg im Rahmen des SpeechDat-Projekts [Dra97] aufgenom-

men. Sie enthält jedoch lediglich deutschsprachige Aufnahmen.

Die Erstellung von phonetisch annotierten Sprachkorpora ist aufwendig und kann viel manuelle Nach-

arbeitung erfordern. Erfahrungswerte zeigen, dass der Aufwand für die Annotation den Aufwand für

die Aufnahme um das mehrfache übersteigt. Nach Gillis [GDG06] kann das Verhältnis von Annota-

tionszeit zur Aufnahmezeit von 35:1 bis zu 60:1 betragen. Demnach kann die Bearbeitung von einer

Minute eines Audiosignals bis zu einer Stunde dauern.

1.2 Aufgabenstellung

Die Aufgabe ist es, einen Aligner zu entwickeln, der die Zeit und Kosten für die Entwicklung eines

Sprachkorpuses des Luxemburgischen drastisch reduzieren soll. Der Aligner ist ein Werkzeug, das eine

Sprachaufnahme sowie eine dazugehörige phonetische Transkription verwendet, um die vorgegebenen

Gillis nennt aber nur die Schätzungen für eine breite phonetische Annotation; für die enge Transkription ist dieser

Aufwand noch gröÿer.

2 LËTZEBUERGESCH

Sprachlaute, die Phoneme, auf der Zeitachse zu 'alignieren'. Das Alignieren ist ein Prozess, in dem die

vorgegebene phonetische Transkription mit Zeitstempeln für den Anfang und das Ende eines jeden

Phonems versehen wird. Der Aligner akzeptiert als Eingabe eine Sprachaufnahme, die dazugehörige

orthographische Transkription sowie ein Aussprachelexikon mit dem verwendeten Wortschatz. Als

Ausgabe liefert er eine Datei, die eine mit Zeitstempeln versehene phonetische Transkription der Äu-

ÿerung enthält. Diese Transkription kann danach manuell geprüft, und, falls die Alignierung fehlerfrei

verlaufen ist, als eine Komponente eines Spracherkennungs- oder Synthesesystems genutzt werden.

Die Aufgabe stellt somit eine Variante des Henne-Ei-Problems dar. Um einen Aligner für das Lu-

xemburgische zu entwickeln, sind phonetisch annotierte und alignierte Sprachdaten erforderlich. An-

dererseits wird für die Erstellung solcher Sprachdaten ein Aligner benötigt. Das manuelle Alignieren

der Trainigsdaten ist möglich, jedoch im Zeitrahmen dieser Arbeit nicht realisierbar.

Um ein Aligner zu entwickeln, der die Aufnahmen unterschiedlicher Sprecher analysieren kann,

sind Trainigsdaten aus unterschiedlicher Sprechergruppen notwendig. Hierfür wird das Gilles-Korpus

[Gil99] sowie aus dem 6000-Mots-Korpus [ele07] eingesetzt. Da es sich hierbei um reine Sprachaufnah-

men handelt, werden diese zuerst manuell phonetisch annotiert. Die Annotierung erfolgt gleichzeitig

im deutschen und luxemburgischen Lautsystem [Wel95]. Danach folgt eine automatische Alignierung

mit dem deutschen Aligner, der von Stefan Rapp [Rap95] am Institut für Maschinelle Sprachverarbei-

tung der Universität Stuttgart entwickelt wurde. Die deutschen Phonemmodelle werden um die für

das Luxemburgische typischen Sprachphänomene (siehe Abschnitt 2.7) ergänzt und in den Aligner

integriert. Der deutsche und der luxemburgische Aligner werden auf einem Testdatensatz evaluiert

und die Testergebnisse automatisch ausgewertet.

Ziel dieser Arbeit ist es einen Aligner zu entwickeln, der produktiv für die Entwicklung eines lëtzebu-

ergeschen Korpus eingesetzt werden kann. Das neue Programm soll die Aligniereung mindestens so

präzise durchführen wie die deutsche Version. Die Evaluierung soll feststellen, inwiefern das gelungen

ist.

2 Lëtzebuergesch

2.1 Geschichte Luxemburgs

Die geographische Lage Luxemburgs sowie die turbulente Geschichte haben die linguistische Ent-

wicklung der Region stark beinusst. [Gil99, S. 3-5] enthält eine Zusammenfassung der wichtigsten

Ereignisse in der Geschichte des Landes. Die Tatsache, dass Luxemburg an der Grenze des romani-

schen und Germanischen Kulturraumes liegt, trug zu der Mehrsprachigkeit der Bewohner sowie der

Vielzahl der Dialekte bei. Die ersten Anzeichen einer kulturellen Dualität stammen bereits von 1340,

als Johann der Blinde (de blanne Jhang), Herrscher Luxemburgs, das Land zum ersten Mal in das

quartier wallon und das quartier allemand teilte. Bisher ist es jedoch umstritten, ob diese Aufteilung

administrative oder linguistische Gründe hatte.

Die gröÿten politischen Änderungen, die die moderne Sprachentwicklung maÿgeblich beeinusst ha-

ben, fanden in der 1. Hälfte des 19. Jahrhunderts statt. Infolge des Wiener Kongresses von 1815

musste das Land den östlichen Teil der deutschsprachigen Gebiete an Preuÿen abgeben. Eine weite-

2.2 Luxemburgisch

re Teilung folgte 1839; als Konsequenz des damals unterschriebenen Londoner Vertrags hat Belgien

den nahezu gesamten französischsprachigen Teil Luxemburgs annektiert. Die heutigen politischen

Grenzen des Landes haben sich seit der 1839 nicht mehr verändert. Dieses Jahr markiert auch die

Gründung des Nationalstaates und das Erlangen der Unabhängigkeit. Man muss dabei sagen, dass

das heutige Gebiet des Landes nahezu ausschlieÿlich aus historisch germanophonen Regionen besteht.

Die Tatsache, dass das Land an einer bi- bzw. trilingualen Tradition festhält, kann man jedoch sozial-

psychologisch erklären. Die Verschmelzung der Kulturen ist ein Teil der luxemburgischen Geschichte

und ein wichtiger Aspekt der nationalen Identität.

2.2 Luxemburgisch

Nach [Gil99, S. 7,8] ist das Lëtzebuergesche (Luxemburgische) aus dem Westmoselfränkischen ent-

standen. Es kommt aus der westfränkischer Bucht hervor - einer Region, die durch die fränkischen

Expansionsbewegungen bis ins Pariser Becken gekennzeichneten wurde. Eine umfassende Analyse zu

dem Thema ist u.a. in [Bru53] zu nden.

Heutzutage stehen Deutsch, Französisch und Lëtzebuergesch in einem triglossischen Verhältnis zu-

einander. Lëtzebuergesch ist dabei die Muttersprache; sie wird als erste gelernt und am häugsten

verwendet. Die Verwendung beschränkt sich nicht auf die Gespräche im Alltag, sondern ist in den

Medien und in der Politik präsent. Die beiden weiteren Sprachen werden erst in der Schule gelernt

und werden als Fremdsprachen wahrgenommen.

In der schriftlichen Domäne kommen alle drei Sprachen vor. Das Lëtzebuergesche wird hauptsächlich

im privaten und halböentlichen Kontext verwendet. In den anderen Bereichen kommen alle drei

Sprachen vor, wobei der lëtzebuergesche Anteil in der Literatur konstant steigt. Die Tageszeitungen

sind zwei- oder dreisprachig. Die Texte des öentlichen Bereichs werden entweder auf Deutsch oder

Französisch verfasst. Für Gesetzestexte wird aus historischen Gründen Französisch verwendet.

Nach [Gil99, S. 9] ist Luxemburg, was den mündlichen Sprachgebrauch angeht, strikt einsprachig. Ein

domänengebundener Wechsel in das Deutsche oder das Französische ndet nicht statt. Diese Tatsache

trit unabhängig von Bevölkerungsschicht und Altersstufe der Sprecher zu. Das Code Switching

, das

integraler Bestandteil der mehrsprachigen Gesellschaft in der Schweiz und in Belgien ist, ndet in

Luxemburg nicht statt.

Die Sprache wurde in die Norm 639 der International Organization for Standardization aufgenom-

men, die zwei- bzw. dreistellige Sprachenkürzel für den Einsatz in der Datenverarbeitung deniert.

Die ozielle ISO-639-1-Abkürzung für Lëtzebuergsch ist lb. In dem Standard ISO-639-2 [Int98] wur-

de diese Bezeichnung auf ltz erweitert. In dieser Arbeit wird jedoch die Locale-Bezeichnung lb-LU

(Luxemburgisch, gesprochen in Luxemburg) verwendet, da sich diese Notation in kommerziellen Spra-

cherkennern durchgesetzt hat.

Code Switching (auch: Sprachwechsel, Kodewechsel) Das Metzler-Lexikon Sprache [Glü05] deniert es alsWechsel

zwischen zwei Sprachen oder Dialekten innerhalb einer Äuÿerung oder eines Dialogs bei bilingualen Sprechern/Schrei-

bern, meist durch Kontextfaktoren bedingt.

2 LËTZEBUERGESCH

2.3 Dialekte

Das Moselfränkische wird in Luxemburg, Teilen von Deutschland sowie kleinen Gebieten in Belgien

und Frankreich gesprochen. Es ist jedoch nicht homogen und kann in mehrere Varietäten kategorisiert

werden. [Gil99, S. 50] listet neun Varietäten auf, die in 16 Regionen zu nden sind, drei davon in

Luxemburg.

Eine grobe Aufteilung der Luxemburger Dialekte bendet sich in [Gil99, S. 63]. Demnach kann das

Luxemburgische entlang der geographischen Regionen in vier Dialektgruppen unterteilt werden:

· Zentrum (Luxemburg-Stadt und Alzettetal)

· Süden (rund um Esch-sur-Alzette)

· Norden (Ösling)

· Osten (das Gebiet zwischen Grewenmacher und Vianden entlang der östlichen Staatsgrenze)

2.4 Koiné

Der Begri 'Koiné' stammt ursprünglich aus dem Griechischen und wird verwendet, um eine Spra-

che zu beschreiben, die aus einer Mischung unterschiedlicher Dialekte entstanden ist [Gil99, S. 14].

Die Koinéisierung ist das Verschmelzen von Dialekten zu einer überregionalen Sprachvarietät. Das

klassische Griechisch ist vermutlich durch das Auftreten dieses Prozesses entstanden.

Dieser Begri wird auch als Bezeichnung der überregionalen Varietät des Luxemburgischen verwendet.

Es gibt unterschiedliche Meinungen, wie die luxemburgische Koiné entstanden ist. Man nimmt an, das

sie entweder als eine diatopische Verallgemeinerung, oder als Produkt der Koinéisierung zu betrachten

ist. Für eine ausführliche Diskussion wird auf [Gil99, S. 12-22] verwiesen.

Es herrscht jedoch relative Einigkeit darüber, dass die Koiné am häugsten im Zentrum und im Süden

des Landes gesprochen wird und sich eher von da aus auf die restlichen Länderteile ausgebreitet hat.

Da sie als die allgemeine und universal verständliche Form des Luxemburgischen gilt, wird sich diese

Arbeit auf der Phonetik dieser Dialektvarietät fokussieren.

2.5 Phonetik der luxemburgischen Koiné

Die unten aufgeführte Klassizierung der luxemburgischen Phonetik basiert auf den Untersuchungen

von Peter Gilles ([Gil99, S. 75], [Gil06]). Eine detaillierte Darstellung ist wichtig, um einen Vergleich

mit dem deutschen Lautsystem, auf dem der Aligner basiert, zu ermöglichen. Auf die Unterschiede

zwischen den beiden Systemen wird in Abschnitt 2.7 näher eingegangen.

Die folgenden Paaren stellen einen Diphtong sowie dessen freie Variante dar:

· ei - @i

· ou - @u

· æ;i - a;i

2.6 Phonetik des Deutschen

Tabelle 1: Konsonanten im Lëtzebuergeschen nach [Gil07]

plosiv nasal frikativ approximant

lateral

approx.

bilabial

p b

labiodental

f v

dental

aleveolar

t d

s z

postalveolar

S Z

retroex

präpalatal

C ý

velar

k g

x È

uvular

pharyngal

glottal

Tabelle 2: Vokale im Lëtzebuergeschen nach [Gil06]

vorn

zentral

hinten

ungerundet gerundet

gerundet

i: i

y: y

u: u

geschlossen

e: e

ø:

@ 8

o: o õ

halb geschlossen

£E

÷:

halb oen

æ: æ

oen

Die fett markierten Vokale kommen im Lëtzebuergeschen nur selten vor.

Abbildung 1: Diphtonge im Lëtzebuergeschen, nach [Gil06]

· æ;U - a;U

2.6 Phonetik des Deutschen

Der Aligner für das Luxemburgische baut auf der deutschen Version des Programms auf. Der ur-

sprüngliche Aligner ist imstande sämtliche Phoneme, die im deutschen Lautsystem vorkommen, zu

alignieren. Da dieses System die Grundlage für den luxemburgischen Aligner darstellt, wird es hier

2 LËTZEBUERGESCH

kompakt vorgestellt. Die unten vorgestellte Klassizierung der deutschen Konsonanten, Vokalen und

Diphtongen basiert auf [PM03]. In Kapitel 3 wird anschlieÿend darauf eingegangen, wie dieses Inven-

tar der deutschen Phoneme im Aligner abgebildet wird.

Tabelle 3: Die deutschen Konsonanten nach [PM03, S. 265]

plosiv nasal frikativ approximant

lateral

approx.

bilabial

p b

labiodental

f v

dental

aleveolar

t d

s z

postalveolar

S Z

retroex

palatal

velar

k g

(x)

uvular

(X) K

pharyngal

glottal

(P)

Abbildung 2: Die Deutschen Vokale nach [PM03, S. 266]

Abbildung 3: Diphtonge im Deutschen [PM03, S. 266]

Für Beispieläuÿerungen, die diese Phoneme enthalten, wird auf [PM03]verwisen. Man muÿ hierbei

vermerken, dass Arikate, da sie aus Paaren von den bereits aufgelisteten Phonemen bestehen, nicht

in der Zusamenstellung berücksichtigt werden.

Die Phoneme [x] und [X] sind ausgeklammert, da sie laut [PM03] als allophonische Varianten von [ç]

zu betrachten sind und nur unter bestimmten Umständen orthographisch transkribiert werden. Das

gleiche gilt für den Glottisverschluss ([P]), der nur vor initialen Vokalen auftritt und kein orthogra-

phisches Gegenstück besitzt.

2.7 Gegenüberstellung des Deutschen und des Lëtzebuergeschen

Ein Vergleich der beiden Lautsysteme zeigt, dass das Luxemburgische eine gröÿere Vielfalt an Pho-

nemen aufweist als das Deutsche. Manche Phoneme können als Aussprachevarianten gegenüber dem

Deutschen betrachtet werden, wie z.B. [i] und [I]. Andere kommen im Deutschen nicht vor, wie z.B.

der Halbkonsonant [w]. In Tabelle 4 werden diese Phoneme zusammengefasst, gemeinsam mit ihren

deutschen Gegenstücken, soweit vorhanden.

Tabelle 4: Luxemburgische Phoneme und ihre deutschen Varianten

Konsonanten

Vokale

Diphtonge

æ: (Variante)

(ähnlich)

(h. geschlossen)

i (geschlossen)

(ähnlich)

(h. geschlossen) u (geschlossen)

ei / @i

(h. geschlossen)

o (geschlossen)

ou / @u

(Variante)

æ;i / a;i

e (kurz)

Im Nachfolgenden wird auf die Phoneme, die lediglich im Luxemburgischen und nicht im Deutschen

vorkommen, näher eingegangen. Die Liste basiert auf [Gil07].

Konsonanten:

· [w] - labiodentaler Approximant, Halbkonsonant. Beispiele: geschwat [g@"Swa:t], schwéier ["Sw@i5].

· [C] - stimmloser, präpalataler Frikativ, dem deutschen [S] sehr ähnlich. Beispiele: sécher ["zeC5],

kierperlech ["ki@p5l@C], néideg ["n@id@C].

· [ý] - stimmhafter, präpalataler Frikativ, dem deutschen [Z] sehr ähnlich. Beispiel: héijen ["h@iý@n].

· [È] - stimmhafter, velarer Frikativ. Beispiel: Jugend ["ju:È@nt].

Vokale:

· [æ] - vorne, kurz, fast oen, ungerundet, gespannt. Beispiele: Kächen ["kæC@n], Hengscht [hæNSt].

· [æ:] - vorne, lang, fast oen, ungerundet, gespannt. Wird als Variante von [a:] verwendet.

· [i] - vorne, kurz, geschlossen, ungerundet, gespannt. Beispiele: iddi ["idi], midd [mit], gin [gin],

kill [kil]. Im Deutschen wird stattdessen der kurze, fast geschlossene, ungespannte Vokal [I]

verwendet.

· [u] - hinten, kurz, geschlossen, gerundet, gespannt. Beispiele: Tulp [tulp], Kuch [kux]. Im Deut-

schen wird stattdessen der kurze, fast geschlossene, ungespannte Vokal [U] verwendet.

3 PHONETISCHE ALIGNIERUNG ALS ERKENNUNGSPROBLEM

· [o] - hinten, kurz, halb geschlossen, gerundet, gespannt. Beispiele: Post [post], Loscht [loSt]. Im

Deutschen wird stattdessen der kurze, halb oene, ungespannte Vokal [O] verwendet.

· [8] - zentral, kurz, leicht gerundet, halb geschlossen. Beispiele: mell [m8l], Lescht [l8St]. [8] wird

im Lëtzebuergeschen als gerundete, freie Variante von [@] verwendet.

· [e] - vorne, kurz, halb geschlossen, ungerundet, gespannt. Beispiele: Méck [mek], sécher ["zeC5],

kéng [keN]. Im Deutschen kommt dieser Vokal lediglich als eine lange Variante, [e:], v or.

Diphtonge:

· [i@] - vorne, geschlossen zentral, mittel. Beispiele: liesen ["li@z@n], Wieder ["vi@d5]

· [u@] - hinten, geschlossen zentral, mittel. Beispiele: Kueb [ku@p], Buedem ["bu@d@m].

· [ei], [@i] (freie Variante) - vorne, halb geschlossen vorne, geschlossen. Beispiel: spéit [Speit].

· [ou], [@u] (freie Variante) - hinten, halb geschlossen hinten, geschlossen. Beispiel: Schoul

[Soul]

· [æ;i], [a;i] (freie Variante) - vorne, fast oen, gespannt vorne, geschlossen, gespannt. Beispiele:

Zäit [tsæ;It], däin [dæ;In].

3 Phonetische Alignierung als Erkennungsproblem

.21=(37

(9$/8,(581*

,03/(0(17,(581*

3.1 Toolgestütze Spracherkennung mit dem Aligner

Der Aligner [Rap95] ist ein Werkzeug, das die phonetische Annotation von Sprachdaten automatisiert.

Dafür bietet er eine Reihe von Funktionalitäten. Zuerst ermöglicht er die automatische Erstellung von

phonetischen Transkriptionen anhand orthographisch transkribierter Daten. Weiterhin aliginiert er

die phonetische Analyse mit der Sprachaufnahme. In diesem Schritt wird jedes Phonem mit einem

Zeitstempel versehen, der markiert, wann das Phonem anfängt, und wann es endet. Letztendlich kann

der Aligner Zeitstempel für Silben- und Wortgrenzen vergeben. Für jede solche Kategorie (Phonem-,

Silben- und Wortmarkierung) wird eine separate Textdatei mit einer Sammlung von Zeitstempeln

erstellt.

3.2 Funktionsweise

Die Alignierung und die Spracherkennung unterscheiden sich nicht stark voneinander. Ein Spracher-

kenner versucht anhand einer Grammatik festzustellen, welche Wörter ein Audiosignal enthält. Die

Grammatik liefert dabei einen niten Satz der möglichen Äuÿerungen. Der Erkenner versucht festzu-

stellen, welche der in der Grammatik vorgegebenen Möglichkeiten am wahrscheinlichsten erscheint.

3.3 Phoneminventar und Aussprachelexikon

Der Inhalt der Aufnahme ist hierbei vorrangig, die genauen Zeitstempel der Einheits-(Wort-)grenzen

sind dafür von wenig Bedeutung.

Der Aligner ist auch ein Spracherkenner, jedoch mit dem umgekehrten Ansatz. Der Inhalt einer

Sprachaufnahme ist bereits bekannt und so, zweitrangig. Dafür spielen die genauen Einheitsgrenzen

die wichtige Rolle. Der Aligner macht eine Spracherkennung - jedoch mithilfe einer Grammatik, die

nur eine bestimmte folge von Einheiten erlaubt. Bei dem Aligner sind die Einheiten nicht ganze

Wörter, sondern einzelne Phoneme.

Das Programm basiert auf zwei Technologien. Die erste ist das CELEX-Lexikon [BPR93], das eine

hochqualitative phonetische Transkription gestattet. Das CELEX enthält neben phonetischen auch

morphosyntaktische Informationen, die eine Analyse auf Silben- und Wortebene ermöglichen. Der

Aligner akzeptiert ausschliesslich eine Folge von Phonemen als gültige Eingabe. Dank CELEX ist

es dem Benutzer jedoch möglich, lediglich die orthographische Transkription einer Sprachaufnahme

anzugeben. Die notwendige phonetische Transkription wird zur Laufzeit durch das Nachschalgen im

CELEX-Lexikon erstellt. Sollte ein Eintrag nicht im Lexikon vorhanden sein, wird eine phonetische

Transkription regelbasiert generiert [Rap95].

Die zweite wichtige Technologie ist das Konzept der Hidden-Markov-Modelle

. Diese Technologie ist in

dem HTK-Toolkit [YEG

06] implementiert. Mittels HTK wird ein Hidden-Markov-Modell für jedes

deutsche sowie jedes luxemburgische Phonem erstellt. Das HTK-Toolkit ist auch für das eigentliche

Alignieren der Phoneme zuständig.

3.3 Phoneminventar und Aussprachelexikon

Das Phoneminventar des Aligners basiert auf dem deutschen Lautsystem. Der Aligner ist imstande

jedes beliebige Phonem zu erlernen, also ein Hidden-Markov-Modell zu erstellen, für das er Beispiel-

daten zur Verfügung hat. Somit ist das Lautinventar des Programms stark von den verwendeten

Daten abhängig.

Das Deutsche Modul wurde mithilfe des Kiel-Korpus [Koh95]erstellt. Dementsprechend enthält die

Menge der Phonemmodelle lediglich die Lautmodelle, die in dem Korpus auch vorkommen. So ent-

steht die folgende Liste der unterstützten Phoneme:

Konsonanten: f v s z S Z ç j x h l ö N m n p b t d k g

Vokale: i: e: E: a: o: u: y: ø: @ 5 I E a O U Y oe

Diphtonge: aI aU OY

Der Aligner hat u.a. die Aufgabe aus einer orthographischen Transkription eine phonetische Tran-

skription zu generieren und die Phoneme mit der vorhandenen Audiodatei zu alignieren. Die Ge-

nerierung einer phonetischen Transkription muss hier zuverlässig funktionieren. Falsche, oder falsch

Für eine kompakte Einführung ist [YEG

06, S. 3-13] zu empfehlen.

Details

Seiten
Erscheinungsform: Erstausgabe
Erscheinungsjahr: 2008
ISBN (Paperback): 9783863411428
ISBN (PDF): 9783863416423
Dateigröße: 2.2 MB
Sprache: Deutsch
Institution / Hochschule: Universität Stuttgart
Erscheinungsdatum: 2013 (Juli)
Note: 1
Schlagworte: Spracherkennung Phonetik Lëtzebuergesch Computerlinguistik Hidden-Markov-Modelle
Produktsicherheit: BACHELOR + MASTER Publishing

Autor

Syxtus Gaal (Autor:in)

Diplom-Linguist Syxtus Gaal hat ein Studium der Computerlinguistik und Informatik an der Universität Stuttgart abgeschlossen. Sein Studium war auf die Bereiche Phonetik, Spracherkennung und Sprachsynthese, sowie Architektur großer Anwendungssysteme fokussiert. Diese Ausbildung wurde durch einen Aufenthalt an der Trinity College in Dublin erweitert. Während des Studiums war er in die Entwicklung des ersten kommerziellen Spracherkenners für das Lëtzebuergesche involviert. Heute arbeitet Syxtus Gaal als Berater für Sprachtechnologien im Kundenservice. Er hilft führenden Unternehmen aus den Bereichen Versicherung, Telekommunikation, Finanzen und Einzelhandel, ihre Kundenbetreuung durch den gezielten Einsatz von Sprachtechnologien zu erweitern und zu optimieren.