Dokumentation xassp2emu

Ausgangsmaterial in xassp
Verwendung der Oberfläche
Eine Datei umwandeln
Ganzes Verzeichnis umwandeln
Das Ergebnis in EMU
Kommentar zu den Ebenen
Konventionen
Bekannte Probleme

Das xassp2EMU Script wandelt Etikettierungsdateien von xassp mit der Extension s1h ohne prosodische Labels in Etikettierungsdateien um, die von EMU lesbar sind. Aus einer s1h Datei werden für EMU eine hlb Datei und eine ph Datei erstellt. Zu den erstellten Dateien gibt es eine Templatedatei, die an die Hierarchie der hlb Datei angepasst ist.

Ausgangsmaterial in xassp:

Die in xassp verwendeten Etikettierungsdateien haben die Extension s1h. Außerdem gibt es auch die Möglichkeit diese Dateien mit der Extension mix zu erzeugen. MIX Dateien können von xassp2emuTcl.tcl nicht umgewandelt werden!
Ein Beispiel für eine s1h Datei (Äußerung g365a007 aus dem Kiel Corpus) ist im folgenden gegeben. Es handelt sich hierbei nur um einen Auszug (… bedeutet, dass etwas gelöscht ist).



g365a007.s1h
JUM007: <A> ich brauche jetzt von <:<#Rascheln> Ihnen:> noch
<:<#Rascheln> einen<Z>:> Termin f"ur eine f"unft"agige
Dienstreise . <P> <#Mikrobe> <P> <Schmatzen> <A> <"ah>
Montag<Z> , der siebenundzwanz<Z>igste M"arz<Z> . <P>
<Schmatzen> <A> und dann f"unf Tage . <Schmatzen> <A>
<#Rascheln> eins , zwei , das w"are bis zum einunddrei"sigsten
M"arz . ist da bei Ihnen noch was frei im Kalender ?
oend

kend

hend
10037 #c:

34834 ##:k
34834 $Q-
34834 $-q
34834 $i:
37611 $n
38342 $@-
38342 $%n+
38991 ##%n
40212 $O
41895 $x+
43476 ##:k
43476 $Q-
43476 $-q
43476 $aI
47214 $n
47957 $@
49095 $n+
52052 $z:
52052 ##t
53067 $-h
54239 $E6-E
55952 $m
57321 $'i:
59516 $n

355656 #?



Die folgende Abbildung zeigt die Darstellung der Etikettierung in xassp.



Abbildung 1. Darstellung in xassp



Verwendung der Oberfläche

Vor dem Konvertieren müssen in der mitgelieferten Tempatedatei xassp2emu.tpl die Pfade zu den hlb und ph Dateien in den path Zeilen geändert werden. Dateien mit diesen beiden Extensionen werden vom Script erstellt und werden in dem, in der Templatedatei angegeben Verzeichnis gespeichert. Weitere Veränderungen in der Templatedatei, wie die Pfadangabe zu den Signaldateien oder die Angabe zu den Tracks werden später für die Verwendung in EMU notwendig.

Auf der xassp2EMU Oberfläche besteht die Möglichkeit eine Kiel Corpus Datei für EMU umzuwandeln (links unter „eine Datei“) oder alle Kiel Corpus Dateien in einem Verzeichnis (rechts unter „ein ganzes Verzeichnis“).


Umwandeln einer Datei

Für das Umwandeln einer Datei wird auf der linken Seite der Eingabemaske die umzuwandelnde Datei über den ... Button, der das Dateisystem für die Auswahl zur Verfügung stellt, ausgewählt. Danach kann über den Button Start das Umwandeln beginnen. Vom Script wird nun eine Datei mit dem Namen der Originaldatei und der Extension hlb sowie eine Datei mit der Extension ph erstellt. Diese beiden Dateien werden im Verzeichnis gespeichert, welches in der Templatedatei als path für Dateien mit diesen Extensionen angegeben ist. Vor dem Konvertieren überprüft das Programm die Eingabe, wobei folgende Fehlermeldungen auftreten können:




Abbildung 2.
Fehlermeldung





Abbildung 3.
Fehlermeldung




Diese Meldungen stoppen das Programm, somit besteht die Möglichkeit die Eingabe Datei erneut auszuwählen. Nach der Korrektur muss nochmals der Start Button angeklickt werden. Hinweis: Die Fehlermeldungen können beim Klick auf Start nicht auftauchen, wenn die Eingabe über den Button gemacht wurde.

Wenn es bei der Überprüfung der Eingabe Datei keine Fehlermeldungen gab, kann es im weiteren Verlauf noch zu anderen Fehlermeldungen kommen, die im Absatz Bekannte Probleme beschrieben werden.

Wenn das folgende Fenster (siehe Abbildung 4) auf dem Bildschirm erscheint, ist die Datei umgewandelt und die neue hlb und ph Datei befindet sich jeweils im Verzeichnis, welches in der Templatedatei als path für hlb bzw. ph Dateien angegeben ist. Hinweis: Dieses Fenster erscheint auch, wenn es zu einer Fehlermeldung gekommen ist und eigentlich keine Datei umgewandelt wurde.



Abbildung 4. Eine Datei umgewandelt




Ganzes Verzeichnis umwandeln:

Für das Umwandeln aller s1h Dateien in einem Verzeichnis wird unter Eingabe Verzeichnis über den Button, der das Dateisystem zur Auswahl zur Verfügung stellt, das Verzeichnis ausgewählt, was die umzuwandelnden s1h Dateien des Kiel Corpus’ beinhaltet. Wenn das Eingabe Verzeichnis gewählt wurde, kann das Konvertieren über den Klick auf Start gestartet werden. Das Programm überprüft die Eingabe, wobei folgende Fehlermeldungen auftreten können:




Abbildung 5. Fehlermeldung






Abbildung 6. Fehlermeldung


(Im Verzeichnis befinden sich keine s1h Dateien)


Diese Meldungen stoppen das Programm, somit kann das Eingabe Verzeichnis erneut gewählt werden. Nach der Korrektur muss nochmals der Start Button angeklickt werden. Wenn es bei der Überprüfung des Eingabe Verzeichnisses keine Fehlermeldungen gab, kann es im weiteren Verlauf noch zu anderen Fehlermeldungen kommen, die im Absatz Bekannte Probleme beschrieben werden. Im Feld konvertiere Datei wird die gerade bearbeitete Datei angezeigt, somit kann nachvollzogen werden, in welcher Datei der Fehler aufgetreten ist. Die Fehlermeldungen können mit einem Klick auf OK innerhalb des Fehlermeldungsfensters geschlossen werden. Wenn es sich nicht um eine Fehlermeldung direkt von wish handelt (wish Fehlermeldungen sind erkennbar an dem roten Kreis mit dem weißen Kreuz wie in der letzten Abbildung), wird das Verzeichnis weiterhin umgewandelt. Handelt es sich jedoch um eine Fehlermeldung direkt von wish, so wird nach dem Klicken des OK Buttons das Programm unterbrochen. Um die restlichen Dateien im Verzeichnis weiter umwandeln zu lassen, muss der c Button, der sich rechts unten auf der Benutzeroberfläche befindet, angeklickt werden.

Wenn das folgende Fenster (siehe Abbildung 7) auf dem Bildschirm erscheint, sind die s1h Dateien im Eingabe Verzeichnis umgewandelt und die neuen hlb und ph Dateien befinden sich im jeweiligen Verzeichnis, welches für hlb bzw. ph Dateien innerhalb der Templatedatei angegeben ist. Hinweis: Musste während des Programmdurchlaufs der c Button geklickt werden, ist die angegebene Anzahl der Dateien innerhalb dieses Fensters nicht korrekt, da nach dem Klicken des c Buttons der Zähler wieder mit 0 beginnt.



Abbildung 7. Eine Datei umgewandelt



Das Konvertieren der Dateien kann einige Zeit in Anspruch nehmen. Um jedoch sicher zu gehen, dass das Programm ordnungsgemäß arbeitet, kann das Zielverzeichnis für hlb oder ph Dateien beobachtet werden, ob Dateien hinzugefügt werden.


Das Ergebnis in EMU:

Die Abbildung zeigt einen Teil der konvertierten Datei in emulabel.



Abbildung 8. Darstellung in EMU





Kommentar zu den Ebenen (Kurzüberblick siehe Tabelle 4 nach Abschnitt):

Auf der Wordebene werden die Wörter der Äußerung orthographisch abgebildet. Die Orthographie stammt aus dem ersten Teil der s1h Datei (siehe oben) oberhalb des Schlüsselwortes oend (orthographie ende). Die Interpunktion wird aber nicht übernommen. sondern entfällt gänzlich. Auf dieser Ebene werden auch die Häsitationspartikel abgebildet. Wenn in der s1h Datei die Häsitation ausgeschrieben wurde, wurde diese Orthographie übernommen. Sonst findet man hesitat oder haes auf der Wordebene.
Die parallele Ebene (labeltype) zur Wordebene, die Funcebene wird benötigt, um Funktionswörter zu markieren. Funktionswörter werden auf dieser Ebene mit ‚F’ markiert.

Auf der Kanonicebene wird die Kanonik der Äußerung abgebildet, die aus den Labels in der s1h Datei (siehe oben unterhalb des Schlüsselwortes hend) interpretiert wurde. Die kanonische Transkription wurde in den s1h Dateien zwar zwischen den Schlüsselwörten oend und kend notiert aber dieser Teil ist nicht immer konsistent. Daher wurde die Kanonik aus den Labels (re)interpretiert.
Die parallele Ebene (labeltype) zur Kanonicebene, die SinfoKanebene dient der Markierung von Segmenten, die in der Phonetik nicht auftauchen, also getilgt sind (markiert mit E = Elision) oder in der Phonetik anders realisiert sind (markiert mit R = Replaced).

Auf der Phoneticebene werden die Phone abgebildet, wie sie in den Labels in der s1h Datei auftauchen (siehe Tabellen ). Die abgebildeten Symbole sind phonematisch zu deuten. Diakritika sind daher nicht zu erwarten.

Tabelle 1. Konsonanten

Tabelle 2.Vokale

Auf der Phoneticebene werden außerdem außersprachliche Dinge (siehe Tabelle 3) markiert, da diese eine Dauer haben und in einem Labfile auftauchen sollten, um den Inhalt der Signalstrecke wiederzugeben. Aufgrund der phonetischen Irrrelevanz dieser Signalstrecken wurde auf eine separate Ebene dafür verzichtet.



Tabelle 3. Labels für aussersprachliches

hesitational lengthening ASh.length
Hesitation AShesit
Neologisms, non-words ASneolog
Pause ASpause
breathing and accompanying pauses ASbreath
Laughing ASlaugh
Coughing AScough
Throat-clearing ASthroatcle
clicking/lip-smacking ASclick
Swallowing ASswallow
Other AS
External noise of various kinds ASext.noise
technical break AStechn.break



Die parallele Ebene (labeltype) zur Phoneticebene, die Autosegebene dient der Markierung des Autosegmentellen wie Nasalierung (nas), Creaky Voice (creak) oder beides (nascreak).
Die parallele Ebene zur Phoneticebene, die SinfoPhonebene wird benötigt, um die Segmente zu markieren, die nicht in der Kanonicebene auftauchen, also Segmente, die bezüglich der Kanonik eingefügt sind (markiert durch Ep= Epenthese). Aspiration (h) wird nicht als eingefügt markiert.
Auf der parallelen Ebene zur Phoneticebene, der LexAccentebene wird der Vokal der betonten Silbe im Wort mit einem lexikalischen Akzent markiert. Hier gibt es als Markierung ‚f’, wenn es der erste lexikalische Akzent ist und ‚s’ wenn es „the secondary stress of syllables of non-initial elements of compounds“ ist. Funktionswörter erhalten keine solche Markierung.



Tabelle 4. Kurzüberblick der Ebenen

Ebenen Parallelebenen Inhalt Inhalt Symbole
Word   Orthographie  
Func   Funktionswörter F
Kanonic   Kanonik  
  SinfoKan   Elision E
      Ersetzung R
Phonetic   Phone  
  Autoseg   nasaliert nas
      creaky voice creak
      beides nascreak
  SinfoPhon   Epenthese Ep
  LexAccent   primary stress f
      secondary stress s



Konventionen:

Wird auf der Kanonicebene eine Folge @ n abgebildet, wobei das @ auf der SinfoKanebene als getilgt (E) markiert ist, wird @ und n dem Nasalsymbol auf der Phoneticebene hierarchisch zugeordnet. Dies begründet sich in der Annahme, dass die Folge @ n das Suffix EN repräsentiert und dieses zum Nasal verkürzt wird. Ein Beispiel zeigt die folgende Abbildung (roter Kreis).



Abbildung 9. Konventionen Beispiel



Auf der Kanonicebene werden Plosive ohne Aspiration geschrieben (ohne h). In der Phonetik wird diese Phase aber segmentiert und entsprechend etikettiert. Da Aspiration nicht als eigenständiges Element betrachtet werden kann/braucht, wird die Folge Plosiv h auf der Phoneticebene dem Plosiv auf der Kanonicebene hierarchisch zugeordnet wie im blauen gestrichelten Kreis in der vorangegangen Abbildungen zu sehen ist.

In der Orthographie werden die folgenden deutschen Buchstaben umgeschrieben wofür der grüne Kreis in Abbildung 9 ein Beispiel gibt.

ö

ü

ß

oe

ue

ss

 

Bekannte Probleme:

Ein großes Problem stellen Differenzen in der Wortanzahl zwischen der in der s1h angegebenen Orthographie und der Phonetik dar. Es handelt sich hierbei um Etikettierungsinkonsistenzen (Orthographie anders eingeteilt als Phonetik).
Ein nichtlösbares Problem ist, dass Zahlen in der Orthographie manchmal als Ziffer angegeben sind aber in der Phonetik natürlich als Wort, wie der folgende Auszug aus einer s1h Datei zeigt.

k61tk010.s1h
Bei dieser Sachlage m}ssen wir die Hirschjagd aufschieben und uns kurz
nach 9 Uhr zur}ckmelden.
oend

kend

hend
10602 #c:

82520 ##n
84090 $'OY
86958 $n
88018 ##Q
89198 $'u:6
91462 ##t

Hier kommt es dann zum Programmfehler. Es erscheint die folgende Fehlermeldung:




Abbildung 10. Fehlermeldung bei Inkonsistenzen



An dieser Stelle könnte man die Datei überprüfen, das Problem beheben und die Datei nochmals versuchen umzuwandeln.
Diese Fehlermeldung wird allerdings auch angezeigt, wenn andere Diskrepanzen zwischen Wortanzahl in der Orthographie zur Phonetik aufgetreten sind. Dennoch hilft diese Fehlermeldung die Dateien denoch umwandelbar zu machen, wie das folgende Beispiel demonstriert. Wörter in der Orthographie, die von spitzen Klammern umrahmt sind, werden nicht als Wort interpretiert, wenn innerhalb der Klammern kein Blank zu finden ist, obwohl das Wort in der Phonetik auftaucht. Ein eingefügter Blank macht diese Datei dann auch umwandelbar.


g373a003.s1h
ARK003:<;T>esch<;T>
oend
; E S ;
kend
c: ; E S ;
hend
1 #c:
1 ##;
1 $E
680 $S
1274 $;

G373a003.s1h
ARK003: <;T>esch <;T>
oend
; E S ;
kend
c: ; E S ;
hend
1 #c:
1 ##;
1 $E
680 $S
1274 $;


Eine mögliche andere Fehlermeldung, allerdings direkt von wish, ist die folgende.



Abbildung 11. anderes Wortanzahlprobleme



Hierbei handelt es sich auch um Diskrepanzen zwischen Orthographie und Phonetik hinsichtlich der Wortanzahl. Wenn ein Wort am Ende fehlt, hier also das elfte, dann ist wahrscheinlich das letzte Label in der s1h Datei keines der folgenden: „#. #? #! $;“. Wenn das der Fall ist, kann man dieses letzte Label in eines der vier oberen umschreiben und die Datei nochmals probieren umzuwandeln. Es handelt sich hierbei um Interpunktionen, da diese in EMU nicht berücksichtig werden, ist es egal welches verwendet wird. Das folgende Beispiel demonstriert das noch mal.



g374a009.s1h
ARK009: <;T>Vorschlag , <#Rascheln>
im selben Monat , also Juli ab
vierundzwanzigsten bis Monatsende
ein=/-
oend

kend

hend

108327 ##Q-
108327 $-q
108327 $'aI
110817 $n
111923 =/-

 

g374a009.s1h
ARK009: <;T>Vorschlag , <#Rascheln>
im selben Monat , also Juli ab
vierundzwanzigsten bis Monatsende
ein=/-
oend

kend

hend

108327 ##Q-
108327 $-q
108327 $'aI
110817 $n
111923 #.


Die vorgestellten Fehler sind die „häufigsten“ Fehlerquellen, die durch den Benutzer leicht behebbar sind. Andere Fehler sind Unikate und daher nicht weiter diskutiert.

Ein anders geartetes Problem tritt auf, wenn man zweimal die gleiche s1h Datei umwandelt und beim zweiten Mal die schon erstellte hlb und ph Datei überschreibt. Hier wird die ph Datei nicht überschrieben, sondern es werden die Segmente der Datei noch mal angehängt, was in emulabel dann zur Fehlermeldung, die die folgende Abbildung zeigt, führt. Auf der Phoneticebene werden als Folge gar keine Labels dargestellt.



Abbildung 12. EMU Error