Dokumentation xassp2praat

Ausgangsmaterial in xassp
Verwendung der Oberfläche
Eine Datei umwandeln
Ganzes Verzeichnis umwandeln
Das Ergebnis in Praat
Kommentar zu den Ebenen
Bekannte Probleme

Das xassp2Praat Script wandelt Etikettierungsdateien von xassp mit der Extension s1h ohne prosodische Labels in Etikettierungsdateien, die von Praat lesbar sind, um. Aus einer s1h Datei wird für Praat eine TextGrid Datei erstellt.

Ausgangsmaterial in xassp:

Die in xassp verwendeten Etikettierungsdateien haben die Extension s1h. Außerdem gibt es auch die Möglichkeit diese Dateien mit der Extension mix zu erzeugen. MIX Dateien können von xassp2praat nicht umgewandelt werden!
Ein Beispiel für eine s1h Datei (Äußerung g365a007 aus dem Kiel Corpus) ist im folgenden gegeben. Es handelt sich hierbei nur um einen Auszug (… bedeutet, dass etwas gelöscht ist).



g365a007.s1h
JUM007: <A> ich brauche jetzt von <:<#Rascheln> Ihnen:> noch
<:<#Rascheln> einen<Z>:> Termin f"ur eine f"unft"agige
Dienstreise . <P> <#Mikrobe> <P> <Schmatzen> <A> <"ah>
Montag<Z> , der siebenundzwanz<Z>igste M"arz<Z> . <P>
<Schmatzen> <A> und dann f"unf Tage . <Schmatzen> <A>
<#Rascheln> eins , zwei , das w"are bis zum einunddrei"sigsten
M"arz . ist da bei Ihnen noch was frei im Kalender ?
oend

kend

hend
10037 #c:

34834 ##:k
34834 $Q-
34834 $-q
34834 $i:
37611 $n
38342 $@-
38342 $%n+
38991 ##%n
40212 $O
41895 $x+
43476 ##:k
43476 $Q-
43476 $-q
43476 $aI
47214 $n
47957 $@
49095 $n+
52052 $z:
52052 ##t
53067 $-h
54239 $E6-E
55952 $m
57321 $'i:
59516 $n

355656 #?



Die folgende Abbildung zeigt die Darstellung der Etikettierung in xassp.



Abbildung 1. Darstellung in xassp





Verwendung der Oberfläche

Auf der xassp2praat Oberfläche besteht die Möglichkeit eine Kiel Corpus Datei für Praat umzuwandeln (links unter „eine Datei“) oder alle Kiel Corpus Dateien in einem Verzeichnis (rechts unter „ein ganzes Verzeichnis“).


Umwandeln einer Datei

Für das Umwandeln einer Datei wird auf der linken Seite der Eingabemaske die umzuwandelnde Datei über den ... Button, der das Dateisystem für die Auswahl zur Verfügung stellt, ausgewählt. Außerdem muss unter Ausgabe Verzeichnis das Verzeichnis ausgewählt werden, in welchem die neue TextGrid Datei gespeichert werden soll. Hier steht über den Button wieder das Dateisystem des Rechners zur Verfügung. Danach kann über den Button Start das Umwandeln beginnen. Vom Script wird nun eine Datei mit dem Namen der Originaldatei und der Extension TextGrid erstellt, die im angegebenen Ausgabe Verzeichnis gespeichert wird. Vor dem Konvertieren überprüft das Programm die Eingabe, wobei folgende Fehlermeldungen auftreten können:



Abbildung 2.
Fehlermeldung





Abbildung 3. Fehlermeldung





Abbildung 4.
Fehlermeldung




Diese Meldungen stoppen das Programm, somit besteht die Möglichkeit die Eingabe Datei erneut auszuwählen. Nach der Korrektur muss nochmals der Start Button angeklickt werden. Hinweis: Die Fehlermeldungen können beim Klick auf Start nicht auftauchen, wenn die Eingaben über den Button gemacht wurde.

Wenn es bei der Überprüfung der Eingabe Datei keine Fehlermeldungen gab, kann es im weiteren Verlauf noch zu anderen Fehlermeldungen kommen, die im Absatz Bekannte Probleme beschrieben werden.

Wenn das folgende Fenster (siehe Abbildung 5) auf dem Bildschirm erscheint, ist die Datei umgewandelt und die neue TextGrid Datei befindet sich im Ausgabe Verzeichnis. Hinweis: Dieses Fenster erscheint auch, wenn es zu einer Fehlermeldung gekommen ist und eigentlich keine Datei umgewandelt wurde.



Abbildung 5. Eine Datei umgewandelt




Ganzes Verzeichnis umwandeln:

Für das Umwandeln aller s1h Dateien in einem Verzeichnis wird unter Eingabe Verzeichnis über den Button, der das Dateisystem zur Auswahl zur Verfügung stellt, das Verzeichnis ausgewählt, was die umzuwandelnden s1h Dateien des Kiel Corpus’ beinhaltet. Außerdem wird unter Ausgabe Verzeichnis das Verzeichnis ausgewählt, in welchem die neuen TextGrid Dateien gespeichert werden sollen. Hier steht über den Button … wieder das Dateisystem des Rechners zur Verfügung. Das Konvertieren wird über den Klick auf Start gestartet. Das Programm überprüft die Eingabe, wobei folgende Fehlermeldungen auftreten können:




Abbildung 6. Fehlermeldung






Abbildung 7. Fehlermeldung




Abbildung 8. Fehlermeldung


(Im Verzeichnis befinden sich keine s1h Dateien)


Diese Meldungen stoppen das Programm, somit kann das Eingabe Verzeichnis bzw. das Ausgabe Verzeichnis erneut gewählt werden. Nach der Korrektur muss nochmals der Start Button angeklickt werden. Wenn es bei der Überprüfung des Eingabe Verzeichnisses keine Fehlermeldungen gab, kann es im weiteren Verlauf noch zu anderen Fehlermeldungen kommen, die im Absatz Bekannte Probleme beschrieben werden. Im Feld konvertiere Datei wird die gerade bearbeitete Datei angezeigt, somit kann nachvollzogen werden, in welcher Datei der Fehler aufgetreten ist. Die Fehlermeldungen können mit einem Klick auf OK innerhalb des Fehlermeldungsfensters geschlossen werden. Wenn es sich nicht um eine Fehlermeldung direkt von wish handelt (wish Fehlermeldungen sind erkennbar an dem roten Kreis mit dem weißen Kreuz wie in der letzten Abbildung), wird das Verzeichnis weiterhin umgewandelt. Handelt es sich jedoch um eine Fehlermeldung direkt von wish, so wird nach dem Klicken des OK Buttons das Programm unterbrochen. Um die restlichen Dateien im Verzeichnis weiter umwandeln zu lassen, muss der c Button, der sich rechts unten auf der Benutzeroberfläche befindet, angeklickt werden.

Wenn das folgende Fenster (siehe Abbildung 9) auf dem Bildschirm erscheint, sind die s1h Dateien im Eingabe Verzeichnis umgewandelt und die neuen TextGrid Dateien befinden sich im ausgewählten Ausgabe Verzeichnis. Hinweis: Musste während des Programmdurchlaufs der c Button geklickt werden, ist die angegebene Anzahl der Dateien innerhalb dieses Fensters nicht korrekt, da nach dem Klicken des c Buttons der Zähler wieder mit 0 beginnt.



Abbildung 9. Ein Verzeichnis umgewandelt



Das Konvertieren der Dateien kann einige Zeit in Anspruch nehmen. Um jedoch sicher zu gehen, dass das Programm ordnungsgemäß arbeitet, kann das Ausgabe Verzeichnis beobachtet werden, ob TextGrid Dateien hinzugefügt werden.


Das Ergebnis in Praat:

Die folgende Abbildung zeigt, wie die umgewandelte Datei in Praat dargestellt wird.



Abbildung 10. Darstellung in Praat





Kommentar zu den Ebenen (Kurzüberblick siehe Tabelle 4 nach Abschnitt):

Auf der Phoneticebene werden die Phone abgebildet, wie sie in den Labels in der s1h Datei auftauchen (siehe Tabellen). Die abgebildeten Symbole sind phonematisch zu deuten. Diakritika sind daher nicht zu erwarten.

Tabelle 1. Konsonanten

Tabelle 2.Vokale



Auf der Phoneticebene werden außerdem außersprachliche Dinge (siehe Tabelle 3) markiert, da diese eine Dauer haben und in einer Ebene auftauchen sollten, um den Inhalt der Signalstrecke wiederzugeben. Aufgrund der phonetischen Irrrelevanz dieser Signalstrecken wurde auf eine separate Ebene dafür verzichtet.



Tabelle 3. Labels für außersprachliches

hesitational lengthening ASh.length
Hesitation AShesit
Neologisms, non-words ASneolog
Pause ASpause
breathing and accompanying pauses ASbreath
Laughing ASlaugh
Coughing AScough
Throat-clearing ASthroatcle
clicking/lip-smacking ASclick
Swallowing ASswallow
Other AS
External noise of various kinds ASext.noise
technical break AStechn.break


Die Autosegebene dient der Markierung des Autosegmentellen wie Nasalierung (nas), Creaky Voice (creak) oder beides (nascreak).
Auf der LexAccentebene wird der Vokal der betonten Silbe im Wort mit einem lexikalischen Akzent markiert. Hier gibt es als Markierung ‚f’, wenn es der erste lexikalische Akzent ist und ‚s’ wenn es „the secondary stress of syllables of non-initial elements of compounds“ ist. Funktionswörter erhalten keine solche Markierung.
Auf der Wordebene werden die Wörter der Äußerung orthographisch abgebildet. Die Orthographie stammt aus dem ersten Teil der s1h Datei (siehe oben) oberhalb des Schlüsselwortes oend (orthographie ende). Die Interpunktion wird aber nicht übernommen. sondern entfällt gänzlich. Auf dieser Ebene werden auch die Häsitationspartikel abgebildet. Wenn in der s1h Datei die Häsitation ausgeschrieben wurde, wurde diese Orthographie übernommen. Sonst findet man hesitat oder haes auf der Wordebene.
In der Orthographie werden die folgenden deutschen Buchstaben umgeschrieben wofür der grüne Kreis in der Abbildung ein Beispiel gibt.

ö

ü

ß

oe

ue

ss



Abbildung 11 Umlaute in Praat




 

Die Funcebene wird benötigt, um Funktionswörter zu markieren. Funktionswörter werden auf dieser Ebene mit ‚F’ markiert.



Tabelle 4. Kurzüberblick der Ebenen

Ebenen Inhalt Symbole
Word Orthographie
Func Funktionswörter F
Phonetic Phone
Autoseg nasaliert nas
  creaky voice creak
  beides nascreak
SinfoPhon Epenthese Ep
LexAccent primary stress f
  secondary stress s


Nicht immer werden all diese Ebenen erzeugt. Wenn es für eine Ebene keine Segmente gibt, wird diese nicht dargestellt.
Obwohl in den s1h Dateien kanonische Informationen stecken, musste bei der Konvertierung der s1h Dateien zu TextGrid Dateien auf eine Kanonicebene verzichtet werden. Der Grund dafür sind Segmente auf dieser Ebene, die keine Dauer haben aber auch keine „Targets“ sind. In Praat können nur Dauersegmente oder „Targets“ dargestellt werden, da die Darstellung nur an die Zeit gebunden ist.

Bekannte Probleme:

Ein großes Problem stellen Differenzen in der Wortanzahl zwischen der in der s1h angegebenen Orthographie und der Phonetik dar. Es handelt sich hierbei um Etikettierungsinkonsistenzen (Orthographie anders eingeteilt als Phonetik).
Ein nichtlösbares Problem ist, dass Zahlen in der Orthographie manchmal als Ziffer angegeben sind aber in der Phonetik natürlich als Wort, wie der folgende Auszug aus einer s1h Datei zeigt.

k61tk010.s1h
Bei dieser Sachlage m}ssen wir die Hirschjagd aufschieben und uns kurz
nach 9 Uhr zur}ckmelden.
oend

kend

hend
10602 #c:

82520 ##n
84090 $'OY
86958 $n
88018 ##Q
89198 $'u:6
91462 ##t


Hier kommt es dann zum Programmfehler. Es erscheint die folgende Fehlermeldung:



Abbildung 11. Fehlermeldung bei Inkonsistenzen



An dieser Stelle könnte man die Datei überprüfen, das Problem beheben und die Datei nochmals versuchen umzuwandeln.
Diese Fehlermeldung wird allerdings auch angezeigt, wenn andere Diskrepanzen zwischen Wortanzahl in der Orthographie zur Phonetik aufgetreten sind. Dennoch hilft diese Fehlermeldung die Dateien denoch umwandelbar zu machen, wie das folgende Beispiel demonstriert. Wörter in der Orthographie, die von spitzen Klammern umrahmt sind, werden nicht als Wort interpretiert, wenn innerhalb der Klammern kein Blank zu finden ist, obwohl das Wort in der Phonetik auftaucht. Ein eingefügter Blank macht diese Datei dann auch umwandelbar.


g373a003.s1h
ARK003:<;T>esch<;T>
oend
; E S ;
kend
c: ; E S ;
hend
1 #c:
1 ##;
1 $E
680 $S
1274 $;

G373a003.s1h
ARK003: <;T>esch <;T>
oend
; E S ;
kend
c: ; E S ;
hend
1 #c:
1 ##;
1 $E
680 $S
1274 $;


Eine mögliche andere Fehlermeldung, allerdings direkt von wish, ist die folgende.



Abbildung 11. anderes Wortanzahlprobleme



Hierbei handelt es sich auch um Diskrepanzen zwischen Orthographie und Phonetik hinsichtlich der Wortanzahl. Wenn ein Wort am Ende fehlt, hier also das elfte, dann ist wahrscheinlich das letzte Label in der s1h Datei keines der folgenden: „#. #? #! $;“. Wenn das der Fall ist, kann man dieses letzte Label in eines der vier oberen umschreiben und die Datei nochmals probieren umzuwandeln. Es handelt sich hierbei um Interpunktionen, da diese in EMU nicht berücksichtig werden, ist es egal welches verwendet wird. Das folgende Beispiel demonstriert das noch mal.


g374a009.s1h
ARK009: <;T>Vorschlag , <#Rascheln>
im selben Monat , also Juli ab
vierundzwanzigsten bis Monatsende
ein=/-
oend

kend

hend

108327 ##Q-
108327 $-q
108327 $'aI
110817 $n
111923 =/-

 

g374a009.s1h
ARK009: <;T>Vorschlag , <#Rascheln>
im selben Monat , also Juli ab
vierundzwanzigsten bis Monatsende
ein=/-
oend

kend

hend

108327 ##Q-
108327 $-q
108327 $'aI
110817 $n
111923 #.


Die vorgestellten Fehler sind die „häufigsten“ Fehlerquellen, die durch den Benutzer leicht behebbar sind. Andere Fehler sind Unikate und daher nicht weiter diskutiert.