Menüpunkt Institut
Menüpunkt Lehre
Menüpunkt Forschung
Menüpunkt Publikationen
Menüpunkt Links





Englische Version Deutsche Version
 

Das Kiel Corpus



Allgemein

Das Kiel Corpus ist eine wachsende gesprochene Sprachdatensammlung der deutschen Lese- und Spontansprache, welche seit 1990 am ipds aufgezeichnet und segmentell etikettiert wird. Derzeit umfassen die CD-ROMs des Kiel Corpus mehr als vier Stunden etikettierter Lesesprache auf The Kiel Corpus of Read Speech Vol. I sowie knapp vier Stunden etikettierter Spontansprache auf The Kiel Corpus of Spontaneous Speech Vol. I, Vol. II und Vol. III.


Laden Sie Beispielsignale herunter!
10 Signaldateien der Berliner Sätze aus The Kiel Corpus of Read Speech Vol. I sowie fünf Durchgänge aus The Kiel Corpus of Spontaneous Speech Vol. II stehen in Form einer gezippten tar-Datei zur Verfügung. Diese Dateien sind im ESPS/waves+- oder MS RIFF WAVE-Format und umfassen jeweils ungefähr 2 MB Speicherplatz.


Segmentierung und Etikettierung

Das Setzen der Label geht aus von einer kanonischen phonemischen Transkription einer Äußerung. Eine Labelliste wird aus der Transkription erzeugt. Jedes Element erhält ein Präfix der folgenden:

## für wortinitiale Labels
$ für wortinterne Labels
$# für wortinterne, Kompositums-initiale Labels
# für wortexterne Labels, z.B. Pausen, Atmen, Interpunktionszeichen.

Die Etiketten sind zeitlich mit dem Signal synchronisiert. Jedes Label markiert den Beginn des Signalabschnitts, der dafür als hauptverantwortlich ausgemacht wurde. Wo es erforderlich war, wurden die Labels angepaßt. Im folgenden finden sie einige Beispiele möglicher Modifikationen:

Vorher Nachher
##b ##%b Die Abgrenzung eines Signalabschnitts ist unsicher, in diesem Falle konnte der Verschluß für den Plosiv nicht genau lokalisiert werden.
$t $t- Phonetische Korrelate einer phonologischen Einheit fehlen. Häufig benutzt, um das Fehlen eines Verschlußes / plosiven Elements nach Frikativen oder eines vokalischen Abschnitts in /@n/- oder /@l/-Sequenzen anzuzeigen.
$n $n-m Ein Signalabschnitt wird angemessener durch ein anderes Label aus dem Inventar repräsentiert. Überwiegend eingesetzt, um Assimilationen zu kennzeichnen.
$-p Ein Label aus dem Inventar wird eingefügt, um einen nicht notwendigerweise in der kanonischen Transkription vorhersehbaren Signalabschnitt zu etikettieren. Oft benutzt, um das Vorhandensein epenthetischer Verschlüsse anzuzeigen.

Eine Vielzahl weiterer phonetischer Merkmale wird ebenfalls über den "Einfüge"-Bindestrich:


$-~ zeigt das Vorhandensein von Nasalität an, wenn ein Nasal nicht mehr zeitlich abgrenzbar ist
$-q zeigt das Vorhandensein von junkturellem Knarren oder Knarrstimme an. Das Symbol q wird außerdem benutzt, um Plosivsymbole zu ersetzen (so z.B. $t-q, $p-q), wenn glottalisierte Korrelate auftreten, wie sie häufig in der Umgebung von Nasalen und Lateralen zu finden sind.
$-h zeigt den Beginn der Plosivlösungsphase (und Aspiration) an.
$-MA wird benutzt, um das Vorhandensein des Korrelates eines getilgten Labels zu signalisieren, z.B. $i:- in einer Realisierung von vielleicht, in der phonetische Korrelate des ersten Vokals gleichzeitig mit der labiodentalen Friktion und Anteilen des Laterals auftreten, aber kein zeitlich diskreter Vokalabschnitt vorhanden ist.

The Kiel Corpus of Read Speech Vol. I
The Kiel Corpus of Spontaneous Speech Vol. I
The Kiel Corpus of Spontaneous Speech Vol. II
The Kiel Corpus of Spontaneous Speech Vol. III

nach oben