![]() ![]() ![]() |
||
![]() |
Institut für Phonetik und digitale Sprachverarbeitung |
Forschung ![]() |
Forschung
|
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
Ricarda Dittrich |
Experimentalphonetische Untersuchung von Konsonant-Vokal- Strukturen im frühkindlichen Lauterwerb |
Pommerening, Katharina |
Eine akustische phonetische Analyse der Variation im
Sprercherstil |
Nils Uelzmann | Eine experimentalphonetische Analyse des intervokalischen /t-d/ Kontrastes im Norddeutschen |
Claudia Fleischmann | Experimentalphonetische Untersuchungen zum Russischen im L2-Erwerb |
|
Christine Baran |
Perzeptive und akustische Analysen von Ironie im Hörbuch |
Linda Marschall |
Eine Untersuchung des palatalen Frikativs im Hessischen |
Livia Schulze |
Experimentalphonetische
Untersuchung zu den Vokalen im Schwedischen |
Sandra Kornau |
Messungen der phonetischen Konsistenz bei Verstellen der Stimme für Hörbücher |
Jessica Bux |
Akustische und perzeptive Untersuchungen lautsprachlicher Ausprägungen des Sprechalters und -geschlechts |
Antje Stiel |
Prosodische Muster in der Sprache von Parkinsonpatienten im Vergleich zu Sprechgesunden - eine auditive und experimentelle Untersuchung im Deutschen |
Marlene Jaspe |
Phonetische Realisierung prosodischer Grundeinheiten des Deutschen durch hörgeschädigte Kinder mit Cochlea-Impantatversorung |
Jana Erhardt |
Perzeption geflüsterter Obstruenten |
Eva Köhler |
Aufbau und
Anwendung einer phonetischen Datenbank zur Untersuchung von
lautsprachlichen Alterseffekten |
Claudia Ohl |
Phonetische Realisierungen von phonologischen Intonationskategorien |
Das Kiel Corpus ist eine wachsende gesprochene Sprachdatensammlung der deutschen Lese- und Spontansprache, welche seit 1990 am ipds aufgezeichnet und segmentell etikettiert wird. Derzeit umfassen die CD-ROMs des Kiel Corpus mehr als vier Stunden etikettierter Lesesprache auf The Kiel Corpus of Read Speech Vol. I sowie knapp vier Stunden etikettierter Spontansprache auf The Kiel Corpus of Spontaneous Speech Vol. I, Vol. II und Vol. III.
![]() |
10 Signaldateien der Berliner Sätze aus The Kiel Corpus of Read Speech Vol. I sowie fünf Durchgänge aus The Kiel Corpus of Spontaneous Speech Vol. II stehen in Form einer gezippten tar-Datei zur Verfügung. Diese Dateien sind im ESPS/waves+- oder MS RIFF WAVE-Format und umfassen jeweils ungefähr 2 MB Speicherplatz. |
Das
Setzen
der Label geht aus von einer kanonischen phonemischen Transkription
einer Äußerung. Eine Labelliste wird aus der Transkription
erzeugt.
Jedes Element erhält ein Präfix der folgenden:
## | für wortinitiale Labels |
$ | für wortinterne Labels |
$# | für wortinterne, Kompositums-initiale Labels |
# | für wortexterne Labels, z.B. Pausen, Atmen, Interpunktionszeichen. |
Die
Etiketten
sind zeitlich mit dem Signal synchronisiert. Jedes Label markiert den
Beginn des Signalabschnitts, der dafür als hauptverantwortlich
ausgemacht wurde. Wo es erforderlich war, wurden die Labels
angepaßt.
Im folgenden finden sie einige Beispiele möglicher Modifikationen:
Vorher | Nachher | |
##b | ##%b | Die Abgrenzung eines Signalabschnitts ist unsicher, in diesem Falle konnte der Verschluß für den Plosiv nicht genau lokalisiert werden. |
$t | $t- | Phonetische Korrelate einer phonologischen Einheit fehlen. Häufig benutzt, um das Fehlen eines Verschlußes / plosiven Elements nach Frikativen oder eines vokalischen Abschnitts in /@n/- oder /@l/-Sequenzen anzuzeigen. |
$n | $n-m | Ein Signalabschnitt wird angemessener durch ein anderes Label aus dem Inventar repräsentiert. Überwiegend eingesetzt, um Assimilationen zu kennzeichnen. |
$-p | Ein Label aus dem Inventar wird eingefügt, um einen nicht notwendigerweise in der kanonischen Transkription vorhersehbaren Signalabschnitt zu etikettieren. Oft benutzt, um das Vorhandensein epenthetischer Verschlüsse anzuzeigen. |
Eine Vielzahl weiterer phonetischer Merkmale wird ebenfalls über den "Einfüge"-Bindestrich:
$-~ | zeigt das Vorhandensein von Nasalität an, wenn ein Nasal nicht mehr zeitlich abgrenzbar ist |
$-q | zeigt das Vorhandensein von junkturellem Knarren oder Knarrstimme an. Das Symbol q wird außerdem benutzt, um Plosivsymbole zu ersetzen (so z.B. $t-q, $p-q), wenn glottalisierte Korrelate auftreten, wie sie häufig in der Umgebung von Nasalen und Lateralen zu finden sind. |
$-h | zeigt den Beginn der Plosivlösungsphase (und Aspiration) an. |
$-MA | wird benutzt, um das Vorhandensein des Korrelates eines getilgten Labels zu signalisieren, z.B. $i:- in einer Realisierung von vielleicht, in der phonetische Korrelate des ersten Vokals gleichzeitig mit der labiodentalen Friktion und Anteilen des Laterals auftreten, aber kein zeitlich diskreter Vokalabschnitt vorhanden ist. |
![]() |
The Kiel Corpus of Read Speech Vol. I |
![]() |
The Kiel Corpus of Spontaneous Speech Vol. I |
![]() |
The Kiel Corpus of Spontaneous Speech Vol. II |
![]() |
The Kiel Corpus of Spontaneous Speech Vol. III |
![]() |
|
Frei definierbare Konfigurationen erleichtern dem Benutzer die Auswahl mehrerer zusammengehöriger Dateien bzw. Analysen, die auf dem Bildschirm dargestellt werden sollen. Ein Beispiel für eine solche Konfiguration ist Segmental, die für das segmentelle Etikettieren gedacht ist. Die Fenster, die bei dieser Konfiguration geöffnet werden, sind
|
|
Nebenstehend ist ein Beispiel für diese Konfiguration abgebildet. |
|
Mit Hilfe der Darstellung der Grundfrequenz und der Möglichkeit, Teile des Sprachsignals anzuhören, können die prosodischen Labels zu den bereits vorhandenen segmentellen an den entsprechenden Stellen hinzugefügt werden.
|
![]() |
Alle Analysen lassen sich sowohl über Konfigurationen als auch durch ein Menü im Sprachsignalfenster aktivieren.
Werden zusammengehörige Daten auf dem Bildschirm dargestellt, so besteht die Möglichkeit, diese zu verknüpfen, so daß Aktionen, die in einem Fenster durchgeführt werden, Einfluß auf die anderen haben. So werden zum Beispiel Marken, die einen Teil des Signals markieren, in allen miteinander verknüpften Fenstern gesetzt. Außerdem wird dafür gesorgt, daß in allen verknüpften Fenstern der gleiche Zeitbereich in der gleichen Auflösung dargestellt wird.
The automatic generation of control signals to drive a formant synthesizer offers an excellent method of validating phonological models by observing their phonetic output. This is made all the more challenging by the high quality of the speech which a formant synthesizer such as Klatt's (1980) model can produce when provided with appropriate control signals.
Copy synthesis of natural utterances is undoubtedly one of the most interesting and enlightening methods of arriving at these numbers. However, two serious problems arise when mapping the results of an acoustic analysis onto the control parameters of the Klatt formant synthesizer:
LACS is a knowledge-based solution to the problems outlined above. The mapping of acoustic analysis onto synthesizer control parameters is carried out using information from annotations of the utterances being synthesized. At any point in the mapping process a decision can be made using the linguistic information provided by time-aligned labels. Using a large labelled corpus such as The Kiel Corpus allows copy synthesis of a number of different female and male voices carrying out different linguistic tasks.
Modelling glottal activity is one of the ways in which label information can be successfully used to fully exploit the parameters which the Klatt synthesizer provides. The diagrams below illustrate how the different correlates of h can be modelled. In either case it is only the combination of label and analytical information that the we can control the source parameters for voicing and aspiration and decide whether to use the formant information to excite the cascade or parallel branch of the synthesizer.
![]() |
![]() |
|
---|---|---|
Über die Felder weht ein Wind. | Original | LACS |
Hier gibt es Konserven. | Original | LACS |
Gib mir bitte die Butter. | Original | LACS |
Wer möchte noch Milch? | Original | LACS |
Überquere die Straße vorsichtig! | Original | LACS |
Da möchte ich gerne mit. | Original | LACS |
Die Kartoffeln gehören zum Mittagessen. | Original | LACS |
Dazu essen wir den Salat. | Original | LACS |
Danach tut eine Wanderung gut. | Original | LACS |
Manche Obstbäume blühen prächtig. | Original | LACS |
Am Zaun steht eine Regentonne. | Original | LACS |
Der gelbe Küchenofen sorgt für Wärme. | Original | LACS |
Die Rinder sind noch auf der Weide. | Original | LACS |
Die Fahrt war ja mächtig kurz. | Original | LACS |
EMU is a collection of software tools for the creation, manipulation and analysis of speech databases. At the core of EMU is a database search engine which allows the researcher to find various speech segments based on the sequential and hierarchical structure of the utterances in which they occur. EMU includes an interactive labeller which can display spectrograms and other speech waveforms, and which allows the creation of hierarchical, as well as sequential, labels for a speech utterance.
The new 1.7 release of Emu includes support for the Apple Macintosh for the first time. The downloads page has details of how to download and install Emu on the Mac but here is a small screenshot just to prove that it works:
The screenshot also shows the new Emu query tool which was built to allow querying and data extraction on the Mac but which should also prove useful on other platforms. Since R is also available for the Macintosh, users of this platform can now enjoy the full Emu experience!
We are putting together a document outlining our plans for Emu development beyond the current system. The document is available here. Please feel free to address any comments to Steve Cassidy
I have recently begun moving Emu development to SourceForge which is a site supporting Open Source software development. SourceForge provides a number of useful facilities such as a bug tracking system and a way of logging and tracking support requests. The Emu mailing list will also be moved to the new site. This page will still be the definitive Emu homepage but users interested following the development of Emu should find the new site useful. Please see The Emu page at SourceForge for more information.
These are extensions to the Splus and R statistical packages which provide an interface to Emu functions and many special purpose functions for analysing and visualising speech data. While this package predates Emu (it is the major part of the earlier MU+ system), they have not yet been made widely available. I have now managed to package them up and provided installation instructions.
R is a freely available system, Splus is commercial software. Both systems run on Unix and Windows platforms. The Emu library is compatable with all versions and platforms. For more information see the Emu/Splus page.
Emu has been in use for some time to mark up ToBI style prosodic annotations. With the help of Mary Beckman at Ohio State we have put together a version of the English ToBI training materials in SSFF format which can be read by Emu on Windows and Unix platforms. See the Emu ToBI page for details of how to download this dataset.
You can
now download the entire Emu manual as a zip file emu-doc.zip.
Additionally, an online documentation is avaiable here.
I've recently completed a paper for Eurospeech99 which looks at compiling Emu annotations into the relational model. The paper is available online as are some comments about the experiments which include the scripts used to generate the relational table.
We have recently had a paper accepted for a special issue of Speech Communication on Linguistic Annotation. Other papers have been presented at Eurospeech 99 and the Australian Database Conference, 2000. See my publications page for detailed references.
Emu is included on a CDROM accompanying our book, Techniques in Speech Acoustics which was published in May 1999 by Kluwer.
Steven Bird and Mark Liberman have been collating a list of linguistic annotation methods and tools. One of their goals is to bring together the many different annotation tools and formats and define a useful set of standards that such tools might work with. Emu goes some way towards being able to deal with different kinds of annotation; as an example of using Emu with other annotation formats I've written some thoughts about Emu and the BAS Partitur label format, comments are welcome.
Two mailing lists (emu-announce and emu-devel) are maintained on the Emu developers site at SourceForge. Please see that site for details on how to subscribe.
![]() |
This
page is a mirror of http://www.shlrc.mq.edu.au/emu/ Copyright
© 2001, Department of Linguistics, Macquarie University. Please notice that certain links (e.g. downloads) will redirect you to the original site at the Department of Linguistics, Macquarie University, Australia. |