Suchen Kontakt Impressum

Christian-Albrechts-Universität zu Kiel

Institut für Phonetik und digitale Sprachverarbeitung

Startseite

Institut

Forschung

Publikationen

Links

Siegel der Fakultät

Forschung


Projekte
Magisterarbeiten seit 2002
Das Kiel Corpus
XASSP
KIM
LACS
EMU
Lautmuster deutscher Spontansprache
Besondere Veranstaltungen / Special events



Projekte


  • Articulatory cross-language study of initial consonant clusters in varying prosodic conditions

      Joint project: Philip Hoole, IPSK Munich; Christine Mooshammer, Kiel
      Funded by the German Research Council (DFG) (2006-2009) within the
      Schwerpunktprogramm SPP 1234 <http://www.spp1234.de/>
      This project investigates the interplay between the segmental tier
      and higher levels in the prosodic hierarchy by analysing
      articulatory principles governing the internal organization of
      initial consonant clusters under varying prosodic conditions. The
      kinematics of several articulators (tongue, jaw, velum, lips,
      glottal abduction) and the gestural coordination within clusters
      in German, English and French will be analysed in order to assess
      which part or property of a cluster will be enhanced in
      prosodically prominent positions such as under accent, stress, or
      boundary-initially, and to find evidence for articulatory
      constraints in less preferred clusters.


  • Acoustic, articulatory and perceptual analyses of the post-vocalic voicing contrast in two varieties of German

      Principal investigators: Jonathan Harrington (now IPSK Munich) &
      Christine Mooshammer
      Funded by DFG within SPP 1234 <http://www.spp1234.de/>.
      The project makes use of various analyses of the post-vocalic
      voicing contrast in German to test whether phonological knowledge
      incorporates probabilistic information and whether fine phonetic
      detail is stored in the lexicon. Physiological, acoustic, and
      perceptual analyses will be carried out to assess the extent to
      which neutralisation is complete, to uncover the potential
      differences between the production and perception of
      neutralisation, and to determine how far the perception of the
      post-vocalic voicing contrast is influenced by a speaker's dialect
      and linguistic background.


  • The Kiel Corpora
      <http://www.ipds.uni-kiel.de/forschung/kielcorpus.de.html>

      Principal investigator: Michel Scheffers
      IPdS publishes CD-ROMs with annotated recordings of read and
      spontaneous German speech. At present, the Kiel Corpus of Read
      Speech Vol.I (Kiel CD#1) with recordings from the PhonDat project
      and the Kiel Corpus of Spontaneous Speech Vols.I-III (Kiel
      CD#2-#4) with spontaneous dialogues from the VerbMobil project
      (appointment-making task) are available. A DVD-ROM with the Kiel
      Corpus of Spontaneous Speech Vol.IV containing temporally
      overlapping dialogues using the video task scenario (aka daily
      soap / Lindenstrasse scenario) will soon be released. The
      annotation files on this volume include prosodic labels. Revised
      editions of CD#1 and CD#2-4 which will include prosodic
      annotations are in preparation.


  • Phonetic correlates of linguistic prominence and vocal effort

      Researcher: Christine Mooshammer
      This project aims at further investigating different levels of
      stress, accent and vocal effort. Specifically, the underlying
      strategies used by speakers are compared for making a syllable, a
      word or the whole utterance more prominent. Several acoustical and
      physiological parameters, recorded by means of laryngography and
      Electromagnetic Articulography, are analysed with respect to
      interactions between prosodic modifications and segmental
      constraints.


  • International Cooperation

      French-German P2R-Program POPAART: Facteurs Physiques et de
      controle moteur dans les Propriétés Acoustiques et
      Articulatoires de la parole (Special interest in Kiel: Factors
      determining token-to-token variability)

      Partners:
          o Institut de la Communication Parlée, Grenoble
          o Institut de Phonétique et de Phonologie, Paris
          o Laboratoire d'Informatique pour la Mécanique et les Sciences
            de l'Ingénieur, Paris
          o Zentrum für Allgemeine Sprachwissenschaft, Berlin,
          o Institut für Phonetik und Sprachliche Kommunikation, München
          o Institut für Phonetik und digitale Sprachverarbeitung, Kiel




The emeritus director of IPDS K. J. Kohler continues research on the following topics:

  • Sound patterns of spontaneous speech

comprising segmental phrase-level phonetics and phonology, as well as prosody and intonation, focussing on German, but including other languages, especially English and French


  • Development of the Kiel Intonation Model (KIM)

KIM incorporates time, function and the listener as fundamental concepts in prosodic theory, and contextualization as a basic methodological prerequisite; it focusses on the function-substance relation and investigates, e.g., the pragmatic meaning of peak and valley pitch patterns variously synchronized with vocal tract timing, or the articulatory, phonatory and f0 manifestations of functional categories of 'emphasis'

  • Contrastive phonetics and phonology

Typology and universals of sound structures
KJK still lectures on these topics and heads a Prosody Research Group at IPDS Kiel, also in cooperation with Lund University



Magisterarbeiten seit 2002


Nach Abschluss des Studiums der Phonetik und digitalen Sprachverarbeitung soll eine gebundene Kopie der Abschlussarbeit zur Aufnahme in die Fachbibliothek eingereicht werden. Eventuell anfallende Kosten können dabei nach Rücksprache mit dem Sekretariat abgerechnet werden.

2002


Ahlers, Doortje Die Bedeutung der Phonetik im Fremdsprachenunterricht - Unterrichtsverfahren in Literatur und Praxis
In der Bibliothek des IPDS vorhanden Beckmann, Jens Deutsche Lautstatistik
2003


Guzik, Karita Akustische Untersuchung phonetischer Parameter in wenig maskulin klingender Sprechweise
In der Bibliothek des IPDS vorhanden Khromovskikh, Tamara Perzeptorische Untersuchung zur Intonation der Frage im Russischen

Landgraf, Kristin Steigende Intonationskonturen im Deutschen - Experimentalphonetische Untersuchungen zur auditiven Kategorisierung

Liebthal, Katrin Akzent in der L2: Eine akustische Analyse von Vokalen deutscher Englischsprecher

Linneweh, Anke Phonetische Aspekte beim Erwerb der Alphabetschrift - Theoretische Überlegungen und empirische Befunde zum Deutschen
In der Bibliothek des IPDS vorhanden Niebuhr, Oliver Perzeptorische Untersuchungen zu Zeitvariablen in Grundfrequenzgipfeln

Radtke, Alexander Eine akustische Analyse der Beziehung zwischen Glottalisierung und Phrasengrenzen in deutscher Spontansprache
2004


Ambrazaitis, Gilbert Experimentelle Untersuchungen zu phonetischen und semantischen Aspekten phrasenfinaler Melodiemuster im Deutschen

John, Tina Eine akustische Analyse der Lenis/Fortis-Opposition in Varietäten des Sächsischen

Lorenzen, Ramona Eine akustisch-phonetische Untersuchung zur Stimmverstellung
2005


Borstelmann, Sven

Annika Grundwald
Eine elektropalatographische Untersuchung zur Gestenüberlappung in Konsonanten-Clustern

Vergleichende akustische Untersuchungen zur Sprache von Zwillingen und Geschwistern

Brauer, Gesche Experimentelle phonetische Untersuchungen zur Lippen-Kiefer-Gaumenspalte

Kleber, Felicitas Experimentalphonetische Untersuchungen zu Form und Funktion fallender Intonationskonturen im Englischen

Weber, Marion Die Rolle der Perzeption für die Produktion im L2-Erwerb
2006



Bombien, Lasse Eine experimentelle phonetische Untersuchung zu Stimmhaftigkeitsunterschieden bei Sonoranten im Isländischen

Reibisch, Geske


Klipphan, Nadine

Jennifer Schneeberg

Inga Krabbenhöft
Eine experimentelle phonetische Analyse des Lautwandels bei Vokalen in Received Pronounciation


Eine experimentelle phonetische Untersuchung zur Auslautverhärtung im Deutschen


Eine EPG Untersuchung zur Konsonantenstärkung an prosodischen Grenzen


Unterschiede in der Stimmqualität von Rauchern und Nichtrauchern

Haritz, Selina Experimentelle Untersuchung zu Stimmhaftigkeitsunterschieden im Niederdeutschen


2007


Ricarda Dittrich

Experimentalphonetische Untersuchung von Konsonant-Vokal-

Strukturen im frühkindlichen Lauterwerb

Pommerening,
Katharina
Eine akustische phonetische Analyse der Variation im Sprercherstil

Nils Uelzmann Eine experimentalphonetische Analyse des intervokalischen /t-d/ Kontrastes im Norddeutschen

Claudia Fleischmann Experimentalphonetische Untersuchungen zum Russischen im L2-Erwerb

2008

Christine Baran

Perzeptive und akustische Analysen von Ironie im Hörbuch

Linda Marschall

Eine Untersuchung des palatalen Frikativs im Hessischen

Livia Schulze

Experimentalphonetische Untersuchung zu den Vokalen im Schwedischen


Sandra Kornau

Messungen der phonetischen Konsistenz bei Verstellen der Stimme für Hörbücher

Jessica Bux

Akustische und perzeptive Untersuchungen lautsprachlicher Ausprägungen des Sprechalters und -geschlechts

Antje Stiel

Prosodische Muster in der Sprache von Parkinsonpatienten im Vergleich zu Sprechgesunden - eine auditive und experimentelle Untersuchung im Deutschen

Marlene Jaspe

Phonetische Realisierung prosodischer Grundeinheiten des Deutschen durch hörgeschädigte Kinder mit Cochlea-Impantatversorung

Jana Erhardt

Perzeption geflüsterter Obstruenten

Eva Köhler

Aufbau und Anwendung einer phonetischen Datenbank zur Untersuchung von lautsprachlichen Alterseffekten


Claudia Ohl

Phonetische Realisierungen von phonologischen Intonationskategorien

Das Kiel Corpus


Allgemein

Das Kiel Corpus ist eine wachsende gesprochene Sprachdatensammlung der deutschen Lese- und Spontansprache, welche seit 1990 am ipds aufgezeichnet und segmentell etikettiert wird. Derzeit umfassen die CD-ROMs des Kiel Corpus mehr als vier Stunden etikettierter Lesesprache auf The Kiel Corpus of Read Speech Vol. I sowie knapp vier Stunden etikettierter Spontansprache auf The Kiel Corpus of Spontaneous Speech Vol. I, Vol. II und Vol. III.


Laden Sie Beispielsignale herunter!
10 Signaldateien der Berliner Sätze aus The Kiel Corpus of Read Speech Vol. I sowie fünf Durchgänge aus The Kiel Corpus of Spontaneous Speech Vol. II stehen in Form einer gezippten tar-Datei zur Verfügung. Diese Dateien sind im ESPS/waves+- oder MS RIFF WAVE-Format und umfassen jeweils ungefähr 2 MB Speicherplatz.


Segmentierung und Etikettierung

Das Setzen der Label geht aus von einer kanonischen phonemischen Transkription einer Äußerung. Eine Labelliste wird aus der Transkription erzeugt. Jedes Element erhält ein Präfix der folgenden:

## für wortinitiale Labels
$ für wortinterne Labels
$# für wortinterne, Kompositums-initiale Labels
# für wortexterne Labels, z.B. Pausen, Atmen, Interpunktionszeichen.

Die Etiketten sind zeitlich mit dem Signal synchronisiert. Jedes Label markiert den Beginn des Signalabschnitts, der dafür als hauptverantwortlich ausgemacht wurde. Wo es erforderlich war, wurden die Labels angepaßt. Im folgenden finden sie einige Beispiele möglicher Modifikationen:

Vorher Nachher
##b ##%b Die Abgrenzung eines Signalabschnitts ist unsicher, in diesem Falle konnte der Verschluß für den Plosiv nicht genau lokalisiert werden.
$t $t- Phonetische Korrelate einer phonologischen Einheit fehlen. Häufig benutzt, um das Fehlen eines Verschlußes / plosiven Elements nach Frikativen oder eines vokalischen Abschnitts in /@n/- oder /@l/-Sequenzen anzuzeigen.
$n $n-m Ein Signalabschnitt wird angemessener durch ein anderes Label aus dem Inventar repräsentiert. Überwiegend eingesetzt, um Assimilationen zu kennzeichnen.

$-p Ein Label aus dem Inventar wird eingefügt, um einen nicht notwendigerweise in der kanonischen Transkription vorhersehbaren Signalabschnitt zu etikettieren. Oft benutzt, um das Vorhandensein epenthetischer Verschlüsse anzuzeigen.

Eine Vielzahl weiterer phonetischer Merkmale wird ebenfalls über den "Einfüge"-Bindestrich:


$-~ zeigt das Vorhandensein von Nasalität an, wenn ein Nasal nicht mehr zeitlich abgrenzbar ist
$-q zeigt das Vorhandensein von junkturellem Knarren oder Knarrstimme an. Das Symbol q wird außerdem benutzt, um Plosivsymbole zu ersetzen (so z.B. $t-q, $p-q), wenn glottalisierte Korrelate auftreten, wie sie häufig in der Umgebung von Nasalen und Lateralen zu finden sind.
$-h zeigt den Beginn der Plosivlösungsphase (und Aspiration) an.
$-MA wird benutzt, um das Vorhandensein des Korrelates eines getilgten Labels zu signalisieren, z.B. $i:- in einer Realisierung von vielleicht, in der phonetische Korrelate des ersten Vokals gleichzeitig mit der labiodentalen Friktion und Anteilen des Laterals auftreten, aber kein zeitlich diskreter Vokalabschnitt vorhanden ist.

The Kiel Corpus of Read Speech Vol. I
The Kiel Corpus of Spontaneous Speech Vol. I
The Kiel Corpus of Spontaneous Speech Vol. II
The Kiel Corpus of Spontaneous Speech Vol. III


Advanced Speech Signal Processing Tool

- xassp -

xassp ist eine Anwendung zur Anzeige, Analyse und Verarbeitung von Sprachsignalen. Es wird in erster Linie zum segmentellen oder prosodischen Etikettieren eingesetzt, läßt sich aber auch, aufgrund seiner Konfigurationsmöglichkeiten, für viele andere Zwecke verwenden.

Hauptdialog von xassp

Frei definierbare Konfigurationen erleichtern dem Benutzer die Auswahl mehrerer zusammengehöriger Dateien bzw. Analysen, die auf dem Bildschirm dargestellt werden sollen. Ein Beispiel für eine solche Konfiguration ist Segmental, die für das segmentelle Etikettieren gedacht ist. Die Fenster, die bei dieser Konfiguration geöffnet werden, sind

  • das im Hauptdialog ausgewählte Sprachsignal,
  • ein aus dem Sprachsignal berechnetes Sonagramm und
  • die Labels aus der zum Sprachsignal gehörigen Label-Datei.

Ein Bild dieser Konfiguration ist nebenstehend dargestellt. Sie erlaubt es dem Benutzer, anhand des Sonagramms und der Möglichkeit, beliebige Teile des Sprachsignals hörbar zu machen, Segmentgrenzen zu bestimmen und an den entsprechenden Stellen Labels zu plazieren.

Beispielkonfiguration für segmentelles Etikettieren



Eine weitere oft verwendete Konfiguration ist Prosodic, die alle für das prosodische Etikettieren benötigten Daten beinhaltet. Es werden folgende Fenster geöffnet:

  • das ausgewählte Sprachsignal,
  • die berechnete Grundfrequenz des Sprachsignals und
  • die Labels aus der zum Sprachsignal gehörigen Label-Datei.

Nebenstehend ist ein Beispiel für diese Konfiguration abgebildet.

Konfiguration für prosodisches Etikettieren

Mit Hilfe der Darstellung der Grundfrequenz und der Möglichkeit, Teile des Sprachsignals anzuhören, können die prosodischen Labels zu den bereits vorhandenen segmentellen an den entsprechenden Stellen hinzugefügt werden.



Obwohl mit dem prosodischen und segmentellen Etikettieren schon ein weites Anwendungsgebiet von xassp abgedeckt ist, bietet es noch einige weitere Möglichkeiten zur Analyse des Sprachsignals:

Section

Alle Analysen lassen sich sowohl über Konfigurationen als auch durch ein Menü im Sprachsignalfenster aktivieren.

Werden zusammengehörige Daten auf dem Bildschirm dargestellt, so besteht die Möglichkeit, diese zu verknüpfen, so daß Aktionen, die in einem Fenster durchgeführt werden, Einfluß auf die anderen haben. So werden zum Beispiel Marken, die einen Teil des Signals markieren, in allen miteinander verknüpften Fenstern gesetzt. Außerdem wird dafür gesorgt, daß in allen verknüpften Fenstern der gleiche Zeitbereich in der gleichen Auflösung dargestellt wird.


 
Label Assisted Copy Synthesis

LACS


The automatic generation of control signals to drive a formant synthesizer offers an excellent method of validating phonological models by observing their phonetic output. This is made all the more challenging by the high quality of the speech which a formant synthesizer such as Klatt's (1980) model can produce when provided with appropriate control signals.

Copy synthesis of natural utterances is undoubtedly one of the most interesting and enlightening methods of arriving at these numbers. However, two serious problems arise when mapping the results of an acoustic analysis onto the control parameters of the Klatt formant synthesizer:

  1. There is a discrepancy between the information delivered by the acoustic analysis of an utterance and the rich variety of synthesizer parameters which can be used to model the acoustic signal.
  2. Parametric information about more complex products of the vocal tract is usually not available in the analysis. Voiced fricatives are an example of this. A voiced fricative such as [z] leaves an analysis either as a voiceless fricative (no F0 found) or as a frictionless approximant (F0 found). Although the former may be the most appropriate analytical outcome for a synthetic utterance, neither allows the original fricative to be modelled.

LACS is a knowledge-based solution to the problems outlined above. The mapping of acoustic analysis onto synthesizer control parameters is carried out using information from annotations of the utterances being synthesized. At any point in the mapping process a decision can be made using the linguistic information provided by time-aligned labels. Using a large labelled corpus such as The Kiel Corpus allows copy synthesis of a number of different female and male voices carrying out different linguistic tasks.

Modelling glottal activity is one of the ways in which label information can be successfully used to fully exploit the parameters which the Klatt synthesizer provides. The diagrams below illustrate how the different correlates of h can be modelled. In either case it is only the combination of label and analytical information that the we can control the source parameters for voicing and aspiration and decide whether to use the formant information to excite the cascade or parallel branch of the synthesizer.


Vergrößerte Ansicht des Diagramms

Here are some examples for the ear, comparing the original utterances with their copy-synthetic counterparts. The first illustrates the `reconstruction' of creak at the onset of ein when the F0 analysis has returned voicelessness. In the second example, note in particular the voiced alveolar friction in the word Konserven. This portion of signal, leaving the F0 analysis voiced, would otherwise have been synthesized as something akin to [ð].


Über die Felder weht ein Wind. Original LACS
Hier gibt es Konserven. Original LACS
Gib mir bitte die Butter. Original LACS
Wer möchte noch Milch? Original LACS
Überquere die Straße vorsichtig! Original LACS
Da möchte ich gerne mit. Original LACS
Die Kartoffeln gehören zum Mittagessen. Original LACS
Dazu essen wir den Salat. Original LACS
Danach tut eine Wanderung gut. Original LACS
Manche Obstbäume blühen prächtig. Original LACS
Am Zaun steht eine Regentonne. Original LACS
Der gelbe Küchenofen sorgt für Wärme. Original LACS
Die Rinder sind noch auf der Weide. Original LACS
Die Fahrt war ja mächtig kurz. Original LACS

References

  • Klatt, D.H. (1980) Software for a cascade/parallel formant synthesizer. J. Acoust. Soc. Am. 67, 971-995.
  • Scheffers, Michel T.M. and Simpson, Adrian P. (1995) LACS: Label assisted copy synthesis. Proc. XIIIth ICPhS, Vol. 2, 346-349.


The EMU Speech Database System


Erweiterungen zu EMU gibt es jetzt hier zum Herunterladen.

NEU: Beta Versionen zu EMU 2 gibt es jetzt hier zum Herunterladen. (22.05.2006)

NEU: BUG fixes zu EMU gibt es jetzt hier zum Herunterladen. (22.05.2006)


EMU is a collection of software tools for the creation, manipulation and analysis of speech databases. At the core of EMU is a database search engine which allows the researcher to find various speech segments based on the sequential and hierarchical structure of the utterances in which they occur. EMU includes an interactive labeller which can display spectrograms and other speech waveforms, and which allows the creation of hierarchical, as well as sequential, labels for a speech utterance.

Emu 1.7 includes Macintosh Support

The new 1.7 release of Emu includes support for the Apple Macintosh for the first time. The downloads page has details of how to download and install Emu on the Mac but here is a small screenshot just to prove that it works:

Screenshot of the EMU-Macintosh-version

The screenshot also shows the new Emu query tool which was built to allow querying and data extraction on the Mac but which should also prove useful on other platforms. Since R is also available for the Macintosh, users of this platform can now enjoy the full Emu experience!

Planning for Emu 2.x

We are putting together a document outlining our plans for Emu development beyond the current system. The document is available here. Please feel free to address any comments to Steve Cassidy

Emu Development moves to Sourceforge

I have recently begun moving Emu development to SourceForge which is a site supporting Open Source software development. SourceForge provides a number of useful facilities such as a bug tracking system and a way of logging and tracking support requests. The Emu mailing list will also be moved to the new site. This page will still be the definitive Emu homepage but users interested following the development of Emu should find the new site useful. Please see The Emu page at SourceForge for more information.

Emu and Splus/R

These are extensions to the Splus and R statistical packages which provide an interface to Emu functions and many special purpose functions for analysing and visualising speech data. While this package predates Emu (it is the major part of the earlier MU+ system), they have not yet been made widely available. I have now managed to package them up and provided installation instructions.

R is a freely available system, Splus is commercial software. Both systems run on Unix and Windows platforms. The Emu library is compatable with all versions and platforms. For more information see the Emu/Splus page.

Emu and ToBI

Emu has been in use for some time to mark up ToBI style prosodic annotations. With the help of Mary Beckman at Ohio State we have put together a version of the English ToBI training materials in SSFF format which can be read by Emu on Windows and Unix platforms. See the Emu ToBI page for details of how to download this dataset.

Download Documentation

You can now download the entire Emu manual as a zip file emu-doc.zip.
Additionally, an online documentation is avaiable here.

Emu and Relational Databases

I've recently completed a paper for Eurospeech99 which looks at compiling Emu annotations into the relational model. The paper is available online as are some comments about the experiments which include the scripts used to generate the relational table.

Publications

We have recently had a paper accepted for a special issue of Speech Communication on Linguistic Annotation. Other papers have been presented at Eurospeech 99 and the Australian Database Conference, 2000. See my publications page for detailed references.

Emu is included on a CDROM accompanying our book, Techniques in Speech Acoustics which was published in May 1999 by Kluwer.

Linguistic Annotation

Steven Bird and Mark Liberman have been collating a list of linguistic annotation methods and tools. One of their goals is to bring together the many different annotation tools and formats and define a useful set of standards that such tools might work with. Emu goes some way towards being able to deal with different kinds of annotation; as an example of using Emu with other annotation formats I've written some thoughts about Emu and the BAS Partitur label format, comments are welcome.

Mailing List

Two mailing lists (emu-announce and emu-devel) are maintained on the Emu developers site at SourceForge. Please see that site for details on how to subscribe.




Please notice
This page is a mirror of http://www.shlrc.mq.edu.au/emu/    Copyright © 2001, Department of Linguistics, Macquarie University.
Please notice that certain links (e.g. downloads) will redirect you to the original site at the Department of Linguistics, Macquarie University, Australia.



Letzte Aktualisierung: 27.03.2009
Zuständig für die Pflege dieser Seite: webmaster@ipds.uni-kiel.de, Tel. 0431-880-3318