Leitung und konzeptionelle Entwicklung:

Thomas Krefeld | Stephan Lücke | Emma Mages

Transkription:

Grete Klaster-Ungureanu | Ute Maurer | Christian Punk | Horst Schuller | Johannes Sift

Morphosyntaktische Etikettierung:

Heide Ewerth | Johannes Sift

Entwurf einer Ontologie und ontologische Erschließung:

Johannes Sift

DOI und URN

N:SharesWebKiThtml/wp content/uploads/KiT02 Cover

Das ASD-Corpus

Dieses Portal macht eine sehr umfangreiche Tondokumentation siebenbürgisch-sächsischer Dialekte zugänglich; dabei handelt es sich insgesamt um über 360 Stunden gesprochener Sprache aus ca. 250 verschiedenen Ortschaften, gespeichert in insgesamt 2274 Audiodateien. Dieses einzigartige, bislang unveröffentlichte Material wurde im Wesentlichen in den späten 60er und frühen 70er Jahren des letzten Jahrhunderts von Sprachforschern verschiedener rumänischer Universitäten (Bukarest, Hermannstadt, Klausenburg) erhoben und auf Tonbändern aufgenommen; daraus wurden die digitalen Versionen (in den Formaten ‘wav’ und ‘mp3’) mit durchweg guter akustischer Qualität erstellt. Diese digitalen Versionen wurden im Jahr 2009 unter Vermittlung und mit Unterstützung von Prof. Dr. Stefan Sienerth, dem damaligen Direktor des Instituts für deutsche Kultur und Geschichte Südosteuropas (IKGS), an die LMU übergeben und können nun hier in akustischer Form abgerufen werden. Die Dokumentation umfasst unterschiedliche Erhebungsstrategien und Diskursformen: Einerseits wurden in den meisten Orten die berühmten, geradezu ‘klassischen’ Wenker-Sätze der germanistischen Dialektologie abgefragt; andererseits sind auch Märchen, Lieder und – vor allem – zahlreiche, mehr oder weniger freie Erzählungen vertreten. Deshalb werden neben sprachwissenschaftlichen auch ethnographische und zeitgeschichtliche Interessen bedient. Mit dem sehr unterschiedlichen Alter der Informanten kommt eine weitere Dimension der Variation ins Spiel, die ebenfalls bereits gezielt angesteuert werden kann.

Benutzerführung

| Gesamtbestand |
Diese Funktion erschließt das Audiomaterial nach den Kriterien Ort, Jahr, Alter, Subcorpus und Inhalt und verlinkt zu den einzelnen Dateien. Die einzelnen Kriterien können über Auswahl in der Trefferliste miteinander kombiniert werden. Verwendet man das Dropdown-Menü zur Auswahl, werden bereits vorhandene Filter entfernt. Einzelne Kriterien können im Dropdown-Menü abgewählt werden (Filter entfernen).
Durch Auswahl des Audiosymbols in der Filtermaske gelangt man zum Abspielen der ausgewählten Datei. Ist für die Aufnahme eine orthographische Transkription vorhanden, erscheint eine tag cloud aus ontologischen Begriffen, deren Größe ihre Häufigkeit in der Datei widerspiegelt. Ein Klick auf einen Begriff in der tag cloud führt zu einer entsprechenden Schlagwortsuche im Gesamtbestand.
Angemeldeten Benutzern wird je nach Bearbeitungsstand der Datei außerdem die phonetische und/oder orthographische Transkription angezeigt. Das Anhören der Datei ist sowohl als Ganzes über den integrierten Player oder intervallweise über die Playbuttons neben der Transkription möglich.

| Suche |
Hier kann sowohl mit Stichwörtern direkt im Transkriptionstext als auch über die Schlagwörter der eigens entwickelten Ontologie thematisch gesucht werden. Über die Sprachauswahl lassen sich gezielt fremdsprachliche Elemente finden (z.B. rumänisch, ungarisch).
Die verschiedenen Suchmethoden können miteinander kombiniert werden. Das Ergebnis zeigt den Kontext der Treffer an (1 Transkriptionsintervall) und bietet die Möglichkeit, die betreffenden Ausschnitte anzuhören. Mit Klick auf die Dateinummer erscheint die Gesamtbestandsansicht mit tag cloud der Datei und Transkriptionen (für angemeldete Benutzer).

| Analyse |

1) Die Wenkersatzanalyse stellt die Wenkersätze aller erfassten Ortschaften in Listen-, Karten- und Matrixform dar.

Der Etimat bietet die Möglichkeit, sich Variationen in den Wenkersätzen positionsweise anzeigen zu lassen. Sortiert werden kann nach phonetischen, morphosyntaktischen oder lexikalischen Typen. Darüber hinaus lassen sich mit der Option "Ergänzungen" gezielt Satzpositionen finden, die im Mustersatz nicht vorhanden sind und erst durch die Sprecher hinzugefügt wurden.
Die Variationsdiagramme geben einen Überblick über die Anzahl der pro Wenkersatz und Position vorkommenden phonetischen, morphosyntaktischen und lexikalischen Varianten.
Die qualitative Karte bildet verschiedene lexikalische, morphosyntaktische und phonetische Dialektmerkmale ab, die aus einer Merkmalsliste gewählt werden können. Bei Auswahl einer Ortsmarkierung wird der zugehörige Wenkersatz abgespielt.
Die quantitative Karte stellt eine Dialektometrie der Orte in den Kategorien Lexik, Morphosyntax und Phonetik dar. Bei Auswahl einer Ortsmarkierung wird die Ähnlichkeit der übrigen Ortschaften zu diesem Referenzpunkt in Bezug auf die qualitative Analyse errechnet. Bei Verweilen der Maus auf einem Vergleichspunkt erscheint die Übereinstimmung mit diesem. Rechtsklick auf einen Ort liefert zudem eine Aufschlüsselung nach den einzelnen Merkmalen.
Mit der Profilkarte lassen sich Merkmalsprofile erstellen. Im Auswahlmenü können Merkmale aus den Kategorien der qualitativen Analyse ausgewählt und miteinander kombiniert werden. Die Schnittmenge wird auf der Karte ausgegeben, die gewählten Merkmale werden im Merkmalsprofil links der Karte angezeigt.
Die Matrix gibt einen Überblick über die Verteilung der Merkmale der qualitativen Analyse auf die Orte. Über Dropdown-Menüs sowie über die Symbole der Matrix können Merkmal und Ort ausgewählt werden, die dann als farbige Achsen hervorgehoben werden. In der Horizontalen sind die Merkmale angeordnet, in der Vertikalen die Orte. Dazu werden die Ausprägungen des gewählten Merkmals mit Prozentangaben angezeigt. Für die gewählte Kombination aus Merkmal und Ort erscheinen jeweils der Mustersatz sowie die phonetische Transkription und ein Playbutton für das Abspielen des Satzes.
Über die Liste sind die Wenkersätze aller Orte in Ton und Text abrufbar.

2) Die Diagrammanalyse veranschaulicht ausgewählte Relationen (z.B. Type-Token-Verhältnis) in Diagrammform.

3) Die Analyse der rumänischen Elemente kartiert deren Häufigkeit in Relation zu Datei bzw. Ort. Je dunkler ein Kästchen, desto höher der Anteil rumänischer Tokens. Bei Verweilen der Maus auf einer Ortsmarkierung erscheint ein Infofenster zur Anzahl der rumänischen Tokens am ausgewählten Punkt. Ein Diagramm gibt darüber hinaus Aufschluss über die Häufigkeit der Rumänismen in Bezug auf das Sprecheralter.

Die Funktion Tokenumgebung untersucht anhand der orthographischen Transkriptionstexte die an die rumänischen Elemente angrenzenden Tokens und gibt einen Überblick über die Vorkommen der Rumänismen in Einzel- oder Gruppenstellung.

Perspektive nach Auslaufen der Förderung

In den Jahren (2010-2013) wurde ein repräsentativer Teil des Materials in digitaler Form (mit dem Programm Praat) transkribiert und gleichzeitig sprachwissenschaftlich annotiert, so dass es möglich ist, alle erfassten Formen zu suchen und in ihren jeweiligen syntaktischen Kontexten zu belegen. Diese Erschließung wurde durch die Förderung vom Beauftragten der Bundesregierung für Kultur und Medien aufgrund eines Beschlusses des Deutschen Bundestages ermöglicht. Auch nach Auslaufen dieser Förderung haben die Nutzer des Portals jedoch in mediengerechter Konsequenz die Möglichkeit, Materialien zur Ergänzung der Dokumentation um weitere Orte, Sprecher und womöglich die Kontaktsprachen Rumänisch und Ungarisch beizusteuern. Interessenten sind gebeten, sich mit den Projektleitern in Verbindung zu setzen.

Im Sinne der Nachhaltigkeit und Nachnutzbarkeit ist das ASD-Korpus seit Anfang 2017 auch im Clarin-Repositorium (persistenter Link: http://hdl.handle.net/11022/1009-0000-0001-27B9-3) verfügbar (Validierungsreport und Clarin-Korpusbeschreibung). Der freie Zugriff ist dort auf die Metadaten beschränkt. Bei Interesse an Vollzugriff auch auf die Audiodateien und Transkriptionen wird darum gebeten, sich an die o.a. Projektleiter bzw. an deren Einrichtungen zu wenden. Der Vollzugriff kann nur für wissenschaftliche Zwecke gewährt werden.

Über das Projekt

Gesamtbestand

Suche

Analyse

Wenkersätze

Etimat

Diagramme: Variation

Karte qualitativ

Karte quantitativ

Profilkarte

Matrix

Liste

Diagramme

Type-Token-Verhältnis

Sprachen

Rumänische Elemente

Häufigkeit pro Datei

Häufigkeit pro Ort

Altersmäßige Verteilung

Tokenumgebung

Dokumente

Links

Zitierkonvention