Weiterempfehlen

Bookmark and Share


The Spoken Language Corpus at the Linguistics Department, Göteborg University

Die Mundsprache-Sammlung der Linguistikabteilung der Göteborg-Universität
El corpus del lenguaje hablado en el Departamento de Lingüística, Göteborg University
[Zeitschriftenartikel]

Allwood, Jens; Grönqvist, Leif; Björnberg, Maria; Ahlsen, Elisabeth; Ottesjö, Cajsa

fulltextDownloadVolltext herunterladen

(externe Quelle)

Zitationshinweis

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgenden Persistent Identifier (PID):http://nbn-resolving.de/urn:nbn:de:0114-fqs000391

Weitere Angaben:
Abstract Der Beitrag beschreibt den Korpus der schwedischen Mundsprache an der Göteborg-Universität und gibt einen Überblick über die verschiedenen Analysearten, die auf diese Sammlung angewandt worden sind. Der Korpus umfasst einen kontinuierlich wachsenden Bestand gesprochener Sprache von 1,2 Millionen Worten aus ca. 25 verschiedenen Gesellschaftsbereichen. Dies folgt der Tatsache, dass die gesprochene Sprache besonders in verschiedenen gesellschaftlichen Kontexten hinsichtlich der Aussprache, des Vokabulars, der Grammatik und der kommunikativen Funktionen variiert. Ziel ist es, die gesprochene Sprache so breit zu dokumentieren, dass ein umfassendes Verständnis für die Rolle der Sprache und Kommunikation im menschlichen sozialen Verhalten möglich wird. Das Korpus besteht aus Ton oder Video-/Ton-Aufzeichnungen (50%) natürlicher Interaktionen. Die Aufzeichnungen sind nach den Regeln der MSO (Modified Standard Othography) transkribiert worden, welche näher an der gesprochenen Sprache sind als die Schwedischen Orthographie-Standards, aber weniger detailliert als Regeln für die phonetische oder phonematische Transkription. Obwohl das Ziel darin besteht, die Transkription einfach zu halten, umfassen die MSO-Standards verschiedene Merkmale gesprochener Sprache wie kontrastiven Nachdruck, Überschneidungen oder Pausen, des weiteren Verfahren, um Transkriptionen zu anonymisieren und einleitende Bemerkungen als Teil der Transkription aufzunehmen. Wir werden auch mehrere Werkzeuge beschreiben, die wir entwickelt haben, um sie auf die Sammlung anzuwenden, z.B.: Die Sammlung wurde für verschiedene Arten quantitativer und qualitativer Analyse genutzt, welche kurz dargestellt werden sollen. Der Beitrag soll auch auf Wege hinweisen, wie die Sammlung für andere Arten qualitativer Analysen genutzt werden könnte, z.B. für die CA-bezogene Sequenz-Analyse. Der Korpus wird kontinuierlich digitalisiert mit Hilfe von CD-Roms und der Mpeg-Komprimierung. Jede CD enthält sowohl die Transkripte als auch die Aufzeichnungen.

This paper summarizes work on spoken language at the Department of Linguistics Göteborg University. In addition to describing the recordings contained in the Spoken Language Corpus of Swedish at Göteborg University, we discuss the standard of transcription (MSO) which is used in creating the transcriptions, as well as some types of quantitative and qualitative analysis that have been done. Finally, we describe the computer tools that have been developed to support transcription, coding and analysis and briefly mention some of the results which have been obtained.

Este artículo contiene una descripción del Corpus del Lenguaje Hablado del Sueco en la Universidad de Göteborg y un resumen de los diversos tipos de análisis que se han realizado con este corpus. El corpus es un corpus en creciente incremento del lenguaje hablado de 1,2 millones de palabras de alrededor de 25 diferentes actividades sociales. Está basado en el hecho que el lenguaje hablado varía considerablemente en diferentes actividades sociales con relación a la pronunciación, vocabulario, gramática y funciones comunicativas. La meta del corpus es incluir el lenguaje hablado de tantas actividades sociales como sea posible para obtener una comprensión más completa del rol del lenguaje y la comunicación en la vida social humana. El corpus está basado en registros de audio o vídeo/audio (50%) de interacciones que ocurren de manera natural. Los registros se transcribieron de acuerdo con la transcripción standard Ortografía Standard Modificada OSM, que es un standard para transcripción más fiel al lenguaje hablado que la ortografía Sueca standard, pero menos detallada de lo que sería una transcripción fonética o fonemática. En OSM, la ortografía standard es la utilizada, a menos que hayan varias pronunciaciones en el lenguaje hablado de una palabra. Cuando hay diversas variantes, estas se mantienen separadas gráficamente. Aunque la meta es mantener la transcripción simple, OSM incluye rasgos del lenguaje hablado tales como el énfasis contrastante, superposiciones y pausas El OSM también incluye procedimientos para anonimizar las transcripciones y para introducir comentarios sobre parte de la transcripción. También describiremos algunas herramientas que hemos desarrollado para utilizar el corpus, por ejemplo: El corpus ha sido utilizado para varios tipos de análisis cuantitativos y cualitativos que serán reportados brevemente. Se ha producido un libro de frecuencias del lenguaje sueco hablado. El libro contiene frecuencias de palabras tanto para las palabras en formato OSM y en formato standard. También contiene comparaciones entre frecuencias de palabras en lenguaje hablado y escrito. Existen estadísticas sobre partes del lenguaje representado en el corpus, basado en un etiquetamiento probablístico automático, arrojando un 96% de clasificación correcta. Se ha trabajado sobre el corpus utilizando varios tipos de codificación manual para el manejo de la comunicación (incluyendo dudas, cambios, retroalimentación, etc), actos de habla, obligaciones, malentendidos, etc. El artículo también apunta hacia formas de utilizar el corpus para otros tipos de análisis cualitativos, por ejemplo para el análisis secuencial relacionado del AC. El corpus está siendo continuamente digitalizado utilizando CD con Mpeg compression. Cada CD contiene tanto transcripciones como grabaciones.
Freie Schlagwörter Mundsprache-Sammlung; Göteborg; Transkriptionsstandards; MSO; Kodierung; Computerwerkzeuge; qualitative Analyse; quantitative Analyse; spoken language; corpus; Göteborg; transcription standard; MSO; coding; computer tool; qualitative analysis; quantitative analysis;
Sprache Dokument Englisch
Publikationsjahr 2000
Zeitschriftentitel Forum Qualitative Sozialforschung / Forum: Qualitative Social Research, 1 (2000) 3
ISSN 1438-5627
Status Veröffentlichungsversion; begutachtet
Lizenz Deposit Licence - Keine Weiterverbreitung, keine Bearbeitung
top