Download full text
(199.2Kb)
Citation Suggestion
Please use the following Persistent Identifier (PID) to cite this document:
https://doi.org/10.21241/ssoar.99709
Exports for your reference manager
Die Arbeit mit unstrukturierten textbasierten Daten: Eine Reflexion zu Mixed-Methods-Ansätzen für Textanalysen
[conference paper]
Corporate Editor
Deutsche Gesellschaft für Soziologie (DGS)
Abstract Aufgrund der steigenden Verfügbarkeit großer Textdaten sind Text Mining und insbesondere Topic Modeling relevante Methoden, um sich Forschungsfragen in verschiedenen Fachbereichen zu nähern (Roberts et al. 2019). Topic Modeling kann dabei als eine explorative Technik beschrieben werden, um Informati... view more
Aufgrund der steigenden Verfügbarkeit großer Textdaten sind Text Mining und insbesondere Topic Modeling relevante Methoden, um sich Forschungsfragen in verschiedenen Fachbereichen zu nähern (Roberts et al. 2019). Topic Modeling kann dabei als eine explorative Technik beschrieben werden, um Informationen aus Textdaten in großem Maßstab zu gewinnen (DiMaggio et al. 2013). Dies führt dazu, dass das Interesse an Topic Modeling im letzten Jahrzehnt deutlich gewachsen ist und sich von der Informatik in andere Disziplinen, wie der Soziologie (z.B. Apishev et al. 2016; Bohr, Dunlap 2018) oder den Wirtschaftswissenschaften (z.B. Wang et al. 2017; Schmiedel et al. 2019), verzweigt hat. Mit Hilfe einer methodischen Kombination von Topic Modeling und qualitativer Kodierung können Wissenschaftler*innen Informationen aus einem Datenkorpus gewinnen, die von Hand nicht vollständig auswertbar gewesen wären (z.B. Shimizu 2017; Croidieu, Kim 2018). Dieser methodengemischte Ansatz erfordert eine konstante Zirkulation zwischen der Interpretation des Outputs und der Datenaufbereitung für die quantitative Analyse. Aufgrund der Komplexität dieses Prozesses ist sowohl Zeit als auch Sorgfalt gefordert. Trotz der wachsenden Popularität von Topic Modeling in den Sozialwissenschaften fehlt es nach wie vor an gemeinsamen Qualitätsrichtlinien für Wissenschaftler*innen, um die Transparenz ihrer Arbeit zu gewährleisten (Antons et al. 2020). Im Vergleich dazu gehört es in der Informatik zur gängigen Praxis, den Leser*innen einen detaillierten technischen Bericht anzubieten, der alle Informationen zur Erstellung der präsentierten Ergebnisse enthält. Hierdurch wird die Nachvollziehbarkeit der Analyseschritte gewährleistet. Der vorliegende Beitrag plädiert dafür, dass bei der Implementierung eines Text Mining Algorithmus aus der Informatik in die Sozialwissenschaft die erzeugten Ergebnisse mit den gleichen Standards wie in ihrer Ursprungsdisziplin behandelt werden sollten und zeigt hierfür Möglichkeiten auf. In diesem Beitrag wird die Verwendung von Topic Modeling und induktiver Kodierung sowie das Zusammenspiel beider Methoden diskutiert. Der Mehrwert dieser Studie besteht darin, Qualitätsleitlinien für den Umgang mit unstrukturierten Textdaten zur Gewährleistung von Transparenz vorzustellen.... view less
Keywords
text analysis; qualitative method; quantitative method; algorithm
Classification
Methods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methods
Free Keywords
Mixed-Methods; Qualitative Textanalyse; Qualitätsleitlinien; Quantitative Textanalyse; Text Mining
Collection Title
Gesellschaft unter Spannung: Verhandlungen des 40. Kongresses der Deutschen Gesellschaft für Soziologie 2020
Editor
Blättel-Mink, Birgit
Conference
40. Kongress der Deutschen Gesellschaft für Soziologie "Gesellschaft unter Spannung", 2020
Document language
German
Publication Year
2021
ISSN
2367-4504
Status
Published Version; reviewed