Show simple item record

Datenqualität digitaler Prozessdaten: Ein generalisierter Orientierungsrahmen und eine Simulations‑/Post-Hoc-Identifizierungsstrategie
[journal article]

dc.contributor.authorSchmitz, Andreasde
dc.contributor.authorRiebling, Jan R.de
dc.date.accessioned2023-03-30T15:50:53Z
dc.date.available2023-03-30T15:50:53Z
dc.date.issued2022de
dc.identifier.issn1861-891Xde
dc.identifier.urihttps://www.ssoar.info/ssoar/handle/document/86004
dc.description.abstractDigital process data are becoming increasingly important for social science research, but their quality has been gravely neglected so far. In this article, we adopt a process perspective and argue that data extracted from socio-technical systems are, in principle, subject to the same error-inducing mechanisms as traditional forms of social science data, namely biases that arise before their acquisition (observational design), during their acquisition (data generation), and after their acquisition (data processing). As the lack of access and insight into the actual processes of data production renders key traditional mechanisms of quality assurance largely impossible, it is essential to identify data quality problems in the data available—that is, to focus on the possibilities post-hoc quality assessment offers to us. We advance a post-hoc strategy of data quality assurance, integrating simulation and explorative identification techniques. As a use case, we illustrate this approach with the example of bot activity and the effects this phenomenon can have on digital process data. First, we employ agent-based modelling to simulate datasets containing these data problems. Subsequently, we demonstrate the possibilities and challenges of post-hoc control by mobilizing geometric data analysis, an exemplary technique for identifying data quality issues.de
dc.description.abstractDigitale Prozessdaten werden für die sozialwissenschaftliche Forschung immer wichtiger, doch ihre Qualität wurde in der Diskussion bisher stark vernachlässigt. In diesem Beitrag nehmen wir eine Prozessperspektive ein und argumentieren, dass Daten, die aus soziotechnischen Systemen extrahiert werden, im Prinzip denselben fehlerverursachenden Mechanismen unterliegen wie traditionelle Formen sozialwissenschaftlicher Daten, nämlich Verzerrungen, die vor ihrer Erfassung (Beobachtungsdesign), während ihrer Erfassung (Datengenerierung) und nach ihrer Erfassung (Datenverarbeitung) entstehen. Da der fehlende Zugang und Einblick in die eigentlichen Prozesse der Datenproduktion wichtige Mechanismen der traditionellen Qualitätssicherung weitgehend unmöglich machen, ist es unerlässlich, Datenqualitätsprobleme in den zur Verfügung stehenden Daten zu identifizieren – das heißt, sich auf die Möglichkeiten zu konzentrieren, die uns die post-hoc Qualitätsprüfung bietet. Wir entwickeln eine Post-hoc-Strategie der Datenqualitätssicherung, die Simulation und explorative Identifizierungstechniken integriert. Als Anwendungsfall illustrieren wir diesen Ansatz am Beispiel von Bot-Aktivitäten und den Auswirkungen, die dieses Phänomen auf digitale Prozessdaten haben kann. Dazu setzen wir zunächst eine agentenbasierte Modellierung ein, um Datensätze mit derartigen Datenproblemen zu simulieren. Anschließend demonstrieren wir die Möglichkeiten und Herausforderungen der Post-hoc-Kontrolle, indem wir die geometrische Datenanalyse einsetzen, eine exemplarische Technik zur Identifizierung von Datenqualitätsproblemen.de
dc.languageende
dc.subject.ddcSozialwissenschaften, Soziologiede
dc.subject.ddcSocial sciences, sociology, anthropologyen
dc.subject.otherDigital process data; Agent-based simulations; Relational data; Post-hoc identification; Mixed methods; Digitale Prozessdaten; Agentenbasierte Simulationen; Relationale Daten; Post-hoc-Identifikationde
dc.titleData Quality of Digital Process Data: A Generalized Framework and Simulation/Post-Hoc Identification Strategyde
dc.title.alternativeDatenqualität digitaler Prozessdaten: Ein generalisierter Orientierungsrahmen und eine Simulations‑/Post-Hoc-Identifizierungsstrategiede
dc.description.reviewbegutachtet (peer reviewed)de
dc.description.reviewpeer revieweden
dc.source.journalKölner Zeitschrift für Soziologie und Sozialpsychologie
dc.source.volume74de
dc.publisher.countryDEUde
dc.source.issueSupplement Issue 1de
dc.subject.classozErhebungstechniken und Analysetechniken der Sozialwissenschaftende
dc.subject.classozMethods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methodsen
dc.subject.thesozQualitätssicherungde
dc.subject.thesozsimulationen
dc.subject.thesozProzessde
dc.subject.thesozsociotechnical systemen
dc.subject.thesozsoziotechnisches Systemde
dc.subject.thesozprocessen
dc.subject.thesozdataen
dc.subject.thesozSimulationde
dc.subject.thesozquality controlen
dc.subject.thesozDatenqualitätde
dc.subject.thesozdata qualityen
dc.subject.thesozQualitätskontrollede
dc.subject.thesozquality assuranceen
dc.subject.thesozDatende
dc.identifier.urnurn:nbn:de:0168-ssoar-86004-2
dc.rights.licenceCreative Commons - Attribution 4.0en
dc.rights.licenceCreative Commons - Namensnennung 4.0de
ssoar.contributor.institutionGESISde
internal.statusformal und inhaltlich fertig erschlossende
internal.identifier.thesoz10034404
internal.identifier.thesoz10055811
internal.identifier.thesoz10052099
internal.identifier.thesoz10055815
internal.identifier.thesoz10049695
internal.identifier.thesoz10034708
internal.identifier.thesoz10037865
dc.type.stockarticlede
dc.type.documentjournal articleen
dc.type.documentZeitschriftenartikelde
dc.source.pageinfo407-430de
internal.identifier.classoz10105
internal.identifier.journal217
internal.identifier.document32
internal.identifier.ddc300
dc.source.issuetopicInternet, Big Data und digitale Plattformen: Politische Ökonomie – Kommunikation – Regulierungde
dc.identifier.doihttps://doi.org/10.1007/s11577-022-00840-9de
dc.description.pubstatusPublished Versionen
dc.description.pubstatusVeröffentlichungsversionde
internal.identifier.licence16
internal.identifier.pubstatus1
internal.identifier.review1
dc.subject.classhort10100de
ssoar.wgl.collectiontruede
internal.pdf.validfalse
internal.pdf.wellformedtrue
internal.pdf.encryptedfalse
ssoar.licence.fundGefördert durch die Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 491156185 / Funded by the German Research Foundation (DFG) - Project number 491156185


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record