SSOAR Logo
    • Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
SSOAR ▼
  • Home
  • About SSOAR
  • Guidelines
  • Publishing in SSOAR
  • Cooperating with SSOAR
    • Cooperation models
    • Delivery routes and formats
    • Projects
  • Cooperation partners
    • Information about cooperation partners
  • Information
    • Possibilities of taking the Green Road
    • Grant of Licences
    • Download additional information
  • Operational concept
Browse and search Add new document OAI-PMH interface
JavaScript is disabled for your browser. Some features of this site may not work without it.

Download PDF
Download full text

(556.3Kb)

Citation Suggestion

Please use the following Persistent Identifier (PID) to cite this document:
https://nbn-resolving.org/urn:nbn:de:0168-ssoar-86004-2

Exports for your reference manager

Bibtex export
Endnote export

Display Statistics
Share
  • Share via E-Mail E-Mail
  • Share via Facebook Facebook
  • Share via Bluesky Bluesky
  • Share via Reddit reddit
  • Share via Linkedin LinkedIn
  • Share via XING XING

Data Quality of Digital Process Data: A Generalized Framework and Simulation/Post-Hoc Identification Strategy

Datenqualität digitaler Prozessdaten: Ein generalisierter Orientierungsrahmen und eine Simulations‑/Post-Hoc-Identifizierungsstrategie
[journal article]

Schmitz, Andreas
Riebling, Jan R.

Abstract

Digital process data are becoming increasingly important for social science research, but their quality has been gravely neglected so far. In this article, we adopt a process perspective and argue that data extracted from socio-technical systems are, in principle, subject to the same error-inducing ... view more

Digital process data are becoming increasingly important for social science research, but their quality has been gravely neglected so far. In this article, we adopt a process perspective and argue that data extracted from socio-technical systems are, in principle, subject to the same error-inducing mechanisms as traditional forms of social science data, namely biases that arise before their acquisition (observational design), during their acquisition (data generation), and after their acquisition (data processing). As the lack of access and insight into the actual processes of data production renders key traditional mechanisms of quality assurance largely impossible, it is essential to identify data quality problems in the data available—that is, to focus on the possibilities post-hoc quality assessment offers to us. We advance a post-hoc strategy of data quality assurance, integrating simulation and explorative identification techniques. As a use case, we illustrate this approach with the example of bot activity and the effects this phenomenon can have on digital process data. First, we employ agent-based modelling to simulate datasets containing these data problems. Subsequently, we demonstrate the possibilities and challenges of post-hoc control by mobilizing geometric data analysis, an exemplary technique for identifying data quality issues.... view less


Digitale Prozessdaten werden für die sozialwissenschaftliche Forschung immer wichtiger, doch ihre Qualität wurde in der Diskussion bisher stark vernachlässigt. In diesem Beitrag nehmen wir eine Prozessperspektive ein und argumentieren, dass Daten, die aus soziotechnischen Systemen extrahiert werden,... view more

Digitale Prozessdaten werden für die sozialwissenschaftliche Forschung immer wichtiger, doch ihre Qualität wurde in der Diskussion bisher stark vernachlässigt. In diesem Beitrag nehmen wir eine Prozessperspektive ein und argumentieren, dass Daten, die aus soziotechnischen Systemen extrahiert werden, im Prinzip denselben fehlerverursachenden Mechanismen unterliegen wie traditionelle Formen sozialwissenschaftlicher Daten, nämlich Verzerrungen, die vor ihrer Erfassung (Beobachtungsdesign), während ihrer Erfassung (Datengenerierung) und nach ihrer Erfassung (Datenverarbeitung) entstehen. Da der fehlende Zugang und Einblick in die eigentlichen Prozesse der Datenproduktion wichtige Mechanismen der traditionellen Qualitätssicherung weitgehend unmöglich machen, ist es unerlässlich, Datenqualitätsprobleme in den zur Verfügung stehenden Daten zu identifizieren – das heißt, sich auf die Möglichkeiten zu konzentrieren, die uns die post-hoc Qualitätsprüfung bietet. Wir entwickeln eine Post-hoc-Strategie der Datenqualitätssicherung, die Simulation und explorative Identifizierungstechniken integriert. Als Anwendungsfall illustrieren wir diesen Ansatz am Beispiel von Bot-Aktivitäten und den Auswirkungen, die dieses Phänomen auf digitale Prozessdaten haben kann. Dazu setzen wir zunächst eine agentenbasierte Modellierung ein, um Datensätze mit derartigen Datenproblemen zu simulieren. Anschließend demonstrieren wir die Möglichkeiten und Herausforderungen der Post-hoc-Kontrolle, indem wir die geometrische Datenanalyse einsetzen, eine exemplarische Technik zur Identifizierung von Datenqualitätsproblemen.... view less

Keywords
simulation; sociotechnical system; process; data; quality control; data quality; quality assurance

Classification
Methods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methods

Free Keywords
Digital process data; Agent-based simulations; Relational data; Post-hoc identification; Mixed methods; Digitale Prozessdaten; Agentenbasierte Simulationen; Relationale Daten; Post-hoc-Identifikation

Document language
English

Publication Year
2022

Page/Pages
p. 407-430

Journal
Kölner Zeitschrift für Soziologie und Sozialpsychologie, 74 (2022) Supplement Issue 1

Issue topic
Internet, Big Data und digitale Plattformen: Politische Ökonomie – Kommunikation – Regulierung

DOI
https://doi.org/10.1007/s11577-022-00840-9

ISSN
1861-891X

Status
Published Version; peer reviewed

Licence
Creative Commons - Attribution 4.0

FundingGefördert durch die Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 491156185 / Funded by the German Research Foundation (DFG) - Project number 491156185


GESIS LogoDFG LogoOpen Access Logo
Home  |  Legal notices  |  Operational concept  |  Privacy policy
© 2007 - 2025 Social Science Open Access Repository (SSOAR).
Based on DSpace, Copyright (c) 2002-2022, DuraSpace. All rights reserved.
 

 


GESIS LogoDFG LogoOpen Access Logo
Home  |  Legal notices  |  Operational concept  |  Privacy policy
© 2007 - 2025 Social Science Open Access Repository (SSOAR).
Based on DSpace, Copyright (c) 2002-2022, DuraSpace. All rights reserved.