General-purpose imputation of planned missing data in social surveys: Different strategies and their effect on correlations

Axenfeld, Julian B.; Bruch, Christian; Wolf, Christof

[journal article]

dc.contributor.author	Axenfeld, Julian B.	de
dc.contributor.author	Bruch, Christian	de
dc.contributor.author	Wolf, Christof	de
dc.date.accessioned	2022-09-01T07:36:21Z
dc.date.available	2022-09-01T07:36:21Z
dc.date.issued	2022	de
dc.identifier.issn	1935-7516	de
dc.identifier.uri	https://www.ssoar.info/ssoar/handle/document/81227
dc.description.abstract	Planned missing survey data, for example stemming from split questionnaire designs are becoming increasingly common in survey research, making imputation indispensable to obtain reasonably analyzable data. However, these data can be difficult to impute due to low correlations, many predictors, and limited sample sizes to support imputation models. This paper presents findings from a Monte Carlo simulation, in which we investigate the accuracy of correlations after multiple imputation using different imputation methods and predictor set specifications based on data from the German Internet Panel (GIP). The results show that strategies that simplify the imputation exercise (such as predictive mean matching with dimensionality reduction or restricted predictor sets, linear regression models, or the multivariate normal model without transformation) perform well, while especially generalized linear models for categorical data, classification trees, and imputation models with many predictor variables lead to strong biases.	de
dc.description.abstract	Geplant fehlende Werte in sozialwissenschaftlichen Befragungen, beispielsweise infolge eines Split Questionnaire Designs, treten in der Umfrageforschung immer häufiger auf. Um hinlänglich analysierbare Daten zu erhalten, ist hierbei oftmals eine Imputation erforderlich. Die statistische Modellierung bei der Imputation solcher Daten kann jedoch aufgrund niedriger Korrelationen, einer Großzahl möglicher Prädiktoren und begrenzter Stichprobengrößen mit enormen Herausforderungen verbunden sein. Der vorliegende Beitrag stellt Ergebnisse aus einer Monte-Carlo-Simulation vor, in der basierend auf Daten des German Internet Panels (GIP) die Validität von Korrelationsschätzungen in einem Split Questionnaire Design unter Verwendung verschiedener Imputationsstrategien untersucht wird. Dabei zeigt sich, dass Ansätze, die die Imputation vereinfachen, zu guten Ergebnissen führen können (z.B. Predictive Mean Matching mit Dimensionsreduktion oder wenigen Prädiktorvariablen). Demgegenüber können insbesondere Generalisierte Lineare Modelle für kategoriale Daten, Klassifikationsbäume (CART) und Imputationsmodelle mit vielen Prädiktorvariablen starke Verzerrungen zur Folge haben.	de
dc.language	en	de
dc.subject.ddc	Sozialwissenschaften, Soziologie	de
dc.subject.ddc	Social sciences, sociology, anthropology	en
dc.subject.other	bias; imputation methods; Monte Carlo simulation; multiple imputation; split questionnaire design; German Internet Panel (GIP)	de
dc.title	General-purpose imputation of planned missing data in social surveys: Different strategies and their effect on correlations	de
dc.description.review	begutachtet (peer reviewed)	de
dc.description.review	peer reviewed	en
dc.source.journal	Statistics Surveys
dc.source.volume	16	de
dc.publisher.country	USA	de
dc.subject.classoz	Erhebungstechniken und Analysetechniken der Sozialwissenschaften	de
dc.subject.classoz	Methods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methods	en
dc.subject.thesoz	Validität	de
dc.subject.thesoz	Datengewinnung	de
dc.subject.thesoz	Korrelation	de
dc.subject.thesoz	survey	en
dc.subject.thesoz	Schätzung	de
dc.subject.thesoz	Befragung	de
dc.subject.thesoz	Datenqualität	de
dc.subject.thesoz	questionnaire	en
dc.subject.thesoz	correlation	en
dc.subject.thesoz	data quality	en
dc.subject.thesoz	validity	en
dc.subject.thesoz	survey research	en
dc.subject.thesoz	data capture	en
dc.subject.thesoz	estimation	en
dc.subject.thesoz	Umfrageforschung	de
dc.subject.thesoz	Fragebogen	de
dc.rights.licence	Creative Commons - Attribution 4.0	en
dc.rights.licence	Creative Commons - Namensnennung 4.0	de
ssoar.contributor.institution	GESIS	de
internal.status	formal und inhaltlich fertig erschlossen	de
internal.identifier.thesoz	10040714
internal.identifier.thesoz	10040547
internal.identifier.thesoz	10055811
internal.identifier.thesoz	10037910
internal.identifier.thesoz	10049626
internal.identifier.thesoz	10037914
internal.identifier.thesoz	10049791
internal.identifier.thesoz	10057146
dc.type.stock	article	de
dc.type.document	journal article	en
dc.type.document	Zeitschriftenartikel	de
dc.source.pageinfo	182-209	de
internal.identifier.classoz	10105
internal.identifier.journal	2453
internal.identifier.document	32
internal.identifier.ddc	300
dc.identifier.doi	https://doi.org/10.1214/22-SS137	de
dc.description.pubstatus	Published Version	en
dc.description.pubstatus	Veröffentlichungsversion	de
internal.identifier.licence	16
internal.identifier.pubstatus	1
internal.identifier.review	1
ssoar.wgl.collection	true	de
internal.pdf.wellformed	true
internal.pdf.encrypted	false
ssoar.urn.registration	false	de
ssoar.licence.fund	Gefördert durch die Deutsche Forschungsgemeinschaft (DFG) - Projektnummern BL 1148/1-1, BR 5869/1-1, WO 739/20-1 / Funded by the German Research Foundation (DFG) - Project numbers BL 1148/1-1, BR 5869/1-1, WO 739/20-1

Files in this item

Name:: ssoar-statsurv-2022-axenfeld_e ...
Size:: 437.1Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Erhebungstechniken und Analysetechniken der Sozialwissenschaften
Methods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methods

Show simple item record