Die Ersetzung fehlender Werte: Ein Test alternativer Methoden mit Makrodaten
Beschreibung
vor 24 Jahren
In dieser Arbeit werden die Auswirkungen verschiedener Methoden zur
Ersetzung von fehlenden Werten auf das Ergebnis einer
Regressionsnalyse untersucht. Grundlage ist eine Untersuchung von
Klasen (2000) über die Unterschiede im Zusammenhang zwischen
Unterernährung und Kindersterblichkeit in Afrika und Südasien. In
dem Makro-Datensatz, welcher 101 Entwicklungsländer umfasst, fällt
etwa ein Drittel der 273 Beobachtungen weg, da für verschiedene
verwendete Variablen die Werte fehlen. Die so verloren gegangenen
Informationen sollen in diese Untersuchung genutzt werden. Hierzu
werden zwei verschiedene Verfahren verwendet. Zum einen werden mit
einem linearen Regressionsmodell alle Variablen wechselseitig
aufeinander regressiert und mit Hilfe der so geschätzten
Koeffzienten die fehlenden Werte prognostiziert. Um nicht eine zu
starke Korrelation der Werte untereinander vorzutäuschen, werden
die ersetzten Werte um einen zufälligen Störterm ergänzt. Zum
anderen wird ein multiple imputations Verfahren verwandt, in
welchem mit einem Markov-Chain-Monte-Carlo-Verfahren mehrere
vervollständigte Datensätze generiert werden, welche dann weiter
bearbeitet werden. Durch die Auswertung mehrerer vervollständigter
Datensätze wird eine höhere Effizienz der Schätzer erreicht. Es
zeigt sich, dass die Ergebnisse von Klasen (2000), etwa dass höhere
Einkommen, Frauenbildung, geringere Fertilität, der Zugang zu
sanitären Einrichtungen und eine geringere Bevölkerungsdichte mit
geringeren Unterernährungsraten korreliert sind, robust gegenüber
der Ersetzung der fehlenden Werte sind.
Ersetzung von fehlenden Werten auf das Ergebnis einer
Regressionsnalyse untersucht. Grundlage ist eine Untersuchung von
Klasen (2000) über die Unterschiede im Zusammenhang zwischen
Unterernährung und Kindersterblichkeit in Afrika und Südasien. In
dem Makro-Datensatz, welcher 101 Entwicklungsländer umfasst, fällt
etwa ein Drittel der 273 Beobachtungen weg, da für verschiedene
verwendete Variablen die Werte fehlen. Die so verloren gegangenen
Informationen sollen in diese Untersuchung genutzt werden. Hierzu
werden zwei verschiedene Verfahren verwendet. Zum einen werden mit
einem linearen Regressionsmodell alle Variablen wechselseitig
aufeinander regressiert und mit Hilfe der so geschätzten
Koeffzienten die fehlenden Werte prognostiziert. Um nicht eine zu
starke Korrelation der Werte untereinander vorzutäuschen, werden
die ersetzten Werte um einen zufälligen Störterm ergänzt. Zum
anderen wird ein multiple imputations Verfahren verwandt, in
welchem mit einem Markov-Chain-Monte-Carlo-Verfahren mehrere
vervollständigte Datensätze generiert werden, welche dann weiter
bearbeitet werden. Durch die Auswertung mehrerer vervollständigter
Datensätze wird eine höhere Effizienz der Schätzer erreicht. Es
zeigt sich, dass die Ergebnisse von Klasen (2000), etwa dass höhere
Einkommen, Frauenbildung, geringere Fertilität, der Zugang zu
sanitären Einrichtungen und eine geringere Bevölkerungsdichte mit
geringeren Unterernährungsraten korreliert sind, robust gegenüber
der Ersetzung der fehlenden Werte sind.
Weitere Episoden
In Podcasts werben
Kommentare (0)