Multiple Imputation von fehlenden Werten mit Daten über Unterernährung und Kindersterblichkeit
Beschreibung
vor 21 Jahren
In dieser Arbeit werden die Auswirkungen einer Ersetzung von
fehlenden Werten auf das Ergebnis einer Regressionsanalyse
untersucht. Grundlage ist eine Untersuchung von Klasen (2000) über
die Unterschiede im Zusammenhang zwischen Unterernährung und
Kindersterblichkeit in Afrika und Südasien. In dem Makro-Datensatz,
welcher 101 Entwicklungsländer umfasst, fällt etwa ein Drittel der
273 Beobachtungen weg, da für verschiedene verwendete Variablen die
Werte fehlen. Die so verloren gegangenen Informationen sollen in
dieser Untersuchung genutzt werden um die Schätzergebnisse zu
verbessern. Hierzu wird ein Verfahren zur multiplen Imputation
verwandt, in welchem mit einem Data-Augmentation-Verfahren mehrere
vervollständigte Datensätze generiert werden, mit welchen dann
getrennt Schätzungen durchgeführt werden. Die Ergebnisse der
Schätzungen werden dann miteinander kombiniert. Durch die
Auswertung mehrerer vervollständigter Datensätze wird eine höhere
Effizienz der Schätzer erreicht. Ein Vergleich von
Regressionsanalysen, die mit dem vervollständigten Daten
durchgeführt wurden, mit einer Complete-case-Analyse hat gezeigt,
dass sich bestimmte Koeffizienten in ihrer Größenordnung geändert
haben. Bei manchen Koeffizienten sind unplausible Vorzeichen aus
der Complete-case Analyse verschwunden. Es ist also vorteilhaft,
bei Problemen mit fehlenden Werten moderne Imputationsverfahren zu
verwenden. Die wesentlichen Ergebnisse aus der Untersuchung von
Klasen (2000) konnten dennoch bestätigt werden. Durch die Ersetzung
der fehlenden Werte konnten noch eine Reihe von Variablen
zugänglich gemacht werden, die in den bisherigen Untersuchungen
nicht verwendet wurden, da dadurch auf noch mehr Beobachtungen
hätte verzichtet werden müssen.
fehlenden Werten auf das Ergebnis einer Regressionsanalyse
untersucht. Grundlage ist eine Untersuchung von Klasen (2000) über
die Unterschiede im Zusammenhang zwischen Unterernährung und
Kindersterblichkeit in Afrika und Südasien. In dem Makro-Datensatz,
welcher 101 Entwicklungsländer umfasst, fällt etwa ein Drittel der
273 Beobachtungen weg, da für verschiedene verwendete Variablen die
Werte fehlen. Die so verloren gegangenen Informationen sollen in
dieser Untersuchung genutzt werden um die Schätzergebnisse zu
verbessern. Hierzu wird ein Verfahren zur multiplen Imputation
verwandt, in welchem mit einem Data-Augmentation-Verfahren mehrere
vervollständigte Datensätze generiert werden, mit welchen dann
getrennt Schätzungen durchgeführt werden. Die Ergebnisse der
Schätzungen werden dann miteinander kombiniert. Durch die
Auswertung mehrerer vervollständigter Datensätze wird eine höhere
Effizienz der Schätzer erreicht. Ein Vergleich von
Regressionsanalysen, die mit dem vervollständigten Daten
durchgeführt wurden, mit einer Complete-case-Analyse hat gezeigt,
dass sich bestimmte Koeffizienten in ihrer Größenordnung geändert
haben. Bei manchen Koeffizienten sind unplausible Vorzeichen aus
der Complete-case Analyse verschwunden. Es ist also vorteilhaft,
bei Problemen mit fehlenden Werten moderne Imputationsverfahren zu
verwenden. Die wesentlichen Ergebnisse aus der Untersuchung von
Klasen (2000) konnten dennoch bestätigt werden. Durch die Ersetzung
der fehlenden Werte konnten noch eine Reihe von Variablen
zugänglich gemacht werden, die in den bisherigen Untersuchungen
nicht verwendet wurden, da dadurch auf noch mehr Beobachtungen
hätte verzichtet werden müssen.
Weitere Episoden
vor 11 Jahren
In Podcasts werben
Kommentare (0)