Propensity Score Matching

Propensity Score Matching

Modellansatz 207
1 Stunde 9 Minuten
Podcast
Podcaster

Beschreibung

vor 5 Jahren

Auf der Gulaschprogrammiernacht 2019 traf Sebastian auf den
Podcaster Data Science Phil Philipp Packmohr @PPackmohr. Sein
Interesse zur Data Science entstand während seines Studiums in
den Life Sciences an der Hochschule Furtwangen in den Bereichen
der molekularen und technischen Medizin und zu Medical Diagnostic
Technologies. In seiner Masterarbeit hat er sich betreut von
Prof. Dr. Matthias Kohl mit der statistischen Aufbereitung von
Beobachtungsstudien befasst, genauer mit der kausalen Inferenz
aus Observationsdaten mit Propensity Score Matching Algorithmen.


Kausale Inferenz, das Schließen von Beobachtungen auf kausale
Zusammenhänge, ist tatsächlich sehr wichtig in allen empirischen
Wissenschaften wie zum Beispiel der Ökonomie, der Psychologie,
der Politologie, der Soziologie und auch der Medizin.


Idealerweise sollten Studien in der Form von randomisierten
kontrollierten Studien durchgeführt werden, da nur so eine
bewusste oder unbewusste Einflussnahme auf den Ergebnisse
verhindert werden kann. Beispielsweise leiden Evaluationen an
Hochschulen am Ende von Vorlesungen oder Studiengängen oft unter
einem Survivorship Bias, da nur noch die Personen befragt werden,
die bis zum Ende durchgehalten haben.


Doch werden nicht alle Studien aufgrund von verschiedenen Gründen
(wie zum Beispiel der hohen Kosten) randomisiert durchgeführt,
und so war es auch bei dem für seine Arbeit zentralen
Observationsdatensatz von Prof. Dr. Konrad Reinhart an der Klinik
für Intensivmedizin vom Universitätsklinikum Jena zu Therapien
zur Vermeidung von akutem Nierenversagen.


Der Datensatz behandelte 21757 Patienten mit soziodemographischen
und biologischen Merkmalen aus der elektronischen Gesundheitsakte
mit bis zu 209 Variablen, sowie der gewählten Therapie und ob es
zu Nierenversagen kam oder nicht. Die Variablen werden bei der
Untersuchung als Confounder, Störfaktoren oder Kovariate benannt,
die nicht als ursächlich für den Therapieverlauf gesehen werden,
aber diesen sowohl beeinflussen können. In einer
nicht-randomisierten Studie werden die Confounder nicht
gleichmäßig über die Therapiearten verteilt sein, und damit die
zusammengefassten Ergebnisse unerwünscht verfälschen. Eine
Aufbereitung anhand der Confounder kann aber nie eine völlig
randomisierte Studie ersetzen, da in den Daten nicht auftretende
Confounder, wie bespielsweise dem athletischen Status, nicht
berücksichtigt werden können.


Im Propensity Score Matching werden nun die Erfolgsquoten von
Therapien vereinfacht gesagt als durch einen Score gewichtete
Erfolgsquote unter Berücksichtigung der aufgetretenen
Häufigkeiten der Confounder zur erwarteten Häufigkeit der
Confounder berechnet. Problematisch ist dabei der Umgang mit
fehlenden Datenwerten, da nur ein Bruchteil der Datensätze
wirklich alle Variablen definiert. Hier mussten sinnvolle
Datenergänzungsverfahren eingesetzt werden.


Die Auswertung erfolgte mit dem kostenlosen Open Source Projekt R
(Plattform für statistische Berechnungen), das eine Vielzahl
Verfahren und Algorithmen zur Verfügung stellt. Die im Laufe der
Arbeit entwickelten Verfahren finden sich im Github Repository zu
den Analyseverfahren.


Die Analyse des Observationsdatensatz ergab nun Risikoraten von
15.6% bis 11.5% für Nierenversagen. Dies muss aber nicht
bedeuten, dass die eine Therapie immer der anderen Therapie
vorzuziehen ist, da viele Kriterien für die Wahl einer Therapie
einbezogen werden müssen. In der personalisierte oder prädiktiven
Medizin wird versucht, an Hand von Observationsanalysen sogar
weitergehende Therapiehinweise in Abhängigkeit von Confoundern
der einzelnen Patienten zu geben.


Den Anstoß für den Data Science Phil Podcast fand Philipp in
einem Aufruf vom YouTuber Martin Jung. Im englisch-sprachigen
Podcast geht es um grundlegende Verfahren der Data Science, aber
auch um weiterführende Themen, die er auf Konferenzen mit Gästen
diskutiert.

Literatur und weiterführende Informationen

P. R. Rosenbaum, D. B. Rubin, Donald B: The Central Role of
the Propensity Score in Observational Studies for Causal Effects,
Biometrika. 70 (1): 41–55 , 1983.

J. Pearl: Causality: Models, Reasoning, and Inference ,
Cambridge University Press, 2019.

D. Ho, K. Imai, G. King, E. Stuart: MatchIt - Nonparametric
Preprocessing for Parametric Causal Inference, Journal of
Statistical Software, 42(8), 1 - 28, 2011.

D. Ho, K. Imai, G. King, E. Stuart: MatchIt: Nonparametric
Preprocessing for Parametric Causal Inference, R-Module, 2018.

E. A. Stuart: Matching Methods for Causal Inference: A review
and a look forward, Statistical Science 25(1): 1-21, 2010.

Research Gate Profil von Philipp Packmohr

Github Profil von Philipp Packmohr

Science Days im Europapark Rust

Data Science Blog von Philipp Packmohr

stamats von Prof. Dr. Matthias Kohl


Podcasts

Data Science Phil Podcast

P. Packmohr, S. Ritterbusch: Neural Networks, Data Science
Phil, Episode 16, 2019.

I. Hinneburg: EbPharm-Magazin im September, Adjustierung in
epidemiologischen Studien, Podcast Evidenzbasierte Pharmazie,
2017.





GPN19 Special

P. Packmohr, S. Ritterbusch: Neural Networks, Data Science
Phil, Episode 16, 2019.

P. Packmohr, S. Ritterbusch: Propensity Score Matching,
Gespräch im Modellansatz Podcast, Folge 207, Fakultät für
Mathematik, Karlsruher Institut für Technologie (KIT), 2019.
http://modellansatz.de/propensity-score-matching


GPN18 Special

D. Gnad, S. Ritterbusch: FPGA Seitenkanäle, Gespräch im
Modellansatz Podcast, Folge 177, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2018.
http://modellansatz.de/fpga-seitenkanaele

B. Sieker, S. Ritterbusch: Flugunfälle, Gespräch im
Modellansatz Podcast, Folge 175, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2018.
http://modellansatz.de/flugunfaelle

A. Rick, S. Ritterbusch: Erdbebensicheres Bauen, Gespräch im
Modellansatz Podcast, Folge 168, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2018.
http://modellansatz.de/erdbebensicheres-bauen


GPN17 Special

Sibyllinische Neuigkeiten: GPN17, Folge 4 im Podcast des CCC
Essen, 2017.

A. Rick, S. Ritterbusch: Bézier Stabwerke, Gespräch im
Modellansatz Podcast, Folge 141, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2017.
http://modellansatz.de/bezier-stabwerke

F. Magin, S. Ritterbusch: Automated Binary Analysis, Gespräch
im Modellansatz Podcast, Folge 137, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2017.
http://modellansatz.de/binary-analyis

M. Lösch, S. Ritterbusch: Smart Meter Gateway, Gespräch im
Modellansatz Podcast, Folge 135, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2017.
http://modellansatz.de/smart-meter


GPN16 Special

A. Krause, S. Ritterbusch: Adiabatische Quantencomputer,
Gespräch im Modellansatz Podcast Folge 105, Fakultät für
Mathematik, Karlsruher Institut für Technologie (KIT), 2016.
http://modellansatz.de/adiabatische-quantencomputer

S. Ajuvo, S. Ritterbusch: Finanzen damalsTM, Gespräch im
Modellansatz Podcast, Folge 97, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2016.
http://modellansatz.de/finanzen-damalstm

M. Fürst, S. Ritterbusch: Probabilistische Robotik, Gespräch
im Modellansatz Podcast, Folge 95, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2016.
http://modellansatz.de/probabilistische-robotik

J. Breitner, S. Ritterbusch: Incredible Proof Machine,
Gespräch im Modellansatz Podcast, Folge 78, Fakultät für
Mathematik, Karlsruher Institut für Technologie (KIT), 2016.
http://modellansatz.de/incredible-proof-machine

Weitere Episoden

Wahlmodelle
16 Minuten
vor 10 Monaten
Podcast Lehre
1 Stunde 42 Minuten
vor 1 Jahr
Instandhaltung
50 Minuten
vor 2 Jahren
CSE
42 Minuten
vor 2 Jahren
Mentoring
35 Minuten
vor 2 Jahren
15
15
:
: