Selektieren und Kombinieren von Modellen unter Berücksichtigung der Problematik fehlender Daten

Bok av Michael Schomaker

In den letzten Jahren haben sich Modellmittelungsverfahren als Alternative zur Modellselektion etabliert. Anstatt sich auf ein einziges Siegermodell zu beschränken, werden hierbei mehrere konkurrierende Modelle betrachtet und ihre Parameterschätzer gewichtet miteinander kombiniert. Das Hauptaugenmerk liegt dabei meist auf der Konstruktion der Gewichte, wie auch der Optimalität der daraus resultierenden gewichteten Parameterschätzung. In der vorliegenden Arbeit werden verschiedene Konzepte frequentistischer Modellmittelung (Frequentist Model Averaging, FMA) erläutert und ihre Stärken und Schwächen gegenüber einer Vielzahl an traditionellen Modellselektionsmethoden herausgestellt. Schwerpunkt ist dabei die Konstruktion und Diskussion verschiedener Strategien zur Verwendung von FMA-Methoden unter Berücksichtigung der Problematik fehlender Daten. Hierfür werden zwei Kernkonzepte vorgeschlagen: Der erste Ansatz konstruiert Gewichte für einen FMA-Schätzer auf Basis eines für fehlende Daten adjustierten Kriteriums, welches der aktuellen Literatur aus dem Bereich der Modellselektion entstammt und das das im Kontext fehlender Werte bekannte Prinzip des inverse probability weighting verwendet; der zweite Ansatz ersetzt die fehlenden Werte durch Imputationen, um darauf aufbauend geeignete Schätzungen mit Hilfe bekannter Modellmittelungsansätze zu konstruieren. Zu diesem Zweck wird auch ein rekursiver Imputationsalgorithmus präsentiert, der die geläufige Idee einer Regressionsimputation unter Verwendung generalisierter additiver Modelle verallgemeinert. Die Arbeit zeigt die Eigenheiten, Stärken und Schwächen der vorgestellten Ansätze im Kontext von linearen und logistischen Regressionsanalysen anhand weitreichender Monte-Carlo-Simulationen auf und diskutiert am Beispiel der Faktorenanalyse mögliche Erweiterungen und Verallgemeinerungen der angeführten Schätzer für weitere multivariate, statistische Analysemethoden. Alle Verfahren werden an realen Datensätzen illustriert. Es zeigt sich, dass in vielen Situationen beide vorgestellten Konzepte einem Verwerfen der nicht-vollständigen Beobachtungen vorzuziehen sind, die Strategie einer Modellmittelung nach Imputation in der Regel bessere Resultate erzielt als die Verwendung eines FMA-Schätzers, der Gewichte auf Basis eines für fehlende Daten adjustierten Kriteriums verwendet, und insbesondere die technisch weniger aufwändigen Modellmittelungsverfahren zu besseren Schätzungen führen als diejenigen, die aus einer klassischen Modellselektion resultieren.