Comment traiter les données manquantes lors de l'utilisation de splines ou de polynômes fractionnaires?

12

Je lis Multivariable Model Building: A Pragmatic Approach to Regression Analysis Based on Fractional Polynomials for Modeling Continuous Variables par Patrick Royston et Willie Sauerbrei. Jusqu'à présent, je suis impressionné et c'est une approche intéressante que je n'avais pas envisagée auparavant.

Mais les auteurs ne traitent pas des données manquantes. En effet, à la p. 17 ils disent que les données manquantes "introduisent de nombreux problèmes supplémentaires. Pas considéré ici."

L'imputation multiple fonctionne-t-elle avec des polynômes fractionnaires>

FP est, à certains égards (mais pas tous) une alternative aux splines. Est-il plus facile de traiter les données manquantes pour la régression spline?

Peter Flom - Réintégrer Monica
la source
Avez-vous affaire à des x manquants ou à des y manquants ou aux deux?
Glen_b -Reinstate Monica
2
+1 (!) Je suis vraiment content de voir quelqu'un d'autre poser une question similaire. Récemment, j'ai posté cette question: stats.stackexchange.com/questions/295977/… sur la façon d'utiliser les splines cubiques restreintes chez les souris de R. J'opterais spécifiquement pour les splines car elles ne nécessitent pas de spécifier un polynôme fractionnaire tandis que les splines sont suffisamment flexibles pour de nombreuses formes fonctionnelles. Je ne sais pas si cela répond à votre question (d'où ce commentaire).
IWS
2
C'est une question intéressante, ouvrant (comme une dimension d'une réponse possible) la possibilité d'effectuer une critique de ces différentes techniques de lissage / interpolation en contrastant leur capacité à tenir compte des données manquantes. (Dans une certaine mesure, la fragilité au manque est un «embarras» pour une méthode moderne.) Je note seulement en passant le point évident qu'une implémentation bayésienne vous obtiendrait votre imputation «gratuitement».
David C.Norris
2
@ DavidC.Norris Votre commentaire m'intrique! Pourriez-vous expliquer comment les méthodes bayésiennes prennent en charge les données manquantes «gratuitement» (ce qui, je suppose, est géré par les méthodes d'analyse de manière appropriée, «automatique» et par défaut)? (Ou pointez-moi vers une référence)
IWS
2
La partie sans déjeuner libre de "gratuit" ici est que vous devez écrire un modèle bayésien, ce qui implique de penser explicitement au processus de génération de données ( DGP ). Une fois que vous avez fait cela, vous traitez les valeurs manquantes comme des paramètres [nuisance]. (En bayésien, "tout est un paramètre". Voir aussi variable latente .) Votre MCMC exploite alors essentiellement le DGP que vous avez spécifié pour "imputer" les valeurs manquantes "gratuitement" pendant qu'il avance.
David C. Norris

Réponses:

1

L'imputation multiple peut être utilisée avec des polynômes fractionnaires et des splines. Disons que représente votre forme fonctionnelle (par exemple, ). Soit la fonction estimée dans chacun des échantillons synthétiques, alors votre fonction est .f(x)f(x)=x+x.5fm()M1MmMfm(x)

En supposant que le logiciel que vous utilisez peut fournir une estimation d'erreur standard pour chaque valeur unique de x, vous pouvez utiliser la formule de Rubin (imputation multiple pour la non-réponse dans les enquêtes; 1987) pour calculer les erreurs standard. Il existe des formules d'échantillonnage petites et grandes pour les degrés de liberté avec imputation multiple. La grande formule d'échantillon (également dans Rubin) ne prend que les mêmes entrées que l'erreur standard, elle peut donc également être utilisée. Le petit cas d'échantillon prend les degrés de liberté du modèle comme entrée; il n'est pas évident pour moi si cette formule peut être appliquée ici.

Tim
la source