Je me demande comment intégrer des splines cubiques restreintes (comme dans le package rms) dans les modèles d'imputation au sein du package d'imputation de souris R.
Contexte : Je fais de la recherche biomédicale et j'ai accès à un ensemble de données comprenant les caractéristiques des patients et des données sur la progression de la maladie du patient, à côté des résultats après les soins médicaux (par exemple, un an de survie). L'objectif est de construire un modèle de prédiction basé sur les caractéristiques des patients et la progression de la maladie afin de prédire la survenue de certains résultats. Hélas, certains patients ne disposent pas d'informations complètes sur toutes les variables. J'ai donc décidé d'utiliser plusieurs techniques d'imputation pour estimer (plusieurs fois) quelles seraient ces valeurs manquantes.
Problème : lors de l'utilisation de l'imputation multiple, il existe cette «règle» appelée convivialité. Cela signifie que l'imputation nécessite que le modèle statistique utilisé pour l'analyse finale (c'est-à-dire le modèle de prédiction que je souhaite étudier) soit également inclus dans le modèle d'imputation (de préférence avec des informations supplémentaires qui y sont ajoutées). Cela implique également de prendre en compte d'éventuelles associations non linéaires. Comme je ne sais pas si certains prédicteurs ont des associations non linéaires avec d'autres, j'aimerais que les modèles d'imputation puissent s'adapter à des splines cubiques restreintes. Cependant, je ne sais pas vraiment comment faire cela chez la souris. Je voudrais donc de l'aide pour créer des modèles d'imputation permettant le rcs, adaptés aux souris.
Sur un sidenote à tous les modérateurs: je pensais que cette question était adaptée pour Crossvalidated car l'imputation et les splines sont des sujets «statistiques» spécifiques. Cependant, en raison de l'accent mis sur la nature de la programmation de cette question `` comment '', cela ne me dérangerait pas que la question soit migrée si vous pensez qu'elle est plus appropriée ailleurs. Suite à ce doute, j'ai également posté cette question sur StackOverflow ( /programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package )
Réponses:
Vous avez raison de dire que le modèle d'imputation doit être aussi riche ou plus riche que le modèle de résultat. Le fait que l'imputation basée sur une estimation complète du maximum de vraisemblance et une imputation effectuée en
mice
supposant la linéarité partout était une des principales raisons pour lesquelles j'ai écrit la fonction deHmisc
package RaregImpute
, qui crée automatiquement des modèles d'imputation à l'aide de modèles de splines cubiques restreintes additives riches. La linéarité n'est donc pas supposée pour l'imputation multiple. L'approche par défaut dansaregImpute
est la correspondance moyenne prédictive, que je préfère généralement aux approches plus paramétriques (les splines sont toujours utilisées; PMM est moins paramétrique sur le côté gauche des modèles).Comme
mice
,aregImpute
utilise des équations chaînées. À la différencemice
, il utilise des tirages bootstrap au lieu d'approches bayésiennes approximatives (en supposant une normalité multivariée).la source
mice
quand aucun noeud (linéarité) est utilisé) qui serait une bonne partie d'un package R. En faisant cela, vous pourriez comparermice
etaregImpute
coder pour voir oùmice
est un peu lent et pourrait être accéléré.