J'ai un ensemble de données médicales avec environ 200 variables. L'une des variables est un bio-marqueur (concentration d'une enzyme particulière). Sa distribution est asymétrique, et le problème est que les valeurs au-dessus d'un certain niveau sont censurées / coupées à ce niveau. Ainsi, alors que la moyenne de la variable est d'environ 10, toute valeur supérieure à 50 est enregistrée comme 50.
Je voudrais imputer des valeurs continues pour ces valeurs censurées. J'utilise actuellement l'imputation multiple avec le package de souris dans R, bien que d'autres systèmes soient disponibles pour moi et je suis ouvert à d'autres approches. Une pensée que j'avais était de recoder toutes ces valeurs censurées manquantes, puis d'exécuter les imputations. Si l'une des valeurs imputées qui ont été censurées à l'origine est inférieure à la valeur seuil, elles seront alors affectées à la valeur seuil.
J'aimerais avoir des opinions à ce sujet et / ou de meilleures méthodes pour y faire face.
la source
Réponses:
Toute méthode d'imputation, y compris l'imputation multiple, est un coup dans le noir si vous ne pouvez pas prendre en compte la façon dont les données supérieures à 50 sont distribuées. Étant donné que vous avez 200 variables, l'une d'entre elles est-elle corrélée au biomarqueur? Si vous pouviez ajuster une régression pour le biomarqueur en fonction des covariables, vous pourriez utiliser ce modèle pour prédire les valeurs des variables tronquées. Vous pouvez appliquer une erreur à la prédiction en fonction de la variance résiduelle dans le modèle pour générer plusieurs imputations de cette façon. Ce serait plus sensé. Bien sûr, cela suppose que vous pouvez trouver un modèle valide et que les résidus ont une moyenne nulle et une variance constante. Vous ajusteriez uniquement les valeurs de biomarqueurs non tronquées pour construire le modèle.
la source