Imputation d'une variable censurée

9

J'ai un ensemble de données médicales avec environ 200 variables. L'une des variables est un bio-marqueur (concentration d'une enzyme particulière). Sa distribution est asymétrique, et le problème est que les valeurs au-dessus d'un certain niveau sont censurées / coupées à ce niveau. Ainsi, alors que la moyenne de la variable est d'environ 10, toute valeur supérieure à 50 est enregistrée comme 50.

Je voudrais imputer des valeurs continues pour ces valeurs censurées. J'utilise actuellement l'imputation multiple avec le package de souris dans R, bien que d'autres systèmes soient disponibles pour moi et je suis ouvert à d'autres approches. Une pensée que j'avais était de recoder toutes ces valeurs censurées manquantes, puis d'exécuter les imputations. Si l'une des valeurs imputées qui ont été censurées à l'origine est inférieure à la valeur seuil, elles seront alors affectées à la valeur seuil.

J'aimerais avoir des opinions à ce sujet et / ou de meilleures méthodes pour y faire face.

Robert Long
la source
Quel rôle ce biomarqueur jouera-t-il dans les analyses ultérieures? Par exemple, s'agira-t-il d'une variable explicative, d'une covariable ou d'une variable dépendante dans une régression? Il est possible que vous utilisiez une méthode qui ne nécessite pas d'imputation de valeurs. Vous devriez privilégier de telles méthodes, car sinon vous faites un WAG sur la forme de la queue droite censurée, qui - en raison de l'asymétrie - pourrait contenir des valeurs influentes dans les analyses.
whuber
@whuber, le biomarqueur est une variable explicative. La pratique normale dans ce domaine consiste à le discrétiser comme 0-1, 1-10, 10+ ou parfois simplement 0-1 et 1+ (c'est-à-dire élevé ou non élevé). J'ai eu l'idée de l'inclure comme variable explicative continue. Bien que l'ensemble de données comporte 200 variables, les conseils cliniques et l'expérience antérieure suggèrent d'utiliser 10 d'entre eux dans le modèle final, donc je pensais imputer les valeurs> 50 en utilisant certaines des autres variables.
Robert Long

Réponses:

5

Toute méthode d'imputation, y compris l'imputation multiple, est un coup dans le noir si vous ne pouvez pas prendre en compte la façon dont les données supérieures à 50 sont distribuées. Étant donné que vous avez 200 variables, l'une d'entre elles est-elle corrélée au biomarqueur? Si vous pouviez ajuster une régression pour le biomarqueur en fonction des covariables, vous pourriez utiliser ce modèle pour prédire les valeurs des variables tronquées. Vous pouvez appliquer une erreur à la prédiction en fonction de la variance résiduelle dans le modèle pour générer plusieurs imputations de cette façon. Ce serait plus sensé. Bien sûr, cela suppose que vous pouvez trouver un modèle valide et que les résidus ont une moyenne nulle et une variance constante. Vous ajusteriez uniquement les valeurs de biomarqueurs non tronquées pour construire le modèle.

Michael R. Chernick
la source