Ajustement des covariables dans l'analyse de la courbe ROC

20

Cette question concerne l'estimation des scores de coupure sur un questionnaire de dépistage multidimensionnel pour prédire un critère d'évaluation binaire, en présence d'échelles corrélées.

On m'a interrogé sur l'intérêt de contrôler les sous-scores associés lors de l'élaboration des scores de coupure sur chaque dimension d'une échelle de mesure (traits de personnalité) qui pourraient être utilisés pour le dépistage de l'alcoolisme. Autrement dit, dans ce cas particulier, la personne n'était pas intéressée à ajuster sur les covariables externes (prédicteurs) - ce qui conduit à une aire (partielle) sous la courbe ROC ajustée sur les covariables, par exemple (1-2) - mais essentiellement sur d'autres scores du même questionnaire car ils sont en corrélation les uns avec les autres (par exemple "impulsivité" avec "recherche de sensations"). Cela revient à construire un GLM qui inclut à gauche le score d'intérêt (pour lequel nous recherchons un seuil) et un autre score calculé à partir du même questionnaire, tandis qu'à droite le résultat peut être le statut de consommation d'alcool.

Pour clarifier (par demande @robin), supposons que nous ayons scores, disons (par exemple, anxiété, impulsivité, névrosisme, recherche de sensations), et nous voulons trouver une valeur de coupure (c'est-à-dire "cas positif" si , "cas négatif" sinon) pour chacun d'eux. Nous ajustons généralement pour d'autres facteurs de risque comme le sexe ou l'âge lors de l'élaboration de ce seuil (en utilisant l'analyse de la courbe ROC). Maintenant, qu'en est-il de l'ajustement de l'impulsivité (IMP) sur le sexe, l'âge et la recherche de sensations (SS) étant donné que SS est corrélé avec IMP? En d'autres termes, nous aurions une valeur seuil pour la PMI lorsque l'effet de l'âge, du sexe et du niveau d'anxiété est supprimé.j=4XjtjXj>tj

En plus de dire qu’une coupure doit rester aussi simple que possible, ma réponse a été

Concernant les covariables, je recommanderais d'estimer les ASC avec et sans ajustement, juste pour voir si la performance prédictive augmente. Ici, vos covariables ne sont que d'autres sous-scores définis à partir du même instrument de mesure et je n'ai jamais été confronté à une telle situation (généralement, je m'ajuste sur des facteurs de risque connus, comme l'âge ou le sexe). [...] De plus, étant donné que vous vous intéressez aux questions pronostiques (c.-à-d. L'efficacité du dépistage du questionnaire), vous pouvez également être intéressé à estimer la valeur prédictive positive (PPV, probabilité de patients avec des résultats de test positifs qui sont correctement classés) à condition vous pouvez classer les sujets comme "positifs" ou "négatifs" en fonction de leurs sous-scores sur votre questionnaire. Notez cependant

Avez-vous une compréhension plus approfondie de cette situation particulière, avec un lien vers les documents pertinents lorsque cela est possible?

Les références

  1. Janes, H et Pepe, MS (2008). Ajustement pour les covariables dans les études des marqueurs diagnostiques, de dépistage ou pronostiques: un vieux concept dans un nouveau contexte . American Journal of Epidemiology , 168 (1): 89-97.
  2. Janes, H et Pepe, MS (2008). Prise en compte des covariables dans l'analyse ROC . UW Biostatistics Working Paper Series , Paper 322.
chl
la source
Je ne suis pas un expert mais j'ai trouvé la phrase "contrôler les sous-scores associés lors de l'élaboration des scores de coupure sur chaque dimension d'une échelle de mesure" un peu ésotérique. Pouvez-vous me donner une dernière ligne d'explication (sinon j'ai eu du mal à comprendre la question)?
Robin Girard
@robin Oui, fondamentalement, je voulais dire: nous avons scores (par exemple anxiété, impulsivité, névrosisme, recherche de sensations) et nous voulons trouver une valeur (c'est-à-dire "cas positif" si , "cas négatif "sinon) pour chacun d'eux. Nous ajustons généralement pour d'autres facteurs de risque comme le sexe ou l'âge lors de l'élaboration de ce seuil (en utilisant l'analyse de la courbe ROC). Maintenant, qu'en est-il de l'ajustement de l'impulsivité (IMP) sur le sexe, l'âge et la recherche de sensations (SS) étant donné que SS est corrélé avec IMP? En d'autres termes, nous aurions une valeur seuil pour la PMI lorsque l'effet de l'âge, du sexe et du niveau d'anxiété est supprimé. j=4tjXj>tj
chl
Si l'objectif final est de prédire une valeur binaire, compte tenu des réponses [corrélées] aux questions de l'enquête, cela ressemble beaucoup à un problème de classification binaire standard. Serait-il approprié de penser de cette façon? Ou est-il très important de trouver des "valeurs limites" (dont je ne sais rien)?
DavidR
@DavidR Eh bien, l'idée est de décider d'une valeur seuil (lire "sujet à risque au-dessus d'une certaine valeur"), ce qui comporte de nombreuses mises en garde d'un point de vue statistique, mais la plupart des cliniciens ont l'habitude ou préfèrent travailler par ici. (Désolé de ne pas avoir remarqué votre commentaire plus tôt!)
chl

Réponses:

7

La façon dont vous avez envisagé l'analyse n'est vraiment pas la façon dont je vous suggère de commencer par y penser. Tout d'abord, il est facile de montrer que si des seuils doivent être utilisés, les seuils ne sont pas appliqués aux caractéristiques individuelles mais à la probabilité globale prédite. Le seuil optimal pour une seule covariable dépend de tous les niveaux des autres covariables; cela ne peut pas être constant. Deuxièmement, les courbes ROC ne jouent aucun rôle pour atteindre l'objectif de prise de décisions optimales pour un sujet individuel .

Pour gérer les échelles corrélées, il existe de nombreuses techniques de réduction des données qui peuvent vous aider. L'une d'elles est une analyse de redondance formelle où chaque prédicteur est prédit de manière non linéaire à partir de tous les autres prédicteurs, à son tour. Ceci est implémenté dans la redunfonction du Hmiscpackage R. Le regroupement variable, l'analyse en composantes principales et l'analyse factorielle sont d'autres possibilités. Mais la partie principale de l'analyse, à mon avis, devrait être de construire un bon modèle de probabilité (par exemple, un modèle logistique binaire).

Frank Harrell
la source
1
+1 pour la distinction importante entre la décision individuelle et la décision de groupe. J'aurais dû anticiper votre réponse, étant donné votre réponse ici ou une autre réponse de la vôtre sur la mailing-list de medstats . J'ai également trouvé votre exposé sur les mesures directes de l'utilitaire de diagnostic basé sur les modèles de risque de diagnostic particulièrement éclairant à cet égard.
chl
Pour en savoir plus sur les mesures directes de l'utilitaire de diagnostic basé sur les modèles de risque de diagnostic, cliquez
Epifunky
3

Le point de l'article de Janes, Pepe sur les courbes ROC ajustées covariantes permet une interprétation plus flexible des valeurs estimées de la courbe ROC. Il s'agit d'une méthode de stratification des courbes ROC entre des groupes spécifiques de la population d'intérêt. La fraction positive vraie estimée (TPF; sensibilité éq.) Et la fraction négative vraie (TNF; spécificité éq.) Sont interprétées comme "la probabilité d'un résultat de dépistage correct étant donné l'état de la maladie est O / N chez les individus de la même [variable ajustée liste]". En un coup d'œil, il semble que ce que vous essayez de faire soit d'améliorer votre test de diagnostic en incorporant plus de marqueurs dans votre panneau.

Une bonne base pour comprendre ces méthodes un peu mieux serait de lire sur le modèle des risques proportionnels de Cox et de consulter le livre de Pepe sur "L'évaluation statistique des tests médicaux pour la classification et ...". Vous remarquerez que les mesures de fiabilité du dépistage partagent de nombreuses propriétés similaires avec une courbe de survie, en considérant le score ajusté comme un temps de survie. Tout comme le modèle de Cox permet la stratification de la courbe de survie, ils proposent de donner des mesures de fiabilité stratifiées.

La raison pour laquelle cela compte pour nous pourrait être justifiée dans le contexte d'un modèle d'effets mixtes binaires: supposons que vous êtes intéressé à prédire le risque de devenir toxicomane de la méthamphétamine. Le SSE a un effet dominant si évident qu'il semble insensé d'évaluer un test de diagnostic, qui pourrait être basé sur des comportements personnels, sans stratification. C'est parce que [roulez juste avec ça], même si une personne riche a montré des symptômes maniaques et dépressifs, elle n'essaiera probablement jamais la méthamphétamine. Cependant, une personne pauvre présenterait un risque accru beaucoup plus grand d'avoir de tels symptômes psychologiques (et un score de risque plus élevé). L'analyse grossière du risque montrerait de très mauvaises performances de votre modèle prédictif car les mêmes différences dans deux groupes n'étaient pas fiables. Cependant, si vous avez stratifié (riche contre pauvre),

Le point d'ajustement des covariables est de considérer différents groupes homogènes en raison de la prévalence et de l'interaction plus faibles dans le modèle de risque entre les strates distinctes.

AdamO
la source
(+1) C'est une réponse intéressante, merci beaucoup. Au moment d'écrire ces lignes, ma principale préoccupation était que les valeurs limites seraient quelque peu «interdépendantes». Mais je vais vérifier le livre de Pepe (j'ai trouvé quelques documents ici en attendant).
chl
Il existe des problèmes avec l'utilisation des mêmes données pour développer et évaluer un test médical, mais la solution est simple. Vous devriez envisager une sorte de validation croisée ou diviser les données en sous-ensembles de «formation» et de «validation». Il s'agit généralement d'une approche valable pour développer un modèle de diagnostic / pronostic / prédiction des risques.
AdamO