Taille de l'échantillon et méthodes de validation croisée pour les modèles prédictifs de régression de Cox

8

J'ai une question que je voudrais poser à la communauté. On m'a récemment demandé de fournir une analyse statistique pour une étude pronostique des marqueurs tumoraux . J'ai principalement utilisé ces deux références pour guider mon analyse:

  1. McShane LM et al. Rapports de recommandations pour les études pronostiques des marqueurs tumoraux (REMARQUE). J Natl Cancer Inst. 17 août 2005; 97 (16): 1180-4.

  2. Simon RM et al. Utiliser la validation croisée pour évaluer la précision prédictive des classificateurs du risque de survie en fonction de données de grande dimension. Bref Bioinform. 2011 mai; 12 (3): 203-14. En ligne du 15 févr.2011.

J'ai résumé l'étude et mes analyses ci-dessous. J'apprécierais tout commentaire, suggestion ou critique.

Contexte de l'étude:

Certains patients atteints de cancer X présentent une rechute précoce après le traitement. Le score pronostique clinique actuellement utilisé par les médecins ne permet pas de bien prédire les résultats cliniques chez ces patients. Il serait donc utile d'identifier des marqueurs pronostiques biologiques qui ajoutent de la valeur au-delà de ce score standard. Le but de cette étude est de découvrir un tel biomarqueur.

Méthodes d'étude:

Présélection des biomarqueurs candidats

Douze biomarqueurs associés au cancer X ont été identifiés dans une étude précédente. Nous avons tenté de valider l'association entre ces 12 candidats et le cancer X dans un échantillon indépendant de patients / tumeurs, décrit ci-dessous.

Validation univariée des biomarqueurs candidats présélectionnés

Les niveaux de ces biomarqueurs ont été mesurés dans un ensemble de 220 patients / tumeurs.

[Remarque: j'ai masqué les données et les ai mises à la disposition du public en téléchargement sous forme de fichier * .csv . Le fichier comporte les colonnes suivantes: «ID», un identifiant unique pour chaque patient; «PS», le score pronostique de chaque patient, 1 indiquant un bon pronostic et 2 indiquant un mauvais pronostic; "M1" à "m12", niveaux de chaque marqueur tumoral; «Temps», en mois; et "événement", où 0 indique que l'observation est censurée et 1 indique que l'échec du traitement s'est produit.]

Des modèles de régression de Cox univariables avec le temps jusqu'au décès comme variable dépendante ont été construits pour chacun des 12 biomarqueurs (n = 220 observations, nombre d'événements = 91).

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

En utilisant une valeur de seuil p de 0,05 / 12 = 0,004, aucun des résultats n'était significatif.

Analyses multivariées

Il a été décidé d'adapter un modèle aux données en saisissant les 12 biomarqueurs à la fois dans un algorithme de régression de Cox pas à pas en utilisant une validation croisée décuplée. Après avoir construit dix modèles sur les dix ensembles d'entraînement différents, des courbes ROC dépendant du temps ont été construites pour permettre la sélection de points de coupure optimaux pour identifier deux groupes de patients, à risque «élevé» et «faible». Des points de coupure minimisant «1 - TP + FP» ont été sélectionnés. Ces dix modèles ont ensuite été invités à faire des prédictions sur les patients correspondants dans les groupes de validation. Ces patients ont ensuite été classés en groupes à risque «élevé» et «faible» et tracés sur une seule courbe de Kaplan Meier validée de façon croisée.

Conclusions

Les intervalles de confiance des courbes de risque élevé et faible se chevauchaient significativement, suggérant que les biomarqueurs identifiés n'étaient pas des marqueurs pronostiques utiles. Notre étude n'a donc identifié aucune association univariée ou multivariée significative entre ces marqueurs et le pronostic du patient.

Questions pour la communauté

Ai-je analysé correctement mes données?

Si vous aviez été le statisticien de cette étude, auriez-vous fait quelque chose de différent?

Avant d'effectuer les analyses de validation, la taille de l'échantillon et les calculs de puissance n'ont pas été effectués pour déterminer le nombre d'échantillons à inclure et la taille de l'effet détectable. Je voudrais effectuer ces analyses maintenant pour guider les futures études. Est-ce que quelqu'un peut me dire comment faire ça?

Ce qui m'intéresse vraiment, c'est de savoir si ces biomarqueurs fournissent des informations prédictives au-delà du score pronostique clinique. D'après ce que je comprends, cela impliquerait de faire trois modèles différents: (1) un modèle avec des covariables cliniques uniquement, (2) un modèle de biomarqueur avec des covariables de biomarqueurs uniquement, et (3) un modèle de biomarqueur / clinique basé sur les deux types de covariables. Jusqu'à présent, j'ai créé les modèles 1 (non illustré ci-dessus; il n'a pas pu non plus faire la différence entre les patients à haut et à faible risque dans notre échantillon) et 2 (montré ci-dessus). Parce que 1 et 2 n'étaient pas significatifs, je n'ai pas fait de modèle 3. Dois-je le faire de toute façon?

Tout commentaire supplémentaire sur les préoccupations analytiques serait grandement apprécié! N'hésitez pas à télécharger les données masquées et à regarder vous-même.

Alexandre
la source

Réponses:

5

Vous avez bien décrit le problème et l'avez bien réglé de plusieurs façons. Je n'étais pas clair sur la définition de «score pronostique», mais il est très peu probable qu'un score à 2 niveaux soit cliniquement utile. Il est important d'ajuster pour toutes les variables cliniques disponibles pertinentes, sur la base de l'avis d'experts lors de leur choix. Voici quelques opportunités d'amélioration:

  1. La validation croisée 10 fois est instable et doit être répétée 100 fois pour obtenir une précision adéquate (ou utilisez le bootstrap d'optimisme Efron-Gong avec 400 rééchantillons; les deux sont disponibles dans le rmspackage R )
  2. La division du signal en "bons" et "mauvais" entraînés par les courbes ROC est une technique populaire mais n'était basée sur aucun bon principe statistique. Tout biomarqueur digne de ce nom devrait avoir une relation dose-réponse, et la division en deux groupes très arbitraires est inutile, trompeuse et perd de l'information et du pouvoir.
  3. Les courbes ROC n'ont absolument rien à offrir dans ce contexte
  4. Le choix des seuils sur les biomarqueurs est un désastre statistique. Entre autres choses, il ne reconnaît pas que mathématiquement, si des points de coupure sont utiles, ils ne peuvent être que sur le fond, et non sur l'extrémité covariable, car le point de coupure pour chaque marqueur dépend de la valeur absolue de toutes les autres valeurs de marqueur pour un patient.
  5. La régression pas à pas sans pénalisation n'est pas fiable. Dans votre configuration, il n'y a aucune raison de ne pas mettre tous les marqueurs dans un modèle et de faire un test de rapport de vraisemblance pour tester la valeur qu'ils ajoutent aux variables cliniques.χ2
  6. Une bonne alternative à 5. est de faire une analyse de redondance ou un regroupement variable des biomarqueurs pour réduire leur nombre avant de les relier au résultat.
  7. Si la taille de votre échantillon était plus grande, vous pourriez autoriser toutes les variables à entrer dans le modèle de manière non linéaire à l'aide de splines de régression. Parfois, permettre à un biomarqueur d'être lisse et non linéaire double sa valeur en forçant la linéarité.
  8. Laissez la vraisemblance logarithmique, qui est une règle de notation optimale (la probabilité pénalisée serait encore meilleure) faire son travail. Ne passez pas de temps sur des règles de notation de précision incorrectes.
  9. Envisagez d'utiliser «l'indice d'adéquation», basé sur la vraisemblance logarithmique, pour décrire l'utilité des biomarqueurs, comme décrit dans mon livre Regression Modeling Strategies .
Frank Harrell
la source