J'ai une question que je voudrais poser à la communauté. On m'a récemment demandé de fournir une analyse statistique pour une étude pronostique des marqueurs tumoraux . J'ai principalement utilisé ces deux références pour guider mon analyse:
McShane LM et al. Rapports de recommandations pour les études pronostiques des marqueurs tumoraux (REMARQUE). J Natl Cancer Inst. 17 août 2005; 97 (16): 1180-4.
Simon RM et al. Utiliser la validation croisée pour évaluer la précision prédictive des classificateurs du risque de survie en fonction de données de grande dimension. Bref Bioinform. 2011 mai; 12 (3): 203-14. En ligne du 15 févr.2011.
J'ai résumé l'étude et mes analyses ci-dessous. J'apprécierais tout commentaire, suggestion ou critique.
Contexte de l'étude:
Certains patients atteints de cancer X présentent une rechute précoce après le traitement. Le score pronostique clinique actuellement utilisé par les médecins ne permet pas de bien prédire les résultats cliniques chez ces patients. Il serait donc utile d'identifier des marqueurs pronostiques biologiques qui ajoutent de la valeur au-delà de ce score standard. Le but de cette étude est de découvrir un tel biomarqueur.
Méthodes d'étude:
Présélection des biomarqueurs candidats
Douze biomarqueurs associés au cancer X ont été identifiés dans une étude précédente. Nous avons tenté de valider l'association entre ces 12 candidats et le cancer X dans un échantillon indépendant de patients / tumeurs, décrit ci-dessous.
Validation univariée des biomarqueurs candidats présélectionnés
Les niveaux de ces biomarqueurs ont été mesurés dans un ensemble de 220 patients / tumeurs.
[Remarque: j'ai masqué les données et les ai mises à la disposition du public en téléchargement sous forme de fichier * .csv . Le fichier comporte les colonnes suivantes: «ID», un identifiant unique pour chaque patient; «PS», le score pronostique de chaque patient, 1 indiquant un bon pronostic et 2 indiquant un mauvais pronostic; "M1" à "m12", niveaux de chaque marqueur tumoral; «Temps», en mois; et "événement", où 0 indique que l'observation est censurée et 1 indique que l'échec du traitement s'est produit.]
Des modèles de régression de Cox univariables avec le temps jusqu'au décès comme variable dépendante ont été construits pour chacun des 12 biomarqueurs (n = 220 observations, nombre d'événements = 91).
Risk LCI UCI pValue
1 0.93 0.86 1.02 0.1088
2 0.93 0.88 0.99 0.0215
3 0.99 0.92 1.05 0.6528
4 0.93 0.87 1.00 0.0468
5 0.93 0.88 0.98 0.0055
6 0.97 0.92 1.01 0.1202
7 0.91 0.83 0.99 0.0297
8 0.98 0.90 1.07 0.6972
9 0.99 0.92 1.06 0.7841
10 1.01 0.91 1.11 0.9149
11 0.96 0.87 1.05 0.3837
12 0.90 0.83 0.97 0.0047
En utilisant une valeur de seuil p de 0,05 / 12 = 0,004, aucun des résultats n'était significatif.
Analyses multivariées
Il a été décidé d'adapter un modèle aux données en saisissant les 12 biomarqueurs à la fois dans un algorithme de régression de Cox pas à pas en utilisant une validation croisée décuplée. Après avoir construit dix modèles sur les dix ensembles d'entraînement différents, des courbes ROC dépendant du temps ont été construites pour permettre la sélection de points de coupure optimaux pour identifier deux groupes de patients, à risque «élevé» et «faible». Des points de coupure minimisant «1 - TP + FP» ont été sélectionnés. Ces dix modèles ont ensuite été invités à faire des prédictions sur les patients correspondants dans les groupes de validation. Ces patients ont ensuite été classés en groupes à risque «élevé» et «faible» et tracés sur une seule courbe de Kaplan Meier validée de façon croisée.
Conclusions
Les intervalles de confiance des courbes de risque élevé et faible se chevauchaient significativement, suggérant que les biomarqueurs identifiés n'étaient pas des marqueurs pronostiques utiles. Notre étude n'a donc identifié aucune association univariée ou multivariée significative entre ces marqueurs et le pronostic du patient.
Questions pour la communauté
Ai-je analysé correctement mes données?
Si vous aviez été le statisticien de cette étude, auriez-vous fait quelque chose de différent?
Avant d'effectuer les analyses de validation, la taille de l'échantillon et les calculs de puissance n'ont pas été effectués pour déterminer le nombre d'échantillons à inclure et la taille de l'effet détectable. Je voudrais effectuer ces analyses maintenant pour guider les futures études. Est-ce que quelqu'un peut me dire comment faire ça?
Ce qui m'intéresse vraiment, c'est de savoir si ces biomarqueurs fournissent des informations prédictives au-delà du score pronostique clinique. D'après ce que je comprends, cela impliquerait de faire trois modèles différents: (1) un modèle avec des covariables cliniques uniquement, (2) un modèle de biomarqueur avec des covariables de biomarqueurs uniquement, et (3) un modèle de biomarqueur / clinique basé sur les deux types de covariables. Jusqu'à présent, j'ai créé les modèles 1 (non illustré ci-dessus; il n'a pas pu non plus faire la différence entre les patients à haut et à faible risque dans notre échantillon) et 2 (montré ci-dessus). Parce que 1 et 2 n'étaient pas significatifs, je n'ai pas fait de modèle 3. Dois-je le faire de toute façon?
Tout commentaire supplémentaire sur les préoccupations analytiques serait grandement apprécié! N'hésitez pas à télécharger les données masquées et à regarder vous-même.