Quels sont les avantages et les inconvénients de l'utilisation du logrank par rapport à la méthode de Mantel-Haenszel pour calculer le Hazard Ratio dans l'analyse de survie?

17

Une façon de résumer la comparaison de deux courbes de survie est de calculer le rapport de risque (HR). Il existe (au moins) deux méthodes pour calculer cette valeur.

  • Méthode Logrank. Dans le cadre des calculs de Kaplan-Meier, calculer le nombre d'événements observés (décès, généralement) dans chaque groupe ( Oa et Ob ) et le nombre d'événements attendus en supposant une hypothèse nulle de différence de survie ( Ea et ). Le rapport de risque est alors: Eb
    HR=(Oa/Ea)(Ob/Eb)
  • Méthode Mantel-Haenszel. Calculez d'abord V, qui est la somme des variances hypergéométriques à chaque instant. Ensuite, calculez le rapport de risque comme: J'ai obtenu ces deux équations du chapitre 3 de Machin, Cheung et Parmar, Survival Analysis . Ce livre déclare que les deux méthodes donnent généralement des méthodes très similaires, et en fait c'est le cas avec l'exemple du livre.
    HR=exp((OaEa)V)

Quelqu'un m'a envoyé un exemple où les deux méthodes diffèrent d'un facteur trois. Dans cet exemple particulier, il est évident que l'estimation du logrank est raisonnable, et l'estimation de Mantel-Haenszel est loin. Ma question est de savoir si quelqu'un a des conseils généraux pour savoir quand il est préférable de choisir l'estimation du logrank du rapport de risque, et quand il est préférable de choisir l'estimation de Mantel-Haenszel? Cela a-t-il à voir avec la taille de l'échantillon? Nombre de liens? Ratio de la taille des échantillons?

Harvey Motulsky
la source
Comment ces estimations sont-elles liées à celle donnée par la régression de Cox? Ça doit être l'étalon-or pour estimer les RH.
Aniko
Le modèle de Cox incorpore des covariables. Les méthodes de Kaplan-Meier, Nelson-Aalen, Mantel-Haenszel modélisent le risque en fonction uniquement de l'âge.
shabbychef
@shabbychef: avec Cox PH, utilisez une seule covariable binaire, c'est-à-dire codée 0/1 pour les groupes de référence / comparaison, puis exp (beta) = HR.
ars
Le log-rank est un test plus puissant que Cox PH lorsque l'hypothèse des risques proportionnels est satisfaite. Ainsi, avec une seule covariable à 2 niveaux, un test de log-rank ou de Mantel-Haenszel est préférable.
Thylacoleo
voir la réponse ci-dessous ...
Thylacoleo

Réponses:

11

Je pense que j'ai trouvé la réponse (à ma propre question). Si l'hypothèse de risques proportionnels est vraie, les deux méthodes donnent des estimations similaires du rapport de risques. L'écart que j'ai trouvé dans un exemple particulier, je pense maintenant, est dû au fait que cette hypothèse est douteuse.

Si l'hypothèse de risques proportionnels est vraie, alors un graphique de log (temps) par rapport à log (-log (St)) (où St est la survie proportionnelle au temps t) devrait montrer deux lignes parallèles. Voici le graphique créé à partir de l'ensemble de données de problème. Cela semble loin d'être linéaire. Si l'hypothèse de risques proportionnels n'est pas valide, le concept de rapport de risque n'a pas de sens, et peu importe la méthode utilisée pour calculer le rapport de risque.

texte alternatif

Je me demande si l'écart entre les estimations du logrank et de Mantel-Haenszel du rapport de risque peut être utilisé comme méthode pour tester l'hypothèse de risques proportionnels?

Harvey Motulsky
la source
7

Si je ne me trompe pas, l'estimateur de log-rank auquel vous faites référence est également connu sous le nom d'estimateur de Pike. Je crois qu'il est généralement recommandé pour HR <3 car il présente moins de biais dans cette plage. Le document suivant peut être intéressant (notez que le document y fait référence comme O / E):

[...] La méthode O / E est biaisée mais, dans la plage de valeurs du rapport des taux de risque d'intérêt dans les essais cliniques, elle est plus efficace en termes d'erreur quadratique moyenne que la LMC ou Mantel-Haenszel méthode pour tous les essais sauf les plus importants. La méthode de Mantel-Haenszel est biaisée de façon minimale, donne des réponses très proches de celles obtenues en utilisant la LMC et peut être utilisée pour fournir des intervalles de confiance approximatifs satisfaisants.

ars
la source
Après avoir jeté un bref coup d'œil à ce document, je ne suis pas sûr que les estimations qu'ils considèrent sont les mêmes que celles des équations du questionneur. Je suis d'accord avec les commentaires sous la question - peut-être qu'en 1981 des méthodes approximatives étaient utiles mais de nos jours il n'y a aucune raison évidente de ne pas utiliser la régression de Cox.
onestop
@onestop: hmm, pensez à la définition de O / E == LR avec le journal oublié ci-dessus? Je suis d'accord avec ce que vous dites à propos de Cox PH - ce n'est pas la question à laquelle j'essayais de répondre, mais vos conseils sont meilleurs dans un contexte plus large.
ars
Bernstein et. Al. montrer quelques raisons (petit n, liens) qui rendent les deux méthodes inexactes ou différentes. Mais toutes les divergences qu'ils ont montrées sont minimes. Je ne pense donc pas que quoi que ce soit dans ce document explique la triple différence que j'ai vue qui a suscité cette question. Voir ci-dessous pour la réponse que j'ai trouvée.
Harvey Motulsky
7

Il existe en fait plusieurs autres méthodes et le choix dépend souvent de savoir si vous êtes le plus intéressé par la recherche de différences précoces, de différences ultérieures ou - comme pour le test de log-rank et le test de Mantel-Haenszel - accordez un poids égal à tous les points dans le temps.

Pour la question à portée de main. Le test du log-rank est en fait une forme du test de Mantel-Haenszel appliqué aux données de survie. Le test de Mantel-Haenszel est généralement utilisé pour tester l'indépendance dans les tableaux de contingence stratifiés.

Si nous essayons d'appliquer le test MH aux données de survie, nous pouvons commencer en supposant que les événements à chaque moment de défaillance sont indépendants. Nous stratifions ensuite par temps d'échec. Nous utilisons les méthodes MH pour faire de chaque temps d'échec une strate. Sans surprise, ils donnent souvent le même résultat.

L'exception se produit lorsque plusieurs événements se produisent simultanément - plusieurs décès exactement au même moment. Je ne me souviens pas en quoi le traitement diffère alors. Je pense que le test du log-rank fait la moyenne des ordonnances possibles des temps d'échec liés.

Ainsi, le test de log-rank est le test MH pour les données de survie et peut traiter les liens. Je n'ai jamais utilisé le test MH pour les données de survie.

Thylacoleo
la source
3

Je pensais que je suis tombé sur un site Web et une référence qui traite exactement de cette question:

http://www.graphpad.com/faq/viewfaq.cfm?faq=1226 Commencez par "Les deux méthodes comparées".

Le site fait référence aux articles de Berstein liés (ci-dessus):

http://www.jstor.org/stable/2530564?seq=1

Le site résume bien les résultats de Berstein et al, je vais donc le citer:

Les deux donnent généralement des résultats identiques (ou presque identiques). Mais les résultats peuvent différer lorsque plusieurs sujets meurent en même temps ou lorsque le rapport de risque est loin de 1,0.

Bernsetin et ses collègues ont analysé les données simulées avec les deux méthodes (1). Dans toutes leurs simulations, l'hypothèse de risques proportionnels était vraie. Les deux méthodes ont donné des valeurs très similaires. La méthode du logrank (qu'ils appellent la méthode O / E) rapporte des valeurs qui sont plus proches de 1,0 que le rapport de risque réel, surtout lorsque le rapport de risque est grand ou que la taille de l'échantillon est grande.

Lorsqu'il y a des liens, les deux méthodes sont moins précises. Les méthodes de logrank ont ​​tendance à signaler des ratios de risque encore plus proches de 1,0 (donc le ratio de risque signalé est trop petit lorsque le ratio de risque est supérieur à 1,0, et trop grand lorsque le ratio de risque est inférieur à 1,0). La méthode de Mantel-Haenszel, en revanche, signale des rapports de risque qui sont plus éloignés de 1,0 (donc le rapport de risque rapporté est trop grand lorsque le rapport de risque est supérieur à 1,0, et trop petit lorsque le rapport de risque est inférieur à 1,0).

Ils n'ont pas testé les deux méthodes avec des données simulées lorsque l'hypothèse de risques proportionnels n'est pas vraie. J'ai vu un ensemble de données où les deux estimations de HR étaient très différentes (par un facteur de trois), et l'hypothèse de risques proportionnels était douteuse pour ces données. Il semble que la méthode de Mantel-Haenszel accorde plus de poids aux différences de risque aux derniers moments, tandis que la méthode du logrank donne un poids égal partout (mais je ne l'ai pas exploré en détail). Si vous voyez des valeurs de FC très différentes avec les deux méthodes, demandez-vous si l'hypothèse de risques proportionnels est raisonnable. Si cette hypothèse n'est pas raisonnable, alors bien sûr, le concept entier d'un rapport de risque unique décrivant la courbe entière n'a pas de sens

Le site fait également référence à l'ensemble de données dans lequel "les deux estimations de HR étaient très différentes (par un facteur de trois)", et suggèrent que l'hypothèse de PH est une considération clé.

Puis j'ai pensé: "Qui est l'auteur du site?" Après quelques recherches, j'ai trouvé que c'était Harvey Motulsky. Harvey, j'ai réussi à vous référencer en répondant à votre propre question. Vous êtes devenu l'autorité!

Le «jeu de données problématique» est-il un jeu de données accessible au public?

Thylacoleo
la source
J'ai trouvé la réponse il y a deux jours et je l'ai affichée ici en tant que nouvelle réponse. J'ai également développé et mis à jour la page Web sur graphpad.com que vous avez trouvée. Je viens de modifier à nouveau cette page pour inclure un lien vers un fichier Excel avec les données du problème ( graphpad.com/faq/file/1226.xls ). Je ne pouvais pas faire ça avant d'avoir obtenu la permission du gars qui a généré les données (il veut être anonyme, et les données sont vaguement étiquetées).
Harvey Motulsky