Pourquoi les rapports de cotes de la formule et du test de Fisher de R diffèrent-ils? Laquelle choisir?

14

Dans l'exemple suivant

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

J'ai calculé le rapport de cotes (# 1) "manuellement", 0,600; puis (# 2) comme l'une des sorties du test exact de Fisher, 0,616.

Pourquoi n'ai-je pas obtenu la même valeur?

Pourquoi existe-t-il plusieurs façons de calculer l'odds-ratio et comment choisir la plus appropriée?

winerd
la source

Réponses:

10

Depuis la page d'aide pour fisher.test():

Notez que l'estimation du maximum de vraisemblance conditionnelle (MLE) plutôt que la MLE inconditionnelle (l'odds ratio de l'échantillon) est utilisée.

zx8754
la source
3

Pour compléter la discussion ici, il est utile de se demander ce qui est exactement conditionné dans cette probabilité "conditionnelle". Le test de Fisher diffère des autres analyses catégoriques en ce qu'il considère que toutes les marges du tableau sont fixes tandis que le modèle de régression logistique (et le test du chi carré Pearson correspondant qui est le test de score du modèle logistique) ne considère qu'une seule marge comme fixe .

Le test de Fisher considère ensuite la distribution hypergéométrique comme un modèle de probabilité pour les dénombrements observés dans chacune des 4 cellules. La distribution hypergéométrique a la particularité que, comme la distribution du rapport de cotes d'origine n'est pas continue, vous obtenez souvent un OR différent comme estimation de la probabilité maximale.

AdamO
la source
2
Je ne pense pas que votre réponse indique clairement comment cette probabilité particulière pourrait survenir. Si vous modélisez le processus de génération de données avec un produit binomial, par exemple, vous obtenez une probabilité différente (& MLE) conditionnelle aux totaux marginaux, de ce que vous obtenez si vous le modélisez avec la distribution hypergéométrique non centrale de Wallenius - la marginale les totaux sont "considérés comme fixes" dans les deux cas.
Scortchi - Réintégrer Monica
1

Pour répondre à votre deuxième question, les biostats ne sont pas mon fort, mais je crois que la raison des statistiques de rapport de cotes multiples est de tenir compte du plan d'échantillonnage et du plan des expériences.

J'ai trouvé trois références ici qui vous permettront de comprendre pourquoi il existe une différence entre le MLE conditionnel et inconditionnel pour le rapport de cotes, ainsi que d'autres types.

  1. Estimation ponctuelle et par intervalle du rapport de cotes commun dans la combinaison de tableaux 2 × 2 avec des marginaux fixes

  2. L'effet du biais sur les estimateurs du risque relatif pour les échantillons appariés et stratifiés

  3. Une étude comparative de l'estimation de vraisemblance maximale conditionnelle d'un rapport de cotes commun

Jon
la source
3
Il serait utile de résumer au moins un peu ce que ces références ont à dire.
Scortchi - Réintégrer Monica
@Scortchi, d'accord. J'ai été occupé par le travail et j'ai seulement eu la chance de lire la première page ou deux de chaque. J'ajouterai un résumé de chacun ce week-end.
Jon
@Jon Si vous le pouviez, il serait utile d'ajouter ce bref résumé
Glen_b -Reinstate Monica
@Jon Je n'ai posé qu'une seule question. C'est bli qui a ajouté une deuxième question 4 ans après avoir posté ma question d'origine. Je n'inverse pas la modification ennuyeuse de bli car vous avez référencé la deuxième question, mais je ne sais plus comment accepter une réponse.
winerd