Test exact de Fisher avec poids?

12

Quelqu'un connaît-il une variante du test exact de Fisher qui prend en compte les poids? Par exemple, les poids d'échantillonnage .
Ainsi, au lieu du tableau croisé 2x2 habituel, chaque point de données a une valeur de "masse" ou de "taille" pesant le point.

Exemples de données:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

Le test exact de Fisher utilise ensuite ce tableau croisé 2x2:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Si nous prenions le poids comme un nombre «réel» de points de données, cela se traduirait par:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Mais cela se traduirait par une confiance beaucoup trop élevée. Un point de données passant de N / Y à N / N ferait une très grande différence dans les statistiques.
De plus, cela ne fonctionnerait pas si un poids contenait des fractions.

Michel de Ruiter
la source

Réponses:

10

Je soupçonne que les tests «exacts» et les poids d'échantillonnage sont essentiellement des concepts incompatibles. J'ai vérifié dans Stata, qui dispose de bonnes installations pour les enquêtes par sondage et raisonnables pour les tests exacts, et ses 8 statistiques de test possibles pour un tableau croisé avec des poids d'échantillonnage n'incluent aucun test `` exact '' tel que celui de Fisher.

L'entrée manuelle appropriée de Stata (pour svy: tabulate twoway ) conseille d'utiliser son test par défaut dans tous les cas. Cette méthode par défaut est basée sur la statistique chi carré de Pearson habituelle. Citer:

"Pour tenir compte du plan de sondage, la statistique est transformée en une statistique F avec des degrés de liberté non entiers en utilisant une correction de second ordre de Rao et Scott (1981, 1984)".

Réfs:

  • Rao, JNK et AJ Scott. 1981. L'analyse des données catégorielles provenant d'enquêtes par sondage complexes: tests du chi carré pour la qualité de l'ajustement et l'indépendance dans les tableaux à double sens. Journal de l'American Statistical Association 76: 221–230.
  • Rao, JNK et AJ Scott. 1984. Sur les tests du chi carré pour les tables de contingence multivoie avec des proportions de cellules estimées à partir des données d'enquête. Annals of Statistics 12: 46–60.
un arrêt
la source
3

Question interessante. Qu'entendez-vous par poids?

Je serais enclin à faire un bootstrap ... choisissez votre statistique préférée (c'est-à-dire Fisher's Exact) et calculez-la sur vos données. Attribuez ensuite de nouvelles cellules à chaque instance en fonction de votre hypothèse nulle et répétez le processus 999 fois. Cela devrait donner une assez bonne distribution empirique pour votre statistique de test sous l'hypothèse nulle, et permettre un calcul facile de votre valeur de p!

user549
la source
Merci! Mais j'espérais une statistique plus rapide et plus stable à calculer ...
Michel de Ruiter
2

Une chose rapide à propos des poids d'échantillon - ils sont généralement un moyen d'incorporer des informations sur la population à partir de laquelle on échantillonne - mais ils sont généralement basés sur des scénarios de type "grand échantillon" (généralement BLUP ou BLUE prédiction déguisée). J'imagine donc que les poids des échantillons ne feront probablement pas mieux que pas de poids. Ce qui serait mieux, je pense, est d'utiliser directement les informations sur la population sur lesquelles le plan d'échantillonnage a été basé.

R1,,RkkR1;11,R1;12,R1;21,R1;22,l=1kRl;ijRl;ijrl;iji,jRl;ij=Rl(l=1,,k)

P(Dm)=1P(Dm)=0s'ils n'étaient pas dans l'échantillon. Cependant, la conception est généralement basée sur plus d'informations que sur les seules données susceptibles d'être observées. mais notez que ce sont les informations plutôt que le plan d'enquête en soi qui sont importants. L'inférence basée sur la conception est juste un moyen plutôt efficace d'incorporer toutes ces informations dans votre analyse.

probabilitéislogique
la source