Existe-t-il une référence qui légitime l'utilisation du test z non groupé pour comparer deux proportions?

8

Le test z pour comparer deux proportions est . Il est généralement défini quez=p^1p^2Var(p^1p^2)

Var(p^1p^2)=p^(1p^)(1/n1+1/n2),

p^=n1p^1+n2p^2n1+n2.

Y a-t-il une référence écrite qui me légitime à la place d'utiliser la variance non regroupée, c'est-à-dire

Vuner(p^1-p^2)=p^1(1-p^1)n1+p^2(1-p^2)n2?
vitreux
la source

Réponses:

8

Il y a pas mal de discussions à ce sujet sur le site AP .

Vous pouvez utiliser toutes les statistiques que vous voulez, à condition que vous soyez clair sur ce que vous faites et que vous regardiez la distribution nulle appropriée pour calculer les valeurs p ou les seuils.

Mais certaines statistiques sont meilleures que d'autres; dans ce cas, vous recherchez (a) une distribution nulle facilement calculée et (b) une puissance pour détecter la différence.

Mais je ne sais pas pourquoi vous préféreriez la variance non groupée à la variance groupée pour le test, bien qu'elle puisse être préférée dans le calcul d'un intervalle de confiance pour la différence.

Karl
la source
+1 C'est une bonne discussion que vous avez trouvée. Cependant, il semble ne pas vraiment répondre à la question, qui est de savoir si la statistique regroupée pourrait être corrigée pour donner la taille de test souhaitée et - peut-être - donner une plus grande puissance. Pour résoudre ce problème, j'ai fourni une réponse distincte.
whuber
Votre lien ne va pas à une discussion; il va à une page avec le point de vue de Charles Peltier. Je ne sais pas pourquoi c'est la réponse choisie car elle ne répond à rien pour moi. Utilisez n'importe quelle statistique qui n'est pas assez concrète.
Jarad
2
@Jarad Une définition du mot "discussion" est "un traitement détaillé d'un sujet particulier"; c'est ce que je voulais dire. La réponse sélectionnée est choisie par la personne qui pose la question. Par "utilisez la statistique que vous voulez", je faisais référence à la partie "... de la référence qui me légitime ..." de la question.
Karl
9

La variance non regroupée a tendance à être trop petite. En effet, dans l'hypothèse nulle, il y aura toujours une variation aléatoire dans les deux proportions observées, bien que les probabilités sous-jacentes soient égales. Cette variation de chance contribue à la variance regroupée mais pas à la variance non regroupée.

Par conséquent, pour la statistique non regroupée n'a même pas approximativement une distribution normale standard. Par exemple, lorsque et les vrais probabilités sont tous deux , la variance de n'est que de au lieu de . En utilisant des tableaux de la distribution normale standard, vous obtiendrez des valeurs de p incorrectes: elles auront tendance à être artificiellement petites, rejetant trop souvent le nul lorsque les preuves ne sont pas vraiment là.z n1=n21/2z1/21

Néanmoins, on se demande si cela pourrait être corrigé. Ça peut. La question est de savoir si une valeur corrigée de , basée sur des estimations non regroupées, pourrait avoir un pouvoir plus important pour détecter les écarts par rapport à l'hypothèse nulle. Quelques simulations rapides suggèrent que ce n'est pas le cas: le test groupé (par rapport à un test non groupé correctement ajusté) a une meilleure chance de rejeter le null chaque fois que le null est faux. Par conséquent, je n'ai pas pris la peine de trouver la formule de la correction non groupée; cela semble inutile.z

En résumé, le test non groupé est incorrect, mais avec une correction appropriée, il peut être rendu légitime. Cependant, il semble être inférieur au test groupé.

whuber
la source
Vous dites "Par exemple, lorsque et les vrais probabilités sont tous deux 1/2, la variance de z n'est que de 1/2 au lieu de 1." Mais si la variance non regroupée est trop petite, la variance de z devrait être trop grande, et je pense qu'elle ne serait que légèrement trop grande. n1=n2
Karl
Pardonnez-moi mais je ne peux pas suivre votre exemple. Pourquoi la variance de devrait-elle être 1? Quelles valeurs supposez-vous pour et ? zp^1p^2
vitreux
@glassy a (asymptotiquement) variance unitaire par construction : la différence a été normalisée en la divisant par sa variance estimée. zp1^-p1^
whuber
Je ne veux pas vous déranger mais vraiment je ne comprends pas pourquoi si a une variance unitaire par construction, vous dites que sa variance peut être . Il me semble que sa variance est égale à dans un cas et dans l'autre. Désolé, je ne comprends pas comment ces quantités ont un rapport de 2: 1. En effet, dans le cas ce sont les mêmes. z1/2p^(1-p^)2np^1(1-p^1)n+p^2(1-p^2)np^1=p^2
vitreux
Je ne suis pas d'accord du tout. Pourquoi ne pas dire aussi que la construction de l'intervalle de confiance pour la différence entre deux proportions contredit la distribution normale? En effet, d'abord: dans tous les cas, ne peut pas avoir la distribution , car ce n'est pas une moyenne (ou somme ou combinaison linéaire) de variables aléatoires normales. Au contraire, il converge directement vers la distribution normale lorsque diverge (ou et , si vous préférez). Deuxièmement: les estimateurs de variance groupés et non groupés sont à la fois corrects et cohérents. ztnn1n2
2011 vitreux