Test d'indépendance vs test d'homogénéité

J'enseigne un cours de statistiques de base et aujourd'hui je couvrirai le test d'indépendance du chi carré pour deux catégories et le test d'homogénéité. Ces deux scénarios sont conceptuellement différents, mais peuvent utiliser la même statistique de test et la même distribution. Dans un test d'homogénéité, les totaux marginaux pour l'une des catégories sont supposés faire partie du plan lui-même - ils représentent le nombre de sujets sélectionnés pour chaque groupe expérimental. Mais comme le test du chi carré tourne autour du conditionnement sur tous les totaux marginaux, il n'y a aucune conséquence mathématique à faire la distinction entre les tests d'homogénéité et les tests d'indépendance avec des données catégorielles - du moins aucun lorsque ce test est utilisé.

Ma question est la suivante: existe-t-il une école de pensée statistique ou une approche statistique qui produirait des analyses différentes, selon que nous testons l'indépendance (où tous les marginaux sont des variables aléatoires) ou un test d'homogénéité (où un ensemble de marginaux sont fixé par la conception)?

Dans le cas continu, disons où nous observons sur le même sujet et testons l'indépendance, ou observons dans différentes populations et testons si elles proviennent de la même distribution, la méthode est différente (corrélation analyse vs test t). Et si les données catégorielles provenaient de variables continues discrétisées? Les tests d'indépendance et d'homogénéité doivent-ils être indiscernables? $(X,Y)$ $(X_1, X_2)$

chi-squared independence heteroscedasticity teaching Placidia
la source

Pouvez-vous fournir une source qui distingue "test d'homogénéité" et "test d'indépendance"? J'ai l'habitude de penser que c'est la même chose (et Wikipédia aussi). Il est également appelé test d'association du khi carré pour la table de contigence à 2 voies ou test de comparaison du khi carré des échantillons indépendants de K. Il convient de ne pas confondre avec un échantillon test de chi-carré également connu sous le nom chi carré essai d' un accord . Dans ce document, nous testons les fréquences observées par rapport aux fréquences théoriques attendues que nous fournissons.

ttnphns

@ttnphns Il semble être endémique. J'utilise "Expect the Unxpected" de Raluca Balan et Gilles Lamothe. L'année dernière, j'ai enseigné dans Business Statistics de Sharpe, De Veaux et al. Les deux textes font tout à fait un repas de la distinction. Dans les deux cas, nous avons un tableau de contingence bidirectionnel. Inutile de dire qu'aucun des deux manuels ne pense qu'il vaut la peine d'enseigner une taille d'effet pour la table de contingence: un autre cas où la subtilité triomphe de l'utilité dans les cours de statistiques de base.

Placidia

La différence devrait apparaître si vous avez essayé d'obtenir un intervalle de confiance pour la taille de l'effet.

Ray Koopman

Cela semble intrigant. Cela vous dérange d'ajouter des détails et d'en faire une réponse?

Placidia

Cela dépend si vous voulez torturer les étudiants par la distinction des marges conditionnelles / inconditionnelles. Sinon , vous pourriez juste se concentrer sur expliquant que « l' indépendance des deux variables » est équivalent à « l' homogénéité des distributions conditionnelles » et présenter le seul

-test. (Je le présente généralement avec des limites de confiance inférieures pour le vrai

de Cramer qui mesure la force de l'association.)

χ^{2}

$\chi^2$

V

$V$

Michael M

Réponses:

$2 \times k$ $k$ $k-1$ $\theta_i, i = 1, 2, \ldots, k-1$

Sous l'indépendance comme avec l'homogénéité, vous supposez que tous les rapports de cotes sont 1. C'est-à-dire que la probabilité de répondre «oui» à la condition est également probable indépendamment de l'affectation du groupe. Si ces hypothèses échouent, au moins un groupe est différent.

$\mathcal{H}_0(\mbox{homogeneity}): \sum_{i=1}^{k-1} |\theta_i| = 0$

$\mathcal{H}_0(\mbox{independence}): \sum_{i=1}^{k-1} |\theta_i| = 0$

$k-1$

Cependant, des différences apparaissent lorsque nous considérons la nature du facteur de regroupement. En ce sens, l'application contextuelle du test, ou plutôt de son nom, est importante. Un groupe peut être directement causal d'un résultat, comme la présence ou l'absence d'un gène ou des modèles allèles d'un trait, auquel cas, lorsque nous rejetons le nul, nous concluons que le résultat dépend du facteur de regroupement en question.

D'un autre côté, lorsque nous testons l'homogénéité, nous nous exonérons de toute hypothèse causale. Ainsi, lorsque le «groupe» est une construction sophistiquée comme la race (qui cause et est causée par des déterminants génétiques, comportementaux et socioéconomiques), nous pouvons tirer des conclusions comme «les minorités raciales et ethniques connaissent des disparités en matière de logement, comme en témoigne l'hétérogénéité de l'indice de défavorisation du quartier» . Si quelqu'un a contré un tel argument en disant: «Eh bien, c'est parce que les minorités obtiennent une éducation inférieure, gagnent un revenu inférieur et gagnent moins d'emplois», vous pourriez dire: «Je n'ai pas prétendu que leur race avait causé ces choses, simplement que si vous regardez à sa course, vous pouvez faire des prédictions sur leur condition de vie. "

De cette façon, les tests de dépendance sont un cas particulier des tests d'homogénéité où l'effet possible des facteurs cachés est intéressant et devrait être traité dans une analyse stratifiée. L'utilisation d'un ajustement multivarié dans le modèle de régression logistique analogue permet d'atteindre un tel objectif, et nous pouvons encore dire que nous menons un test de dépendance, mais pas nécessairement d'homogénéité.

AdamO
la source

Il y a une nette différence entre les deux problèmes si vous les modélisez à la manière bayésienne. Dans certains articles, le premier cas (homogénéité) est appelé échantillonnage avec "une marge fixée" et le deuxième cas (indépendance) comme "tableau total fixe". Jetez un œil, par exemple, à Casella et al. (JASA 2009) .
Je travaille sur ce sujet mais mon article - qui décrit également cette distinction - n'est pas encore sorti :)

Emanuele
la source

Il y a aussi une différence claire d'un point de vue fréquentiste - c'est juste qu'asymptotiquement cela n'a pas d'importance, et des arguments sont souvent faits pour le conditionnement sur une ou les deux marges dans tous les cas.

Scortchi - Réintégrer Monica