J'enseigne un cours de statistiques de base et aujourd'hui je couvrirai le test d'indépendance du chi carré pour deux catégories et le test d'homogénéité. Ces deux scénarios sont conceptuellement différents, mais peuvent utiliser la même statistique de test et la même distribution. Dans un test d'homogénéité, les totaux marginaux pour l'une des catégories sont supposés faire partie du plan lui-même - ils représentent le nombre de sujets sélectionnés pour chaque groupe expérimental. Mais comme le test du chi carré tourne autour du conditionnement sur tous les totaux marginaux, il n'y a aucune conséquence mathématique à faire la distinction entre les tests d'homogénéité et les tests d'indépendance avec des données catégorielles - du moins aucun lorsque ce test est utilisé.
Ma question est la suivante: existe-t-il une école de pensée statistique ou une approche statistique qui produirait des analyses différentes, selon que nous testons l'indépendance (où tous les marginaux sont des variables aléatoires) ou un test d'homogénéité (où un ensemble de marginaux sont fixé par la conception)?
Dans le cas continu, disons où nous observons sur le même sujet et testons l'indépendance, ou observons dans différentes populations et testons si elles proviennent de la même distribution, la méthode est différente (corrélation analyse vs test t). Et si les données catégorielles provenaient de variables continues discrétisées? Les tests d'indépendance et d'homogénéité doivent-ils être indiscernables?( X 1 , X 2 )
Réponses:
Sous l'indépendance comme avec l'homogénéité, vous supposez que tous les rapports de cotes sont 1. C'est-à-dire que la probabilité de répondre «oui» à la condition est également probable indépendamment de l'affectation du groupe. Si ces hypothèses échouent, au moins un groupe est différent.
Cependant, des différences apparaissent lorsque nous considérons la nature du facteur de regroupement. En ce sens, l'application contextuelle du test, ou plutôt de son nom, est importante. Un groupe peut être directement causal d'un résultat, comme la présence ou l'absence d'un gène ou des modèles allèles d'un trait, auquel cas, lorsque nous rejetons le nul, nous concluons que le résultat dépend du facteur de regroupement en question.
D'un autre côté, lorsque nous testons l'homogénéité, nous nous exonérons de toute hypothèse causale. Ainsi, lorsque le «groupe» est une construction sophistiquée comme la race (qui cause et est causée par des déterminants génétiques, comportementaux et socioéconomiques), nous pouvons tirer des conclusions comme «les minorités raciales et ethniques connaissent des disparités en matière de logement, comme en témoigne l'hétérogénéité de l'indice de défavorisation du quartier» . Si quelqu'un a contré un tel argument en disant: «Eh bien, c'est parce que les minorités obtiennent une éducation inférieure, gagnent un revenu inférieur et gagnent moins d'emplois», vous pourriez dire: «Je n'ai pas prétendu que leur race avait causé ces choses, simplement que si vous regardez à sa course, vous pouvez faire des prédictions sur leur condition de vie. "
De cette façon, les tests de dépendance sont un cas particulier des tests d'homogénéité où l'effet possible des facteurs cachés est intéressant et devrait être traité dans une analyse stratifiée. L'utilisation d'un ajustement multivarié dans le modèle de régression logistique analogue permet d'atteindre un tel objectif, et nous pouvons encore dire que nous menons un test de dépendance, mais pas nécessairement d'homogénéité.
la source
Il y a une nette différence entre les deux problèmes si vous les modélisez à la manière bayésienne. Dans certains articles, le premier cas (homogénéité) est appelé échantillonnage avec "une marge fixée" et le deuxième cas (indépendance) comme "tableau total fixe". Jetez un œil, par exemple, à Casella et al. (JASA 2009) .
Je travaille sur ce sujet mais mon article - qui décrit également cette distinction - n'est pas encore sorti :)
la source