Résidus de Pearson

16

Une question d'un débutant sur le résidu de Pearson dans le contexte du test du khi carré pour la qualité de l'ajustement:

En plus de la statistique de test, la chisq.testfonction de R indique le résidu de Pearson:

(obs - exp) / sqrt(exp)

Je comprends pourquoi regarder la différence brute entre les valeurs observées et attendues n'est pas si informatif, car un échantillon plus petit entraînera une différence plus petite. Cependant, j'aimerais en savoir plus sur l'effet du dénominateur: pourquoi diviser par la racine de la valeur attendue? S'agit-il d'un résidu «standardisé»?

Iain Dillingham
la source
6
Le dénominateur est utilisé pour tenir compte de la variance des résidus bruts, ce qui rend alors les résidus de Pearson approximativement de la variance unitaire (il existe d'autres méthodes pour y parvenir). Veuillez noter qu'il existe un composant stdrespour les résidus normalisés.
chl
@chl Merci pour votre réponse rapide. Cependant, je ne comprends pas le concept de variance dans ce contexte. Connaissez-vous des ressources où je pourrais en savoir plus? Je suppose donc que le résidu d'un Pearson n'est pas «normalisé», étant donné que chisq.testcalcule également la stdrescomposante?
Iain Dillingham
3
La référence définitive à l'analyse des données catégoriques est probablement l'analyse des données catégoriques , par Alan Agresti. Si personne ne fournit une réponse plus détaillée, j'essaierai de convertir mes commentaires en une réponse correcte.
chl
Merci pour le lien, @chl. J'ai accès au livre, alors j'essaierai de le découvrir moi-même.
Iain Dillingham

Réponses:

10

n×m

Xi,j ~ Pois(μi,j)

E(Xi,j)=V(Xi,j)=μi,j

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

Donc, ce que vous voyez dans la formule que vous recherchez, c'est le nombre de cellules standardisé, en supposant que les nombres de cellules ont une distribution de Poisson (inconditionnelle).

À partir de là, il est courant de tester l'indépendance de la variable de ligne et de colonne dans les données, et dans ce cas, vous pouvez utiliser une statistique de test qui examine la somme des carrés des valeurs ci-dessus (ce qui équivaut à la norme au carré) du vecteur de valeurs normalisées). Le test du chi carré fournit une valeur de p pour ce type de test basé sur une approximation à large échantillon de la distribution nulle de la statistique de test. Il est généralement appliqué dans les cas où aucun des comptes de vente n'est trop petit.

Réintégrer Monica
la source
0

Dans le contexte de la qualité de l'ajustement, vous pouvez vous référer à ce http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Si vous voulez savoir comment le dénominateur y est arrivé, vous devrez voir le chi carré ici comme une approximation normale du binôme, pour les débutants, qui peut ensuite être étendu aux multinomiaux.

RyL
la source