L'homogénéité de l'échantillon est-elle une hypothèse d'analyse de régression?

8

J'ai supposé (c'est-à-dire je pense qu'on m'a enseigné, il y a plus longtemps que je ne me souviens) que les analyses de régression supposent qu'un échantillon est homogène. Si ce n'est pas le cas, la chose appropriée à faire est soit d'ajouter des variables fictives pour coder les différents groupes inclus dans l'échantillon, soit d'effectuer une ANCOVA pour tester si les paramètres de groupe sont égaux. Ignorer l'hétérogénéité d'un échantillon invalide-t-il une analyse de régression?

TAD
la source

Réponses:

8

L'échantillon est généralement supposé homogène en ce sens que les termes d'erreur ϵje dans l'équation yje=β0+β1X1+β2X2++ϵje satisify les conditions suivantes:

  1. Tous ont une moyenne de zéro: E(ϵje)=0 pour tous je,
  2. Sont non corrélés: Cov(ϵje,ϵj)=0 pour jej,
  3. Tous ont la même variance: Cov(ϵje)=σ2 pour tous je.

Celles-ci sont connues sous le nom de conditions de Gauss-Markov et garantissent que l'estimateur des moindres carrés ordinaires fonctionne bien (biais, meilleur estimateur linéaire sans biais ...).

Notez que ces conditions peuvent être remplies même si vous avez des observations de différents groupes. Souvent, ce n'est cependant pas le cas. S'il y a des différences de moyenne entre les groupes, les première et deuxième conditions sont violées. S'il existe des corrélations au sein des groupes, la deuxième condition est violée. Si les groupes diffèrent dans la variance, le troisième est violé.

La violation des conditions de Gauss-Markov peut provoquer toutes sortes de problèmes. Pour certaines des conséquences de la variance non constante, voir la page Wikipedia sur l'hétéroscédasticité .

Les transformations peuvent être utiles lorsque la troisième condition n'est pas remplie, mais si les différents groupes posent des problèmes avec les conditions un et deux, il semble plus raisonnable d'ajouter une variable fictive de groupe ou d'utiliser ANCOVA.

MånsT
la source
1
+1. S'il y a des différences entre les moyennes de groupe et qu'il est ignoré dans l'ajustement du modèle, alors le modèle s'adaptera à la meilleure approximation (dans le sous-espace qui oblige les groupes à être homogènes) qui a encoreE(ε)=0, ce qui fera effectivement la moyenne des coefficients sur les groupes. Bien sûr, lorsque les moyennes de groupe sont différentes, cet ajustement de modèle n'est pas très utile, sauf si vous essayez de faire des inférences sur une personne sélectionnée au hasard dont vous ne connaissez pas l'appartenance au groupe.
Macro
Je retire ma réponse non pas parce que quelque chose ne va pas, mais plutôt parce que la dernière réponse de MansT la couvre plus complètement, sauf pour la partie sur la modélisation de la fonction de variance telle que décrite dans le livre de Ray Carroll.
Michael R. Chernick