L'échantillon est généralement supposé homogène en ce sens que les termes d'erreur ϵje dans l'équation yje=β0+β1X1+β2X2+ … +ϵje satisify les conditions suivantes:
- Tous ont une moyenne de zéro: E (ϵje) = 0 pour tous je,
- Sont non corrélés: C o v (ϵje,ϵj) = 0 pour i ≠ j,
- Tous ont la même variance: C o v (ϵje) =σ2 pour tous je.
Celles-ci sont connues sous le nom de conditions de Gauss-Markov et garantissent que l'estimateur des moindres carrés ordinaires fonctionne bien (biais, meilleur estimateur linéaire sans biais ...).
Notez que ces conditions peuvent être remplies même si vous avez des observations de différents groupes. Souvent, ce n'est cependant pas le cas. S'il y a des différences de moyenne entre les groupes, les première et deuxième conditions sont violées. S'il existe des corrélations au sein des groupes, la deuxième condition est violée. Si les groupes diffèrent dans la variance, le troisième est violé.
La violation des conditions de Gauss-Markov peut provoquer toutes sortes de problèmes. Pour certaines des conséquences de la variance non constante, voir la page Wikipedia sur l'hétéroscédasticité .
Les transformations peuvent être utiles lorsque la troisième condition n'est pas remplie, mais si les différents groupes posent des problèmes avec les conditions un et deux, il semble plus raisonnable d'ajouter une variable fictive de groupe ou d'utiliser ANCOVA.