Pourquoi certaines personnes testent des hypothèses de modèle de régression sur leurs données brutes et d'autres les testent sur le résidu?

Je suis doctorant en psychologie expérimentale et je m'efforce d'améliorer mes compétences et mes connaissances sur la façon d'analyser mes données.

Jusqu'à ma 5e année en psychologie, je pensais que les modèles de régression (par exemple, ANOVA) supposaient les choses suivantes:

normalité des données
homogénéité de la variance des données, etc.

Mes cours de premier cycle m'amènent à croire que les hypothèses concernaient les données. Cependant dans ma 5e année, certains de mes instructeurs ont souligné le fait que les hypothèses concernent l'erreur (estimée par les résidus) et non les données brutes.

Récemment, je parlais de la question des hypothèses avec certains de mes collègues qui ont également reconnu qu'ils n'avaient découvert l'importance de vérifier les hypothèses sur le résidu qu'au cours de leurs dernières années universitaires.

Si je comprends bien, les modèles de régression font des hypothèses sur l'erreur. Il est donc logique de vérifier les hypothèses sur les résidus. Si oui, pourquoi certaines personnes vérifient les hypothèses sur les données brutes? Est-ce parce qu'une telle procédure de vérification se rapproche de ce que nous obtiendrions en vérifiant le résidu?

Je serais très intéressé par une discussion sur cette question avec certaines personnes qui ont des connaissances plus précises que mes collègues et moi. Je vous remercie d'avance pour vos réponses.

regression dataset residuals assumptions Psychokwak
la source

Réponses:

En gros, vous êtes sur la bonne voie. Vous trouverez une discussion sur l'aspect de la normalité dans Normalité de la variable dépendante = normalité des résidus?

Certaines hypothèses du modèle linéaire classique concernent en effet des erreurs (en utilisant les résidus comme réalisations de celles-ci):

Sont-ils non corrélés? (Pertinent pour l'inférence et l'optimalité des estimateurs OLS)
Ont-ils une variance égale? (Pertinent pour l'inférence et l'optimalité des estimateurs OLS)
Sont-ils centrés sur 0? (Hypothèse clé pour obtenir des estimateurs et des prédictions sans biais)
Si l'échantillon est très petit: sont-ils normaux ou au moins symétriquement répartis? (Pertinent pour l'inférence)

Les autres conditions concernent les "données brutes":

N'y a-t-il pas de valeurs aberrantes brutes dans les régresseurs? (Des observations à fort effet de levier peuvent détruire tout le modèle)
Pas de multicolinéarité parfaite? (Cela causerait des problèmes de calcul, au moins dans certains logiciels)

Maintenant, votre professeur de premier cycle pourrait également avoir raison:

Peut-être que vous vous concentriez sur des tests univariés comme le test t à un échantillon. Là, les hypothèses concernent les données brutes.
$R^2$
Comment vérifieriez-vous l'homoscédasticité, etc. sur la base de données brutes? Vous l'avez peut-être mal compris.

Michael M
la source

Ok merci beaucoup pour votre réponse et pour le lien qui est très utile. Certains de mes collègues et moi croyions jusqu'à récemment que les données brutes devraient avoir des variances égales. Comme vous l'avez dit, nous avons peut-être raté quelque chose dans nos cours. Dans un livre, nous pouvons lire ce qui suit:

Psychokwak

"Les procédures statistiques les plus courantes font deux hypothèses qui sont pertinentes pour ce sujet: (a) une hypothèse selon laquelle les variables (ou leurs termes d'erreur, plus techniquement) sont normalement distribués, et (b) une hypothèse d'égalité de variance (homoscédasticité ou homogénéité de variance), ce qui signifie que la variance de la variable reste constante sur la plage observée d'une autre variable. " Est-ce à dire que lorsque l'on parle de "variable" il ou elle parle systématiquement de "leurs termes d'erreur"? Si c'est le cas, je suis d'accord, mais sans mention explicite, c'est loin d'être évident (du moins pour moi).

Psychokwak

Enfin, j'ai une dernière question sur vos réponses. Si le test t et l'ANOVA sont des cas particuliers de régression, pourquoi les hypothèses portent sur les données d'un test t à un échantillon? Merci encore pour votre réponse utile.

Psychokwak

Pour répondre à votre dernier commentaire: Le test t à un échantillon peut également être considéré comme un cas particulier de régression. Le modèle se compose simplement de l'ordonnée à l'origine (= moyenne) et du terme d'erreur, c'est-à-dire que la réponse est une erreur décalée. Étant donné que les changements ne sont pas pertinents pour toute hypothèse, cela équivaut à parler de données ou de résidus.

Michael M

Je trouve la différenciation entre les résidus et les données brutes inutile car les deux se réfèrent davantage à votre échantillon réel et non à la distribution sous-jacente de la population. Il vaut mieux considérer que certaines exigences sont des «exigences en groupe» et d'autres «entre les hypothèses de groupe».

Par exemple, l'homénité de la variance est une "hypothèse inter-groupe" car elle dit que la variance intra-groupe est la même pour tous les groupes.

La normalité est une hypothèse "au sein du groupe" qui exige que dans chaque groupe y soit distribué normalement.

Notez qu'avoir une normalité sur l'ensemble de votre y brut signifie généralement que vous n'avez aucun effet - regardez la distribution du sexe sans faire de différence entre les femmes et les hommes. Il ne sera pas distribué normalement, en raison du fort effet de genre. Mais au sein de chaque sexe, cela tient assez bien.

Erik
la source

Merci aussi pour votre réponse. C'est une façon intéressante de voir la question. Je n'avais jamais pensé à la normalité de cette manière (c'est-à-dire "qu'avoir une normalité sur [le] y brut entier signifie généralement que [nous] n'avons aucun effet").

Psychokwak