Dans la régression linéaire, chaque valeur prédite est supposée avoir été choisie dans une distribution normale de valeurs possibles. Voir ci-dessous.
Mais pourquoi chaque valeur prédite est-elle supposée provenir d'une distribution normale? Comment la régression linéaire utilise-t-elle cette hypothèse? Que faire si les valeurs possibles ne sont pas normalement distribuées?
Réponses:
La régression linéaire en elle-même n'a pas besoin de l'hypothèse normale (gaussienne), les estimateurs peuvent être calculés (par les moindres carrés linéaires) sans avoir besoin d'une telle hypothèse, et est parfaitement logique sans elle.
Mais ensuite, en tant que statisticiens, nous voulons comprendre certaines des propriétés de cette méthode, des réponses à des questions telles que: les estimateurs des moindres carrés sont-ils optimaux dans un certain sens? ou pouvons-nous faire mieux avec certains estimateurs alternatifs? Ensuite, sous la distribution normale des termes d'erreur, nous pouvons montrer que ces estimateurs sont, en effet, optimaux, par exemple ils sont "sans biais de variance minimale", ou de probabilité maximale. Rien de tel ne peut être prouvé sans l'hypothèse normale.
De plus, si nous voulons construire (et analyser les propriétés des) intervalles de confiance ou des tests d'hypothèse, nous utilisons l'hypothèse normale. Mais, nous pourrions plutôt construire des intervalles de confiance par d'autres moyens, comme le bootstrap. Ensuite, nous n'utilisons pas l'hypothèse normale, mais, hélas, sans cela, il se pourrait que nous devrions utiliser d'autres estimateurs que les moindres carrés, peut-être des estimateurs robustes?
Dans la pratique, bien sûr, la distribution normale est tout au plus une fiction commode. Donc, la question vraiment importante est, à quel point devons-nous être proches de la normalité pour prétendre utiliser les résultats mentionnés ci-dessus? C'est une question beaucoup plus délicate! Les résultats d'optimalité ne sont pas robustes , donc même un très petit écart par rapport à la normalité pourrait détruire l'optimalité. C'est un argument en faveur de méthodes robustes. Pour une autre approche de cette question, voir ma réponse à Pourquoi devrions-nous utiliser des erreurs t au lieu d'erreurs normales?
Une autre question pertinente est la suivante: pourquoi la normalité des résidus est-elle «à peine importante du tout» aux fins de l'estimation de la droite de régression?
Cette réponse a conduit à une grande discussion dans les commentaires, ce qui a conduit à nouveau à ma nouvelle question: régression linéaire: toute distribution non normale donnant l'identité de l'OLS et du MLE? qui a finalement obtenu (trois) réponses, donnant des exemples où des distributions non normales conduisent à des estimateurs des moindres carrés.
la source
Cette discussion Et si les résidus sont normalement distribués, mais y ne l'est pas? a bien répondu à cette question.
En bref, pour un problème de régression, nous supposons seulement que la réponse est normale conditionnée à la valeur de x. Il n'est pas nécessaire que les variables indépendantes ou de réponse soient indépendantes.
la source
Il n'y a pas de raison profonde à cela, et vous êtes libre de modifier les hypothèses de distribution, de passer aux GLM ou à une régression robuste. Le LM (distribution normale) est populaire car il est facile à calculer, assez stable et les résidus sont en pratique souvent plus ou moins normaux.
Comme toute régression, le modèle linéaire (= régression avec erreur normale) recherche les paramètres qui optimisent la probabilité pour l'hypothèse de distribution donnée. Voir ici pour un exemple de calcul explicite de la probabilité d'un modèle linéaire. Si vous prenez la probabilité logarithmique d'un modèle linéaire, elle se révèle être proportionnelle à la somme des carrés, et l'optimisation de celle-ci peut être calculée assez facilement.
Si vous souhaitez adapter un modèle avec différentes distributions, les prochaines étapes du manuel seraient des modèles linéaires généralisés (GLM), qui offrent des distributions différentes, ou des modèles linéaires généraux, qui sont toujours normaux, mais assouplissent l'indépendance. De nombreuses autres options sont possibles. Si vous souhaitez simplement réduire l'effet des valeurs aberrantes, vous pouvez par exemple envisager une régression robuste.
la source
Après avoir revu la question, je pense qu'il n'y a aucune raison d'utiliser la distribution normale à moins que vous ne vouliez effectuer une sorte d'inférence sur le paramètre de régression. Et vous pouvez appliquer une régression linéaire et ignorer la distribution du terme de bruit.
la source
la source