Régression: pourquoi la normalité de test des résidus d' ensemble, au lieu des résidus conditionnel à

10

Je comprends qu'en régression linéaire, les erreurs sont supposées être normalement distribuées, conditionnellement à la valeur prédite de y. Ensuite, nous considérons les résidus comme une sorte de proxy pour les erreurs.

Il est souvent recommandé de générer une sortie comme ceci: entrez la description de l'image ici. Cependant, je ne comprends pas à quoi sert d'obtenir le résidu pour chaque point de données et de le mélanger ensemble dans un seul tracé.

Je comprends qu'il est peu probable que nous ayons suffisamment de points de données pour évaluer correctement si nous avons des résidus normaux à chaque valeur prédite de y.

Cependant, la question de savoir si nous avons globalement des résidus normaux est-elle distincte, et celle qui n'est pas clairement liée à l'hypothèse du modèle des résidus normaux à chaque valeur prédite de y? Ne pourrions-nous pas avoir des résidus normaux à chaque valeur prédite de y, tout en ayant des résidus globaux qui n'étaient pas tout à fait normaux?

user1205901 - Réintégrer Monica
la source
1
Il peut y avoir un certain mérite au concept - peut-être que le bootstrap pourrait aider ici (pour obtenir la réplication des résidus)
probabilités
2
Pourriez-vous donner une référence pour en régression linéaire les erreurs sont supposées être normalement distribuées, conditionnellement à la valeur prédite de y (si vous en avez)?
Richard Hardy
Je n'avais aucune source particulière à l'esprit lorsque j'ai posté la question, mais qu'en est-il de "l'hypothèse de modélisation est que la variable de réponse est normalement distribuée autour de la droite de régression (qui est une estimation de la moyenne conditionnelle), avec une variance constante" d' ici . Accueillerait davantage de commentaires si je me trompe à ce sujet.
user1205901

Réponses:

17

Ne pourrions-nous pas avoir des résidus normaux à chaque valeur prédite de y, tout en ayant des résidus globaux qui n'étaient pas tout à fait normaux?

Non - du moins, pas dans l'hypothèse standard que la variance des erreurs est constante.

y^

Donc, à partir de cela, nous pouvons former un petit syllogisme. Si les distributions individuelles données les valeurs du prédicteur X sont normales (et leurs variances sont égales), alors la distribution des résidus globaux est normale. Donc, si nous observons que la distribution des résidus globaux n'est apparemment pas normale, cela implique que les distributions données X ne sont pas normales avec une variance égale. Ce qui est une violation des hypothèses standard.

Jake Westfall
la source
1
p(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
Est-il approprié de dire que les marginaux non normaux nous permettent de "rejeter" les conditionnels non normaux, mais que les marginaux normaux ne nous permettent pas "d'accepter" les conditionnels normaux?
shadowtalker
6
p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
Projet de loi
1
ε | XN(0,σ2)εN(0,σ2)
@ssdecontrol De la réponse: " Si les distributions individuelles étant donné les valeurs du prédicteur X sont normales (et leurs variances sont égales), alors la distribution des résidus globaux est normale. " Vous ne savez pas à quel point je pourrais être plus clair?
Jake Westfall
3

Il a été ditque les moindres carrés ordinaires en y (OLS) sont optimaux dans la classe des estimateurs linéaires sans biais lorsque les erreurs sont homoscédastiques et non corrélées en série. En ce qui concerne les résidus homoscédastiques, la variance des résidus est la même indépendamment de l'endroit où nous mesurerions la variation de la magnitude résiduelle sur l'axe des x. Par exemple, supposons que l'erreur de notre mesure augmente proportionnellement pour l'augmentation des valeurs y. Nous pourrions alors prendre le logarithme de ces valeurs y avant d'effectuer une régression. Si cela est fait, la qualité de l'ajustement augmente par rapport à l'ajustement d'un modèle d'erreur proportionnelle sans prendre de logarithme. En général, pour obtenir l'homoscédasticité, nous pouvons être amenés à prendre l'inverse des données de l'axe y ou x, du ou des logarithmes, de la racine carrée ou carrée, ou d'appliquer une exponentielle. Une alternative à cela est d'utiliser une fonction de pondération,(ymodel)2y2(ymodel)2

Cela dit, il arrive fréquemment que le fait de rendre les résidus plus homoscédastiques les rend plus normalement distribués, mais fréquemment, la propriété homoscédastique est plus importante. Ce dernier dépendrait de la raison pour laquelle nous effectuons la régression. Par exemple, si la racine carrée des données est distribuée plus normalement que de prendre le logarithme, mais que l'erreur est de type proportionnel, alors le test t du logarithme sera utile pour détecter une différence entre les populations ou les mesures, mais pour trouver la valeur attendue nous devrions utiliser la racine carrée des données, car seule la racine carrée des données est une distribution symétrique pour laquelle la moyenne, le mode et la médiane devraient être égaux.

De plus, il arrive fréquemment que nous ne voulions pas d'une réponse qui nous donne un moindre prédicteur d'erreur des valeurs de l'axe y, et ces régressions peuvent être fortement biaisées. Par exemple, parfois, nous pourrions vouloir régresser pour la moindre erreur dans x. Ou parfois, nous désirons découvrir la relation entre y et x, qui n'est alors pas un problème de régression de routine. Nous pourrions alors utiliser Theil, c'est-à-dire la pente médiane, la régression, comme compromis le plus simple entre la régression à x et y moins erreur. Ou si nous savons quelle est la variance des mesures répétées pour x et y, nous pourrions utiliser la régression de Deming. La régression est meilleure quand nous avons des valeurs aberrantes, qui font des choses horribles aux résultats de régression ordinaires. Et, pour la régression de pente médiane, peu importe que les résidus soient normalement distribués ou non.

BTW, la normalité des résidus ne nous donne pas nécessairement d'informations utiles sur la régression linéaire.Par exemple, supposons que nous effectuions des mesures répétées de deux mesures indépendantes. Puisque nous avons l'indépendance, la corrélation attendue est nulle et la pente de la droite de régression peut alors être n'importe quel nombre aléatoire sans pente utile. Nous effectuons des mesures répétées pour établir une estimation de l'emplacement, c'est-à-dire la moyenne (ou médiane (distribution de Cauchy ou Bêta avec un pic) ou plus généralement la valeur attendue d'une population), et à partir de cela pour calculer une variance en x et une variance en y, qui peut ensuite être utilisé pour la régression de Deming, ou autre chose. De plus, l'hypothèse selon laquelle la superposition est donc normale à cette même moyenne si la population d'origine est normale ne nous conduit à aucune régression linéaire utile. Pour aller plus loin, Supposons que je fasse ensuite varier les paramètres initiaux et établisse une nouvelle mesure avec différents emplacements de génération de fonctions Monte Carlo x et y et collationne ces données avec la première analyse. Ensuite, les résidus sont normaux dans la direction y à chaque valeur x, mais, dans la direction x, l'histogramme aura deux pics, ce qui ne correspond pas aux hypothèses OLS, et notre pente et notre interception seront biaisées parce qu'une n'a pas de données d'intervalle égal sur l'axe des x. Cependant, la régression des données rassemblées a maintenant une pente et une intersection définies, alors qu'elle ne l'était pas auparavant. De plus, comme nous ne testons réellement que deux points avec un échantillonnage répété, nous ne pouvons pas tester la linéarité. En effet, le coefficient de corrélation ne sera pas une mesure fiable pour la même raison,

Inversement, on suppose parfois en outre que les erreurs ont une distribution normale conditionnée aux régresseurs. Cette hypothèse n'est pas nécessaire pour la validité de la méthode OLS, bien que certaines propriétés supplémentaires d'échantillons finis puissent être établies au cas où elle le ferait (en particulier dans le domaine des tests d'hypothèses), voir ici. Quand l'OLS est-il alors en régression correcte? Si, par exemple, nous prenons des mesures du cours des actions à la clôture tous les jours exactement à la même heure, il n'y a pas de variance sur l'axe t (pensez l'axe x). Cependant, l'heure de la dernière transaction (règlement) serait distribuée de façon aléatoire, et la régression pour découvrir la RELATION entre les variables devrait incorporer les deux variances. Dans ce cas, l'OLS en y ne ferait qu'estimer la moindre erreur de valeur y, ce qui serait un mauvais choix pour extrapoler le prix de négociation pour un règlement, car le temps lui-même de ce règlement doit également être prévu. De plus, une erreur normalement distribuée peut être inférieure à un modèle de tarification gamma .

Qu'importe? Eh bien, certaines actions se négocient plusieurs fois par minute et d'autres ne se négocient pas tous les jours ni même toutes les semaines, et cela peut faire une grande différence numérique. Cela dépend donc des informations que nous désirons. Si nous voulons demander comment le marché se comportera demain à la fermeture, c'est une question de "type" OLS, mais la réponse peut être non linéaire, résiduelle non normale et nécessiter une fonction d'ajustement ayant des coefficients de forme qui correspondent à l'ajustement des dérivées (et / ou des moments supérieurs) pour établir la courbure correcte pour l'extrapolation . (On peut adapter des dérivés ainsi qu'une fonction, par exemple en utilisant des splines cubiques, donc le concept d'accord dérivé ne devrait pas surprendre, même s'il est rarement exploré.) Si nous voulons savoir si nous allons gagner de l'argent ou non sur un stock particulier, nous n'utilisons pas OLS, car le problème est alors bivarié.

Carl
la source
1
Diriez-vous que la normalité est suffisante mais pas nécessaire pour une inférence valide? Pourquoi ne pas simplement tester spécifiquement l'hétéroscédasticité? Une distribution marginale (par exemple) marginale des résidus ne signifie pas nécessairement que l'hypothèse de normalité conditionnelle est fausse, n'est-ce pas? Pourtant, les résidus à queue lourde échoueraient par conception à un test de normalité pour les résidus.
shadowtalker
Pour les tests t, l'homoscédasticité est souvent plus importante. Les valeurs aberrantes font 1,359 SD >> IQR, ce qui réduit la puissance des tests t. Essayez ensuite la reparamétrie ou le test de Wilcoxon, qui fonctionne dans la plupart des cas (peut-être pas lorsque r> 0,9999) quel que soit le type de distribution ou le degré d'hétéroscédasticité. En fait, si l'on teste plusieurs paramètres similaires, Wilcoxon ou t-testing fonctionnera mieux pour trier les probabilités faible et élevée, de sorte que les données elles-mêmes déclarent souvent ce qui est plus utile.
Carl
Faites que 1.349 SD >> IQR. 1,349 est le nombre de SD qu'une distribution normale a pour un intervalle interquartile (IQR). Certaines distributions, comme la distribution de Cauchy, ou le t de Student avec deux degrés de liberté n'ont pas de SD, les valeurs aberrantes tuent cela, mais elles ont des IQR, puis on utilise Wilcoxon ou un autre test non paramétrique comme tests de localisation.
Carl
Après réflexion (voir le nouveau matériel en réponse), la normalité des résidus sur l'axe y est agréable, mais insuffisante.
Carl
Les distributions à queue lourde font des choses horribles aux équations de régression. Par exemple, si l' on examine toutes les pistes possibles dans un ensemble de données, on obtient généralement une distribution de Cauchy des pentes, AKA Student's- t avec un degré de liberté. Pour la distribution de Cauchy, il n'y a pas de moments. Autrement dit, on peut calculer une moyenne et un écart-type et plus on dispose de données, plus cette moyenne et cet écart-type deviendront erratiques. La valeur attendue d'une distribution de Cauchy est la médiane et pour calculer une moyenne, il faudrait censurer les valeurs extrêmes.
Carl