Plusieurs sites de ce site discutent de la façon de déterminer si les résidus OLS sont distribués de manière asymptotique normalement. Un autre moyen d'évaluer la normalité des résidus avec le code R est fourni dans cette excellente réponse . Ceci est une autre discussion sur la différence pratique entre les résidus standardisés et observés.
Mais disons que les résidus ne sont définitivement pas distribués normalement, comme dans cet exemple . Nous avons ici plusieurs milliers d'observations et nous devons clairement rejeter l'hypothèse des résidus normalement distribués. Un moyen de résoudre le problème consiste à utiliser une forme d'estimateur robuste, comme expliqué dans la réponse. Cependant, je ne suis pas limité à l'OLS et, dans les faits, j'aimerais comprendre les avantages des autres méthodes, qu'elles soient simples ou non linéaires.
Quel est le moyen le plus efficace de modéliser des données violant l’hypothèse de la normalité MLS des résidus? Ou du moins quelle devrait être la première étape pour développer une méthodologie d'analyse de régression solide?
la source
Réponses:
L'estimation par les moindres carrés ordinaires reste un estimateur raisonnable malgré les erreurs non normales. En particulier, le théorème de Gauss-Markov indique que l'estimation des moindres carrés ordinaires est le meilleur estimateur linéaire sans biais (BLUE) des coefficients de régression ('Best' signifie optimal en termes de minimisation de l' erreur quadratique moyenne ) tant que les erreurs
(1) ont une moyenne nulle
(2) ne sont pas corrélés
(3) ont une variance constante
Notez qu'il n'y a pas de condition de normalité ici (ni même de condition que les erreurs soient IID ).
La condition de normalité entre en jeu lorsque vous essayez d'obtenir des intervalles de confiance et / ou des valeurs . Comme @MichaelChernick le mentionne (+1, btw), vous pouvez utiliser une inférence robuste lorsque les erreurs ne sont pas normales, tant que l'écart par rapport à la normalité peut être traité par la méthode - par exemple, (comme nous l'avons vu dans ce fil), le Huber -estimator peut fournir une inférence robuste lorsque la distribution d'erreur réelle est le mélange entre une distribution normale et une distribution à longue queue (ce qui ressemble à votre exemple), mais peut ne pas être utile pour les autres écarts par rapport à la normalité. Une possibilité intéressante à laquelle Michael fait allusion est d’ amorcer un processus pour obtenir des intervalles de confiance pour les estimations de MCO et de voir comment cela se compare à l’inférence de Huber.Mp M
Edit: J'entends souvent dire que vous pouvez compter sur le théorème de la limite centrale pour traiter les erreurs non normales - ce n'est pas toujours vrai (je ne parle pas seulement de contre-exemples où le théorème échoue). Dans l' exemple de données réelles auquel le PO fait référence, nous avons un grand échantillon, mais nous pouvons constater une distribution d'erreur à long terme - dans les situations où vous avez des erreurs à longue queue, vous ne pouvez pas forcément compter sur le théorème de la limite centrale. vous obtenez une inférence approximativement non biaisée pour des tailles d'échantillon finies réalistes. Par exemple, si les erreurs suivent une distribution avec degrés de liberté (ce qui n’est pas clairement plus2.01t 2.01 les estimations de coefficients sont asymptotiquement normalement distribuées, mais il faut beaucoup plus de temps pour "démarrer" que pour les autres distributions à plus courte queue.
Ci-dessous, je démontre avec une simulation bruteyi=1+2xi+εi εi∼t2.01 β^1 n = 4000
R
que lorsque , où , la distribution d'échantillonnage de est toujours assez long même lorsque la taille de l'échantillon est :ε i ~ t 2,01 β 1 n = 4000la source
Je pense que vous voulez examiner toutes les propriétés des résidus.
Si la valeur est égale à 1 et que cela est dû à un trait lourd ou à une asymétrie due à une queue lourde, une régression robuste pourrait être une bonne approche ou éventuellement une transformation en normalité. S'il s'agit d'une variance non constante, essayez une transformation stabilisante de la variance ou modélisez la fonction de variance. Si c'est juste 3, cela suggère une forme différente de modèle impliquant cette covariable. Quel que soit le problème, amorcer les vecteurs ou les résultats est toujours une option.
la source
rms
package R. Mais comme vous l’avez suggéré, trouver une transformation qui améliore la stabilité de la variance et, parfois, l’amélioration de la normalité des résidus présente souvent plusieurs avantages, même si nous procédons par bootstrap. Les estimations des moindres carrés utilisant la "mauvaise" transformation peuvent s'avérer très inefficaces et conduire à de grandes erreurs moyennes absolues et absolues dans les prédictions. J'aime aussi utiliser des modèles de régression semiparamétriques.Mon expérience est complètement en accord avec Michael Chernick. Non seulement l’application d’une transformation de données rend parfois l’erreur de modélisation normalement distribuée, mais elle permet également de corriger l’hétéroscédasticité.
Désolé, mais suggérer le contraire, comme rassembler une quantité insensée de données ou utiliser des méthodes de régression robustes moins efficaces, est malavisé, à mon avis, de pratiquer cette science / cet art.
la source
Macro (ci-dessus) a donné la bonne réponse. Juste un peu de précision parce que j'avais la même question
La condition de normalité des résidus est utile lorsque les résidus sont également homoscédastiques. Le résultat est alors que MCO a la plus petite variance entre tous les estimateurs (linéaire OU non linéaire).
Les hypothèses de MCO élargies:
Si 1-5 est vérifié, alors MLS a la plus petite variance entre tous les estimateurs (linéaire ou non linéaire) .
Si seulement 1 à 4 sont vérifiés, alors, selon Gauss-Markov, MCO est le meilleur estimateur linéaire (uniquement!) (BLUE).
Source: Stock et Watson, Econometrics + mon cours (EPFL, Econometrics)
la source
Pour des conditions non normales, on aurait parfois recours à une régression robuste , notamment à l'aide des liens vers les méthodes .
Afin de présenter le contexte de la non-normalité, il peut être utile de revoir les hypothèses de régression linéaire MCO , à savoir:
La relation statistique entre les termes d'erreur et les variables explicatives joue un rôle important pour déterminer si une procédure d'estimation a des propriétés d'échantillonnage souhaitables, telles que l'absence de biais et la cohérence.
La disposition ou la distribution de probabilité des variables prédictives x a une influence majeure sur la précision des estimations de β. L'échantillonnage et la conception des expériences sont des sous-champs de statistiques très développés qui fournissent des indications pour la collecte de données de manière à obtenir une estimation précise de β.
Il est arbitraire d'invoquer la distribution de Cauchy en ce qui concerne les résidus, en ce sens que, lorsque les erreurs génératrices sont distribuées par Cauchy, les résidus OLS d'une ligne parasite traversant les données seraient encore moins fiables, c'est-à-dire restants. Dans ces cas, on peut utiliser la régression de Theil-Sen . Theil-Sen est certainement plus robuste que l'OLS pour les résidus non normaux. Par exemple, l'erreur distribuée de Cauchy ne dégraderait pas les intervalles de confiance. Contrairement à l'OLS, la régression est également à deux variables, mais elle est toujours biaisée dans le cas à deux variables. La régression de Passage-Bablok peut être non biaisée à deux variables, mais ne s'applique pas aux pentes de régression négatives. Il est le plus couramment utilisé pour les études de comparaison de méthodes. Il faut mentionner la régression de DemingIci, contrairement aux régressions de Theil-Sen et de Passing-Bablok, il s’agit d’une solution réelle au problème à deux variables, mais elle n’a pas la robustesse de ces autres régressions. La robustesse peut être accrue en tronquant les données pour inclure les valeurs les plus centrales, par exemple, le RANSAC ( random sample consensus ) est une méthode itérative permettant d’estimer les paramètres d’un modèle mathématique à partir d’un ensemble de données observées contenant des valeurs éloignées.
la source