Je ne comprends pas vraiment l'hétéroscédasticité. Je voudrais savoir si mon modèle est approprié ou non selon ce tracé.
17
Je ne comprends pas vraiment l'hétéroscédasticité. Je voudrais savoir si mon modèle est approprié ou non selon ce tracé.
Réponses:
Comme l'a commenté @IrishStat, vous devez vérifier vos valeurs observées par rapport à vos erreurs pour voir s'il y a des problèmes de variabilité. J'y reviendrai vers la fin.
Juste pour avoir une idée de ce que nous entendons par hétéroskédasticité: lorsque vous ajustez un modèle linéaire sur une variable vous dites essentiellement que vous faites l'hypothèse que votre y ∼ N ( X β , σ 2 ) ou en termes simples que votre y devrait égaler X β plus quelques erreurs de variance σ 2 . C'est pratiquement votre modèle linéaire y = X β + ϵ , où les erreurs ϵ ∼ N ( 0 , σ 2 )y y∼ N( Xβ, σ2) y Xβ σ2 y= Xβ+ ϵ ϵ ∼ N( 0 , σ2) . OK, cool jusqu'à présent, voyons cela dans le code:
si bien, comment se comporte mon modèle:
ce qui devrait vous donner quelque chose comme ça: ce qui signifie que vos résidus ne semblent pas avoir une tendance évidente basée sur votre index arbitraire (1er graphique - le moins informatif vraiment), semblent ne pas avoir de réelle corrélation entre eux (2ème graphique - assez important et probablement plus important que l'homoscédasticité) et que les valeurs ajustées n'ont pas une tendance évidente à l'échec, c'est-à-dire. vos valeurs ajustées par rapport à vos résidus semblent assez aléatoires. Sur cette base, nous dirions que nous n'avons pas de problèmes d'hétéroskédasticité car nos résidus semblent avoir partout la même variance.
OK, vous voulez une hétéroskédasticité. Étant donné les mêmes hypothèses de linéarité et d'additivité, définissons un autre modèle génératif avec des problèmes d'hétéroskédasticité "évidents". À savoir après certaines valeurs, notre observation sera beaucoup plus bruyante.
où les simples diagrammes de diagnostic du modèle:
devrait donner quelque chose comme: Ici, la première intrigue semble un peu "bizarre"; il semble que nous ayons quelques résidus qui se regroupent en petites magnitudes, mais ce n'est pas toujours un problème ... Le deuxième graphique est OK, signifie que nous n'avons pas de corrélation entre vos résidus dans différents décalages afin que nous puissions respirer un instant. Et le troisième graphique renverse les grains: il est clair que lorsque nous sommes arrivés à des valeurs plus élevées, nos résidus explosent. Nous avons certainement une hétéroskédasticité dans les résidus de ce modèle et nous devons faire quelque chose (par exemple , IRLS , régression de Theil-Sen , etc.)
Ici, le problème était vraiment évident, mais dans d'autres cas, nous aurions pu le manquer; pour réduire nos chances de le manquer, une autre intrigue intéressante a été celle mentionnée par IrishStat: valeurs résiduelles par rapport aux valeurs observées, ou pour notre problème de jouet à portée de main:
ce qui devrait donner quelque chose comme:
Par souci d'équité, votre graphique des valeurs résiduelles par rapport aux valeurs ajustées semble relativement correct. Vérifier vos résidus par rapport à vos valeurs observées serait probablement utile pour vous assurer que vous êtes du bon côté. (Je n'ai pas mentionné les parcelles QQ ou quelque chose comme ça pour ne pas compliquer davantage les choses, mais vous voudrez peut-être aussi les vérifier brièvement.) J'espère que cela vous aidera à comprendre l'hétéroskédasticité et ce que vous devez rechercher.
la source
Votre question semble concerner l'hétéroscédasticité (parce que vous l'avez mentionnée par son nom et ajouté la balise), mais votre question explicite (par exemple, dans le titre et) la fin de votre message est plus générale, "si mon modèle est approprié ou non selon cette terrain". Il ne suffit pas de déterminer si un modèle est inapproprié que d'évaluer l'hétéroscédasticité.
J'ai gratté vos données en utilisant ce site Web (ht @Alexis). Notez que les données sont triées par ordre croissant de
fitted
. Sur la base de la régression et du graphique supérieur gauche, il semble être suffisamment fidèle:Je ne vois aucune preuve d'hétéroscédasticité ici. En haut à droite (qq-plot), il ne semble pas non plus y avoir de problème avec l'hypothèse de normalité.
D'un autre côté, la courbe "S" dans l'ajustement lowess rouge (dans le graphique supérieur gauche), et les graphiques acf et pacf (dans le bas) semblent problématiques. À l'extrême gauche, la plupart des résidus sont au-dessus de la ligne grise 0. Lorsque vous vous déplacez vers la droite, la majeure partie des résidus chute en dessous de 0, puis au-dessus, puis à nouveau en dessous. Le résultat est que si je vous disais que je regardais un résidu particulier et qu'il avait une valeur négative (mais je ne vous ai pas dit lequel je regardais), vous pourriez deviner avec une bonne précision que les résidus à proximité ont également été négativement évalués. En d'autres termes, les résidus ne sont pas indépendants - savoir quelque chose à propos de l'un vous donne des informations sur les autres.
En plus des tracés, cela peut être testé. Une approche simple consiste à utiliser un test d'exécution :
Pour répondre à vos questions explicites: Votre graphique montre des autocorrélations en série / non indépendance de vos résidus. Cela signifie que votre modèle n'est pas approprié dans sa forme actuelle.
la source