Non-normalité dans les résidus

8

Je me réfère à ce post qui semble remettre en question l'importance de la distribution normale des résidus, en faisant valoir que cela, ainsi que l'hétéroskédasticité, pourraient potentiellement être évités en utilisant des erreurs standard robustes.

J'ai envisagé diverses transformations - racines, journaux, etc. - et tout se révèle inutile pour résoudre complètement le problème.

Voici un tracé QQ de mes résidus:

Tracé de normalité

Les données

  • Variable dépendante: déjà avec transformation logarithmique (corrige les problèmes aberrants et un problème d'asymétrie dans ces données)
  • Variables indépendantes: âge de l'entreprise, et un certain nombre de variables binaires (indicateurs) (Plus tard, j'ai quelques chiffres, pour une régression séparée en tant que variables indépendantes)

La iqrcommande (Hamilton) dans Stata ne détermine pas de valeurs aberrantes graves qui excluent la normalité, mais le graphique ci-dessous suggère le contraire, tout comme le test de Shapiro-Wilk.

Cesare Camestre
la source
4
Je ne serais pas inquiété par un tel graphique, les écarts semblent assez légers. Si vous le souhaitez, vous pouvez ajouter des limites de confiance à ce graphique à l'aide du qenvpackage.
Maarten Buis
4
Je suis d'accord avec @MaartenBuis que vous ne devriez pas trop vous inquiéter en fonction de l'intrigue. Je ne recommanderais pas de me fier à un test formel de normalité (par exemple Shapiro-test) des résidus. Dans les grands échantillons, le test rejettera presque toujours l'hypothèse . Voici une réponse informative de Glen qui répond exactement à la question du test formel de la normalité des résidus.
COOLSerdash
4
Voir aussi ceci et cela . Notez également qu'à mesure que la taille de votre échantillon augmente, vos hypothèses normales deviennent moins critiques. À moins que vous n'ayez beaucoup de prédicteurs, une telle non-normalité légère ne devrait avoir aucune conséquence. Le problème n'est pas seulement que les tests d'hypothèse seront rejetés lorsque les échantillons sont volumineux - ils répondent également à la mauvaise question pour d'autres tailles d'échantillon.
Glen_b -Reinstate Monica
3
le p-la valeur indique que les écarts par rapport à la normalité sont plus importants que ce à quoi on s'attendrait par hasard, cela ne signifie pas que ces écarts sont suffisamment importants pour mettre en danger votre modèle. Sur la base de votre graphique, mon jugement serait que vous allez bien.
Maarten Buis
5
Ce qui compte, c'est l'effet sur votre inférence . La seule forme d'inférence d'un si petit effet serait d'un quelconque impact serait avec un intervalle de prédiction ... et même là, je l'utiliserais probablement avec peu de componction, à moins d'avoir besoin d'un intervalle de prédiction loin dans la queue ( dire 99% ou plus). Des problèmes comme la dépendance et le biais et la spécification erronée du modèle pour la moyenne ou la variance seraient plus préoccupants.
Glen_b -Reinstate Monica

Réponses:

9

Vous pouvez ajouter une "saveur de test" à votre graphique en ajoutant des limites de confiance autour d'eux. Dans Stata, je ferais ceci:

sysuse nlsw88, clear
gen lnw = ln(wage)

reg lnw i.race grade c.ttl_exp##c.ttl_exp union

predict resid if e(sample), resid

qenvnormal resid, mean(0) sd(`e(rmse)') overall reps(20000) gen(lb ub)

qplot resid lb ub, ms(oh none ..) c(. l l)     ///
    lc(gs10 ..) legend(off) ytitle("residual") ///
    trscale(`e(rmse)' * invnormal(@))          ///
    xtitle(Normal quantiles)

entrez la description de l'image ici

Maarten Buis
la source
3
Notez que les utilisateurs de Stata doivent d'abord installer qenv(par ssc install qenv).
Nick Cox
Je vais regarder cela aujourd'hui et voir si je peux obtenir les limites de confiance
Cesare Camestre
Obtenir une erreur: qenvnormal resid, mean (0) se (`e (rmse) ') reps globales (20000) gen (lb ub) - option se () non autorisée
Cesare Camestre
1
correct, il aurait dû l'être sd(). Il est normal (sans jeu de mots) que qenvl' overalloption prenne très longtemps.
Maarten Buis
1
L'aide pour qenvnormalexplique que vous devez installer qplot. Vous devez lire l'aide. Plus important encore, je suppose que vous utilisez une très ancienne version de qplot. Installer à partir du package gr42_6 de stata-journal.com/software/sj12-1
Nick Cox
5

Une chose à garder à l'esprit lors de l'examen de ces graphiques qq est que les queues auront tendance à s'écarter de la ligne même si la distribution sous-jacente est vraiment normale et quelle que soit la taille du N. Cela est sous-entendu dans la réponse de Maarten . En effet, à mesure que N grossit de plus en plus, les queues seront de plus en plus éloignées et les événements de plus en plus rares. Il y aura donc toujours très peu de données dans les queues et elles seront toujours beaucoup plus variables. Si la majeure partie de votre ligne est là où vous vous attendez et que seules les queues dévient, vous pouvez généralement les ignorer.

Une façon que j'utilise pour aider les élèves à apprendre à évaluer leurs parcelles qq pour la normalité est de générer des échantillons aléatoires à partir d'une distribution connue pour être normale et d'examiner ces échantillons. Il y a des exercices où ils génèrent des échantillons de différentes tailles pour voir ce qui se passe lorsque N change et aussi où ils prennent une vraie distribution d'échantillons et la comparent à des échantillons aléatoires de la même taille. Le package TeachingDemos de R a un test de normalité qui utilise un type de technique similaire.

# R example - change the 1000 to whatever N you would like to examine
# run several times
y <- rnorm(1000); qqnorm(y); qqline(y)
John
la source
D'accord, mais c'était l'un des points clés de Maarten dans sa réponse et c'est pourquoi les intervalles sont utilisés pour signaler l'incertitude.
Nick Cox
Suggérez-vous que cette réponse est redondante? Je pense qu'une partie de cela est implicite dans la réponse de Maarten, mais je ne pense pas que ce soit un point clé ou complet. La réponse de Maarten est bonne. Cette réponse est différente mais liée.
John
Ce n'est pas redondant, mais une référence croisée à la réponse de Maarten serait susceptible d'aider les futurs lecteurs.
Nick Cox
Pour être explicite sur le lien entre cela et ma réponse: si vous regardiez sous le capot, qenvvous verriez que cette technique de simulation est au cœur de la façon dont les bandes de confiance sont calculées.
Maarten Buis
1
a ajouté un lien ...
John