Je me réfère à ce post qui semble remettre en question l'importance de la distribution normale des résidus, en faisant valoir que cela, ainsi que l'hétéroskédasticité, pourraient potentiellement être évités en utilisant des erreurs standard robustes.
J'ai envisagé diverses transformations - racines, journaux, etc. - et tout se révèle inutile pour résoudre complètement le problème.
Voici un tracé QQ de mes résidus:
Les données
- Variable dépendante: déjà avec transformation logarithmique (corrige les problèmes aberrants et un problème d'asymétrie dans ces données)
- Variables indépendantes: âge de l'entreprise, et un certain nombre de variables binaires (indicateurs) (Plus tard, j'ai quelques chiffres, pour une régression séparée en tant que variables indépendantes)
La iqr
commande (Hamilton) dans Stata ne détermine pas de valeurs aberrantes graves qui excluent la normalité, mais le graphique ci-dessous suggère le contraire, tout comme le test de Shapiro-Wilk.
normal-distribution
stata
least-squares
residuals
assumptions
Cesare Camestre
la source
la source
qenv
package.Réponses:
Vous pouvez ajouter une "saveur de test" à votre graphique en ajoutant des limites de confiance autour d'eux. Dans Stata, je ferais ceci:
la source
qenv
(parssc install qenv
).sd()
. Il est normal (sans jeu de mots) queqenv
l'overall
option prenne très longtemps.qenvnormal
explique que vous devez installerqplot
. Vous devez lire l'aide. Plus important encore, je suppose que vous utilisez une très ancienne version deqplot
. Installer à partir du package gr42_6 de stata-journal.com/software/sj12-1Une chose à garder à l'esprit lors de l'examen de ces graphiques qq est que les queues auront tendance à s'écarter de la ligne même si la distribution sous-jacente est vraiment normale et quelle que soit la taille du N. Cela est sous-entendu dans la réponse de Maarten . En effet, à mesure que N grossit de plus en plus, les queues seront de plus en plus éloignées et les événements de plus en plus rares. Il y aura donc toujours très peu de données dans les queues et elles seront toujours beaucoup plus variables. Si la majeure partie de votre ligne est là où vous vous attendez et que seules les queues dévient, vous pouvez généralement les ignorer.
Une façon que j'utilise pour aider les élèves à apprendre à évaluer leurs parcelles qq pour la normalité est de générer des échantillons aléatoires à partir d'une distribution connue pour être normale et d'examiner ces échantillons. Il y a des exercices où ils génèrent des échantillons de différentes tailles pour voir ce qui se passe lorsque N change et aussi où ils prennent une vraie distribution d'échantillons et la comparent à des échantillons aléatoires de la même taille. Le package TeachingDemos de R a un test de normalité qui utilise un type de technique similaire.
la source
qenv
vous verriez que cette technique de simulation est au cœur de la façon dont les bandes de confiance sont calculées.