Hypothèses des modèles linéaires et que faire si les résidus ne sont pas normalement distribués

22

Je suis un peu confus quant aux hypothèses de régression linéaire.

Jusqu'à présent, j'ai vérifié si:

  • toutes les variables explicatives étaient corrélées linéairement avec la variable de réponse. (C'était le cas)
  • il y avait une colinéarité entre les variables explicatives. (il y avait peu de colinéarité).
  • les distances Cook des points de données de mon modèle sont inférieures à 1 (c'est le cas, toutes les distances sont inférieures à 0,4, donc pas de points d'influence).
  • les résidus sont normalement distribués. (Cela peut ne pas être le cas)

Mais j'ai ensuite lu ce qui suit:

les violations de la normalité surviennent souvent soit parce que (a) les distributions des variables dépendantes et / ou indépendantes sont elles-mêmes significativement non normales, et / ou (b) l'hypothèse de linéarité est violée.

Question 1 Cela donne l'impression que les variables indépendantes et dépendantes doivent être distribuées normalement, mais pour autant que je sache, ce n'est pas le cas. Ma variable dépendante ainsi que l'une de mes variables indépendantes ne sont pas normalement distribuées. Devraient-ils l'être?

Question 2 Mon tracé QQnormal des résidus ressemble à ceci:

contrôle de normalité des résidus

Cela diffère légèrement d'une distribution normale et shapiro.testrejette également l'hypothèse nulle selon laquelle les résidus proviennent d'une distribution normale:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Les valeurs résiduelles vs ajustées ressemblent à:

résidus vs ajusté

Que puis-je faire si mes résidus ne sont pas normalement distribués? Est-ce à dire que le modèle linéaire est totalement inutile?

Stefan
la source
3
Votre graphique des résidus par rapport à l'ajustement suggère que votre variable dépendante a une borne inférieure. Cela pourrait conduire aux modèles que vous voyez. Cela pourrait vous donner des indications sur d'autres modèles que vous pourriez envisager.
Maarten Buis

Réponses:

25

Tout d'abord, je me procurerais une copie de cet article classique et accessible et le lirais: Anscombe FJ. (1973) Graphes en analyse statistique The American Statistician . 27: 17-21.

Passons à vos questions:

YiY^i ).

Réponse 2: Vous demandez en fait deux hypothèses distinctes de régression des moindres carrés ordinaires (OLS):

  1. YXy=a+bxaybYXYXXYX+X2YX+max(Xθ,0)θYX

  2. Un autre est l'hypothèse de résidus normalement distribués. Parfois, on peut valablement s'en tirer avec des résidus non normaux dans un contexte OLS; voir par exemple Lumley T, Emerson S. (2002) L'importance de l'hypothèse de normalité dans les grands ensembles de données de santé publique . Revue annuelle de santé publique . 23: 151–69. Parfois, on ne peut pas (encore une fois, voir l'article d'Anscombe).

Cependant, je recommanderais de penser aux hypothèses dans OLS non pas tant que les propriétés souhaitées de vos données, mais plutôt comme des points de départ intéressants pour décrire la nature. Après tout, la plupart de ce que nous préoccupons dans le monde est plus intéressant que ordonnée à l' origine et de la pente. La violation créative des hypothèses OLS (avec les méthodes appropriées) nous permet de poser et de répondre à des questions plus intéressantes.y

Alexis
la source
2
Merci! Dans les diapositives de certains cours de statistiques, il est dit que si les hypothèses échouent, vous pouvez essayer de transformer Y ou de transformer les variables explicatives. Quand je transforme le Y en faisant par exemple lm (Y ^ 0.3 ~ + X1 + X2 + ...) alors mes résidus deviennent normalement distribués. Est-ce une chose valable à faire?
Stefan
@Stefan Oui! Transformer une réponse est souvent une bonne chose à faire log, et les simples transformations de puissance sont courantes.
Gregor --reinstate Monica--
Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
@Alexis: Pourquoi ces pages disent-elles que les variables doivent être distribuées normalement? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010
7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY
11

Vos premiers problèmes sont

  • malgré vos assurances, le tracé résiduel montre que la réponse conditionnelle attendue n'est pas linéaire dans les valeurs ajustées; le modèle de la moyenne est erroné.

  • vous n'avez pas de variance constante. Le modèle de la variance est incorrect.

vous ne pouvez même pas évaluer la normalité avec ces problèmes là-bas.

Glen_b -Reinstate Monica
la source
Veuillez expliquer comment vous avez conclu sur la linéarité en examinant les graphiques? Je comprends que l'hypothèse d'homoscédasticité n'est pas satisfaite ici.
Dr Nisha Arora
y^y^=30060<00303060>60), faites votre meilleure estimation d'une ligne droite. Pour moi, les deux du milieu coïncident presque, alors j'ai combiné leurs lignes, donnant quelque chose comme ça
Glen_b -Reinstate Monica
Dans la moitié médiane, presque tous les résidus sont négatifs, dans les parties extérieures presque tous les résidus sont positifs. Ce n'est pas à quoi ressemblent les résidus aléatoires.
Glen_b -Reinstate Monica
Merci, @Glen_b. Après une longue pause, je revisite mes concepts donc je ne pouvais pas visualiser à la première place.
Dr Nisha Arora
Bien qu'il n'y ait pas grand-chose à faire ici, je m'attends à ce que les données d'origine ne soient pas négatives, et soit un modèle linéaire généralisé (peut-être un gamma avec log-link) ou une transformation (probablement une log-transformation) serait un choix plus approprié. .
Glen_b -Reinstate Monica
3

Je ne dirais pas que le modèle linéaire est complètement inutile. Cependant, cela signifie que votre modèle n'explique pas correctement / complètement vos données. Il y a une partie où vous devez décider si le modèle est "assez bon" ou non.

Pour votre première question, je ne pense pas qu'un modèle de régression linéaire suppose que vos variables dépendantes et indépendantes doivent être normales. Cependant, il existe une hypothèse sur la normalité des résidus.

Pour votre deuxième question, vous pouvez considérer deux choses différentes:

  1. Vérifiez différents types de modèles. Un autre modèle pourrait être préférable d'expliquer vos données (par exemple, régression non linéaire, etc.). Il faudrait quand même vérifier que les hypothèses de ce "nouveau modèle" ne sont pas violées.
  2. Vos données peuvent ne pas contenir suffisamment de covariables (variables dépendantes) pour expliquer la réponse (résultat). Dans ce cas, vous ne pouvez rien faire d'autre. Parfois, nous pouvons accepter de vérifier si les résidus suivent une distribution différente (par exemple la distribution t) mais cela ne semble pas être le cas pour vous.

En plus de votre question, je constate que votre QQPlot n'est pas "normalisé". Habituellement, il est plus facile de regarder le graphique lorsque vos résidus sont normalisés, voir stdres .

stdres(lmobject)

J'espère que cela vous aide, peut-être que quelqu'un d'autre expliquera cela mieux que moi.

Julien D.
la source
0

En plus de la réponse précédente, je voudrais ajouter quelques points pour améliorer votre modèle:

  1. Parfois, la non-normalité des résidus indique la présence de valeurs aberrantes. Si tel est le cas, gérez d'abord les valeurs aberrantes.

  2. Peut-être que certaines transformations permettent de résoudre le problème.

  3. De plus, pour gérer la multi-colinéarité, vous pouvez faire référence à https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution

Dr Nisha Arora
la source
-1

Pour votre deuxième question,

Quelque chose qui m'est arrivé dans la pratique était que je suradaptais ma réponse avec de nombreuses variables indépendantes. Dans le modèle surajusté, j'avais des résidus non normaux. Même si, les résultats ont établi qu'il n'y avait pas suffisamment de preuves pour écarter la possibilité que certains coefficients soient nuls (avec des valeurs de p supérieures à 0,2). Donc, dans un deuxième modèle, en écartant les variables après une procédure de sélection en amont, j'ai obtenu des résidus normaux validés graphiquement avec un qqplot et par des tests d'hypotesis avec un test de Shapiro-Wilk. Vérifiez si cela pourrait être votre cas.

Ayar Paco
la source