Je suis un peu confus quant aux hypothèses de régression linéaire.
Jusqu'à présent, j'ai vérifié si:
- toutes les variables explicatives étaient corrélées linéairement avec la variable de réponse. (C'était le cas)
- il y avait une colinéarité entre les variables explicatives. (il y avait peu de colinéarité).
- les distances Cook des points de données de mon modèle sont inférieures à 1 (c'est le cas, toutes les distances sont inférieures à 0,4, donc pas de points d'influence).
- les résidus sont normalement distribués. (Cela peut ne pas être le cas)
Mais j'ai ensuite lu ce qui suit:
les violations de la normalité surviennent souvent soit parce que (a) les distributions des variables dépendantes et / ou indépendantes sont elles-mêmes significativement non normales, et / ou (b) l'hypothèse de linéarité est violée.
Question 1 Cela donne l'impression que les variables indépendantes et dépendantes doivent être distribuées normalement, mais pour autant que je sache, ce n'est pas le cas. Ma variable dépendante ainsi que l'une de mes variables indépendantes ne sont pas normalement distribuées. Devraient-ils l'être?
Question 2 Mon tracé QQnormal des résidus ressemble à ceci:
Cela diffère légèrement d'une distribution normale et shapiro.test
rejette également l'hypothèse nulle selon laquelle les résidus proviennent d'une distribution normale:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Les valeurs résiduelles vs ajustées ressemblent à:
Que puis-je faire si mes résidus ne sont pas normalement distribués? Est-ce à dire que le modèle linéaire est totalement inutile?
Réponses:
Tout d'abord, je me procurerais une copie de cet article classique et accessible et le lirais: Anscombe FJ. (1973) Graphes en analyse statistique The American Statistician . 27: 17-21.
Passons à vos questions:
Réponse 2: Vous demandez en fait deux hypothèses distinctes de régression des moindres carrés ordinaires (OLS):
Un autre est l'hypothèse de résidus normalement distribués. Parfois, on peut valablement s'en tirer avec des résidus non normaux dans un contexte OLS; voir par exemple Lumley T, Emerson S. (2002) L'importance de l'hypothèse de normalité dans les grands ensembles de données de santé publique . Revue annuelle de santé publique . 23: 151–69. Parfois, on ne peut pas (encore une fois, voir l'article d'Anscombe).
Cependant, je recommanderais de penser aux hypothèses dans OLS non pas tant que les propriétés souhaitées de vos données, mais plutôt comme des points de départ intéressants pour décrire la nature. Après tout, la plupart de ce que nous préoccupons dans le monde est plus intéressant que ordonnée à l' origine et de la pente. La violation créative des hypothèses OLS (avec les méthodes appropriées) nous permet de poser et de répondre à des questions plus intéressantes.y
la source
log
, et les simples transformations de puissance sont courantes.Vos premiers problèmes sont
malgré vos assurances, le tracé résiduel montre que la réponse conditionnelle attendue n'est pas linéaire dans les valeurs ajustées; le modèle de la moyenne est erroné.
vous n'avez pas de variance constante. Le modèle de la variance est incorrect.
vous ne pouvez même pas évaluer la normalité avec ces problèmes là-bas.
la source
Je ne dirais pas que le modèle linéaire est complètement inutile. Cependant, cela signifie que votre modèle n'explique pas correctement / complètement vos données. Il y a une partie où vous devez décider si le modèle est "assez bon" ou non.
Pour votre première question, je ne pense pas qu'un modèle de régression linéaire suppose que vos variables dépendantes et indépendantes doivent être normales. Cependant, il existe une hypothèse sur la normalité des résidus.
Pour votre deuxième question, vous pouvez considérer deux choses différentes:
En plus de votre question, je constate que votre QQPlot n'est pas "normalisé". Habituellement, il est plus facile de regarder le graphique lorsque vos résidus sont normalisés, voir stdres .
J'espère que cela vous aide, peut-être que quelqu'un d'autre expliquera cela mieux que moi.
la source
En plus de la réponse précédente, je voudrais ajouter quelques points pour améliorer votre modèle:
Parfois, la non-normalité des résidus indique la présence de valeurs aberrantes. Si tel est le cas, gérez d'abord les valeurs aberrantes.
Peut-être que certaines transformations permettent de résoudre le problème.
De plus, pour gérer la multi-colinéarité, vous pouvez faire référence à https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution
la source
Pour votre deuxième question,
Quelque chose qui m'est arrivé dans la pratique était que je suradaptais ma réponse avec de nombreuses variables indépendantes. Dans le modèle surajusté, j'avais des résidus non normaux. Même si, les résultats ont établi qu'il n'y avait pas suffisamment de preuves pour écarter la possibilité que certains coefficients soient nuls (avec des valeurs de p supérieures à 0,2). Donc, dans un deuxième modèle, en écartant les variables après une procédure de sélection en amont, j'ai obtenu des résidus normaux validés graphiquement avec un qqplot et par des tests d'hypotesis avec un test de Shapiro-Wilk. Vérifiez si cela pourrait être votre cas.
la source