En régression linéaire, nous faisons les hypothèses suivantes
L'une des façons de résoudre la régression linéaire consiste à utiliser des équations normales, que nous pouvons écrire sous la forme
D'un point de vue mathématique, l'équation ci-dessus n'a besoin que de pour être inversible. Alors, pourquoi avons-nous besoin de ces hypothèses? J'ai demandé à quelques collègues et ils ont mentionné que c'est pour obtenir de bons résultats et que les équations normales sont un algorithme pour y parvenir. Mais dans ce cas, comment ces hypothèses aident-elles? Comment leur maintien aide-t-il à obtenir un meilleur modèle?
regression
assumptions
Horloge esclave
la source
la source
Réponses:
la source
la source
Vous n'avez pas besoin de ces hypothèses pour s'adapter à un modèle linéaire. Cependant, vos estimations de paramètres peuvent être biaisées ou ne pas avoir la variance minimale. La violation des hypothèses rendra plus difficile l'interprétation des résultats de la régression, par exemple, la construction d'un intervalle de confiance.
la source
D'accord, jusqu'à présent, les réponses sont les suivantes: si nous violons les hypothèses, de mauvaises choses peuvent se produire. Je crois que la direction intéressante est: lorsque toutes les hypothèses dont nous avons besoin (en fait un peu différentes de celles ci-dessus) sont remplies, pourquoi et comment pouvons-nous être sûrs que la régression linéaire est le meilleur modèle?
la source
Les deux hypothèses clés sont
Voir La discussion dans le livre de Julian Faraway .
Si ces deux éléments sont vrais, OLS est étonnamment résistant aux violations des autres hypothèses que vous avez répertoriées.
la source