Donc, quand je suppose que les termes d'erreur sont normalement distribués dans une régression linéaire, qu'est-ce que cela signifie pour la variable de réponse, ?
regression
distributions
MarkDollar
la source
la source
La réponse courte est que vous ne pouvez rien conclure sur la distribution de , car cela dépend de la distribution des x et de la force et de la forme de la relation. Plus formellement, y aura une distribution de "mélange de normales", qui dans la pratique peut être à peu près n'importe quoi.y x y
Voici deux exemples extrêmes pour illustrer cela:
En fait, puisque chaque distribution peut être approximativement arbitrairement bien avec un mélange de normales, vous pouvez vraiment obtenir n'importe quelle distribution pour .y
la source
Nous inventons le terme d'erreur en imposant un modèle fictif aux données réelles; la distribution du terme d'erreur n'affecte pas la distribution de la réponse.
Nous supposons souvent que l'erreur est distribuée normalement et essayons donc de construire le modèle de telle sorte que nos résidus estimés soient normalement distribués. Cela peut être difficile pour certaines distributions de . Dans ces cas, je suppose que vous pourriez dire que la distribution de la réponse affecte le terme d'erreur.y
la source
Si vous écrivez la réponse comme Où m est le "modèle" (la prédiction pour y ) et e est les "erreurs", alors cela peut être réorganisé pour indiquer y - m = e . Assigner une distribution pour les erreurs revient donc à indiquer les façons dont votre modèle est incomplet. Autrement dit, cela indique dans quelle mesure vous ne savez pas pourquoi la réponse observée était la valeur qu'elle était réellement, et non ce que le modèle avait prédit. Si vous saviez que votre modèle était parfait, vous attribueriez une distribution de probabilité avec toute sa masse à zéro pour les erreurs. Attribution d'un N (
la source