J'ai lu que ce sont les conditions d'utilisation du modèle de régression multiple:
- les résidus du modèle sont presque normaux,
- la variabilité des résidus est presque constante
- les résidus sont indépendants, et
- chaque variable est liée linéairement au résultat.
En quoi 1 et 2 sont-ils différents?
Vous pouvez en voir un ici juste:
Ainsi, le graphique ci-dessus indique que le résidu qui est à 2 écart-type est à 10 de Y-hat. Cela signifie que les résidus suivent une distribution normale. Vous ne pouvez pas en déduire 2? Que la variabilité des résidus est presque constante?
Réponses:
1. Distribution normale des résidus :
Ce graphique tente d'illustrer la distribution des points de la population en bleu (avec la ligne de régression de la population sous forme de ligne cyan solide), superposée à un ensemble de données échantillon en gros points jaunes (avec sa ligne de régression estimée tracée en ligne jaune en pointillés). Évidemment, cela ne concerne que la consommation conceptuelle, car il y aurait des points d'infini pour chaque valeur de ) - il s'agit donc d'une discrétisation iconographique graphique du concept de régression comme la distribution continue des valeurs autour d'une moyenne (correspond à la valeur prédite de la variable "indépendante") à chaque valeur donnée du régresseur, ou variable explicative.X= x
Si nous exécutons des tracés de diagnostic R sur les données de "population" simulées, nous obtiendrions ...
La variance des résidus est constante le long de toutes les valeurs deX.
L'intrigue typique serait:
Conceptuellement, l'introduction de plusieurs régresseurs ou variables explicatives ne modifie pas l'idée. Je trouve le didacticiel pratique du package
swirl()
extrêmement utile pour comprendre comment la régression multiple est vraiment un processus de régression des variables dépendantes les unes contre les autres, entraînant la variation résiduelle et inexpliquée du modèle; ou plus simplement, une forme vectorielle de régression linéaire simple :2. La variabilité des résidus est presque constante (homoskédasticité) :
Le problème avec la violation de cette condition est:
Dans ce graphique, la variance augmente avec les valeurs du régresseur (variable explicative), par opposition à rester constante. Dans ce cas, les résidus sont normalement distribués, mais la variance de cette distribution normale change (augmente) avec la variable explicative.
Notez que la "vraie" ligne de régression (population) ne change pas par rapport à la ligne de régression de la population sous homoskédasticité dans le premier graphique (bleu foncé continu), mais il est intuitivement clair que les estimations vont être plus incertaines.
Les tracés de diagnostic sur l'ensemble de données sont ...
ce qui correspond à une distribution "à queue lourde" , ce qui est logique, c'est que nous devions télescoper toutes les parcelles gaussiennes verticales "côte à côte" en une seule, qui conserverait sa forme de cloche, mais aurait de très longues queues.
Les résidus sont fortement asymétriques et la variance augmente avec les valeurs de la variable explicative.
Ce seraient les parcelles de diagnostic ...
correspondant à l'inclinaison droite marquée.
Pour fermer la boucle, nous verrions également une asymétrie dans un modèle homoscédastique avec une distribution non gaussienne des erreurs:
avec des tracés de diagnostic comme ...
la source
Ce n'est pas la faute de l'OP, mais je commence à me lasser de la désinformation de lecture comme celle-ci.
Le «modèle de régression multiple» n'est qu'un libellé déclarant qu'une variable peut être exprimée en fonction d'autres variables.
Ni le vrai terme d'erreur ni les résidus du modèle n'ont besoin de presque rien en particulier - si les résidus semblent normaux, cela est bon pour l'inférence statistique ultérieure .
La variabilité (variance) du terme d'erreur n'a pas besoin d'être presque constante - si ce n'est pas le cas, nous avons un modèle à hétéroscédasticité qui est de nos jours assez facilement manipulé.
Les résidus ne sont en aucun cas indépendants, car chacun est fonction de l'ensemble de l'échantillon. Les vrais termes d'erreur n'ont pas besoin d'être indépendants - s'ils ne le sont pas, nous avons un modèle avec autocorrélation, qui, bien que plus difficile que l'hétéroskédasticité, peut être traité jusqu'à un certain degré.
Il n'est pas nécessaire que chaque variable soit liée linéairement au résultat. En fait, la distinction entre régression "linéaire" et "non linéaire" n'a rien à voir avec la relation entre les variables - mais comment les coefficients inconnus entrent dans la relation.
Ce que l'on pourrait dire, c'est que si les trois premiers sont valides et que le quatrième est correctement énoncé, nous obtenons alors le "modèle de régression linéaire normale classique", qui n'est qu'une (bien qu'historiquement la première) variante des modèles de régression multiple.
la source
Antoni Parellada a eu une réponse parfaite avec une belle illustration graphique.
Je veux juste ajouter un commentaire pour résumer la différence entre deux déclarations
la source
Il n'y a pas un seul ensemble unique d'hypothèses de régression, mais il existe plusieurs variantes. Certains de ces ensembles d'hypothèses sont plus stricts, c'est-à-dire plus étroits, que d'autres. De plus, dans la plupart des cas, vous n'en avez pas besoin et, dans de nombreux cas, vous ne pouvez pas vraiment supposer que la distribution est normale.
Les hypothèses que vous avez citées sont plus strictes que la plupart, mais elles sont formulées dans un langage inutilement vague. Par exemple, qu'est-ce qui est exactement près ? De plus, ce ne sont pas les résidus sur lesquels nous imposons les hypothèses, ce sont les erreurs . Les résidus sont des estimations d'erreurs qui ne sont pas observables. Cela me dit que vous citez d'une mauvaise source. Jetez-le.
La réponse brève à votre question est que si vous considérez une distribution, par exemple la distribution de Student t, pour vos erreurs (je vais utiliser le terme correct dans ma réponse), alors vous pouvez voir comment les erreurs peuvent avoir une variation "presque constante" sans être de la distribution normale, et comment avoir une variance "presque constante" ne nécessite pas une distribution normale. En d'autres termes, non, vous ne pouvez pas concevoir une hypothèse à partir d'une autre sans exigence supplémentaire.
Ainsi, lorsque nous regroupons toutes les hypothèses de cette façon dans une ou deux équations, il peut sembler qu'elles dépendent toutes l'une de l'autre, ce qui n'est pas vrai. Je vais le démontrer ensuite.
Exemple 1
Exemple 2
la source
J'ai essayé d'ajouter une nouvelle dimension à la discussion et de la rendre plus générale. Veuillez m'excuser si c'était trop rudimentaire.
Un modèle de régression est un moyen formel d'exprimer les deux ingrédients essentiels d'une relation statistique:
En postulant que:
Source: Modèles statistiques linéaires appliqués, KNNL
Venir à la question
Les première et deuxième hypothèses que vous avez énoncées sont deux parties de la même hypothèse de normalité avec une moyenne nulle et une variance constante. Je pense que la question devrait être posée comme quelles sont les implications des deux hypothèses pour un modèle de régression d'erreur normal plutôt que la différence entre les deux hypothèses. Je dis cela parce que cela ressemble à comparer des pommes à des oranges parce que vous essayez de trouver une différence entre les hypothèses sur la distribution d'une dispersion de points et les hypothèses sur sa variabilité. La variabilité est une propriété d'une distribution. Je vais donc essayer de répondre à une question plus pertinente des implications des deux hypothèses.
Dans l'hypothèse de normalité, les estimateurs du maximum de vraisemblance (MLE) sont les mêmes que les estimateurs des moindres carrés et les MLE ont la propriété d'être UMVUE, ce qui signifie qu'ils ont une variance minimale entre tous les estimateurs.
la source