Quelles sont les hypothèses habituelles pour la régression linéaire?
Incluent-ils:
- une relation linéaire entre la variable indépendante et la variable dépendante
- erreurs indépendantes
- distribution normale des erreurs
- homoscédasticité
Y en a-t-il d'autres?
Réponses:
La réponse dépend fortement de la définition que vous donnez complète et habituelle. Supposons que nous modèle de régression linéaire de la manière suivante:
où est le vecteur des variables prédictives, est le paramètre d'intérêt, est la variable de réponse et est la perturbation. Une des estimations possibles de est l'estimation des moindres carrés:xi β yi ui β β^=argminβ∑(yi−xiβ)2=(∑xix′i)−1∑xiyi.
Maintenant, pratiquement tous les manuels traitent des hypothèses lorsque cette estimation a des propriétés souhaitables, telles que non-biais, cohérence, efficacité, certaines propriétés de distribution, etc.β^
Chacune de ces propriétés nécessite certaines hypothèses, qui ne sont pas les mêmes. La meilleure question serait donc de demander quelles hypothèses sont nécessaires pour les propriétés recherchées de l'estimation LS.
Les propriétés que je mentionne ci-dessus nécessitent un modèle de probabilité pour la régression. Et nous avons ici la situation où différents modèles sont utilisés dans différents domaines appliqués.
Le cas simple consiste à traiter comme une variable aléatoire indépendante, étant non aléatoire. Je n'aime pas le mot habituel, mais on peut dire que c'est le cas habituel dans la plupart des domaines appliqués (pour autant que je sache).yi xi
Voici la liste de certaines des propriétés souhaitables des estimations statistiques:
Existence
La propriété d'existence peut sembler étrange, mais c'est très important. Dans la définition de nous inversons la matriceβ^ ∑xix′i.
Il n'est pas garanti que l'inverse de cette matrice existe pour toutes les variantes possibles de . Nous obtenons donc immédiatement notre première hypothèse:xi
Matrix devrait être de rang complet, c’est-à-dire inversible.∑xix′i
Impartialité
Nous avons siEβ^=(∑xix′i)−1(∑xiEyi)=β, Eyi=xiβ.
Nous pouvons la numéroter comme la deuxième hypothèse, mais nous l’avons peut-être énoncée clairement, car c’est l’une des façons naturelles de définir une relation linéaire.
Notez que pour obtenir un biais, nous avons seulement besoin de pour tout et sont des constantes. La propriété d'indépendance n'est pas requise.Eyi=xiβ i xi
Cohérence
Pour obtenir les hypothèses de cohérence , nous devons dire plus clairement ce que nous entendons par . Pour les séquences de variables aléatoires, nous avons différents modes de convergence: en probabilité, presque sûrement, en distribution et en sens moment. Supposons que nous voulions obtenir la convergence en probabilité. Nous pouvons utiliser soit la loi des grands nombres, soit directement l’inégalité de Chebyshev à plusieurs variables (en utilisant le fait que ):→ p Eβ^=β
(Cette variante de l'inégalité découle directement de l'application de l'inégalité de Markov à , en notant que .)∥β^−β∥2 E∥β^−β∥2=TrVar(β^)
Puisque la convergence de probabilité signifie que le terme de gauche doit disparaître pour tout comme , nous avons besoin de cela comme . Ceci est parfaitement raisonnable car avec plus de données, la précision avec laquelle nous estimons que le devrait augmenter.ε>0 n→∞ Var(β^)→0 n→∞ β
Nous avons queVar(β^)=(∑xix′i)−1(∑i∑jxix′jCov(yi,yj))(∑xix′i)−1.
L’indépendance garantit que , d’où l’expression simplifiée pourCov(yi,yj)=0 Var(β^)=(∑xix′i)−1(∑ixix′iVar(yi))(∑xix′i)−1.
Supposons maintenant , puisVar(yi)=const Var(β^)=(∑xix′i)−1Var(yi).
Maintenant, si nous exigeons en plus que soit borné pour chaque , nous obtenons immédiatement1n∑xix′i n Var(β)→0 as n→∞.
Donc, pour obtenir la cohérence, nous supposons qu’il n’ya pas d’autocorrélation ( ), la variance est constante et les ne croissent pas trop. La première hypothèse est satisfaite si provient d'échantillons indépendants.Cov(yi,yj)=0 Var(yi) xi yi
Efficacité
Le résultat classique est le théorème de Gauss-Markov . Les conditions pour cela sont exactement les deux premières conditions pour la cohérence et la condition pour la neutralité.
Propriétés de distribution
Si est normal, nous obtenons immédiatement que est normal puisqu'il s'agit d'une combinaison linéaire de variables aléatoires normales. Si nous supposons des hypothèses antérieures d’indépendance, de non corrélation et de variance constante, nous obtenons que où .yi β^ β^∼N(β,σ2(∑xix′i)−1) Var(yi)=σ2
Si n'est pas normal, mais indépendant, nous pouvons obtenir une distribution approximative de grâce au théorème de la limite centrale. Pour cela , nous devons supposer que pour une matrice . La variance constante pour la normalité asymptotique n’est pas nécessaire si nous supposons queyi β^ limn→∞1n∑xix′i→A A limn→∞1n∑xix′iVar(yi)→B.
Notez qu'avec la variance constante de , nous avons que . Le théorème central limite nous donne alors le résultat suivant:y B=σ2A
Nous voyons donc que l'indépendance et la variance constante pour et certaines hypothèses pour nous donnent beaucoup de propriétés utiles pour l'estimation LS .yi xi β^
Le fait est que ces hypothèses peuvent être assouplies. Par exemple, nous avons demandé que ne soient pas des variables aléatoires. Cette hypothèse n'est pas réalisable dans les applications économétriques. Si on laisse être aléatoire, on peut obtenir des résultats similaires si on utilise des attentes conditionnelles et prend en compte le caractère aléatoire de . L'hypothèse d'indépendance peut également être assouplie. Nous avons déjà démontré que, parfois, seule une décorrélation est nécessaire. Même cela peut être encore assoupli et il est encore possible de montrer que l'estimation de la LS sera cohérente et asymptotiquement normale. Voir par exemple le livre de White pour plus de détails.xi xi xi
la source
Il y a un certain nombre de bonnes réponses ici. Il me semble qu’il existe une hypothèse qui n’a toutefois pas été énoncée (du moins pas explicitement). Plus précisément, un modèle de régression suppose que (les valeurs de vos variables explicatives / prédictives) est fixe et connue et que toute l'incertitude de la situation existe dans la variableDe plus, cette incertitude est supposée être une erreur d'échantillonnage seulement.X Y
Voici deux façons de penser à cela: Si vous construisez un modèle explicatif (modélisant des résultats expérimentaux), vous savez exactement quels sont les niveaux des variables indépendantes, car vous les avez manipulés / administrés. De plus, vous avez décidé quels seraient ces niveaux avant de commencer à collecter des données. Vous conceptualisez donc toute l'incertitude de la relation telle qu'elle existe dans la réponse. Par contre, si vous construisez un modèle prédictif, il est vrai que la situation diffère, mais vous traitez toujours les prédicteurs comme s'ils étaient fixes et connus, car, à l'avenir, lorsque vous utilisez le modèle pour faire une prédiction. sur la valeur probable de , vous aurez un vecteur,y x et le modèle est conçu pour traiter ces valeurs comme si elles étaient correctes. C'est-à-dire que vous allez concevoir l'incertitude comme étant la valeur inconnue de . y
Ces hypothèses se retrouvent dans l’équation d’un modèle de régression prototype: Un modèle avec incertitude (peut-être dû à une erreur de mesure) dans pourrait également avoir le même processus de génération de données, mais le modèle Cela devrait ressembler à ceci: où représente une erreur de mesure aléatoire. (Des situations comme celle-ci ont conduit à travailler sur des erreurs dans des modèles de variables ; un résultat fondamental est que s'il existe une erreur de mesure dans , le naïf
Une conséquence pratique de l'asymétrie intrinsèque dans l'hypothèse typique est que la régression de sur est différente de la régression de sur . (Voir ma réponse ici: Quelle est la différence entre une régression linéaire sur y avec x et x avec y? Pour une discussion plus détaillée de ce fait.)y x x y
la source
Les hypothèses du modèle de régression linéaire classique comprennent:
Bien que les réponses ici fournissent déjà un bon aperçu de l'hypothèse classique de la méthode MCO, vous pouvez trouver ici une description plus complète de l'hypothèse du modèle de régression linéaire classique:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
En outre, l'article décrit les conséquences dans le cas où certaines violations sont violées.
la source
Différentes hypothèses peuvent être utilisées pour justifier MLS
Ce qui donne?!
Une réponse est que des ensembles d'hypothèses légèrement différents peuvent être utilisés pour justifier l'utilisation d'une estimation par les moindres carrés ordinaires. OLS est un outil qui ressemble à un marteau: vous pouvez utiliser un marteau sur des clous mais vous pouvez également l'utiliser sur des piquets, pour briser la glace, etc.
Deux grandes catégories d’hypothèses sont celles qui s’appliquent aux petits échantillons et celles qui reposent sur de grands échantillons, de sorte que le théorème de la limite centrale puisse être appliqué.
1. Hypothèses de petit échantillon
Les hypothèses de petit échantillon discutées dans Hayashi (2000) sont les suivantes:
Sous (1) - (4), le théorème de Gauss-Markov s'applique et l'estimateur des moindres carrés ordinaire est le meilleur estimateur linéaire sans biais.
En supposant que les termes d’erreur normaux permettent de tester les hypothèses . Si les termes d'erreur sont conditionnellement normaux, la distribution de l'estimateur MCO est également conditionnellement normale.
Un autre point à noter est qu'avec la normalité, l'estimateur MLS est aussi l' estimateur du maximum de vraisemblance .
2. Hypothèses de grande taille
Ces hypothèses peuvent être modifiées / assouplies si nous avons un échantillon suffisamment grand pour pouvoir nous appuyer sur la loi des grands nombres (pour la cohérence de l'estimateur MLS) et sur le théorème de la limite centrale (afin que la distribution d'échantillonnage de l'estimateur MLS converge vers la distribution normale et nous pouvons faire des tests d'hypothèses, parler de p-values etc ...).
Hayashi est un spécialiste de la macroéconomie et ses hypothèses de grande taille sont formulées en tenant compte du contexte des séries chronologiques:
Vous pouvez rencontrer des versions plus fortes de ces hypothèses, par exemple, que les termes d'erreur sont indépendants.
Les grandes hypothèses d'échantillon appropriées vous conduisent à une distribution d'échantillonnage de l'estimateur MCO asymptotiquement normale.
Références
Hayashi, Fumio, 2000, économétrie
la source
Tout dépend de ce que vous voulez faire avec votre modèle. Imaginez si vos erreurs étaient asymétriques / non normales. Si vous voulez faire un intervalle de prédiction, vous pourriez faire mieux que d'utiliser la distribution t. Si votre variance est plus petite avec des valeurs prédites plus petites, là encore, vous feriez un intervalle de prédiction trop grand.
Il vaut mieux comprendre pourquoi les hypothèses sont là.
la source
Les diagrammes suivants montrent quelles hypothèses sont nécessaires pour obtenir quelles implications dans les scénarios finis et asymptotiques.
Je pense qu'il est important de réfléchir non seulement à ce que sont les hypothèses, mais aussi à leurs implications. Par exemple, si vous vous souciez seulement d'avoir des coefficients non biaisés, vous n'avez pas besoin de l'homoscédasticité.
la source
Ce qui suit sont les hypothèses de l'analyse de régression linéaire.
Spécification correcte . La forme fonctionnelle linéaire est correctement spécifiée.
Exogénéité stricte . Les erreurs dans la régression doivent avoir une moyenne conditionnelle nulle.
Pas de multicolinéarité . Les régresseurs dans X doivent tous être linéairement indépendants.
Homoscédasticité, ce qui signifie que le terme d'erreur a la même variance dans chaque observation.
Pas d'autocorrélation : les erreurs ne sont pas corrélées entre les observations.
Normalité. On suppose parfois en outre que la distribution normale des erreurs est fonction des régresseurs.
Observations de Iid : est indépendant de et a la même distribution que, pour tout .(xi,yi) (xj,yj) i≠j
Pour plus d'informations, visitez cette page .
la source
Il n’existe pas de liste unique d’hypothèses, il y en aura au moins 2: une matrice fixe et une matrice aléatoire. De plus, vous voudrez peut-être examiner les hypothèses pour les régressions de séries temporelles (voir p.13).
Le cas où la matrice de conception est fixée pourrait être le plus courant, et ses hypothèses sont souvent exprimées sous forme de théorème de Gauss-Markov . La conception fixe signifie que vous contrôlez vraiment les régresseurs. Par exemple, vous réalisez une expérience et pouvez définir des paramètres tels que la température, la pression, etc. Voir également p.13 ici .X
Malheureusement, dans les sciences sociales telles que l'économie, il est rarement possible de contrôler les paramètres de l'expérience. Habituellement, vous observez ce qui se passe dans l'économie, enregistrez les mesures de l'environnement, puis régressez-les. Il s’avère qu’il s’agit d’une situation très différente et plus difficile, appelée conception aléatoire . Dans ce cas, le théorème de Gauss-Markov est modifié également voir p.12 ici . Vous pouvez voir comment les conditions sont maintenant exprimées en termes de probabilités conditionnelles , ce qui n’est pas un changement anodin.
En économétrie, les hypothèses ont des noms:
Notez que je n'ai jamais mentionné la normalité. Ce n'est pas une hypothèse standard. Il est souvent utilisé dans les cours de régression d'introduction car il facilite certaines dérivations, mais il n'est pas nécessaire que la régression fonctionne et possède de belles propriétés.
la source
L'hypothèse de linéarité est que le modèle est linéaire dans les paramètres. Il est bon d’avoir un modèle de régression avec des effets quadratiques ou d’ordre supérieur tant que la fonction de puissance de la variable indépendante fait partie d’un modèle linéaire additif. Si le modèle ne contient pas de termes d'ordre supérieur quand il le devrait, le manque d'ajustement apparaîtra dans le graphique des résidus. Cependant, les modèles de régression standard n'incluent pas de modèles dans lesquels la variable indépendante est élevée à la puissance d'un paramètre (bien que d'autres approches puissent être utilisées pour évaluer de tels modèles). Ces modèles contiennent des paramètres non linéaires.
la source
Le coefficient de régression des moindres carrés permet de résumer la tendance du premier ordre dans tout type de données. @mpiktas answer est un traitement approfondi des conditions dans lesquelles les moindres carrés sont de plus en plus optimaux. J'aimerais faire l'inverse et montrer le cas le plus général où les moindres carrés fonctionnent. Voyons la formulation la plus générale de l'équation des moindres carrés:
C'est juste un modèle linéaire pour la moyenne conditionnelle de la réponse.
Notez que j'ai bloqué le terme d'erreur. Si vous souhaitez résumer l'incertitude de , vous devez faire appel au théorème de la limite centrale. La classe la plus générale d'estimateurs des moindres carrés converge vers la normale lorsque la condition de Lindeberg est remplie : pour résumer, la condition de Lindeberg pour les moindres carrés exige que la fraction du plus grand résidu au carré jusqu'à la somme de la somme des résidus au carré soit égale à 0 . Si votre conception continue à échantillonner des résidus de plus en plus grands, l'expérience est "morte dans l'eau".β n→∞
Lorsque la condition de Lindeberg est remplie, le paramètre de régression est bien défini et l'estimateur est un estimateur non biaisé ayant une distribution approximative connue. Des estimateurs plus efficaces peuvent exister. Dans d'autres cas d'hétéroscédasticité, ou de données corrélées, un estimateur pondéré est généralement plus efficace . C'est pourquoi je ne préconiserais jamais l'utilisation de méthodes naïves lorsque de meilleures méthodes sont disponibles. Mais souvent ils ne le sont pas!β β^
la source