L'hypothèse de linéarité dans la régression linéaire n'est-elle qu'une définition de

10

Je révise la régression linéaire.

Le manuel de Greene déclare:

entrez la description de l'image ici entrez la description de l'image ici

Maintenant, bien sûr, il y aura d'autres hypothèses sur le modèle de régression linéaire, telles que E(ϵ|X)=0 . Cette hypothèse combinée à l'hypothèse de linéarité (qui définit en fait ϵ ), structure le modèle.

Cependant, l'hypothèse de linéarité en soi ne met pas de structure sur notre modèle, car ϵ peut être complètement arbitraire. Pour toutes les variables X,y que ce soit, quelle que soit la relation entre les deux, nous pourrions définir un ϵ tel que l'hypothèse de linéarité soit vraie. Par conséquent, l '"hypothèse" de linéarité devrait vraiment être appelée une définition de ϵ , plutôt qu'une hypothèse.

Je me demande donc :

  1. Greene est-il bâclé? Aurait-il dû écrire: ? Il s'agit d'une «hypothèse de linéarité» qui met en réalité la structure du modèle.E(y|X)=Xβ

  2. Ou dois-je accepter que l'hypothèse de linéarité ne met pas la structure sur le modèle mais définit uniquement un , où les autres hypothèses utiliseront cette définition de ϵ pour mettre la structure sur le modèle?ϵϵ


Edit : puisqu'il semble y avoir une certaine confusion autour des autres hypothèses, permettez-moi d'ajouter l'ensemble complet des hypothèses ici:

entrez la description de l'image ici

Il s'agit de Greene, Econometric Analysis, 7e éd. p. 16.

user56834
la source
4
Ce sont des observations perceptives (+1). En toute honnêteté, cependant, je crois que la plupart (sinon tous) les auteurs travaillent dans un cadre dans lequel la signification même d'une erreur additive comme inclut l'hypothèse que sa distribution est centrée sur 0 . ϵ0
whuber
2
@whuber, j'ai ajouté l'ensemble des hypothèses. regardez A3. A3 rend explicite qu'il est centré sur 0, ce qui impliquerait que Greene ne suppose pas cela dans A1, ce qui me laisse à me demander si A1 a un contenu logique, à part définir . ϵ
user56834
2
Le sens recherché d'une liste d'hypothèses est qu'elles sont valables collectivement et non séparément. Cela ne présente aucune "négligence".
whuber
2
@AdamO, le mot "correct" ne semble pas avoir de sens précis pour moi. J'essaie de comprendre plus exactement cela. Il me semble que la formulation la plus précise de tout cela est de dire que l'hypothèse 1 devrait être appelée "définition de ", et alors tout a un sens. Ou je manque quelque chose, c'est pourquoi j'ai posé cette question. Malheureusement jusqu'à présent, je n'ai pas vu de réponse directe à cette questionϵ
user56834
2
@ Programmer2134 vous obtenez des réponses imprécises parce que vous posez une question imprécise. On ne "met pas de structure sur un modèle" comme vous dites. Si le mauvais modèle moyen ( ) est utilisé, alors la réponse est caractérisée par Y = f ( x ) + biais + erreur . et les résidus sont pris comme la somme du biais et de l'erreur. f(x)Y=f(x)+bias+error
AdamO

Réponses:

8
  1. E(y|X)=Xβ

E(y|X)=Xβ

E(y|X)yE[Y|do(X)]

y=βx+γx2+ϵ

E[ϵ|x]=δxγx2

E[y|x]=βx

β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. ϵϵ

ϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X]

ϵX,yϵ

yxϵβ

Note complémentaire

Il convient de mentionner que la plupart des manuels d'économétrie prêtent à confusion en ce qui concerne la distinction entre régression et équations structurelles et leur signification. Cela a été documenté récemment. Vous pouvez consulter un article de Chen et Pearl ici ainsi qu'une enquête approfondie de Chris Auld . Greene est l'un des livres examinés.

Carlos Cinelli
la source
ϵxxyxy ϵ
1
yXϵ:=yE[Y|do(X)]=yXβϵXϵX
@ Programmer2134, soit dit en passant, vos préoccupations sont sur la bonne voie, je pense que l'amorce de Pearl sur l'inférence causale pourrait être un compagnon intéressant de Greene!
Carlos Cinelli
Soit dit en passant, j'ai commencé à lire «Causalité: modèles, raisonnement et inférence» par Pearl il y a quelque temps. Je pensais que c'était très intéressant, mais c'était quelque peu abstrait pour moi. Je ne suis pas allé au-delà du chapitre 2. Pensez-vous que "l'amorce sur l'inférence causale" conviendrait mieux? (c.-à-d. introduire des concepts de manière plus intuitive).
user56834
1
E(Y|x)
0

édité après les commentaires de OP et Matthew Drury

Pour répondre à cette question , je suppose que Greene et OP, ont la définition suivante de linéarité à l' esprit: des moyens Linéarité que pour chaque unité d' augmentation de ce facteur prédictif, le résultat est augmenté de bêta ( ), où sur la plage des valeurs prédictives possibles cette augmentation d'une unité se produit. C'est-à-dire que la fonction est et non par exemple ou . De plus, cette hypothèse se concentre sur les bêtas et s'applique donc aux prédicteurs (aka variables indépendantes).βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

L'espérance de résidus conditionnelle au modèle est autre chose. Oui, il est vrai que les mathématiques derrière une régression linéaire définissent / tentent de définir . Cependant, cela est généralement défini sur toute la plage des valeurs ajustées / prévues pour . Si vous regardez des parties spécifiques du prédicteur linéaire et la valeur prédite de , vous remarquerez peut-être une hétéroscédasticité (zones où la variation de est plus grande qu'ailleurs), ou zones où . Une association non linéaire entre les et les pourrait en être la cause, mais ce n'est pas la seule raison pour laquelle l'hétéroscédasticité ouE(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 peut se produire (voir par exemple le biais de prédicteur manquant).

D'après les commentaires: OP déclare "l'hypothèse de linéarité ne restreint en aucune façon le modèle, étant donné qu'epsilon est arbitraire et peut être n'importe quelle fonction de XX", ce que je suis d'accord. Je pense que cela est rendu clair par les régressions linéaires pouvant s'adapter à toutes les données, que l'hypothèse de linéarité soit ou non violée. Je spécule ici, mais cela pourrait être la raison pour laquelle Greene a choisi de conserver l'erreur dans la formule - en enregistrant pour plus tard - pour indiquer qu'en supposant la linéarité, (et non pas la valeur attendue ) peut être défini sur la base de mais conserve une erreur , quelles que soient les valeursϵE(ϵ|X)=0yyXϵϵprend. Je peux seulement espérer qu'il déclarera plus tard la pertinence de .E(ϵ|X)=0

En bref (certes, sans lire entièrement le livre de Greene et vérifier son argumentation):

  1. Greene fait probablement référence aux bêtas constants pour toute la plage du prédicteur (l'accent doit être mis sur le bêta dans les ou ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. L'hypothèse de linéarité met une certaine structure sur le modèle. Vous devez cependant noter que les transformations ou les ajouts tels que les splines avant la modélisation peuvent rendre les associations non linéaires conformes au cadre de régression linéaire.
IWS
la source
3
C'est utile, mais l'appel à la continuité n'est en aucun cas nécessaire. Le mécanisme fonctionne de la même manière si est uniquement basé sur des prédicteurs . X(0,1)
Nick Cox
1
Vous avez écrit mais je pense que vous vouliez dire ,. f(y)f(x)
Nick Cox
@NickCox J'ai édité ces points.
IWS
1
Qu'entendez-vous par normalité? Si vous entendez la normalité, elle est incorrecte car epsilon n'a pas besoin d'être normal pour qu'il ait une espérance conditionnelle de zéro. Mais tu veux dire autre chose? De plus, oui bêta est supposé constant pour toutes les observations. Et que pensez-vous qui ne va pas avec mon argument selon lequel l'hypothèse de linéarité ne restreint en aucune façon le modèle, étant donné que epsilon est arbitraire et peut être n'importe quelle fonction de ? Notez que je sais ce qu'est l'hétéroskédasticité et que la linéarité signifie linéaire dans les paramètres, pas dans les variables. X
user56834
3
Je suis en désaccord avec cela. L'hypothèse d'attente n'est pas liée à la normalité, mais est absolument nécessaire pour donner un sens à l'hypothèse de linéarité structurelle. Sinon, comme indiqué par l'op, l'hypothèse de linéarité n'a pas de sens. Une hypothèse de normalité est une bête tout à fait différente, et est souvent inutile.
Matthew Drury
-1

J'étais un peu confus par la réponse ci-dessus, donc je vais lui donner un autre coup. Je pense que la question ne concerne pas réellement la régression linéaire «classique» mais le style de cette source particulière. Sur la partie régression classique:

Cependant, l'hypothèse de linéarité en soi ne met pas de structure sur notre modèle

C'est tout à fait exact. Comme vous l'avez dit, pourrait aussi bien tuer la relation linéaire et additionner quelque chose de complètement indépendant de afin que nous ne puissions calculer aucun modèle du tout.ϵX

Greene est-il bâclé? Doit-il effectivement avoir écrit:E(y|X)=Xβ

Je ne veux pas répondre à la première question, mais permettez-moi de résumer les hypothèses dont vous avez besoin pour la régression linéaire habituelle:

Supposons que vous observez (on vous donne) les points de données et pour . Vous devez supposer que les données vous avez observées proviennent de variables aléatoires indépendantes et identiques telles que ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Il existe un fixe (indépendant de ) tel que pour tout et les variables aléatoires sont telles queiβRdYi=βXi+ϵiiϵi

  2. Les sont également iid et est distribué comme ( doit être indépendant de également)ϵiϵiN(0,σ)σi

  3. Pour et les variables ont une densité commune, c'est-à-dire que la variable aléatoire unique a une densitéX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Vous pouvez maintenant exécuter le chemin habituel et calculer

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

de sorte que par la «dualité» habituelle entre l'apprentissage automatique (minimisation des fonctions d'erreur) et la théorie des probabilités (maximisation des probabilités) vous maximisez dans qui, en fait, vous donne les trucs habituels "RMSE".βlogfY|X(y|x)β

Maintenant, comme indiqué: si l'auteur du livre que vous citez veut faire valoir ce point (ce que vous devez faire si vous voulez pouvoir calculer la `` meilleure ligne de régression possible '' dans la configuration de base), alors oui, il doit faire cette hypothèse sur la normalité du quelque part dans le livre.ϵ

Il existe maintenant différentes possibilités:

  • Il n'écrit pas cette hypothèse dans le livre. C'est alors une erreur dans le livre.

  • Il l'écrit sous la forme d'une remarque «globale» comme «chaque fois que j'écris alors les sont normalement distribués avec une moyenne nulle sauf indication contraire». Ensuite, à mon humble avis, c'est un mauvais style car cela provoque exactement la confusion que vous ressentez en ce moment. C'est pourquoi j'ai tendance à écrire les hypothèses sous une forme abrégée dans chaque théorème. Ce n'est qu'alors que chaque bloc de construction peut être vu proprement en soi.ϵ+ϵϵ

    • Il l'écrit étroitement à la partie que vous citez et vous / nous ne l'avons tout simplement pas remarqué (également une possibilité :-))

Cependant, également au sens mathématique strict, l'erreur normale est quelque chose de canonique (la distribution avec l'entropie la plus élevée [une fois que la variance est fixée], d'où la production des modèles les plus forts), de sorte que certains auteurs ont tendance à ignorer cette hypothèse mais à l'utiliser de façon non négligeable . Formellement, vous avez absolument raison: ils utilisent les mathématiques de la «mauvaise façon». Chaque fois qu'ils veulent trouver l'équation pour la densité comme indiqué ci-dessus, ils ont besoin de bien connaître , sinon vous en avez juste des propriétés qui volent dans chaque équation sensée que vous essayez d'écrire . ϵfY|Xϵ

Fabian Werner
la source
3
les erreurs n'ont pas besoin d'être distribuées normalement pour utiliser OLS.
user56834
(-1) Les erreurs n'ont pas besoin d'être distribuées normalement. En fait, ils n'ont même pas besoin d'être indépendants ou distribués de manière identique pour que l'estimation des paramètres soit sans biais et pour que les tests soient cohérents. Vos spécifications beaucoup plus strictes sont nécessaires pour que OLS soit un test exact.
AdamO
@AdamO: Ah? Alors, comment calculez-vous la probabilité alors? Ou plutôt ... si l'on vous demande d'implémenter une régression linéaire: quelle ligne de régression sélectionnez-vous si l'erreur n'est pas normalement distribuée et que le unique n'est pas indépendant? ϵi
Fabian Werner
1
@FabianWerner mon choix de modèle dépend de la question qui se pose. La régression linéaire estime une tendance de premier ordre dans un ensemble de données, une "règle empirique" reliant une différence de X à une différence de Y. Si les erreurs ne sont pas normalement distribuées, le Lindeberg Feller CLT garantit que les CI et les PI sont approximativement corrects même dans de très petits échantillons. Si les erreurs ne sont pas indépendantes (et la structure de dépendance est inconnue), les estimations ne sont pas biaisées bien que les SE puissent être incorrectes. L'estimation de l'erreur sandwich atténue ce problème.
AdamO