Quelle est la relation entre la fonction et la régression linéaire?

9

Considérez la fonction

r(x)=E(YX=x)

Cela a été appelé la fonction de régression dans un manuel que j'utilise. J'essaie de comprendre la relation entre cette fonction et le modèle de régression linéaire classique.

Donc, je sais que c'est un théorème * que nous pouvons écrire

Y=r(X)+ϵ

pour une variable aléatoire st .ϵE(ϵ)=0

Supposons maintenant que nous ayons

Y=β0+β1X+ϵ

Il s'agit de la fonction de régression unidimensionnelle classique (en supposant que et minimisent la somme résiduelle des carrés).β0β1

Question: Est-ce donc un théorème mathématique que si est défini comme ci-dessus, queY

r(X)=E(YX)=(β0+β1X)?

Et est- ce pour cela que la fonction est appelée "fonction de régression"?E(YX)

EDIT: Le théorème que j'utilise est le suivant (extrait de All of Statistics p. 89):

Les modèles de régression sont parfois écrits comme

Y=r(X)+ϵ

où . Nous pouvons toujours réécrire un modèle de régression de cette façon. Pour voir cela, définissez et donc . De plus, .E(ϵ)=0ϵ=Yr(X)Y=Y+r(X)r(X)=r(X)+ϵE(ϵ)=EE(ϵX)=E(E(Yr(X))X)=E(E(YX)r(X))=E(r(X)r(X))=0

George
la source
1
Le lien est qu'un modèle de régression linéaire est exactement l'affirmation selon laquelle est une fonction linéaire de certains X observés. Naturellement, cette affirmation n'a pas besoin d'être vraie, bien qu'en approximation de elle puisse être meilleure ou pire. Le chapitre de «L'économétrie principalement inoffensive», intitulé «Donner du sens à la régression», est une bonne discussion. rr
conjugateprior
Ou ai-je raté ce que vous demandiez?
conjugateprior
Vérifiez la réponse correspondante: stats.stackexchange.com/questions/173660/…
Tim

Réponses:

9

Résumant la question:

Étant donné , est-ce donc un théorème mathématique que ?Y=β0+β1X+εr(X)=E(YX)=(β0+β1X)

Oui, par les propriétés de base de l'attente:

E(YX)=E(β0+β1X+ε)=E(β0)+E(β1X)+E(ε)(linearity of expectation)=β0+β1X+0(Noting that X is constant herebecause we conditioned on it.)=β0+β1X

Les raisons historiques pour lesquelles la régression est appelée régression sont liées au fait que Galton a remarqué l'effet de " régression vers la moyenne " - initialement dans une expérience sur des plantes impliquant la taille des graines de la progéniture par rapport à la taille des graines des parents. Une relation à travers la taille moyenne des graines sur les deux variables aura une pente inférieure à (laquelle pente peut être estimée par ce que nous appelons la régression linéaire). Plus la pente est petite, plus l'effet de «régression» est fort. Le problème est illustré par Galton dans le pdf lié par la taille des enfants (en tant qu'adultes) par rapport à la taille moyenne des parents (les femmes étant augmentées d'un facteur constant de pour les rendre comparables aux hommes). Les diagrammes des troisième à cinquième pages indiquent quelque chose de ce qui a été observé.18%

Ainsi, une tentative d'estimation de la taille de cette "régression vers la moyenne" est obtenue par ce que l'on a appelé la régression linéaire. Bien sûr, il n'y a rien de spécial - la régression vers la moyenne n'est pas une "poussée vers la médiocrité" biologique comme on aurait pu le supposer à l'origine, mais une conséquence assez simple des mathématiques de la situation dans le même sens que les corrélations sont toujours entre et .11

Glen_b -Reinstate Monica
la source
J'ai remplacé votre utilisation grossière de \ qquad par une utilisation appropriée de "align" dans MathJax, ainsi que quelques autres détails MathJax, et j'attends l'examen par les pairs de l'édition.
Michael Hardy
@Michael Je suis conscient de l'alignement et je l'ai utilisé à plusieurs reprises - mais quel est l'avantage réel dans l'édition dans ce cas? Je voulais qu'il soit aligné plutôt que dans le centre pour laisser de la place pour que les commentaires soient sur une seule ligne et je voulais que les commentaires ne soient pas dans le texte épais que MahJax vous laisse, préférant le texte léger du balisage ordinaire. Le résultat actuel est quelque chose qui ne correspond plus à l'apparence que je cherchais réellement. Plutôt que d'être "grossier", il a été délibérément choisi. Si vous avez un moyen d'atteindre ce que je voulais avec moins d' efforts que le mien, je suis tout à fait à l'écoute.
Glen_b -Reinstate Monica
ok, je suppose que tous les goûts ne sont pas en accord les uns avec les autres
Michael Hardy
L'aspect tel que conçu est idéal, je pense, pour les articles et les livres, mais ne reflète pas toujours ce que je pense être le mieux dans un forum comme celui-ci, du moins pas toujours. Je reconnais que mes goûts sur cette question (et de nombreux autres aspects de l'apparence du site que j'essaie souvent de contourner) peuvent être différents de la norme, donc je vais laisser les choses telles quelles, mais je ne promets pas d'essayer de continuer à essayez de vous aligner pour faire ce que je veux quand il semble plus facile de le faire autrement.
Glen_b -Reinstate Monica
Le théorème va-t-il aussi dans l'autre sens? Autrement dit, étant donné et , pouvons-nous toujours conclure que pour les les coefficients de régression? Sinon, quelles sont les conditions dans lesquelles nous pouvons et ne pouvons pas dire cela? XYE(YX)=(β0+β1X)+ϵβ0,β1
George