Définition et délimitation du modèle de régression

13

Une question embarrassante simple - mais il semble qu'elle n'a pas été posée sur Cross Validated avant:

  1. Quelle est la définition d'un modèle de régression?

Aussi une question de support,

  1. Qu'est-ce qui n'est pas un modèle de régression?

En ce qui concerne ce dernier, je suis intéressé par des exemples délicats où la réponse n'est pas immédiatement évidente, par exemple ARIMA ou GARCH.

Richard Hardy
la source

Réponses:

9

Je dirais que "modèle de régression" est une sorte de méta-concept, dans le sens où vous ne trouverez pas de définition de "modèle de régression", mais des concepts plus concrets tels que "régression linéaire", "régression non linéaire", "régression robuste" et ainsi de suite. De la même manière qu'en mathématiques, nous ne définissons généralement pas "nombre", mais "nombre naturel", "nombres entiers", "nombre réel", "nombre p-adique" et ainsi de suite, et si quelqu'un veut inclure le les quaternions parmi les nombres, qu'il en soit ainsi! cela n'a pas vraiment d'importance, ce qui compte c'est les définitions utilisées par le livre / papier que vous lisez en ce moment.

Les définitions sont des outils et l'essentialisme, c'est-à-dire discuter de l' essence de ..., de ce que signifie réellement un mot , vaut rarement la peine.

Alors, qu'est-ce qui distingue un «modèle de régression» des autres types de modèles statistiques? Surtout, qu'il existe une variable de réponse , que vous souhaitez modéliser en fonction de (ou déterminée par) un ensemble de variables prédictives . Nous ne sommes pas intéressés à influencer l'autre direction et nous ne sommes pas intéressés par les relations entre les variables prédictives. Généralement, nous prenons les variables prédictives comme données et les traitons comme des constantes dans le modèle, pas comme des variables aléatoires.

La relation mentionnée ci-dessus peut être linéaire ou non linéaire, spécifiée de manière paramétrique ou non paramétrique, etc.

Pour délimiter à partir d'autres modèles, nous ferions mieux de regarder quelques autres mots souvent utilisés pour désigner quelque chose de différent pour les "modèles de régression", comme "erreurs dans les variables", quand nous acceptons la possibilité d'erreurs de mesure dans les variables prédictives. Cela pourrait très bien être inclus dans ma description du «modèle de régression» ci-dessus, mais est souvent considéré comme un modèle alternatif.

En outre, ce que l'on entend peut varier d'un domaine à l'autre, voir Quelle est la différence entre le conditionnement sur des régresseurs et le traitement de ces derniers comme fixes?

Pour répéter: ce qui importe, c'est la définition utilisée par les auteurs que vous lisez maintenant, et non une métaphysique de ce qu'elle est "vraiment".

kjetil b halvorsen
la source
1
Je suis d'accord avec l'essence de votre réponse. Ma question était motivée par la rencontre de déclarations sur les modèles de régression qui m'ont laissé me demander à quoi la déclaration s'applique vraiment (et à quoi elle ne s'applique pas). Bien sûr, vous pouvez maintenant dire: "faites preuve de votre meilleur jugement et vérifiez soigneusement les détails", mais parfois je souhaiterais peut-être rejeter immédiatement la déclaration hypothétique en disant qu'elle n'est pas vraie en général (peut-être vrai seulement dans un cas très spécifique) . Ensuite, j'ai besoin d'une définition à laquelle faire référence. Il existe bien sûr de telles situations où une définition précise est utile.
Richard Hardy
1
Ensuite, vous devez poser des questions spécifiques sur les utilisations que vous avez rencontrées, avec des références.
kjetil b halvorsen
2
Je n'ai pas l'intention d'être pointilleux, mais réfléchissez-y: quelqu'un vous demande ce que vous faites, vous dites: "J'analyse / prévoit / teste [quelque chose] en utilisant des modèles de régression". - "Qu'est-ce qu'un modèle de régression?" -- (Silence). Ou une situation dans une classe d'économétrie d'introduction: "Professeur, qu'est - ce qu'un modèle de régression?" -- (Pas de réponse). Je pense que ce sont des questions très naturelles, donc ce serait bien d'avoir une réponse.
Richard Hardy
2
Oui, ce serait bien d'avoir une réponse, mais je ne suis pas sûr qu'il y ait une réponse canonique sur laquelle tout le monde puisse s'entendre. J'ai eu une idée très différente de la régression d'un livre statistique tel que Seber: "Linear Regression Analysis" comme d'un texte en économétrie. Mais certaines idées peuvent toutes convenir. Je suppose que c'est vraiment une famille de modèles. Ensuite, nous pouvons nous demander quel est le noyau commun de tous ces modèles.
kjetil b halvorsen
1
Vous serez peut-être intéressé par une question connexe: la définition d'un modèle de régression linéaire simple .
Richard Hardy
7

Deux belles réponses ont déjà été données, mais j'aimerais ajouter mes deux cents.

YX1,,XkY

μ=E(y|x1,,xk)=f(x1,,xk)

fμμL1μ

Y

Tim
la source
Merci. L'intuition ne fait pas de mal, même si je cherche une définition plus formelle que je pourrais lancer à quelqu'un qui m'a demandé, alors qu'est-ce qu'un modèle de régression de toute façon? puis a essayé de choisir les détails.
Richard Hardy
@RichardHardy Je pense que c'est la caractéristique clé des modèles de régression qui est partagée par tous.
Tim
3
y
2

Quelques réflexions basées sur la littérature:

F. Hayashi, dans le chapitre 1 de son manuel d'études supérieures classique "Econometrics" (2000), déclare que les hypothèses suivantes constituent le modèle de régression linéaire classique:

  1. Linéarité
  2. Exogénéité stricte
  3. Pas de multicolinéarité
  4. Variance d'erreur sphérique
  5. Régresseurs "fixes"

Wooldridge dans le chapitre 2 de son manuel d'économétrie d'introduction classique "Econométrie introductive: une approche moderne" (2012) déclare que l'équation suivante définit le modèle de régression linéaire simple:

y=β0+β1x+u.

Greene dans le chapitre 2 de son manuel d'économétrie populaire "Analyse économétrique" (2011) déclare

Le modèle de régression linéaire classique consiste en un ensemble d'hypothèses sur la façon dont un ensemble de données sera produit par un «processus générateur de données» sous-jacent.

et donne ensuite une liste d'hypothèses similaires à celle de Hayashi.

En ce qui concerne l'intérêt du PO pour le modèle GARCH, Bollerslev "Generalized autorégressive conditional heterosedasticity" (1986) inclut une phrase "the GARCH regression model" dans le titre de la section 5 et également dans la première phrase de cette section. Le père du modèle GARCH n'a donc pas hésité à appeler GARCH un modèle de régression.

Richard Hardy
la source
1
Yf(X,β)
Certes, mes exemples concernent des modèles de régression linéaire ; c'est ce que j'ai pu trouver dans des sources fiables comme ces manuels largement utilisés et devenus classiques. Je ne fais pas tellement confiance à Wikipédia pour les questions statistiques et économétriques. Quoi qu'il en soit, même dans Wikipedia, il y a un chapitre "Hypothèses sous-jacentes" qui est similaire à ce que j'ai cité dans les manuels. Concernant l'autre poste, pourriez-vous y poster la partie pertinente de votre commentaire afin que je puisse y répondre? Dans cet article, je n'ai rien dit sur les modèles variables latents, mais il est bon de vous entendre.
Richard Hardy
3
Pourquoi le point 3, "pas de multicolinéarité"? Je n'ai jamais vu cela utilisé comme hypothèse dans la preuve d'un résultat!
kjetil b halvorsen
1
@kjetilbhalvorsen, ne me tenez pas responsable de ce qui est écrit dans un manuel dont je ne suis pas l'auteur. Mais merci pour le commentaire, bien sûr, et encore plus pour la réponse!
Richard Hardy