Indique qu'un problème est bien adapté à la régression linéaire

12

J'apprends la régression linéaire en utilisant Introduction à l'analyse de régression linéaire par Montgomery, Peck et Vining . J'aimerais choisir un projet d'analyse de données.

J'ai la pensée naïve que la régression linéaire ne convient que lorsque l'on soupçonne qu'il existe des relations fonctionnelles linéaires entre les variables explicatives et la variable de réponse. Mais peu d'applications réelles semblent répondre à ce critère. Pourtant, la régression linéaire est si répandue.

À quelles facettes d'un projet un statisticien expérimenté penserait-il s'il était à ma place, à la recherche d'une question + de données bien adaptées à la régression linéaire?

cwackers
la source
3
J'apprécie que vous appreniez une technique et que vous vouliez savoir où elle fonctionnera. Mais pour les statisticiens expérimentés (et les scientifiques soucieux des statistiques), la situation est tout à fait inverse: il y a un problème et des données, puis la question est de savoir quel type de modèles et de méthodes est le meilleur choix. Vous pourrez voir que la régression linéaire telle que rencontrée pour la première fois n'est qu'une saveur; avec l'expérience, les gens sont heureux de passer à la régression de Poisson, à la régression logit, etc. et même la linéarité des paramètres peut facilement être combinée avec des structures plus générales.
Nick Cox
et bien sûr des mdels de séries chronologiques lorsque les observations sont potentiellement autocorrélées
IrishStat
3
En réalité, les modèles linéaires sont utilisés à gauche et à droite même lorsque nous savons que la relation est non linéaire. Considérez un modèle linéaire comme une approximation de premier ordre, une sorte d'expansion de Taylor multivariée.
Aksakal

Réponses:

12

J'ai la pensée naïve que la régression linéaire ne convient que lorsque l'on soupçonne qu'il existe des relations fonctionnelles linéaires entre les variables explicatives et la variable de réponse. Mais peu d'applications réelles semblent répondre à ce critère.

Ce n'est pas une compréhension correcte de ce qui est "linéaire" dans la "régression linéaire".

Ce n'est pas la relation entre et les x qui est supposée être de forme linéaire (bien que tous les exemples élémentaires soient susceptibles de vous induire en erreur).yX

Le «linéaire» fait référence au modèle étant linéaire dans les paramètres, et les relations non linéaires entre et certains x peuvent certainement être modélisées de cette façon.yX

Il y a un exemple avec un seul prédicteur ici , mais les modèles curvilignes sont plus souvent ajustés en régression multiple, où plusieurs fonctions d'un prédicteur (variable x, variable indépendante) peuvent se produire dans la régression, et cela permet beaucoup de flexibilité. Cela inclut la régression polynomiale, par exemple. Voir quelques discussions et exemples ici .

Cependant, si l'on tient compte du fait que les prédicteurs peuvent être transformés pour s'adapter aux relations courbes, la linéarité des paramètres correspond également à la linéarité de ces prédicteurs transformés.

De plus, de nombreux problèmes sont presque linéaires (au moins sur la plage de valeurs considérée), ou sont si bruyants que toute courbure légère n'est pas perceptible, et une variété de modèles simples pour une relation croissante ou décroissante pourrait le faire - et dans ce cas, un choix linéaire peut être à la fois adéquat et le plus simple à adapter et à comprendre.

À quelles facettes d'un projet un statisticien expérimenté penserait-il s'il était à ma place, à la recherche d'une question + de données bien adaptées à la régression linéaire?

La seule fois où je pourrais rechercher un problème auquel appliquer la régression, c'est quand j'essaie de trouver un bon exemple d'enseignement. Lorsque je suis en mesure de faire un travail statistique (plutôt que de l'expliquer ou de l'enseigner), je choisis la méthodologie adaptée à la question d'intérêt (et aux caractéristiques des données), plutôt que de choisir les données adaptées à la méthode.

Imaginez un charpentier, par exemple. Le charpentier ne capte pas un bastringue et dire : « Que puis - je utiliser ce sur? ». Au contraire, le charpentier a un problème à résoudre, et en considérant les caractéristiques du problème ("qu'est-ce que j'essaye de faire?" Et "quel type de bois est-ce que j'utilise?" Et ainsi de suite ...) des outils particuliers peuvent être plus pertinent que les autres. Parfois, les outils disponibles peuvent limiter ou guider les choix (si vous n'avez pas de porte - parole, vous devrez peut-être vous contenter d'autre chose ... ou vous devrez peut-être simplement acheter un porte-parole).

Cependant, supposons que vous avez un statisticien de poche pour vous aider et que vous essayez de trouver un problème adapté à la régression linéaire. Ensuite, ils pourraient vous suggérer de considérer diverses hypothèses de régression et quand elles sont importantes. Je mentionnerai quelques choses.

E(y|g(X))g(X)gX=XE(y|X)=une+bX

Si vous êtes capable d'utiliser la régression multiple même si ce n'est pas spécialement un problème majeur, car on peut utiliser (par exemple) des splines de régression cubiques pour s'adapter à des relations assez générales.

Je vous suggère d'éviter les données au fil du temps, sauf si vous comprenez les problèmes de régression parasite; s'en tenir aux problèmes transversaux.

XX

X

Si vous êtes intéressé par les tests d'hypothèse, les intervalles de confiance ou les intervalles de prédiction, alors plus d'hypothèses de régression habituelles peuvent avoir de l'importance (mais il existe des alternatives qui ne font pas ces hypothèses, et dans certains cas, au moins certaines des hypothèses peuvent ne pas être particulièrement important de toute façon).

Donc, au moins une chose à savoir est de savoir quelles sont ces hypothèses qui sont faites pour dériver les procédures inférentielles que vous utilisez et leur importance dans votre problème particulier (par exemple, lors de l'exécution des tests d'hypothèse habituels, la normalité est une hypothèse, mais dans de grands échantillons, cette hypothèse peut ne pas être importante; en revanche, l'hypothèse de variance constante peut être plus problématique).

Il existe un certain nombre de publications qui discutent des hypothèses de régression, et certaines publications qui discutent du moment où elles doivent être faites, de la mesure dans laquelle elles peuvent être importantes et même de l'ordre dans lequel les prendre en compte.

Glen_b -Reinstate Monica
la source
Belle réponse, mais je pense qu'elle ne répond pas complètement à la question. À quelles facettes d'un projet un statisticien expérimenté penserait-il s'il était à ma place, à la recherche d'une question + de données bien adaptées à la régression linéaire? reste sans réponse.
Dawny33
@ Dawny33 J'ai certainement l'intention d'en ajouter plus plus tard - certaines choses sont apparues pendant que je tapais ce qui m'a empêché d'écrire la réponse complète que je voulais à l'origine; J'ai eu le temps seulement de terminer la phrase sur laquelle j'étais, et je ne vais peut-être pas y revenir avant un jour ou deux. En effet, je n'ai même pas eu le temps de corriger toutes les fautes de frappe. (En attendant, vous ne devriez pas hésiter à poster une réponse.) D'un autre côté, souligner que la prémisse de la question est erronée peut conduire le PO à vouloir poser des choses différentes de ce qu'il avait initialement prévu (c'est souvent le cas lorsque le défaillance du local central)
Glen_b -Reinstate Monica
Par exemple, je prévois qu'une nouvelle question qui pourrait se poser serait "avez-vous un exemple?".
Glen_b -Reinstate Monica
@Glen_b merci. Le «linéaire» fait référence au modèle étant linéaire dans les paramètres . Désolé si j'ai mal écrit, je ne voulais pas impliquer le contraire. Le mot-clé était fonctionnel .
cwackers
@Glen_b, ils pourraient vous suggérer de considérer diverses hypothèses de régression . Encore d'accord. Je n'étais pas explicite à ce sujet, mais mon Q concerne davantage la connaissance du domaine. Je me demande ce qu'un statisticien expérimenté rechercherait dans le système envisagé pour l'analyse LR, d'où ma proposition naïve de régresseurs qui sont liés linéairement et fonctionnellement à la réponse, et dont la relation simultanée avec la réponse est additive.
cwackers
4

OuiOuiOuiOuiOuiX) bien. Au cours de nombreuses années d'expérience, vous verrez que certaines variables telles que la pression artérielle ont tendance à bien se comporter dans un modèle linéaire et d'autres (par exemple, les mesures de la chimie du sang) ne le font pas.

OuiOui

Frank Harrell
la source
Merci d'avoir souligné l'aspect du bon comportement. J'ai pensé aux transformations des régresseurs, mais pas à la variable de réponse. Cependant, je vois maintenant comment ce dernier pourrait être utilisé pour remodeler la distribution des résidus. Merci d'avoir rempli une partie de l'image. Un article très utile.
cwackers
3

@Glen_b a donné une très bonne réponse mais, comme indiqué, n'a pas pu terminer.

Donc, pour votre dernière question:

Un statisticien expérimenté, je pense, ne poserait pas cette question. Comme le note Glen, le problème dicte les outils à utiliser, et non l'inverse.

Si j'essayais d'apprendre une technique comme la régression linéaire, j'utiliserais des exemples déjà travaillés - mais ceux qui avaient de vraies données, pas des données conçues pour faciliter les choses. Un livre tel que Regression Modeling by Example peut fournir des conseils.

Cependant, l'une des premières étapes de l'examen d'un problème de régression consiste à décider si la régression linéaire est, en fait, appropriée.

Peter Flom - Réintégrer Monica
la source
Un statisticien expérimenté, je pense, ne poserait pas cette question. oui, c'est pourquoi j'ai qualifié mon Q de "à ma place". Merci beaucoup pour la recommandation du livre. Je vais retrouver une copie. Une multitude d'exemples aideraient au moins la moitié de l'histoire, avec des contre-exemples étant l'autre moitié.
cwackers
Ahhh, une citation! à partir de la page 2 de la 4e édition: Nous invitons les lecteurs à réfléchir aux questions (dans leurs propres domaines de travail, de recherche ou d'intérêt) qui peuvent être abordées à l'aide d'une analyse de régression.
cwackers
0

De nombreuses réponses ont touché les hypothèses à respecter: linéarité dans les résidus, homogénéité de la variance dans toute la plage du prédicteur, pas de valeurs extrêmes pouvant influencer la droite de régression et observations indépendantes. Les tracés résiduels sont assez faciles à produire avec la plupart des programmes de régression et certains packages en fournissent automatiquement (SAS).

Une personne a parlé de transformer y. C'est une pratique courante dans certains domaines, mais c'est une pratique qui conduit à des résultats biaisés et éventuellement non interprétables. Le biais apparaît lorsque vous essayez de revenir en arrière pour transformer les résultats en métrique d'origine. Mieux vaut passer à un autre type de régression dont le modèle résiduel correspond aux hypothèses de distribution du résidu. Voir le chapitre 3 de l' introduction d' Agresti à l'analyse de données catégoriques où il présente le concept de liens. Un certain nombre de manuels de régression présentent également le modèle linéaire généralisé.

Leslie
la source
Je ne partage pas le pessimisme de la transformation. Après tout, la transformation d'origine est assez arbitraire. Si vous transformez et obtenez des résidus avec une distribution symétrique, la rétrotransformation des valeurs prédites est la médiane prédite sur l'échelle d'origine. Les médianes prévues sont très utiles. Si vous voulez obtenir des moyennes prédites sur l'échelle d'origine, vous pouvez utiliser l'estimateur de frottis.
Frank Harrell