J'apprends la régression linéaire en utilisant Introduction à l'analyse de régression linéaire par Montgomery, Peck et Vining . J'aimerais choisir un projet d'analyse de données.
J'ai la pensée naïve que la régression linéaire ne convient que lorsque l'on soupçonne qu'il existe des relations fonctionnelles linéaires entre les variables explicatives et la variable de réponse. Mais peu d'applications réelles semblent répondre à ce critère. Pourtant, la régression linéaire est si répandue.
À quelles facettes d'un projet un statisticien expérimenté penserait-il s'il était à ma place, à la recherche d'une question + de données bien adaptées à la régression linéaire?
Réponses:
Ce n'est pas une compréhension correcte de ce qui est "linéaire" dans la "régression linéaire".
Ce n'est pas la relation entre et les x qui est supposée être de forme linéaire (bien que tous les exemples élémentaires soient susceptibles de vous induire en erreur).y X
Le «linéaire» fait référence au modèle étant linéaire dans les paramètres, et les relations non linéaires entre et certains x peuvent certainement être modélisées de cette façon.y X
Il y a un exemple avec un seul prédicteur ici , mais les modèles curvilignes sont plus souvent ajustés en régression multiple, où plusieurs fonctions d'un prédicteur (variable x, variable indépendante) peuvent se produire dans la régression, et cela permet beaucoup de flexibilité. Cela inclut la régression polynomiale, par exemple. Voir quelques discussions et exemples ici .
Cependant, si l'on tient compte du fait que les prédicteurs peuvent être transformés pour s'adapter aux relations courbes, la linéarité des paramètres correspond également à la linéarité de ces prédicteurs transformés.
De plus, de nombreux problèmes sont presque linéaires (au moins sur la plage de valeurs considérée), ou sont si bruyants que toute courbure légère n'est pas perceptible, et une variété de modèles simples pour une relation croissante ou décroissante pourrait le faire - et dans ce cas, un choix linéaire peut être à la fois adéquat et le plus simple à adapter et à comprendre.
La seule fois où je pourrais rechercher un problème auquel appliquer la régression, c'est quand j'essaie de trouver un bon exemple d'enseignement. Lorsque je suis en mesure de faire un travail statistique (plutôt que de l'expliquer ou de l'enseigner), je choisis la méthodologie adaptée à la question d'intérêt (et aux caractéristiques des données), plutôt que de choisir les données adaptées à la méthode.
Imaginez un charpentier, par exemple. Le charpentier ne capte pas un bastringue et dire : « Que puis - je utiliser ce sur? ». Au contraire, le charpentier a un problème à résoudre, et en considérant les caractéristiques du problème ("qu'est-ce que j'essaye de faire?" Et "quel type de bois est-ce que j'utilise?" Et ainsi de suite ...) des outils particuliers peuvent être plus pertinent que les autres. Parfois, les outils disponibles peuvent limiter ou guider les choix (si vous n'avez pas de porte - parole, vous devrez peut-être vous contenter d'autre chose ... ou vous devrez peut-être simplement acheter un porte-parole).
Cependant, supposons que vous avez un statisticien de poche pour vous aider et que vous essayez de trouver un problème adapté à la régression linéaire. Ensuite, ils pourraient vous suggérer de considérer diverses hypothèses de régression et quand elles sont importantes. Je mentionnerai quelques choses.
Si vous êtes capable d'utiliser la régression multiple même si ce n'est pas spécialement un problème majeur, car on peut utiliser (par exemple) des splines de régression cubiques pour s'adapter à des relations assez générales.
Je vous suggère d'éviter les données au fil du temps, sauf si vous comprenez les problèmes de régression parasite; s'en tenir aux problèmes transversaux.
Si vous êtes intéressé par les tests d'hypothèse, les intervalles de confiance ou les intervalles de prédiction, alors plus d'hypothèses de régression habituelles peuvent avoir de l'importance (mais il existe des alternatives qui ne font pas ces hypothèses, et dans certains cas, au moins certaines des hypothèses peuvent ne pas être particulièrement important de toute façon).
Donc, au moins une chose à savoir est de savoir quelles sont ces hypothèses qui sont faites pour dériver les procédures inférentielles que vous utilisez et leur importance dans votre problème particulier (par exemple, lors de l'exécution des tests d'hypothèse habituels, la normalité est une hypothèse, mais dans de grands échantillons, cette hypothèse peut ne pas être importante; en revanche, l'hypothèse de variance constante peut être plus problématique).
Il existe un certain nombre de publications qui discutent des hypothèses de régression, et certaines publications qui discutent du moment où elles doivent être faites, de la mesure dans laquelle elles peuvent être importantes et même de l'ordre dans lequel les prendre en compte.
la source
la source
@Glen_b a donné une très bonne réponse mais, comme indiqué, n'a pas pu terminer.
Donc, pour votre dernière question:
Un statisticien expérimenté, je pense, ne poserait pas cette question. Comme le note Glen, le problème dicte les outils à utiliser, et non l'inverse.
Si j'essayais d'apprendre une technique comme la régression linéaire, j'utiliserais des exemples déjà travaillés - mais ceux qui avaient de vraies données, pas des données conçues pour faciliter les choses. Un livre tel que Regression Modeling by Example peut fournir des conseils.
Cependant, l'une des premières étapes de l'examen d'un problème de régression consiste à décider si la régression linéaire est, en fait, appropriée.
la source
De nombreuses réponses ont touché les hypothèses à respecter: linéarité dans les résidus, homogénéité de la variance dans toute la plage du prédicteur, pas de valeurs extrêmes pouvant influencer la droite de régression et observations indépendantes. Les tracés résiduels sont assez faciles à produire avec la plupart des programmes de régression et certains packages en fournissent automatiquement (SAS).
Une personne a parlé de transformer y. C'est une pratique courante dans certains domaines, mais c'est une pratique qui conduit à des résultats biaisés et éventuellement non interprétables. Le biais apparaît lorsque vous essayez de revenir en arrière pour transformer les résultats en métrique d'origine. Mieux vaut passer à un autre type de régression dont le modèle résiduel correspond aux hypothèses de distribution du résidu. Voir le chapitre 3 de l' introduction d' Agresti à l'analyse de données catégoriques où il présente le concept de liens. Un certain nombre de manuels de régression présentent également le modèle linéaire généralisé.
la source