Je recherche une étude de cas de régression linéaire avancée illustrant les étapes nécessaires pour modéliser des relations non linéaires complexes et multiples à l'aide de GLM ou OLS. Il est étonnamment difficile de trouver des ressources allant au-delà des exemples d'école de base: la plupart des livres que j'ai lus n'iront pas plus loin qu'une transformation logarithmique de la réponse couplée à un BoxCox d'un prédicteur, ou une spline naturelle dans le meilleur des cas. De plus, tous les exemples que j'ai vus jusqu'à présent abordent chaque problème de transformation de données dans un modèle distinct, souvent dans un modèle prédictif unique.
Je sais ce qu'est une transformation BoxCox ou YeoJohnson. Ce que je recherche, c'est une étude de cas détaillée et réelle où la réponse / relation n'est pas claire. Par exemple, la réponse n'est pas strictement positive (vous ne pouvez donc pas utiliser log ou BoxCox), les prédicteurs ont des relations non linéaires entre eux et par rapport à la réponse, et les transformations de données de probabilité maximale ne semblent pas impliquer un standard 0,33 ou 0,5 exposant. De plus, la variance résiduelle n'est pas constante (elle ne l'est jamais), donc la réponse doit également être transformée et des choix devront être faits entre une régression de famille GLM non standard ou une transformation de réponse. Le chercheur fera probablement des choix pour éviter de sur-ajuster les données.
MODIFIER
Jusqu'à présent, j'ai rassemblé les ressources suivantes:
- Stratégies de modélisation de la régression, F. Harrell
- Série chronologique économétrique appliquée, W. Enders
- Modèles linéaires dynamiques avec R, G. Petris
- Analyse de régression appliquée, D. Kleinbaum
- Une introduction à l'apprentissage statistique, G. James / D. Witten
Je n'ai lu que le dernier (ISLR) et c'est un très bon texte (un 5 cinq étoiles sur ma montre), bien que plus orienté vers le ML que la modélisation de régression avancée.
Il y a aussi ce bon article sur CV qui présente un cas de régression difficile.
la source
Réponses:
Les stratégies de modélisation de la régression et l'ISLR, qui ont déjà été mentionnées par d'autres, sont deux très bonnes suggestions. J'en ai quelques autres à considérer.
La modélisation prédictive appliquée par Kuhn et Johnson contient un certain nombre de bonnes études de cas et est assez pratique.
Practical Data Science with R traite la modélisation pratique (régression) dans le contexte de ses applications principalement comme des modèles prédictifs dans une situation commerciale.-
Modèles additifs généralisés: une introduction avec R par Simon Wood est un bon traitement des modèles additifs généralisés et comment vous les adaptez en utilisant son
mgcv
package pour R. Il contient quelques exemples pratiques non triviaux. L'utilisation de modèles GAM est une alternative à la détermination de la transformation "correcte" car elle est effectuée de manière adaptative aux données via une expansion de spline et une estimation de probabilité maximale pénalisée. Cependant, il y a encore d'autres choix à faire, par exemple le choix de la fonction de liaison.Le package mboost pour R s'adapte également aux modèles GAM mais en utilisant une approche différente via le boosting. Je recommande le tutoriel pour le package (l'une des vignettes).
Je mentionnerai également la découverte de modèles empiriques et l'évaluation de la théorie par Hendry et Doornik, bien que je n'ai pas encore lu ce livre moi-même. Il m'avait été recommandé.
la source
L'un des meilleurs supports de cours que vous pouvez trouver sur la régression avancée, multiple, complexe (y compris non linéaire) est basé sur le livre Regression Modeling Strategies de Frank E. Harrell Jr.
Le livre est discuté dans les commentaires mais pas ce matériel, qui est lui-même une grande ressource.
la source
Je recommanderais le livre Mostly Harmless Econometrics de Joshua D. Angrist et Jörn-Steffen Pischke
C'est le monde le plus réel, le sel à la terre, le texte que je possède et c'est super bon marché, environ 26,00 $ neuf. Le livre est écrit pour le statisticien / économiste diplômé, il est donc très avancé.
Maintenant, ce livre n'est pas exactement ce que vous demandez dans le sens où il ne se concentre pas sur les "relations multiples et non linéaires complexes" autant que sur les principes fondamentaux comme l'endoégénéité, l'interprétation et la conception de régression intelligente.
Mais je propose ce livre pour essayer de faire un point. C'est-à-dire que, lorsqu'il s'agit de l'application réelle de l'analyse de régression, les problèmes les plus difficiles n'ont généralement pas à voir avec le fait que nos modèles ne sont pas assez complexes ... croyez-moi, nous sommes très bons pour percer très complexe des modèles! Les plus gros problèmes sont plutôt des choses comme
Une solide compréhension du GMM, des filtres non linéaires et de la régression non paramétrique couvre à peu près tous les sujets que vous avez énumérés et peut être appris au fur et à mesure. Cependant, avec des données réelles, ces cadres ont le potentiel d'être inutilement complexes, souvent de manière nuisible.
Trop souvent, c'est la capacité d'être intelligemment simple plutôt que complètement généralisé et hautement sophistiqué, qui vous profite le plus avec l'analyse du monde réel. Ce livre vous aidera avec l'ancien.
la source
Vous pouvez vous référer à Introduction à l'apprentissage statistique avec R (ISLR), le livre parle en détail des splines et de la régression polynomiale avec des cas.
la source
Je ne sais pas quel est l'objectif de votre question. Je peux recommander le texte de l' analyse économétrique de Greene . Il contient une tonne de références à des documents à l'intérieur. Presque chaque exemple du livre fait référence à un article publié.
Pour vous donner une idée, consultez l'exemple 7.6 «Effets d'interaction dans un modèle loglinear pour le revenu» à la p.195. Il fait référence à un article et à l'ensemble de données: Regina T. Riphahn, Achim Wambach et Andreas Million, " Incentive Effects in the Demand for Health Care: A Bivariate Panel Count Data Estimation ", Journal of Applied Econometrics, Vol. 18, n ° 4, 2003, p. 387-405.
L'exemple concerne l'utilisation des modèles log-linéaires et les effets d'interaction. Vous pouvez lire l'intégralité du document ou la description de ce manuel. Ce n'est pas un cas d'utilisation composé. C'est une vraie recherche publiée. C'est ainsi que les gens utilisent réellement les méthodes statistiques dans la recherche économique.
Au moment où j'écrivais, le livre est harcelé de cas d'utilisation comme celui-ci sur l'utilisation de méthodes statistiques avancées.
la source
Avez-vous examiné certains des cours / livres d'analyse des séries chronologiques financières que Ruey Tsay (UChicago) écrit?
http://faculty.chicagobooth.edu/ruey.tsay/teaching/
Les classes Ruey Tsays et le manuel fournissent de nombreux exemples concrets en finance de régressions complexes du type qui sont créées pour être utilisées sur les marchés financiers. Le chapitre 1 commence par les modèles de régression multifactorielle et s'étend aux modèles de séries chronologiques autorégressives saisonnières par le chapitre 5 ou 6.
la source