Comment choisir entre un modèle de régression linéaire ou un modèle de régression non linéaire?
Mon objectif est de prédire Y.
Dans le cas d'un simple ensemble de données et je pouvais facilement décider quel modèle de régression utiliser en traçant un nuage de points.
En cas de multi-variantes comme et . Comment puis-je décider quel modèle de régression doit être utilisé? Autrement dit, comment vais-je décider d'aller avec un modèle linéaire simple ou des modèles non linéaires tels que quadrique, cubique, etc.
Existe-t-il une technique ou une approche statistique ou des graphiques pour déduire et décider quel modèle de régression doit être utilisé?
Réponses:
Il s'agit d'un domaine de statistiques appelé sélection de modèle. Beaucoup de recherches sont effectuées dans ce domaine et il n'y a pas de réponse définitive et facile.
Supposons que vous avez et et que vous souhaitez savoir si vous devez inclure un terme dans le modèle. Dans une situation comme celle-ci, votre modèle le plus parcimonieux est imbriqué dans votre modèle le plus complexe. En d'autres termes, les variables et (modèle parcimonieux) sont un sous-ensemble des variables et (modèle complexe). Dans la construction de modèles, vous avez (au moins) l'un des deux objectifs principaux suivants:X1,X2 X3 X23 X1,X2 X3 X1,X2,X3 X23
Si votre objectif est le numéro 1, je recommande le test du rapport de vraisemblance (LRT). Le TLR est utilisé lorsque vous avez des modèles imbriqués et que vous voulez savoir "les données sont-elles beaucoup plus susceptibles de provenir du modèle complexe que du modèle parcimonieux?". Cela vous donnera un aperçu du modèle qui explique le mieux la relation entre vos données.
Si votre objectif est le numéro 2, je recommande une sorte de technique de validation croisée (CV) (CV plié, CV sans engagement, CV de formation aux tests) en fonction de la taille de vos données. En résumé, ces méthodes construisent un modèle sur un sous-ensemble de vos données et prédisent les résultats sur les données restantes. Choisissez le modèle qui fait le meilleur travail de prédiction sur les données restantes.k
la source
Quand je google pour "modèle linéaire ou non linéaire pour la régression", je reçois des liens qui mènent à ce livre: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Ce livre n'est pas intéressant, et je ne ne lui fais pas confiance à 100% (pour certaines raisons).
J'ai aussi trouvé cet article: http://hunch.net/?p=524 avec le titre: Presque tous les problèmes naturels nécessitent une non-linéarité
J'ai également trouvé une question similaire avec une assez bonne explication: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro
D'après mon expérience, lorsque vous ne savez pas quel modèle utiliser, utilisez les deux et essayez d'autres fonctionnalités.
la source
Comme vous le dites, les modèles linéaires sont généralement plus simples que les modèles non linéaires, ce qui signifie qu'ils s'exécutent plus rapidement (création et prévision), sont plus faciles à interpréter et à expliquer, et généralement simples dans les mesures d'erreurs. Le but est donc de savoir si les hypothèses d'une régression linéaire sont valables avec vos données (si vous ne parvenez pas à prendre en charge linéaire, alors optez simplement pour non-linéaire). Habituellement, vous répéteriez votre tracé à variable unique avec toutes les variables individuellement, en maintenant toutes les autres variables constantes.
Mais peut-être plus important encore, vous voulez savoir si vous pouvez appliquer une sorte de transformation, d'interaction variable ou de variable fictive pour déplacer vos données vers un espace linéaire. Si vous êtes en mesure de valider les hypothèses ou si vous connaissez suffisamment vos données pour appliquer des transformations ou des modifications bien motivées ou informées de manière intelligente, vous devez procéder à cette transformation et utiliser une régression linéaire. Une fois que vous avez les résidus, vous pouvez les représenter en fonction des valeurs prédites ou des variables indépendantes pour décider plus avant si vous devez passer à des méthodes non linéaires.
Il y a une excellente ventilation des hypothèses de régression linéaire ici à Duke . Les quatre hypothèses principales sont répertoriées, et chacune est décomposée en effets sur le modèle, comment le diagnostiquer dans les données et les moyens potentiels de "corriger" (c'est-à-dire de les transformer ou de les ajouter) pour que l'hypothèse se vérifie. Voici un petit extrait du haut résumant les quatre hypothèses abordées, mais vous devriez y aller et lire les ventilations.
la source