Comment peut-on objectivement (lire "algorithmiquement") sélectionner un modèle approprié pour effectuer une régression linéaire des moindres carrés simple avec deux variables?
Par exemple, disons que les données semblent montrer une tendance quadratique et qu'une parabole est générée, qui correspond assez bien aux données. Comment justifions-nous d'en faire la régression? Ou comment éliminer la possibilité d'exister un meilleur modèle?
Ce qui m'inquiète vraiment, c'est ceci: nous pourrions simplement continuer à ajouter des termes polynomiaux jusqu'à ce que nous ayons un ajustement parfait pour l'ensemble de données (une interpolation des points), sans aucune erreur. Mais cela ne servirait à rien de prévoir ou d'extrapoler, car il n'y aurait aucune raison de penser que le "modèle" était réellement approprié. Alors, comment équilibrer les besoins de précision et d'attrait intuitif?
(De plus, veuillez m'alerter si cela a déjà été demandé, j'ai supposé que cela l'aurait été mais je n'ai rien trouvé.)
la source
Réponses:
Vous pouvez consulter AIC, BIC ou toute autre mesure similaire.
Vous pouvez utiliser vos yeux et votre sens du terrain.
Ou vous pouvez éviter une partie du problème en utilisant des splines.
la source
Il est probable que vous ne puissiez pas trouver un polynôme qui constitue une description correcte de la relation, quelle que soit la quantité de données dont vous disposez.
Ce problème peut s'étendre à presque toutes les classes de modèles.
Cependant, nous sommes généralement intéressés à obtenir une bonne description qui suffit pour un but (un modèle), plutôt que de découvrir le processus réel (peut-être trop compliqué) conduisant les observations.
En effet, même lorsque le véritable processus provient d'une classe hypothétique de modèles potentiels, il peut être contre-productif de découvrir le vrai modèle (qui peut être d'ordre élevé, par exemple, mais les termes d'ordre élevé peuvent être très très petits). Il se peut qu'un modèle plus simple (c'est-à-dire incorrect ) soit bien meilleur pour nos besoins.
Par exemple, imaginez que nous essayions de prédire les prochaines valeurs dans une série quelque peu bruyante. Tout modèle que nous ajustons comporte une erreur dans les estimations des paramètres, et cette erreur sera amplifiée par les prévisions. Il ne faut pas grand-chose pour avoir un modèle d'ordre inférieur (qui est nécessairement biaisé) avec de bien meilleures performances (par exemple) d'erreur de prédiction quadratique moyenne que l'ordre du modèle "vrai".
Un outil commun pour évaluer les performances du modèle est la prédiction hors échantillon (pas nécessairement au fil du temps). La validation croisée est une façon courante de choisir des modèles ou de comparer les performances des modèles.
Rob Hyndman a écrit une jolie petite introduction ici .
la source
Je dirais très souvent que les gens s'alignent sur l'une des trois approches différentes:
L'analyse fréquentiste est probablement à la fois la plus simple et la plus critiquée pour ses défauts. La théorie de l'information, quant à elle, a récemment connu un boom, attirant l'attention de plus en plus de personnes au fil du temps. Je pense que vous devriez essayer de comprendre un peu et de tirer quelques idées de chacune des trois approches. Si vous n'avez aucune idée de ce que les données doivent contenir, alors l'approche fréquentiste est un bon moyen de commencer; d'autre part Si vous avez des informations sur le modèle sous-jacent, jetez un œil à l'inférence bayésienne. Et je garderais toujours le nombre de paramètres libres bas, et c'est ce que AIC et BIC essaient d'équilibrer les informations avec les paramètres.
la source
J'utiliserais des splines cubiques restreintes qui vous permettent de mieux approximer la courbe. Comme raffinement supplémentaire, peut utiliser AICc (ou BIC) pour choisir le nombre de nœuds.
la source