Choisir un modèle de régression

8

Comment peut-on objectivement (lire "algorithmiquement") sélectionner un modèle approprié pour effectuer une régression linéaire des moindres carrés simple avec deux variables?

Par exemple, disons que les données semblent montrer une tendance quadratique et qu'une parabole est générée, qui correspond assez bien aux données. Comment justifions-nous d'en faire la régression? Ou comment éliminer la possibilité d'exister un meilleur modèle?

Ce qui m'inquiète vraiment, c'est ceci: nous pourrions simplement continuer à ajouter des termes polynomiaux jusqu'à ce que nous ayons un ajustement parfait pour l'ensemble de données (une interpolation des points), sans aucune erreur. Mais cela ne servirait à rien de prévoir ou d'extrapoler, car il n'y aurait aucune raison de penser que le "modèle" était réellement approprié. Alors, comment équilibrer les besoins de précision et d'attrait intuitif?

(De plus, veuillez m'alerter si cela a déjà été demandé, j'ai supposé que cela l'aurait été mais je n'ai rien trouvé.)

Glen_b -Reinstate Monica
la source
1
La question elle-même soulève vraiment la question que vous devez vous poser. Pourquoi est-ce que je construis ce modèle de régression? Pour quoi utiliserez-vous le modèle? Qu'espérez-vous apprendre du modèle? Ce sont d'énormes questions qui guideront sûrement les étapes que vous prendrez dans la construction du modèle.
jsk
Je pense que le chiffre sur la page Wikipedia pour le sur-ajustement parle par lui-même.
nico

Réponses:

1

Vous pouvez consulter AIC, BIC ou toute autre mesure similaire.

Vous pouvez utiliser vos yeux et votre sens du terrain.

Ou vous pouvez éviter une partie du problème en utilisant des splines.

Peter Flom
la source
Merci. Je ne suis qu'un débutant en statistique, puis-je demander si les mesures AIC, BIC sont "objectives" (comme dérivées de quelque chose), ou sont-elles essentiellement "inventées" par l'expérience statistique?
AIC, BIC, etc. sont dérivés de deux qualités importantes du modèle considéré: le nombre de paramètres (k) et la probabilité du modèle (L). Prendre en compteUNEjeC2k-2ln(L)- nous voyons ici un compromis entre le nombre de paramètres et la probabilité.
abaumann
9

Il est probable que vous ne puissiez pas trouver un polynôme qui constitue une description correcte de la relation, quelle que soit la quantité de données dont vous disposez.

Ce problème peut s'étendre à presque toutes les classes de modèles.

Cependant, nous sommes généralement intéressés à obtenir une bonne description qui suffit pour un but (un modèle), plutôt que de découvrir le processus réel (peut-être trop compliqué) conduisant les observations.

En effet, même lorsque le véritable processus provient d'une classe hypothétique de modèles potentiels, il peut être contre-productif de découvrir le vrai modèle (qui peut être d'ordre élevé, par exemple, mais les termes d'ordre élevé peuvent être très très petits). Il se peut qu'un modèle plus simple (c'est-à-dire incorrect ) soit bien meilleur pour nos besoins.

Par exemple, imaginez que nous essayions de prédire les prochaines valeurs dans une série quelque peu bruyante. Tout modèle que nous ajustons comporte une erreur dans les estimations des paramètres, et cette erreur sera amplifiée par les prévisions. Il ne faut pas grand-chose pour avoir un modèle d'ordre inférieur (qui est nécessairement biaisé) avec de bien meilleures performances (par exemple) d'erreur de prédiction quadratique moyenne que l'ordre du modèle "vrai".

Un outil commun pour évaluer les performances du modèle est la prédiction hors échantillon (pas nécessairement au fil du temps). La validation croisée est une façon courante de choisir des modèles ou de comparer les performances des modèles.

Rob Hyndman a écrit une jolie petite introduction ici .

Glen_b -Reinstate Monica
la source
1

Je dirais très souvent que les gens s'alignent sur l'une des trois approches différentes:

  • fréquentistes, qui utilisent des tests tels que le test F
  • bayésiens, qui utilisent l' inférence bayésienne
  • les gars de la théorie de l'information, qui utilisent le BIC et l'AIC, tout comme les autres exemples cités ci-dessus.

L'analyse fréquentiste est probablement à la fois la plus simple et la plus critiquée pour ses défauts. La théorie de l'information, quant à elle, a récemment connu un boom, attirant l'attention de plus en plus de personnes au fil du temps. Je pense que vous devriez essayer de comprendre un peu et de tirer quelques idées de chacune des trois approches. Si vous n'avez aucune idée de ce que les données doivent contenir, alors l'approche fréquentiste est un bon moyen de commencer; d'autre part Si vous avez des informations sur le modèle sous-jacent, jetez un œil à l'inférence bayésienne. Et je garderais toujours le nombre de paramètres libres bas, et c'est ce que AIC et BIC essaient d'équilibrer les informations avec les paramètres.

pedrofigueira
la source
0

J'utiliserais des splines cubiques restreintes qui vous permettent de mieux approximer la courbe. Comme raffinement supplémentaire, peut utiliser AICc (ou BIC) pour choisir le nombre de nœuds.

koenbro - Réintégrer Monica
la source
Cela dépend vraiment du problème spécifique et de l'ensemble de données, parfois une ligne droite est la meilleure chose à dire sans voir les données.
nico