Le contexte:
À partir d'une question sur Mathematics Stack Exchange (Puis-je créer un programme) , quelqu'un a un ensemble de points et veut y adapter une courbe, linéaire, exponentielle ou logarithmique. La méthode habituelle consiste à commencer par choisir l'un d'entre eux (qui spécifie le modèle), puis à effectuer les calculs statistiques.
Mais ce qui est vraiment recherché, c'est de trouver la «meilleure» courbe parmi linéaire, exponentielle ou logarithmique.
En apparence, on pourrait essayer les trois et choisir la courbe la mieux ajustée des trois en fonction du meilleur coefficient de corrélation.
Mais je pense que ce n'est pas tout à fait casher. La méthode généralement acceptée consiste à sélectionner d'abord votre modèle, l'un de ces trois (ou une autre fonction de lien), puis à partir des données, calculer les coefficients. Et la cueillette post facto du meilleur est la cueillette des cerises. Mais pour moi, que vous déterminiez une fonction ou des coefficients à partir des données, c'est toujours la même chose, votre procédure découvre la meilleure chose ... (disons que quelle fonction est -aussi- un autre coefficient à découvrir).
Des questions:
- Est-il approprié de choisir le meilleur modèle d'ajustement parmi les modèles linéaires, exponentiels et logarithmiques, sur la base d'une comparaison des statistiques d'ajustement?
- Si oui, quelle est la manière la plus appropriée de procéder?
- Si la régression permet de trouver des paramètres (coefficients) dans une fonction, pourquoi ne peut-il pas y avoir de paramètre discret pour choisir laquelle des trois familles de courbes les meilleures proviendront?
Réponses:
la source
C'est une question qui est valable dans des domaines très divers.
Le meilleur modèle est celui qui peut prédire les points de données qui n'ont pas été utilisés lors de l'estimation des paramètres. Idéalement, on calculerait les paramètres du modèle avec un sous-ensemble de l'ensemble de données et évaluerait les performances d'ajustement sur un autre ensemble de données. Si les détails vous intéressent, effectuez une recherche avec "validation croisée".
La réponse à la première question est donc "non". Vous ne pouvez pas simplement prendre le modèle le mieux adapté. Image que vous ajustez un polynôme de Nième degré à N points de données. Ce sera un ajustement parfait, car tout le modèle transmettra exactement tous les points de données. Cependant, ce modèle ne généralisera pas aux nouvelles données.
La façon la plus appropriée, pour autant que je puisse dire, est de calculer dans quelle mesure votre modèle peut se généraliser à d'autres ensembles de données à l'aide de mesures qui punissent simultanément l'amplitude des résidus et le nombre de paramètres dans votre modèle. AIC et BIC sont certaines de ces mesures que je connais.
la source
Étant donné que de nombreuses personnes explorent régulièrement l'ajustement de diverses courbes à leurs données, je ne sais pas d'où viennent vos réservations. Certes, il y a le fait qu'un quadratique s'adaptera toujours au moins aussi bien qu'un linéaire, et un cubique, au moins aussi bien qu'un quadratique, donc il y a des moyens de tester la signification statistique de l'ajout d'un tel terme non linéaire et donc de éviter la complexité inutile. Mais la pratique de base de tester de nombreuses formes différentes de relation n'est qu'une bonne pratique. En fait, on pourrait commencer par une régression de loess très flexible pour voir quel est le type de courbe le plus plausible à ajuster.
la source
Vous avez vraiment besoin de trouver un équilibre entre la science / théorie qui mène aux données et ce que les données vous disent. Comme d'autres l'ont dit, si vous vous laissez adapter à toute transformation possible (polynômes de tout degré, etc.), vous finirez par sur-ajuster et obtenir quelque chose d'inutile.
Une façon de vous en convaincre est la simulation. Choisissez l'un des modèles (linéaire, exponentiel, log) et générez des données qui suivent ce modèle (avec un choix de paramètres). Si votre variance conditionnelle des valeurs y est petite par rapport à la propagation de la variable x, alors un simple tracé rendra évident quel modèle a été choisi et quelle est la "vérité". Mais si vous choisissez un ensemble de paramètres tel qu'il ne soit pas évident à partir des graphiques (probablement le cas où une solution analytique est intéressante), analysez chacune des 3 façons et voyez celle qui donne le meilleur ajustement. J'espère que vous constaterez que le "meilleur" ajustement n'est souvent pas le "vrai" ajustement.
D'un autre côté, nous voulons parfois que les données nous en disent le plus possible et nous n'avons peut-être pas la science / théorie pour déterminer pleinement la nature de la relation. L'article original de Box et Cox (JRSS B, vol. 26, no. 2, 1964) discute des moyens de comparer entre plusieurs transformations sur la variable y, leur ensemble de transformations donné a linéaire et log comme cas particuliers (mais pas exponentiel) , mais rien dans la théorie de l'article ne vous limite à leur seule famille de transformations, la même méthodologie pourrait être étendue pour inclure une comparaison entre les 3 modèles qui vous intéressent.
la source