Que pensez-vous de l'utilisation de la régression pour projeter en dehors de la plage de données? Si nous sommes sûrs qu'il suit une forme de modèle linéaire ou de puissance, le modèle ne pourrait-il pas être utile au-delà de la plage de données? Par exemple, j'ai un volume déterminé par le prix. Nous devrions être en mesure de projeter des prix en dehors de la plage de données, je crois. Tes pensées?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Johnson Jason
la source
la source
Réponses:
Presque toutes les réponses et commentaires mettent en garde contre les dangers de l'extrapolation. Je voudrais offrir une manière plus formelle de voir si la prédiction est prudente. La méthode est basée sur la matrice de projection sur l'espace couvert par les colonnes de que nous supposons de rang complet, c'est-à-dire que nous supposons que l'espace de colonne est de dimension p. Comme vous vous en souvenez peut-être,X
Je ne sais pas quel logiciel vous utilisez, mais presque tous retourneront la matrice de chapeau avec la bonne commande. Je vous suggère donc de jeter un coup d'œil avant de vous décider.
la source
L'erreur de prédiction augmente de façon quadratique avec la distance de la moyenne. L'équation de régression et les résultats vous permettent de mesurer la taille de l'erreur sur la plage de données observée, et le modèle n'est adéquat que sur cette même plage.
En dehors de cette plage, beaucoup de choses peuvent se produire. Premièrement, la prédiction empire de plus en plus en raison de l'augmentation de l'erreur de prédiction.
Deuxièmement, le modèle peut s'effondrer complètement. La façon la plus simple de voir cela est d'essayer de projeter un modèle reliant le prix au temps: vous ne pouvez pas faire de prédictions pour un temps négatif.
Troisièmement, la relation linéaire peut être inadéquate. Dans votre exemple, il y a presque certainement des économies d'échelle, qui deviendraient très visibles si vous essayez de prédire bien en dehors de la plage des valeurs observées.
Un exemple humoristique de ce même effet apparaît dans l'une des œuvres de Mark Twain , où il tente de modéliser la longueur du fleuve Mississippi au fil du temps --- il était / était assez venteux et raccourcit / ed chaque année en raison de l'érosion de certains des virages ainsi que des raccourcis artificiels --- et "prédit" qu'en tant d'années la distance entre Le Caire, l'Illinois et la Nouvelle-Orléans aura diminué à environ un mile et trois quarts).
Enfin, notez que la plage de valeurs observées peut être assez compliquée si vous avez plusieurs variables prédictives. (En raison des corrélations entre les prédicteurs, vous ne pouvez souvent pas simplement prendre la case définie par les maxima et les minima dans chaque prédicteur.)
la source
Vous ne pouvez pas prendre de décisions basées sur les données pour les zones où vous ne disposez pas de données. Fin de l'histoire. Les données peuvent très bien prendre en charge une forme linéaire pour la plage dans laquelle vos données sont collectées, mais vous n'avez aucune raison basée sur les données de croire que cette forme continue d'être linéaire en dehors de votre plage. Ce pourrait être n'importe quelle forme sous le soleil!
Vous pouvez supposer que la forme linéaire se poursuit en dehors de votre plage de données, mais il s'agit d'une hypothèse subjective non prise en charge par les données que vous avez collectées. Je suggérerais de consulter un expert en la matière pour voir, sur la base de son expertise en la matière, à quel point cette hypothèse est sûre.
la source