Utiliser la régression pour projeter en dehors de la plage de données, d'accord? jamais ok? parfois ok?

10

Que pensez-vous de l'utilisation de la régression pour projeter en dehors de la plage de données? Si nous sommes sûrs qu'il suit une forme de modèle linéaire ou de puissance, le modèle ne pourrait-il pas être utile au-delà de la plage de données? Par exemple, j'ai un volume déterminé par le prix. Nous devrions être en mesure de projeter des prix en dehors de la plage de données, je crois. Tes pensées?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
Johnson Jason
la source
1
Cela dépend de la qualité de vos hypothèses en dehors de la plage de données. Prédire les pour les x non observés est la raison pour laquelle vous effectuez une régression en premier lieu. yX
Ben
3
Même si vous êtes vraiment, vraiment, sûr que la relation linéaire se poursuit au-delà de la plage des prédicteurs dans votre échantillon de n observations, il y a un terme dans la variance de la réponse prédite pour une nouvelle observation x - à savoir ( x - ˉ x ) 2X1,,XnnX - cela devrait vous inquiéter. (X-X¯)2jen(Xje-X¯)2
Scortchi - Réintégrer Monica
Ben j'ai tendance à être d'accord, n'est-ce pas prédire les y pour les X non observés? Sinon, pourquoi même faire une régression? Peut-être que fixer une limite sur la distance à laquelle je me permets de m'aventurer loin de la plage de données observée pourrait être responsable. 10% seraient sûrement en sécurité .. non?
Johnson Jason
Mon critère préféré sur ce sujet est bmj.com/content/317/7155/409 .
Carlo Lazzaro
@ Ben, @ Johnson - Peut-être un petit problème. Il existe une autre utilisation de la régression. Il peut être utilisé pour expliquer plutôt que pour prédire. Je pense que, particulièrement dans les sciences sociales, c'est une utilisation importante de la régression. J'ai lu beaucoup d'arguments comme Nous pensons que (variables) Un résultat d'effet B, nous effectuons une régression, constatons que l'intervalle de confiance à 95% du ou des coefficients de A ne contient pas 0 et nous concluons qu'il y a une relation de la forme A provoque B. Par ailleurs, ce n'est jamais quelque chose que je fais!
meh

Réponses:

13

Presque toutes les réponses et commentaires mettent en garde contre les dangers de l'extrapolation. Je voudrais offrir une manière plus formelle de voir si la prédiction est prudente. La méthode est basée sur la matrice de projection sur l'espace couvert par les colonnes de que nous supposons de rang complet, c'est-à-dire que nous supposons que l'espace de colonne est de dimension p. Comme vous vous en souvenez peut-être,X

H=X(XTX)-1X

H0<Hjeje<1, je=1,,nHjeje

Hnew,new=XnewT(XTX)-1Xnew

Hnew,new

Je ne sais pas quel logiciel vous utilisez, mais presque tous retourneront la matrice de chapeau avec la bonne commande. Je vous suggère donc de jeter un coup d'œil avant de vous décider.

JohnK
la source
Bravo JohnK, c'est très utile. Pour info, j'utilise la régression Excel.
Johnson Jason
9

L'erreur de prédiction augmente de façon quadratique avec la distance de la moyenne. L'équation de régression et les résultats vous permettent de mesurer la taille de l'erreur sur la plage de données observée, et le modèle n'est adéquat que sur cette même plage.

En dehors de cette plage, beaucoup de choses peuvent se produire. Premièrement, la prédiction empire de plus en plus en raison de l'augmentation de l'erreur de prédiction.

Deuxièmement, le modèle peut s'effondrer complètement. La façon la plus simple de voir cela est d'essayer de projeter un modèle reliant le prix au temps: vous ne pouvez pas faire de prédictions pour un temps négatif.

Troisièmement, la relation linéaire peut être inadéquate. Dans votre exemple, il y a presque certainement des économies d'échelle, qui deviendraient très visibles si vous essayez de prédire bien en dehors de la plage des valeurs observées.

Un exemple humoristique de ce même effet apparaît dans l'une des œuvres de Mark Twain , où il tente de modéliser la longueur du fleuve Mississippi au fil du temps --- il était / était assez venteux et raccourcit / ed chaque année en raison de l'érosion de certains des virages ainsi que des raccourcis artificiels --- et "prédit" qu'en tant d'années la distance entre Le Caire, l'Illinois et la Nouvelle-Orléans aura diminué à environ un mile et trois quarts).

Enfin, notez que la plage de valeurs observées peut être assez compliquée si vous avez plusieurs variables prédictives. (En raison des corrélations entre les prédicteurs, vous ne pouvez souvent pas simplement prendre la case définie par les maxima et les minima dans chaque prédicteur.)

user3697176
la source
1
(+1) Bien que dire que le modèle n'est adéquat que sur la plage des données observées est un peu fort - c'est que les problèmes que vous décrivez deviennent de plus en plus concernant plus vous vous en éloignez.
Scortchi - Réintégrer Monica
Alors, y a-t-il un travail pour savoir à quelle distance est une distance de sécurité pour s'aventurer loin de la plage de données observée? Moins d'un écart type bien?
Johnson Jason
1
@Scortchi. Point pris. Dans la plupart des situations, la dégradation du modèle est progressive. Cependant, de temps en temps il y a des limites difficiles, et d' essayer d'aller au - delà de ceux qui va à la douleur de cause.
user3697176
1
@JohnsonJason: Cela n'a aucun sens de chercher une règle d'or. Vous pouvez facilement calculer les intervalles de prédiction, en supposant que votre modèle peut être extrapolé; le degré auquel vous pouvez faire confiance à l'extrapolation dépend de la connaissance du sujet: ce qui est acceptable varie d'un cas à l'autre.
Scortchi - Réintégrer Monica
1
Excellents points (+1). Mais il n'y a pas de problème logique à prévoir le prix pour un temps négatif. Le vrai problème est de savoir si vous prévoyez un prix négatif pendant un certain temps (généralement dans le passé, en pratique). Souvent, cela signifie que le modèle est qualitativement incorrect autant que cette extrapolation étend trop loin une ligne (ou une courbe). Une fonction de lien logarithmique par exemple implique toujours des prédictions positives.
Nick Cox du
4

Vous ne pouvez pas prendre de décisions basées sur les données pour les zones où vous ne disposez pas de données. Fin de l'histoire. Les données peuvent très bien prendre en charge une forme linéaire pour la plage dans laquelle vos données sont collectées, mais vous n'avez aucune raison basée sur les données de croire que cette forme continue d'être linéaire en dehors de votre plage. Ce pourrait être n'importe quelle forme sous le soleil!

Vous pouvez supposer que la forme linéaire se poursuit en dehors de votre plage de données, mais il s'agit d'une hypothèse subjective non prise en charge par les données que vous avez collectées. Je suggérerais de consulter un expert en la matière pour voir, sur la base de son expertise en la matière, à quel point cette hypothèse est sûre.

TrynnaDoStat
la source
2
Alors, à quoi bon vraiment faire une régression si nous ne pouvons pas prédire les Y pour les X non observés
Johnson Jason
2
Je pense que le fait est que vous pouvez toujours prédire à l'intérieur de la plage, il n'est tout simplement pas conseillé de prédire en dehors de la plage. Vraisemblablement, la plupart des nouveaux points de données seraient dans la plage, donc le modèle resterait utile la grande majorité du temps
Ryan Zotti