Je me souviens d'avoir assisté à des cours de statistiques en tant qu'étudiant de premier cycle sur pourquoi l'extrapolation était une mauvaise idée. En outre, de nombreuses sources en ligne commentent ce sujet. Il y a aussi une mention de cela ici .
Quelqu'un peut-il m'aider à comprendre pourquoi l'extrapolation est une mauvaise idée? Si c'est le cas, comment se fait-il que les techniques de prévision ne soient pas statistiquement non valides?
regression
time-series
forecasting
UN GARS
la source
la source
Réponses:
Un modèle de régression est souvent utilisé pour l'extrapolation, c'est-à-dire pour prédire la réponse à une entrée située en dehors de la plage des valeurs de la variable de prédicteur utilisée pour s'adapter au modèle. Le danger associé à l'extrapolation est illustré dans la figure suivante.
Le modèle de régression est «par construction» un modèle d'interpolation et ne doit pas être utilisé pour l'extrapolation, à moins que cela ne soit dûment justifié.
la source
Cette bande dessinée xkcd explique tout.
En utilisant les points de données que Cueball (l'homme au bâton) a, il a extrapolé que la femme aura "quatre douzaines" de maris d'ici la fin du mois prochain et a utilisé cette extrapolation pour conclure à l'achat en gros du gâteau de mariage.
Edit 3: Pour ceux d'entre vous qui disent "il n'a pas assez de points de données", voici une autre bande dessinée xkcd :
Ici, l'utilisation du mot "durable" au fil du temps est montrée sur une parcelle semi-logarithmique, et en extrapolant les points de données, nous recevons une estimation déraisonnable de la fréquence à laquelle le mot "durable" apparaîtra à l'avenir.
Edit 2: Pour ceux d’entre vous qui disent "vous avez aussi besoin de tous les points de données passés", encore un autre BD xkcd:
Ici, nous avons tous les points de données passés, mais nous ne pouvons pas prédire avec précision la résolution de Google Earth. Notez qu'il s'agit également d'un graphique semi-log.
Edit: Parfois, même la plus forte des corrélations (r = .9979 dans ce cas) est tout simplement fausse.
Si vous extrapolez sans autre preuve à l'appui, vous violez également la corrélation n'implique pas un lien de causalité ; un autre grand péché dans le monde des statistiques.
Si vous extrapolez X avec Y, vous devez toutefois vous assurer que vous pouvez prédire avec précision (suffisamment pour répondre à vos besoins) X avec seulement Y. Presque toujours, l'impact de X dépend de multiples facteurs.
J'aimerais partager un lien vers une autre réponse qui l'explique dans les mots de Nassim Nicholas Taleb.
la source
"La prévision est très difficile, surtout s'il s'agit de l'avenir". La citation est attribuée à beaucoup de gens sous une forme ou une autre . Dans "l'extrapolation" suivante, je me limite à "prédiction en dehors de la plage connue" et, dans un cadre unidimensionnel, à une extrapolation d'un passé connu à un avenir inconnu.
Alors, qu'est-ce qui ne va pas avec l'extrapolation? Tout d'abord, il n'est pas facile de modéliser le passé . Deuxièmement, il est difficile de savoir si un modèle du passé peut être utilisé pour l'avenir . Derrière ces deux assertions se cachent de profondes questions sur la causalité ou l'ergodicité, la suffisance des variables explicatives, etc., qui dépendent fortement du cas. Ce qui ne va pas, c'est qu'il est difficile de choisir un schéma d'extrapolation unique qui fonctionne correctement dans différents contextes, sans beaucoup d'informations supplémentaires.
Cependant, les prévisions peuvent être corrigées dans une certaine mesure. En ajoutant à d'autres réponses, quelques ingrédients peuvent aider une extrapolation pratique:
Récemment, j'ai participé à un projet d'extrapolation de valeurs pour la communication de sous-systèmes de simulation dans un environnement en temps réel. Le dogme dans ce domaine était que l'extrapolation pouvait causer l'instabilité. Nous avons en fait réalisé que la combinaison des deux ingrédients ci-dessus était très efficace, sans instabilité notable (sans preuve formelle pour le moment, et en cours de révision ). Et l'extrapolation a fonctionné avec des polynômes simples, avec une charge de calcul très faible, la plupart des opérations étant calculées à l'avance et stockées dans des tables de recherche.
Enfin, comme l’extrapolation suggère un dessin amusant, voici l’effet en arrière de la régression linéaire:
la source
Bien que l'ajustement d'un modèle puisse être " bon ", l'extrapolation au-delà de la plage des données doit être traitée avec scepticisme. La raison en est que, dans de nombreux cas, l'extrapolation (malheureusement et inévitablement) repose sur des hypothèses indestimables concernant le comportement des données au-delà de leur support observé.
Une mise en garde supplémentaire est que de nombreuses techniques d'estimation non paramétriques ne permettent pas d'extrapolation de manière native. Ce problème est particulièrement visible dans le cas du lissage des splines où il n’ya plus de nœuds pour ancrer la spline ajustée.
Permettez-moi de souligner que l'extrapolation est loin du mal. Par exemple, les méthodes numériques largement utilisées dans Statistics (par exemple le processus delta-carré d'Aitken et l'extrapolation de Richardson ) sont essentiellement des schémas d'extrapolation basés sur l'idée que le comportement sous-jacent de la fonction analysée pour les données observées reste stable quel que soit le support de la fonction.
la source
Contrairement à d'autres réponses, je dirais qu'il n'y a rien de mal à l'extrapolation dans la mesure où elle n'est pas utilisée de manière aveugle. Tout d'abord, notez que l' extrapolation est :
... c'est donc un terme très large et de nombreuses méthodes différentes, allant de la simple extrapolation linéaire à la régression linéaire, à la régression polynomiale ou même à certaines méthodes avancées de prévision de séries chronologiques qui correspondent à cette définition. En fait, extrapolation, prévision et prévision sont étroitement liées. En statistiques, nous faisons souvent des prévisions et des prévisions . C’est aussi ce que dit le lien auquel vous faites référence:
De nombreuses méthodes d'extrapolation sont utilisées pour faire des prédictions. De plus, souvent, des méthodes simples fonctionnent plutôt bien avec de petits échantillons et peuvent donc être préférées aux méthodes compliquées. Le problème est, comme noté dans d'autres réponses, lorsque vous utilisez la méthode d'extrapolation de manière incorrecte.
Par exemple, de nombreuses études montrent que l'âge d'initiation sexuelle diminue avec le temps dans les pays occidentaux. Jetez un coup d'œil à l'intrigue ci-dessous concernant l'âge du premier rapport sexuel aux États-Unis. Si nous utilisions aveuglément la régression linéaire pour prédire l'âge du premier rapport sexuel, nous prédirions qu'elle passe sous zéro à un certain nombre d'années (en conséquence, le premier mariage et la première naissance surviennent à un moment après la mort) ... Cependant, si vous deviez faire prévision sur un an, alors je suppose que la régression linéaire permettrait d’obtenir des prévisions assez précises pour la tendance.
(source guttmacher.org )
Tous les modèles sont erronés , l'extrapolation l'est également, car elle ne vous permettrait pas de prédire avec précision. Comme d’autres outils mathématiques / statistiques, il vous permettra de faire des prévisions approximatives . Leur degré de précision dépend de la qualité des données dont vous disposez, en utilisant des méthodes adaptées à votre problème, des hypothèses que vous avez formulées lors de la définition de votre modèle et de nombreux autres facteurs. Mais cela ne signifie pas que nous ne pouvons pas utiliser de telles méthodes. Nous pouvons le faire, mais nous devons nous rappeler leurs limites et évaluer leur qualité pour un problème donné.
la source
J'aime assez l'exemple de Nassim Taleb (qui était une adaptation d'un exemple précédent de Bertrand Russell):
Certains analogues mathématiques sont les suivants:
la connaissance des premiers coefficients de Taylor d'une fonction ne garantit pas toujours que les coefficients suivants suivront votre modèle présumé.
la connaissance des conditions initiales d'une équation différentielle ne garantit pas toujours la connaissance de son comportement asymptotique (par exemple, les équations de Lorenz, parfois déformées en ce qu'on appelle "l'effet papillon")
Voici un joli fil MO sur la question.
la source
Réfléchissez à l'histoire suivante, si vous voulez.
Je me souviens aussi d'avoir suivi un cours de statistique et le professeur nous a dit que l'extrapolation était une mauvaise idée. Puis, lors du prochain cours, il nous a dit que c'était encore une mauvaise idée; en fait, il l'a dit deux fois.
J'étais malade pour le reste du semestre, mais j'étais certain de ne pas avoir manqué beaucoup de choses, car la semaine dernière, le gars n'avait sûrement pas fait autre chose que dire aux gens encore et encore que l'extrapolation était une mauvaise idée. .
Curieusement, je n’ai pas obtenu une très bonne note à l’examen.
la source
La question n’est pas seulement statistique, c’est aussi épistémologique. L'extrapolation est l'une des façons dont nous apprenons la nature, c'est une forme d' induction . Supposons que nous ayons des données sur la conductivité électrique d'un matériau dans une plage de températures allant de 0 à 20 degrés Celsius. Que pouvons-nous dire de la conductivité à 40 degrés Celsius?
Cela est étroitement lié à la déduction d'un petit échantillon: que peut-on dire de la population entière à partir de mesures effectuées sur un petit échantillon? Cela a été lancé par Gosset en tant que Guiness , qui a proposé les distributions de Student. Avant lui, les statisticiens ne se sont pas souciés de penser aux petits échantillons en supposant que la taille de l'échantillon puisse toujours être grande. Il était à Guinnes et devait traiter des échantillons de bière pour décider quoi faire du lot de bière à expédier.
Donc, dans la pratique (affaires), l'ingénierie et la science, nous devons toujours extrapoler d'une certaine manière. Il peut s'agir d'extrapoler de petits échantillons en échantillons volumineux, ou d'une gamme limitée de conditions d'entrée à un ensemble plus large de conditions, allant de ce qui se passe dans l'accélérateur à ce qui est arrivé à un trou noir situé à des milliards de kilomètres, etc. C'est particulièrement important en science, bien que , comme nous l’avons vraiment appris en étudiant les écarts entre nos estimations par extrapolation et nos mesures réelles. Nous trouvons souvent de nouveaux phénomènes lorsque les écarts sont importants ou cohérents.
par conséquent, je dis qu'il n'y a pas de problème d'extrapolation. C'est quelque chose que nous devons faire tous les jours. C'est juste difficile.
la source
L'extrapolation elle-même n'est pas forcément mauvaise, mais c'est un processus qui se prête à des conclusions plus déraisonnables que celles obtenues avec une interpolation.
Pour l'extrapolation ultime, considérons le projet Manhattan. Les physiciens étaient forcés de travailler avec des tests à très petite échelle avant de construire la vraie chose. Ils n'avaient tout simplement pas assez d'uranium à gaspiller aux tests. Ils ont fait de leur mieux et ils étaient intelligents. Cependant, lorsque le test final a eu lieu, il a été décidé que chaque scientifique déciderait de la distance qui le séparait de l'explosion à laquelle il souhaitait être exposé. Il y avait des divergences d'opinions substantielles sur la sécurité des distances, car tous les scientifiques savaient qu'ils extrapolaient assez loin de leurs tests. Il y avait même une considération non triviale selon laquelle ils pourraient enflammer l'atmosphère avec la bombe nucléaire, un problème également résolu par une extrapolation substantielle!
la source
Beaucoup de bonnes réponses ici, je veux juste essayer de synthétiser ce que je considère comme le cœur du problème: il est dangereux d’extrapoler au-delà du processus de génération de données qui a donné lieu à l’échantillon d’estimation. Cela s'appelle parfois un «changement structurel».
La prévision s'accompagne d'hypothèses, la principale étant que le processus de génération de données est (pour autant qu'il ne fasse aucune différence significative) identique à celui qui a généré l'échantillon (sauf pour les variables rhs, dont vous tenez compte explicitement dans le modèle). . Si un changement structurel se produit (par exemple, Thanksgiving dans l'exemple de Taleb), tous les paris sont ouverts.
la source