Quelle est la différence entre extrapolation et interpolation, et quelle est la manière la plus précise d'utiliser ces termes?
Par exemple, j'ai vu une déclaration dans un article utilisant l'interpolation comme:
"La procédure interpole la forme de la fonction estimée entre les points bin"
Une phrase qui utilise à la fois l'extrapolation et l'interpolation est, par exemple:
L'étape précédente où nous avons extrapolé la fonction interpolée en utilisant la méthode Kernel aux queues de température gauche et droite.
Quelqu'un peut-il fournir un moyen clair et facile de les distinguer et de guider comment utiliser correctement ces termes avec un exemple?
terminology
interpolation
extrapolation
Frank Swanton
la source
la source
Réponses:
Pour ajouter une explication visuelle à ceci: considérons quelques points que vous prévoyez de modéliser.
Ils semblent pouvoir être bien décrits avec une ligne droite, vous leur adaptez donc une régression linéaire:
Cette ligne de régression vous permet à la fois d'interpoler (générer des valeurs attendues entre vos points de données) et d'extrapoler (générer des valeurs attendues en dehors de la plage de vos points de données). J'ai mis en évidence l'extrapolation en rouge et la plus grande région d'interpolation en bleu. Pour être clair, même les minuscules régions entre les points sont interpolées, mais je ne fais que souligner la grande ici.
Pourquoi l'extrapolation est-elle généralement plus préoccupante? Parce que vous êtes généralement beaucoup moins sûr de la forme de la relation en dehors de la plage de vos données. Considérez ce qui pourrait arriver lorsque vous collectez quelques points de données supplémentaires (cercles creux):
Il s'avère que la relation n'a pas été bien capturée avec votre relation hypothétique après tout. Les prédictions dans la région extrapolée sont loin. Même si vous aviez deviné la fonction précise qui décrit correctement cette relation non linéaire, vos données ne s'étalaient pas sur une plage suffisante pour que vous puissiez bien capturer la non-linéarité, vous pourriez donc être encore assez loin. Notez que c'est un problème non seulement pour la régression linéaire, mais pour toute relation - c'est pourquoi l'extrapolation est considérée comme dangereuse.
Les prédictions dans la région interpolée sont également incorrectes en raison du manque de non-linéarité dans l'ajustement, mais leur erreur de prédiction est beaucoup plus faible. Il n'y a aucune garantie que vous n'aurez pas de relation inattendue entre vos points (c'est-à-dire la région d'interpolation), mais c'est généralement moins probable.
J'ajouterai que l'extrapolation n'est pas toujours une idée terrible - si vous extrapolez un tout petit peu en dehors de la plage de vos données, vous n'allez probablement pas vous tromper (bien que ce soit possible!). Les anciens qui n'avaient pas de bon modèle scientifique du monde n'auraient pas eu tort s'ils avaient prévu que le soleil se lèverait à nouveau le lendemain et le lendemain (bien qu'un jour loin dans le futur, même cela échouera).
Et parfois, l' extrapolation peut même être instructif - par exemple, de simples extrapolations à court terme de l'augmentation exponentielle des concentrations atmosphériques de CO ont été assez précise au cours des dernières décennies. Si vous étiez un étudiant qui n'avait pas d'expertise scientifique mais qui voulait une prévision approximative à court terme, cela vous aurait donné des résultats assez raisonnables. Mais plus vous extrapolez vos données, plus votre prédiction est susceptible d'échouer, et échoue de manière désastreuse, comme décrit très bien dans ce grand fil: Qu'est-ce qui ne va pas avec l'extrapolation? (merci à @JMisnotastatistician de me le rappeler).2
Modifier en fonction des commentaires: qu'il s'agisse d'interpolation ou d'extrapolation, il est toujours préférable d'avoir une théorie pour fonder les attentes. Si une modélisation sans théorie doit être effectuée, le risque d'interpolation est généralement inférieur à celui de l'extrapolation. Cela dit, à mesure que l'écart entre les points de données augmente en amplitude, l'interpolation devient également de plus en plus lourde de risques.
la source
L' interpolation est essentiellement une opération au sein du support de données , ou entre des points de données connus existants; extrapolation est au - delà du support de données . Autrement dit, le critère est: où sont les valeurs manquantes?
L'une des raisons de cette distinction est que l'extrapolation est généralement plus difficile à bien faire, et même dangereuse, statistiquement sinon pratiquement. Ce n'est pas toujours vrai: par exemple, les inondations fluviales peuvent submerger les moyens de mesurer le débit ou même le stade (niveau vertical), déchirant un trou dans l'enregistrement mesuré. Dans ces circonstances, l'interpolation de la décharge ou du stade est également difficile et être dans le support de données n'aide pas beaucoup.
À long terme, le changement qualitatif remplace généralement le changement quantitatif. Vers 1900, on craignait beaucoup que la croissance du trafic hippomobile ne submerge les villes avec des excréments indésirables. L'exponentielle dans les excréments a été remplacée par le moteur à combustion interne et ses différentes exponentielles.
la source
Version TL; DR:
Mnémonique: en terpolation => en côté.
FWIW: Le préfixe signifie entre et extra signifie au-delà . Pensez aussi des inter routes nationales qui vont entre les Etats ou supplémentaires Terrestres au - delà de notre planète.
la source
Exemple:
Étude: Vous voulez adapter une régression linéaire simple sur la taille à l'âge pour les filles de 6 à 15 ans. La taille de l'échantillon est de 100, l'âge est calculé par (date de mesure - date de naissance) / 365,25.
Après la collecte des données, le modèle est ajusté et obtient l'estimation de l'ordonnée à l'origine b0 et de la pente b1. cela signifie que nous avons E (taille | âge) = b0 + b1 * âge.
Lorsque vous voulez la taille moyenne pour l'âge de 13 ans, vous constatez qu'il n'y a pas de fille de 13 ans dans votre échantillon de 100 filles, l'une d'entre elles a 12,83 ans et l'autre 13,24.
Maintenant, vous branchez age = 13 dans la formule E (taille | age) = b0 + b1 * age. Cela s'appelle l'interpolation car les enfants de 13 ans sont couverts par la plage de vos données utilisées pour ajuster le modèle.
Si vous voulez obtenir la taille moyenne pour 30 ans et utiliser cette formule, cela s'appelle l'extrapolation, car l'âge de 30 ans est en dehors de la plage d'âge couverte par vos données.
Si le modèle a plusieurs covariables, vous devez être prudent car il est difficile de tracer la frontière couverte par les données.
En statistique, nous ne préconisons pas l'extrapolation.
la source