Comment l'interpolation est-elle liée au concept de régression?

17

Expliquez brièvement ce que l'on entend par interpolation. Comment est-elle liée au concept de régression?

l'interpolation est l'art de lire entre les lignes d'un tableau et en mathématiques élémentaires, le terme désigne généralement le processus de calcul des valeurs intermédiaires d'une fonction à partir d'un ensemble de valeurs données ou tabulaires de cette fonction.

Je ne peux pas donner la réponse de la deuxième question. Veuillez aider

Argha
la source
4
La régression vise à identifier une fonction pour décrire la valeur attendue de (la variable dépendante) étant donné (les variables indépendantes). Interpolation utilise la régression pour prédire la valeur de à des valeurs données de x . La différence est subtile mais apparaît au premier plan dans les modèles où les Y sont corrélés, car alors les valeurs prédites diffèrent généralement de leurs valeurs de régression. Ni la régression ni la prédiction ne s'appliquent directement à l'interpolation dans les tableaux mathématiques, qui sont généralement supposés ne comporter aucune erreur aléatoire, mais leurs algorithmes peuvent toujours être utilisés. YXYXY
whuber
2
Est-ce que cela fonctionne pour une classe?
Glen_b -Reinstate Monica

Réponses:

23

La principale différence entre l'interpolation et la régression est la définition du problème qu'ils résolvent.

Étant donné points de données, lorsque vous interpolez, vous recherchez une fonction qui a une forme prédéfinie dont les valeurs dans ces points sont exactement telles que spécifiées. Cela signifie que pour des paires données vous recherchez d'une forme prédéfinie qui satisfait . Je pense que le plus souvent, est choisi pour être polynomial, spline (polynômes de faible degré sur les intervalles entre des points donnés).n(xi,yi)FF(xi)=yiF

Lorsque vous effectuez une régression, vous recherchez une fonction qui minimise certains coûts, généralement la somme des carrés d'erreurs. Vous n'avez pas besoin que la fonction ait les valeurs exactes à des points donnés, vous voulez juste une bonne approximation. En général, votre fonction trouvée pourrait ne pas satisfaire pour aucun point de données, mais la fonction de coût, c'est-à-dire sera la plus petite possible de toutes les fonctions de forme donnée.FF(xi)=yii=1n(F(xi)yi)2

Un bon exemple pour lequel vous voudrez peut-être seulement approximer au lieu d'interpoler sont les prix en bourse. Vous pouvez prendre des prix dans quelques unités de temps récentes et essayer de les interpoler pour obtenir une prédiction du prix dans l'unité de temps suivante. C'est plutôt une mauvaise idée, car il n'y a aucune raison de penser que les relations entre les prix peuvent être exactement exprimées par un polynôme. Mais la régression linéaire pourrait faire l'affaire, car les prix pourraient avoir une certaine "pente" et une fonction linéaire pourrait être une bonne approximation, au moins localement (indice: ce n'est pas si facile, mais la régression est certainement une meilleure idée que l'interpolation dans ce cas ).k

sjm.majewski
la source
Bonne réponse. J'ajouterais qu'avec la régression, il y a un modèle statistique derrière cela qui définit la relation entre et X en termes de distribution, où nous estimons que c'est moyen (ou médiane, ou quantiles etc. dans différentes saveurs de régression), par exemple stats .stackexchange.com / questions / 173660 /…OuiX
Tim
L'exemple que vous avez décrit ne serait-il pas une extrapolation plutôt qu'une interpolation?
bi_scholar
6

Les deux réponses précédentes ont expliqué la relation entre interpolation linéaire et régression linéaire (voire interpolation générale et régression polynomiale). Mais une connexion importante est qu'une fois que vous avez ajusté un modèle de régression, vous pouvez l'utiliser pour interpoler entre les points de données donnés.

Michael R. Chernick
la source
Donc, quand je régresse, disons, la taille par rapport au sexe, je peux interpoler pour trouver la taille attendue d'un mi-homme, mi-femme! Cet exemple fantaisiste met en évidence la faille fondamentale de cette réponse, qui est l'hypothèse que tous les régresseurs d'un modèle de régression doivent être des variables continues.
whuber
2
Ma réponse s'applique lorsque toutes les variables prédictives sont continues ..
Michael R. Chernick
4

Espérons que cela viendra assez rapidement avec un exemple simple et une visualisation.

Supposons que vous ayez les données suivantes:

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Nous pouvons utiliser la régression pour modéliser Y en réponse à X. En utilisant R: lm(y ~ x)

Les résultats sont une ordonnée à l'origine de 5 et un coefficient pour x de 1. Ce qui signifie qu'un Y arbitraire peut être calculé pour un X donné comme X + 5. Comme image, vous pouvez voir ceci de cette façon:

entrez la description de l'image ici

Remarquez comment, si vous êtes allé sur l'axe X, n'importe où le long de celui-ci, et avez tracé une ligne jusqu'à la ligne ajustée, puis tracé une ligne sur l'axe Y, vous pouvez obtenir une valeur, que je fournisse ou non un point de valeur pour Y. La régression lisse les zones sans données en estimant la relation sous-jacente.

Fomite
la source
2

la différence de base n / b Interpolation et régression est la suivante: Interpolation: supposons qu'il y ait n points (par exemple: 10 points de données), en interpolation nous ajusterons la courbe passant par tous les points de données (c'est-à-dire ici 10 points de données) avec un degré du polynôme (nombre de points de données -1; c'est-à-dire qu'il est ici de 9). Là où dans la régression, tous les points de données ne nécessitent pas seulement un ensemble d'entre eux pour l'ajustement de la courbe.

généralement l'ordre de l'interpolation et de la régression sera (1, 2 ou 3) si l'ordre est supérieur à 3, plus d'oscillations seront observées dans la courbe.

user30339
la source
2
Cela implique que l'interpolation est basée sur des polynômes, mais il existe plusieurs autres méthodes, telles que la spline cubique, l'hermite cubique par morceaux, le plus proche voisin, etc.
Nick Cox
@Nick Bien que vous ayez raison, il est curieux que chaque méthode que vous nommez soit basée sur des polynômes! L'interpolateur non polynomial le plus simple et le plus connu est peut-être la pondération à distance inverse (IDW).
whuber
@whuber Accepté; si des polynômes peuvent être appliqués avec des contraintes, alors la plupart des méthodes se qualifient, par exemple voisin le plus proche = constante par morceaux, etc.
Nick Cox
2

La régression est le processus de recherche de la ligne de meilleur ajustement [1]. L'interpolation est le processus d'utilisation de la ligne de meilleur ajustement pour estimer la valeur d'une variable à partir de la valeur d'une autre, à condition que la valeur que vous utilisez se trouve dans la plage de vos données. Si elle est en dehors de la plage, vous utiliserez alors l'extrapolation [1].

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html

Razan Paul
la source
2
Cette réponse ne distingue pas l'interpolation de l'extrapolation. Maintenez-vous que c'est la même chose? BTW, les forums de mathématiques (et même les manuels et articles) ne sont généralement pas de bonnes sources d'informations sur les problèmes statistiques, car ils ont tendance à se concentrer sur des significations mathématiques étroites qui - bien que correctes et utiles dans des applications purement mathématiques - pourraient ne pas s'appliquer plus largement .
whuber
1

Avec une interpolation ou un ajustement par spline, nous obtenons des données numériques (pari interpolé entre chaque paire de données d'origine) de plus grande taille, qui, lorsqu'elles sont tracées, génèrent l'effet d'une courbe lisse. En réalité, entre chaque paire de données d'origine, un polynôme différent est ajusté, donc la courbe entière après interpolation est une courbe continue par morceaux, où chaque morceau est formé d'un polynôme différent.

Si l'on recherche une représentation paramétrique des données numériques d'origine, une régression doit être effectuée. Vous pouvez également essayer d'adapter un polynôme de haut degré à la spline. Dans tous les cas, la représentation va être une approximation. Vous pouvez également vérifier la précision de l'approximation.

Karnika
la source
Il semble que vous n'ayez pas encore eu l'occasion de lire le commentaire de Nick Cox , qui souligne que tous les interpolateurs ne sont pas des polynômes (locaux).
whuber
0

La régression et l'interpolation sont utilisées pour prédire les valeurs d'une variable (Y) pour une valeur donnée d'une autre variable (X). Dans la régression, nous pouvons prédire n'importe quelle valeur de la variable dépendante (Y) pour une valeur donnée de la variable indépendante (X) Même si elle est en dehors de la plage de valeurs tabulées, mais en cas d'interpolation, nous ne pouvons prédire que les valeurs de la variable dépendante (Y) pour une valeur de variable indépendante (X) qui se situe dans la plage de valeurs données de X.

kounteyo roy chowdhury
la source
0

L'interpolation est le processus d'ajustement d'un certain nombre de points entre x = a et x = b exactement à un polynôme interpolateur. L'interpolation peut être utilisée pour trouver la valeur approximative (ou la valeur manquante) de y dans le domaine x = [a, b] avec une meilleure précision que la technique de régression.

D'autre part, la régression est un processus d'ajustement d'un certain nombre de points à une courbe passant par ou à proximité des points avec une erreur quadratique minimale. La régression n'approchera pas la valeur de y dans le domaine x = [a, b] aussi précise que l'interpolation, mais la régression fournit de meilleures prédictions que l'interpolation pour les valeurs de y dans le domaine entre x = (- infini, a) et x = ( b, + infini).

En résumé, l'interpolation fournit une meilleure précision dans la valeur de y dans le domaine d'une plage x connue tandis que la régression fournit de meilleures prédictions de y dans le domaine en dessous et au-delà de la plage connue de x.

NFM Noor
la source
3
Ce n'est pas une définition d'interpolation qu'un polynôme est utilisé. D'autres fonctions fluides pourraient être appropriées.
Nick Cox
3
Il y a d'autres problèmes avec vos réclamations. Par exemple, la régression peut être plus précise que l'interpolation. La distinction statistique entre les deux procédures est très différente de ce que vous représentez: veuillez consulter les autres articles de ce fil.
whuber