Quelle est la justification statistique de l'interpolation?

16

Supposons que nous ayons deux points (la figure suivante: cercles noirs) et que nous voulons trouver une valeur pour un troisième point entre eux (croix). Nous allons en effet l'estimer sur la base de nos résultats expérimentaux, les points noirs. Le cas le plus simple consiste à tracer une ligne, puis à trouver la valeur (c'est-à-dire l'interpolation linéaire). Si nous avions des points d'appui, par exemple, en tant que points bruns des deux côtés, nous préférons en tirer parti et ajuster une courbe non linéaire (courbe verte).

La question est: quel est le raisonnement statistique pour marquer la croix rouge comme la solution? Pourquoi les autres croix (par exemple les jaunes) ne sont-elles pas des réponses là où elles pourraient être? Quel genre d'inférence ou (?) Nous pousse à accepter la rouge?

Je développerai ma question d'origine sur la base des réponses obtenues pour cette question très simple.

entrez la description de l'image ici

Développeur
la source
7
C'est une question très bien posée et intéressante. Vous souhaiterez peut-être faire la distinction entre l'interpolation de séries chronologiques et d'autres formes d'interpolation (telles que la splination ou l'interpolation spatiale), en raison de la directivité inhérente des séries chronologiques.
whuber
1
J'apprécie ce commentaire très motivant.
Développeur
Voir aussi Comment fonctionne l'interpolation Kriging? .
Scortchi - Réintégrer Monica

Réponses:

14

Toute forme d'ajustement de fonction, même non paramétrique (qui fait généralement des hypothèses sur le lissage de la courbe impliquée), implique des hypothèses, et donc un acte de foi.

L'ancienne solution d'interpolation linéaire est celle qui `` fonctionne juste '' lorsque les données que vous avez sont suffisamment `` fines '' (si vous regardez un cercle assez près, il semble également plat - il suffit de demander à Columbus), et était réalisable même avant l'ère informatique (ce qui n'est pas le cas pour de nombreuses solutions de splines modernes). Il est logique de supposer que la fonction «continuera dans la même matière (c'est-à-dire linéaire)» entre les deux points, mais il n'y a pas raison a priori à cela (sauf connaissance des concepts en question).

Il devient rapidement clair lorsque vous avez trois (ou plus) points non colinéaires (comme lorsque vous ajoutez les points bruns ci-dessus), que l'interpolation linéaire entre chacun d'eux impliquera bientôt des angles vifs dans chacun de ceux-ci, ce qui est généralement indésirable. C'est là que les autres options interviennent.

Cependant, sans autre connaissance du domaine, il n'y a aucun moyen d'affirmer avec certitude qu'une solution est meilleure que l'autre (pour cela, vous devez savoir quelle est la valeur des autres points, ce qui va à l'encontre de l'objectif d'adapter la fonction dans le première place).

Du côté positif, et peut-être plus pertinent pour votre question, dans les `` conditions de régularité '' (lire: hypothèses : si nous savons que la fonction est par exemple lisse), l'interpolation linéaire et les autres solutions populaires peuvent se révéler `` raisonnables '' approximations. Pourtant: cela nécessite des hypothèses, et pour celles-ci, nous n'avons généralement pas de statistiques.

Nick Sabbe
la source
Ceci est une bonne réponse et est mon candidat à marquer comme réponse. J'ai compris qu'il n'y a aucune justification statistique pour un tel choix commun, non?
Développeur
En effet, je crois qu'il n'y en a pas, non.
Nick Sabbe
2
Certains documents (impliquant des concours pour interpoler des échantillons d'ensembles de données bien connus) valident partiellement cette réponse, mais pas entièrement. On peut en apprendre beaucoup sur la corrélation spatiale des données grâce à l'analyse statistique des seules données, sans aucune «condition de régularité». Ce qu'il faut, c'est un modèle des données comme échantillon d'une réalisation d'un processus stochastique avec (1) une hypothèse ergodique et (dans la plupart des cas) (2) une sorte d'hypothèse de stationnarité. Dans ce cadre, l'interpolation devient la prédiction d'une attente, mais même des courbes non différenciables sont autorisées.
whuber
1
@whuber: Je suis loin de ma zone de confort ici, mais tout ce qui se trouve après les "conditions de régularité" dans votre commentaire se lit comme une quantité d'hypothèses assez solide (la stationnarité équivaudrait probablement à une condition de régularité, non?). En fait, je pense que cela dépendra de la taille de votre échantillon par rapport aux irrégularités de la forme fonctionnelle ... Pouvez-vous donner une référence d'un article ou des articles similaires lorsque ce n'est pas le cas?
Nick Sabbe
2
Vous ne pouvez rien faire sans hypothèses, Nick! Mais la régularité (comme la finesse de la fonction) n'est pas nécessaire: elle peut être déduite des données, au moins à l'échelle à laquelle la fonction est échantillonnée. (La stationnarité est une hypothèse beaucoup plus douce que la fluidité.) Vous avez raison de dire que des échantillons plus importants sont nécessaires, mais beaucoup peut être appris en 2D même avec 30 à 50 emplacements d'échantillons bien choisis. La littérature est vaste; par exemple, la plupart des numéros de géologie mathématique y sont consacrés. Pour une introduction rigoureuse, voir les statistiques spatiales
whuber
0

Vous pouvez calculer l'équation linéaire pour la ligne de meilleur ajustement (par exemple, y = 0,45554x + 0,7525), mais cela ne fonctionnerait que s'il y avait un axe étiqueté. Cependant, cela ne vous donnerait pas la réponse exacte uniquement la mieux adaptée par rapport aux autres points.

Claire Winterbourne
la source
Mais la régression n'est pas une interpolation .
Scortchi - Réintégrer Monica
1
@Scortchi Je pense que la régression peut être comprise comme une interpolation. Cependant, proposer la régression comme solution ne répond pas à la question, qui nous demande d'expliquer pourquoi tout type d'interpolation est justifiable (et nous invite implicitement à décrire les hypothèses nécessaires pour la justifier).
whuber
@whuber: Merci. Je pensais à l'interpolation, du moins de manière prototypique, comme à la jonction - stats.stackexchange.com/a/33662/17230 .
Scortchi - Réintégrer Monica
@Scortchi Ce thread aborde principalement le concept mathématique d'interpolation dans un tableau. Dans un commentaire à sa question, j'ai souligné la compréhension statistique conventionnelle de l'interpolation, qui est subtilement différente. La régression fonctionne dans les deux mondes: une fonction de régression peut servir d'interpolateur mathématique (pour une fonction bien définie qui est échantillonnée dans un tableau) ainsi que d'interpolateur statistique (au moyen de prédictions statistiques des valeurs d'un processus stochastique conditionnel à une nombre fini de valeurs dérivées de ce processus).
whuber
1
@Cagdas La seule façon de reconstruire parfaitement une fonction à partir de données finies est de fournir suffisamment de restrictions sur la fonction pour qu'il n'y ait qu'un seul candidat conditionnel aux données! En particulier, compte tenu du nombre de points de donnéesn et étant donné les supports de la fonction (mais indépendamment de ses valeurs sur ces supports), l'ensemble des fonctions possibles doit être une variété de dimension finie au plus n.
whuber