Fusion des observations dans le processus gaussien

11

J'utilise le processus gaussien (GP) pour la régression.

Dans mon problème, il est assez courant que deux ou plusieurs points de données soient proches l'un de l'autre, relativement aux échelles de longueur du problème. De plus, les observations peuvent être extrêmement bruyantes. Pour accélérer les calculs et améliorer la précision des mesures , il semble naturel de fusionner / intégrer des grappes de points proches les uns des autres, tant que je me soucie des prédictions sur une plus grande échelle de longueur.X(1),X(2),

Je me demande quelle est la façon rapide mais semi-raisonnée de faire cela.

Si deux points de données se chevauchaient parfaitement, , et le bruit d'observation (c'est-à-dire la probabilité) est gaussien, peut-être hétéroskédastique mais connu , la façon naturelle de procéder semble les fusionner en un seul point de données avec:X(1)=X(2)

  • , pourk=1,2.X¯X(k)k=1,2

  • Valeur observée qui est une moyenne des valeurs observées y ( 1 ) , y ( 2 ) pondérées par leur précision relative: ˉ y = σ 2 y ( x ( 2 ) )y¯y(1),y(2).y¯=σy2(X(2))σy2(X(1))+σy2(X(2))y(1)+σy2(X(1))σy2(X(1))+σy2(X(2))y(2)

  • Bruit associé à l'observation égal à: .σy2(X¯)=σy2(X(1))σy2(X(2))σy2(X(1))+σy2(X(2))

Cependant, comment fusionner deux points proches mais ne se chevauchant pas ?

  • Je pense que devrait toujours être une moyenne pondérée des deux positions, encore une fois en utilisant la fiabilité relative. La justification est un argument de centre de masse (c.-à-d., Pensez à une observation très précise comme une pile d'observations moins précises).X¯

  • Pour même formule que ci-dessus.y¯

  • Pour le bruit associé à l'observation, je me demande si en plus de la formule ci-dessus je dois ajouter un terme de correction au bruit car je déplace le point de données. Essentiellement, j'obtiendrais une augmentation de l'incertitude liée à et 2 (respectivement, la variance du signal et l'échelle de longueur de la fonction de covariance). Je ne suis pas sûr de la forme de ce terme, mais j'ai quelques idées provisoires sur la façon de le calculer étant donné la fonction de covariance.σF22

Avant de continuer, je me demandais s'il y avait déjà quelque chose là-bas; et si cela semble être une façon raisonnable de procéder, ou s'il existe de meilleures méthodes rapides .

La chose la plus proche que j'ai pu trouver dans la littérature est cet article: E. Snelson et Z. Ghahramani, Sparse Gaussian Processes using Pseudo-inputs , NIPS '05; mais leur méthode est (relativement) impliquée, nécessitant une optimisation pour trouver les pseudo-entrées.

lacerbi
la source
1
À leur manière, j'apprécie de pouvoir utiliser l'inférence approximative ou certaines méthodes à grande échelle, mais c'est un autre point.
lacerbi

Réponses:

4

Grande question et ce que vous proposez semble raisonnable. Cependant, personnellement, je procéderais différemment pour être efficace. Comme vous l'avez dit, deux points proches fournissent peu d'informations supplémentaires et, par conséquent, les degrés de liberté effectifs du modèle sont inférieurs au nombre de points de données observés. Dans un tel cas, il peut être utile d'utiliser la méthode Nystroms qui est bien décrite en GPML (un chapitre sur les approximations clairsemées peut être consulté http://www.gaussianprocess.org/gpml/ ). La méthode est très facile à mettre en œuvre et s'est récemment révélée très précise par Rudi et al. ( http://arxiv.org/abs/1507.04717 )

j__
la source
Merci, la méthode de Nystrom semble être une approche intéressante, je vais l'examiner. Cependant, dans mon premier article, j'avais oublié de mentionner que le bruit dans les observations peut être très élevé (peut-être plus grand que le signal), de sorte que la moyenne des points voisins fournira des informations supplémentaires.
lacerbi
1
Eh bien, c'est encore plus une raison d'utiliser la méthode Nystroms. Un bruit élevé réduit les degrés de liberté effectifs, donc si seules les m premières valeurs propres retiennent le signal et que les autres sont simplement du bruit, la méthode Nystroms supprimera toutes celles qui sont inférieures au premier m. Je pense que cela correspondra au projet de loi pour ce que vous recherchez. Bonne chance!
j__
La méthode Nystrom est ce que je suggérerais (+1). La simple fusion des points en un seul peut poser des problèmes d'estimation de la probabilité marginale du modèle car les deux points de données authentiques ont peu de chances d'avoir le même effet qu'un seul point. Mon conseil serait de garder les deux points séparés, mais de trouver un moyen de rendre le calcul moins cher, ce que le Nystrom emthod devrait atteindre,
Dikran Marsupial
Quel genre de problèmes? Si vous considérez le cas de deux points qui se chevauchent avec du bruit gaussien, alors la méthode de calcul de la moyenne est exacte (tant que vous gardez une trace de la diminution du bruit d'observation). Je ne vois pas pourquoi le même argument ne devrait pas fonctionner pour des points proches de l'échelle de longueur du problème (l'approximation s'aggravant avec l'augmentation de la distance). C'est peut-être ce que fait la méthode de Nystrom, d'une manière plus fondée sur des principes - j'ai encore besoin de comprendre les détails. Je suis curieux de le comparer avec la méthode de calcul de la moyenne, à la fois en termes de précision et de vitesse. Merci
lacerbi
1
@Seeda, nous n'utilisons pas nystrom comme préconditionné efficacement plutôt que la conpkexité à temps réduit habituelle, alors oui.
j__
1

J'ai également étudié la fusion des observations lors de la régression du processus gaussien. Dans mon problème, je n'ai qu'une seule covariable.

Je ne suis pas sûr d'être nécessairement d'accord pour dire que l'approximation Nystrom est préférable. En particulier, si une approximation suffisante peut être trouvée sur la base d'un ensemble de données fusionné, les calculs pourraient être plus rapides que lorsque l'on utilise l'approximation Nystrom.

Voici quelques graphiques montrant 1000 points de données et la moyenne GP postérieure, la moyenne GP postérieure avec les enregistrements fusionnés et la moyenne GP postérieure en utilisant l'approximation Nystrom. Les enregistrements ont été regroupés en fonction de tranches de taille égale de la covariable ordonnée. L'ordre d'approximation concerne le nombre de groupes lors de la fusion d'enregistrements et l'ordre de l'approximation Nystrom. L'approche de fusion et l'approximation Nystrom produisent toutes deux des résultats identiques à la régression GP standard lorsque l'ordre d'approximation est égal au nombre de points.

Dans ce cas, lorsque l'ordre d'approximation est 10, l'approche de fusion semble préférable. Lorsque l'ordre est de 20, la moyenne de l'approximation de Nystrom est visuellement indiscernable de la moyenne postérieure exacte du GP, bien que la moyenne basée sur les observations de fusion soit probablement assez bonne. Lorsque l'ordre est de 5, les deux sont assez pauvres.

entrez la description de l'image ici entrez la description de l'image ici entrez la description de l'image ici

Richard Redding
la source