Régression sur le disque unitaire à partir d'échantillons «uniformément espacés»

9

J'ai besoin de résoudre un problème de régression compliqué sur le disque de l'unité. La question d'origine a suscité quelques commentaires intéressants, mais malheureusement aucune réponse. En attendant, j'ai appris quelque chose de plus sur ce problème, donc je vais essayer de diviser le problème d'origine en sous-problèmes, et voir si j'ai plus de chance cette fois.

J'ai 40 capteurs de température régulièrement espacés dans un anneau étroit à l'intérieur du disque de l'unité: entrez la description de l'image ici

Ces capteurs acquièrent la température dans le temps. Cependant, comme la variation temporelle est beaucoup plus petite que la variation spatiale, simplifions le problème en ignorant la variabilité temporelle et supposons que chaque capteur ne me donne qu'une moyenne temporelle. Cela signifie que j'ai 40 échantillons (un pour chaque capteur) et je n'ai pas d'échantillons répétés.

Je voudrais construire une surface de régression partir des données du capteur. La régression a deux objectifs:T=F(ρ,θ)+ϵ

  1. J'ai besoin d'estimer un profil de température radiale moyenne . Avec la régression linéaire, j'estime déjà une surface qui est la surface de température moyenne, donc je n'ai besoin que d'intégrer ma surface par rapport à θ , non? Si j'utilise des polynômes pour la régression, cette étape devrait être un jeu d'enfant.Tmeunen=g1(ρ)+ϵθ
  2. J'ai besoin d'estimer un profil de température radial , de sorte qu'à chaque position radiale, P ( T ( ρ ) < T 95 ( ρ ) ) = 0,95 .T95=g2(ρ)+ϵP(T(ρ)<T95(ρ))=.95

Compte tenu de ces deux objectifs, quelle technique dois-je utiliser pour la régression sur le disque de l'unité? Bien sûr, les processus gaussiens sont couramment utilisés pour la régression spatiale. Cependant, la définition d'un bon noyau pour le disque unitaire n'est pas triviale, donc je voudrais garder les choses simples et utiliser des polynômes, sauf si vous pensez que c'est une stratégie perdante. J'ai lu des polynômes Zernike . Les polynômes de Zernike semblent être appropriés pour la régression sur le disque unitaire, car ils sont périodiques en .θ

Une fois le modèle choisi, je dois choisir une procédure d'estimation. Puisqu'il s'agit d'un problème de régression spatiale, les erreurs à différents endroits doivent être corrélées. Les moindres carrés ordinaires supposent des erreurs non corrélées, donc je suppose que les moindres carrés généralisés seraient plus appropriés. GLS semble une technique statistique relativement courante, étant donné qu'il existe une glsfonction dans la distribution R standard. Cependant, je n'ai jamais utilisé GLS et j'ai des doutes. Par exemple, comment estimer la matrice de covariance? Un exemple élaboré, même avec seulement quelques capteurs, serait formidable.

PS J'ai choisi d'utiliser les polynômes Zernike et GLS car cela me semble la chose logique à faire ici. Cependant, je ne suis pas un expert, et si vous pensez que je vais dans la mauvaise direction, n'hésitez pas à utiliser une approche complètement différente.

DeltaIV
la source
θ

Réponses:

2

Je pense que vous êtes sur la bonne voie en pensant à quelque chose comme les polynômes de Zernike. Comme indiqué dans la réponse de jwimberly, il s'agit d'un exemple d'un système de fonctions de base orthogonales sur un disque. Je ne connais pas les polynômes de Zernike, mais de nombreuses autres familles de fonctions orthogonales (y compris les fonctions de Bessel) surgissent naturellement en physique mathématique classique en tant que fonctions propres pour certaines équations différentielles partielles (au moment de la rédaction de cet article, l'animation en haut de ce lien même montre un exemple de tête de tambour vibrant).

θ

rT95

En ce qui concerne cette deuxième question, la variabilité des données pourrait en fait aider à résoudre tout problème d'alias, permettant essentiellement à tout mauvais alignement de faire la moyenne des différentes mesures. (En supposant qu'il n'y ait pas de biais systématique ... mais ce serait un problème pour n'importe quelle méthode, sans par exemple un modèle physique pour donner plus d'informations).

Une possibilité serait donc de définir vos fonctions spatiales orthogonales uniquement aux emplacements des capteurs. Ces «fonctions orthogonales empiriques» pourraient être calculées via PCA sur votre matrice de données spatio-temporelles. (Vous pouvez éventuellement utiliser une pondération pour tenir compte des zones de support de capteur variables, mais étant donné la grille polaire uniforme et la cible des moyennes radiales, cela peut ne pas être nécessaire.)

Notez que s'il est des données de modélisation physique disponibles pour les variations « attendues » dans la température, disponible sur une grille de calcul spatio - temporelle dense, puis la même procédure de PCA pourrait être appliquée à ce que les données pour obtenir des fonctions orthogonales. (Ceci est généralement appelé " décomposition orthogonale appropriée " en ingénierie, où il est utilisé pour la réduction du modèle, par exemple un modèle de dynamique des fluides computationnel coûteux peut être distillé pour être utilisé dans d'autres activités de conception.)

Un dernier commentaire, si vous deviez pondérer les données du capteur par zone de support (c'est-à-dire la taille des cellules polaires), ce serait un type de covariance diagonale, dans le cadre de GLS . (Cela s'appliquerait davantage à votre problème de prédiction, bien que l'ACP pondérée soit étroitement liée.)

J'espère que ça aide!

Mise à jour: Votre nouveau diagramme de la distribution des capteurs change considérablement les choses à mon avis. Si vous voulez estimer les températures à l'intérieur du disque, vous aurez besoin d'un préalable beaucoup plus informatif qu'un simple "ensemble de fonctions orthogonales sur le disque de l'unité". Il y a trop peu d'informations dans les données du capteur.

Si vous voulez en effet estimer la variation de température spatiale sur le disque, la seule façon raisonnable que je puisse voir serait de traiter le problème comme celui de l'assimilation des données . Ici, vous devez au moins contraindre la forme paramétrique de la distribution spatiale en fonction de certaines considérations basées sur la physique (celles-ci peuvent provenir de simulations ou de données associées dans des systèmes ayant une dynamique similaire).

Je ne connais pas votre application particulière, mais si c'est quelque chose comme ça , alors j'imagine qu'il y a une littérature d'ingénierie complète sur laquelle vous pouvez vous baser pour choisir les contraintes préalables appropriées. (Pour ce type de connaissance détaillée du domaine, ce n'est probablement pas le meilleur site StackExchange sur lequel demander.)

GeoMatt22
la source
Réponse impressionnante! Besoin de temps pour le digérer. Vous posez deux questions: je ne suis pas sûr de comprendre la première ("de combien de contraintes sur le modèle spatial avez-vous besoin?"). alors convenable ... dites-vous que ce n'est pas nécessairement vrai? Pour le second ("quels types de variabilité se produisent dans les données spatio-temporelles"), dans un ou deux jours, j'analyserai le premier moteur (j'en ai en fait 5! Mais ce sera le sujet d'un future question ...) ctd ...
DeltaIV
... ctd, je normaliserai les données et je verrai ce que je peux publier sur un site public. Quelques modèles spatiaux et quelques séries chronologiques ... Je pense qu'ils devraient vous donner une idée de ce que vous demandez.
DeltaIV
1
T95
1
BTW s'il s'agit d'un problème de conception et qu'il existe des simulations de type CFD associées, cela représente beaucoup plus d'informations que ne l'implique la question actuelle. (Par exemple, aborder le problème car l'assimilation des données peut utiliser différentes approches.)
GeoMatt22
Votre réponse me fait penser: au lieu de régression, y a-t-il un équivalent 2d d'une transformée de Fourier discrète qui pourrait être fait? Par exemple, en prenant l'intégrale des points de données fois la n-ième fonction de Bessel (modifiée de façon appropriée), puis en obtenant une décomposition orthogonale? Les préoccupations seraient ici 1) de trouver la fonction discrétisée appropriée, peut-être dans le même sens que votre réponse, et 2) si cela serait trop sensible au petit nombre de points d'échantillonnage et que la décomposition s'appuierait sur des termes d'ordre supérieur plus compliqués .
jwimberley
2

rθ

jwimberley
la source
(+1) La connexion de l'équation de chaleur en coordonnées polaires est bonne. Un autre qui mérite peut-être d'être mentionné est que pour les processus gaussiens que je connais couramment sur les grilles rectangulaires, la matrice de covariance est circulante et pratiquement des FFT sont utilisées. Les fonctions de Bessel seraient donc un candidat probable pour une approche similaire sur une grille polaire.
GeoMatt22
Une suggestion intéressante! Cependant, je mesure la température dans le fluide de fonctionnement, pas dans la partie solide du moteur. Je m'intéresse donc au problème de convection, par opposition au problème de conduction. Les fonctions de Bessel sont sûrement des solutions de l'équation de la conduction thermique (Fourier), mais je ne pense pas qu'elles soient également une solution de l'équation de la convection thermique, car la convection dépend du champ d'écoulement du fluide. Quoi qu'il en soit, je pourrais au moins les tester contre le Zernike. Et GLS? Pourriez-vous ajouter quelque chose sur cette partie de la question?
DeltaIV
@DeltaIV Je ne suis pas trop familier avec GLS, mais une question - pourquoi vous attendez-vous à ce que les erreurs soient corrélées à différents points spatiaux? Je suis d'accord que les fluctuations réelles seront corrélées entre les points, mais je pense que les erreurs (c'est-à-dire l'incertitude dans les lectures du capteur) ne seraient pas corrélées. Peut-être que les fluctuations de régression comptent comme des erreurs? J'envisage toutefois d'ajouter quelque chose sur les conditions de pénalisation. Quelle que soit la base que vous utilisez, vous ne disposez que d'un nombre fini de points d'échantillonnage et pouvez trouver une fonction de Bessel correspondant à un ordre très élevé, de sorte que les termes de plus faible ordre doivent être préférés.
jwimberley
@DeltaIV Concernant à nouveau les fluctuations, qui introduiraient des corrélations entre les points spatiaux: votre objet est d'obtenir une carte de température, n'est-ce pas? Vous ne voulez pas voir quelles fluctuations se produisent? Et un modèle statistique pourrait-il même en tenir compte, car les fluctuations seraient entraînées par la dynamique des fluides et seraient compliquées dans l'espace et le temps? (Est-ce lié à la partie temporelle de votre analyse que vous avez laissée pour plus de simplicité?)
jwimberley
chat de la galerie créé .
DeltaIV