On me donne une grille de valeurs entières positives. Ces chiffres représentent une intensité qui devrait correspondre à la force de croyance d'une personne occupant cet emplacement de grille (une valeur plus élevée indiquant une croyance plus élevée). Une personne aura en général une influence sur plusieurs cellules de la grille.
Je crois que le schéma des intensités devrait "avoir l'air gaussien" en ce sens qu'il y aura un emplacement central de forte intensité, puis que les intensités diminueront radialement dans toutes les directions. Plus précisément, je voudrais modéliser les valeurs comme provenant d'une «Gaussienne mise à l'échelle» avec un paramètre pour la variance et un autre pour le facteur d'échelle.
Il y a deux facteurs de complication:
- l'absence d'une personne ne correspondra pas à une valeur nulle, en raison du bruit de fond et d'autres effets, mais les valeurs doivent être plus petites. Ils peuvent cependant être erratiques et, en première approximation, ils peuvent être difficiles à modéliser en tant que simple bruit gaussien.
- La plage d'intensité peut varier. Dans un cas, les valeurs peuvent être comprises entre 1 et 10 et dans un autre, entre 1 et 100.
Je suis à la recherche d'une stratégie d'estimation des paramètres appropriée ou de pointeurs vers la littérature pertinente. Des pointeurs sur la raison pour laquelle j'aborde ce problème dans le mauvais sens seraient également appréciés :). J'ai lu sur le krigeage et les processus gaussiens, mais cela semble être une machine très lourde pour mon problème.
la source
Réponses:
Vous pouvez utiliser ce module de la bibliothèque pysal python pour les méthodes d'analyse de données spatiales dont je parle ci-dessous.
Votre description de la façon dont l'attitude de chaque personne est influencée par les attitudes des personnes qui l'entourent peut être représentée par un modèle autorégressif spatial (SAR) (voir également mon explication simple SAR de cette réponse SE 2 ). L'approche la plus simple consiste à ignorer d'autres facteurs et à estimer la force de l'influence de la façon dont les personnes environnantes affectent les attitudes des autres en utilisant la statistique de Moran I.
Si vous souhaitez évaluer l'importance d'autres facteurs tout en estimant la force de l'influence des personnes environnantes, une tâche plus complexe, vous pouvez estimer les paramètres d'une régression: . Voir la documentation ici (les méthodes d'estimation de ce type de régression proviennent du domaine de l'économétrie spatiale et peuvent être beaucoup plus sophistiquées que la référence que j'ai donnée).y= b x + r h o Wy+ e
Votre défi sera de construire une matrice de pondérations spatiales ( ). Je pense que chaque élément de la matrice devrait être 1 ou 0 selon que la personne est à une certaine distance vous pensez qu'il est nécessaire d'influencer l'autre personne .w i j i jW wje j je j
Pour avoir une idée intuitive du problème, j'illustre ci-dessous comment un processus de génération de données autorégressives spatiales (DGP) créera un modèle de valeurs. Pour les 2 réseaux de valeurs simulées, les blocs blancs représentent des valeurs élevées et les blocs sombres représentent des valeurs faibles.
Dans le premier réseau ci-dessous, les valeurs de la grille ont été générées par un processus aléatoire normalement distribué (ou gaussien), où est nul.r h o
Dans le treillis suivant, les valeurs de la grille ont été générées par un processus autorégressif spatial, où a été défini sur quelque chose de élevé, par exemple 0,8.r h o
la source
Voici une idée simple qui pourrait fonctionner. Comme je l'ai dit dans les commentaires, si vous avez une grille avec des intensités, pourquoi ne pas adapter la densité de distribution bivariée?
Voici l'exemple de graphique pour illustrer mon propos:
Chaque point de grille avec est affiché sous forme de carré, coloré selon l'intensité. Sur le graphique est superposé le tracé de contour du tracé de densité normale bivariée. Comme vous pouvez le voir, les courbes de niveau se développent dans le sens d'une intensité décroissante. Le centre sera contrôlé par la moyenne des normales bivariées et la répartition de l'intensité selon la matrice de covariance.
Pour obtenir les estimations de la moyenne et de la matrice de covariance, une optimisation numérique simple peut être utilisée, comparer les intensités aux valeurs de la fonction de densité en utilisant la moyenne et la matrice de covariance comme paramètres. Minimisez pour obtenir les estimations.
Il ne s'agit bien sûr pas à proprement parler d'une estimation statistique, mais au moins cela vous donnera une idée de la marche à suivre.
Voici le code pour reproduire le graphique:
la source
Votre modèle est un champ aléatoire bidimensionnel , et vous essayez d'estimer la distribution conjointe des variables aléatoires à valeurs entières . Vous voudrez supposer une stationnarité spatiale: c'est-à-dire que la distribution conjointe de est la même que la distribution conjointe de . En particulier, la distribution marginale est la même pour chaque cellule. Une question simple à poser est la structure d'autocorrélation du champ. Autrement dit, qu'est-ce que compte tenu de la distance ? Nous représentons cela comme une fonctionX[ i , j ] X[i,j] (X[i1,j1],...,X[im,jm]) (X[i1+k,j1+l]...,X[im+k,jm+l]) corr(X[i1,j1],X[i2,j2]) d([i1,j1],[i2,j2]) ρ(d) . Un modèle simple pour la structure d'autocorrélation est , où est une constante.ρ(d)=kd−1 k
Un effet «gaussien» correspond à une fonction de distance quadratique, mais il existe de nombreuses autres fonctions de distance que vous devriez considérer, telles que la norme taxicab. Une fois que vous avez décidé d'une fonction de distance et de la forme de votre modèle pour l'autocorrélation, il est assez simple d'estimer par exemple via le maximum de vraisemblance. Pour plus d'idées, recherchez "champ aléatoire".ρ ( d )d([i1,j1],[i2,j2])=|i1−i2|+|j1−j2| ρ(d)
la source