Estimation de la variance des échantillons normaux censurés au centre

11

J'ai des processus normalement distribués à partir desquels j'obtiens de petits échantillons ( n généralement 10-30) que je veux utiliser pour estimer la variance. Mais souvent, les échantillons sont si proches les uns des autres que nous ne pouvons pas mesurer des points individuels près du centre.

J'ai cette vague compréhension que nous devrions être en mesure de construire un estimateur efficace en utilisant des échantillons ordonnés: par exemple, si je sais que l'échantillon contient 20 points, et que 10 sont regroupés trop près du centre pour être mesurés individuellement, mais j'ai des mesures discrètes de 5 de part et d'autre, existe-t-il une approche standard / formule pour estimer la variance du processus qui utilise de manière optimale ces échantillons?

(Notez que je ne pense pas que je peux simplement pondérer la moyenne centrale. Par exemple, il est possible que 7 échantillons se regroupent étroitement tandis que trois autres sont asymétriquement asymétriques d'un côté mais suffisamment près, nous ne pouvons pas le dire sans un échantillonnage unique plus fastidieux .)

Si la réponse est compliquée, des conseils sur ce que je devrais rechercher seraient appréciés. Par exemple, est-ce un problème d'ordre statistique? Y a-t-il probablement une réponse formelle ou s'agit-il d'un problème de calcul?

Détail mis à jour: l'application est l'analyse des cibles de tir. Un seul échantillon sous-jacent est le point d'impact ( x, y ) d'un seul coup sur la cible. Le processus sous-jacent a une distribution normale bivariée symétrique mais il n'y a pas de corrélation entre les axes, nous sommes donc en mesure de traiter les échantillons { x } et { y } comme des tirages indépendants de la même distribution normale. (On pourrait également dire que le processus sous-jacent est distribué par Rayleigh, mais nous ne pouvons pas mesurer les variations de Rayleigh de l'échantillon parce que nous ne pouvons pas être certains des coordonnées du "vrai" centre du processus, qui pour les petits n peut être significativement éloigné du centre d'échantillonnage ( , ).)x¯y¯

On nous donne une cible et le nombre de coups de feu tirés dessus. Le problème est que pour n >> 3 canons précis tireront généralement un "trou irrégulier" entouré de tirs distincts. Nous pouvons observer la largeur x et y du trou, mais nous ne savons pas dans le trou les tirs non distincts ont touché.

Voici quelques exemples d'objectifs plus problématiques:

[Exemple de cible avec n = 10]

Exemple de cible avec n = 100

(Certes, dans un monde idéal, nous changerions / changerions de cible après chaque tir, puis agrégerions les échantillons pour analyse. Il y a un certain nombre de raisons qui sont souvent peu pratiques, bien que cela soit fait lorsque cela est possible .)

Notes supplémentaires suivant les éclaircissements de WHuber dans les commentaires: Les tirs produisent des trous cibles de diamètre uniforme et connu. Lorsqu'un tir est en dehors d'un "groupe irrégulier", nous connaissons le rayon du projectile et nous pouvons donc mesurer le centre précis . Dans chaque "groupe déchiqueté", nous pouvons discerner un certain nombre de "boules" périphériques et marquer à nouveau le centre précis de ces tirs extérieurs en fonction du rayon de projectile connu. Ce sont les tirs restants "censurés au centre" qui, nous le savons, n'ont eu d'impact que quelque part à l'intérieur d'un "groupe en lambeaux" (qui est généralement - et si nécessaire supposons - un par cible).xi

Pour faciliter la solution, je pense qu'il sera plus facile de réduire cela à un ensemble d'échantillons unidimensionnels de la normale, avec un intervalle central de largeur w > d , où d est le diamètre du projectile, contenant c < n échantillons "censurés".

feetwet
la source
(1) La distribution normale est-elle une hypothèse ou avez-vous de bonnes preuves à l'appui? (2) Le problème est-il que vous ne pouvez pas compter avec précision les données près du centre? (Ce serait différent de la signification habituelle de «censure», c'est-à-dire que vous pouvez compter ces données mais vous savez seulement que leurs valeurs se situent dans certains intervalles.)
whuber
@whuber: Oui, nous avons des preuves à la fois fondamentales et empiriques que le processus est normalement distribué. Et oui, nous connaissons le nombre exact de points dans le groupe total, et nous pouvons observer le ou les intervalles où se trouvent trop d'échantillons pour déterminer les valeurs individuelles.
feetwet
Merci, c'est utile. Cependant, la nature de l'incertitude n'est pas encore claire et un bon modèle pourrait motiver une bonne solution. Pourriez-vous peut-être fournir une illustration ou un exemple ou au moins décrire le processus de mesure plus en détail?
whuber
@whuber: mis à jour. Si cela peut vous aider, je travaillerai également à publier des liens vers de vrais échantillons.
feetwet
Problème très intéressant! Je pense qu'il faudra une réflexion créative pour trouver une bonne solution. Serait-il juste de dire que vous considérez les centres de chaque plan, comme un échantillon iid d'une distribution bivariée normale ; vous souhaitez estimer ; mais tout ce que vous pouvez observer - avec une certaine imprécision - est (où est le rayon commun connu de chaque projectile et est la boule de rayon autour de )? ( μ , σ 2 ) σ i B ( x i , r ) r B ( x , r ) r xxi,(μ,σ2)σiB(xi,r)rB(x,r)rx
whuber

Réponses:

2

C'est un problème intéressant. Premièrement, je ne ferais pas l'hypothèse d'une distribution normale. Il semble que ce que vous cherchez vraiment, c'est une estimation de la dispersion que vous appliquez de manière équitable à de nombreux tireurs, pistolets, munitions, etc.

J'essaierais de renverser la vapeur. Vous ne savez pas exactement où sont passées toutes les balles, sauf si vous voyez 10 trous séparés (en supposant 10 tirs). Mais vous savez où ils ne sont pas allés. Cela pourrait être utilisé pour contraindre la distribution en supposant des statistiques bayésiennes si vous voulez commencer par une distribution.

Une idée qui pourrait être la meilleure ici est d'arrêter d'essayer de le faire mathématiquement et de simplement faire quelque chose de sensé comme ça. Prenez la cible et exécutez une routine de traitement d'image pour marquer la zone de prise de vue qui peut être non connectée. Mesurez le moment moyen et le second moment et utilisez-les comme un estimateur. Si vous voulez aller un peu plus loin et essayer de le gaussianiser, vous pouvez exécuter une simple expérience de Monte Carlo pour obtenir un facteur d'étalonnage.

Dave31415
la source
Laissez-moi vous expliquer un peu plus. Disons que vous avez 10 tirs et qu'il y a 6 trous clairs où vous savez où sont passées les balles. Prenez d'abord ces points et utilisez-les pour contraindre la largeur gaussienne. Suivant la routine habituelle, cela limite le sigma du sigma gaussien (pour être une distribution connue. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415
Maintenant, une fois que vous avez fait cela, vous voulez considérer les 4 balles qui n'ont pas fait de nouveaux trous. Les balles étant indépendantes, cette nouvelle probabilité (sur le sigma gaussien) peut simplement être multipliée. Donc, fondamentalement, pour chacune des 4 balles, vous voulez multiplier par la probabilité qu'elles ne fassent pas un nouveau trou.
Dave31415
Un moyen simple de le faire avec monte carlo est de dessiner un ensemble de sigma à partir de votre distribution contrainte et en utilisant ce sigma, calculez la chance de ne pas faire de nouveau trou. Ainsi, dessinez de nombreux plans simulés à partir de cela et comptez quelle fraction ne fait pas de nouveaux trous. Cela peut ensuite être utilisé pour mettre à jour la probabilité. Passez ensuite au suivant et faites de même. Maintenant, vous avez votre dernière chance.
Dave31415
Dernier commentaire. D'un point de vue pratique, l'estimation du sigma ne devrait pas vraiment être affectée autant par l'endroit exact où les balles invisibles sont allées tant que vous supposez qu'elles ont traversé les trous précédents. Il sera principalement contraint par ceux que vous pouvez voir qui définissent le bord. En effet, le risque qu'une balle traverse deux fois un trou éloigné du centre est très faible. Ainsi, même un Monte Carlo brut vous rapprochera de l'estimateur optimal.
Dave31415
Si nous n'affirmons pas une distribution normale (ou autre), il semble peu probable que nous puissions dire autre chose que de mettre une limite supérieure ou inférieure sur ce qui se passe dans la région censurée. Dans le cas unidimensionnel où nous avons n plans censurés, une limite inférieure de la variance consiste à supposer qu'ils atteignent tous le même point intérieur le plus proche de la moyenne et (en supposant que la moyenne est centrée à l'intérieur) une limite supérieure est de supposons que les points censurés sont également répartis à la périphérie de l'intérieur. Mais si nous supposons que le processus sous-jacent est normal, il semble que nous devrions être en mesure de faire quelque chose de mieux.
feetwet
0

D'un autre point de vue, on pourrait voir cela à la lumière du domaine des statistiques spatiales, qui a créé un assortiment de mesures, dont beaucoup ont été placées dans des boîtes à outils (voir, par exemple, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipédia (lien: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) a en fait une bonne page d'introduction discutant de concepts tels que les mesures de la tendance centrale spatiale et de la dispersion spatiale. Pour citer Wikipedia sur ce dernier:

"Pour la plupart des applications, la dispersion spatiale doit être quantifiée d'une manière invariante aux rotations et aux réflexions. Plusieurs mesures simples de la dispersion spatiale pour un ensemble de points peuvent être définies en utilisant la matrice de covariance des coordonnées des points. La trace, le déterminant , et la plus grande valeur propre de la matrice de covariance peut être utilisée comme mesure de la dispersion spatiale. Une mesure de la dispersion spatiale qui n'est pas basée sur la matrice de covariance est la distance moyenne entre les plus proches voisins. [1] "

Les concepts connexes comprennent les mesures de l'homogénéité spatiale, les fonctions K et L de Ripley, et peut-être les plus pertinents pour l'analyse des amas de balles, le test de Cuzick – Edwards pour le regroupement des sous-populations au sein des populations en grappes. Ce dernier test est basé sur la comparaison (en utilisant des analyses du "plus proche voisin" pour tabuler les statistiques) avec une population témoin, qui dans le contexte actuel pourrait être basée sur des cibles réelles observées classées comme ne présentant pas de regroupement, ou selon une simulation théorique, à partir de disent la distribution de Rayleigh.

AJKOER
la source