J'ai des processus normalement distribués à partir desquels j'obtiens de petits échantillons ( n généralement 10-30) que je veux utiliser pour estimer la variance. Mais souvent, les échantillons sont si proches les uns des autres que nous ne pouvons pas mesurer des points individuels près du centre.
J'ai cette vague compréhension que nous devrions être en mesure de construire un estimateur efficace en utilisant des échantillons ordonnés: par exemple, si je sais que l'échantillon contient 20 points, et que 10 sont regroupés trop près du centre pour être mesurés individuellement, mais j'ai des mesures discrètes de 5 de part et d'autre, existe-t-il une approche standard / formule pour estimer la variance du processus qui utilise de manière optimale ces échantillons?
(Notez que je ne pense pas que je peux simplement pondérer la moyenne centrale. Par exemple, il est possible que 7 échantillons se regroupent étroitement tandis que trois autres sont asymétriquement asymétriques d'un côté mais suffisamment près, nous ne pouvons pas le dire sans un échantillonnage unique plus fastidieux .)
Si la réponse est compliquée, des conseils sur ce que je devrais rechercher seraient appréciés. Par exemple, est-ce un problème d'ordre statistique? Y a-t-il probablement une réponse formelle ou s'agit-il d'un problème de calcul?
Détail mis à jour: l'application est l'analyse des cibles de tir. Un seul échantillon sous-jacent est le point d'impact ( x, y ) d'un seul coup sur la cible. Le processus sous-jacent a une distribution normale bivariée symétrique mais il n'y a pas de corrélation entre les axes, nous sommes donc en mesure de traiter les échantillons { x } et { y } comme des tirages indépendants de la même distribution normale. (On pourrait également dire que le processus sous-jacent est distribué par Rayleigh, mais nous ne pouvons pas mesurer les variations de Rayleigh de l'échantillon parce que nous ne pouvons pas être certains des coordonnées du "vrai" centre du processus, qui pour les petits n peut être significativement éloigné du centre d'échantillonnage ( , ).)
On nous donne une cible et le nombre de coups de feu tirés dessus. Le problème est que pour n >> 3 canons précis tireront généralement un "trou irrégulier" entouré de tirs distincts. Nous pouvons observer la largeur x et y du trou, mais nous ne savons pas où dans le trou les tirs non distincts ont touché.
Voici quelques exemples d'objectifs plus problématiques:
(Certes, dans un monde idéal, nous changerions / changerions de cible après chaque tir, puis agrégerions les échantillons pour analyse. Il y a un certain nombre de raisons qui sont souvent peu pratiques, bien que cela soit fait lorsque cela est possible .)
Notes supplémentaires suivant les éclaircissements de WHuber dans les commentaires: Les tirs produisent des trous cibles de diamètre uniforme et connu. Lorsqu'un tir est en dehors d'un "groupe irrégulier", nous connaissons le rayon du projectile et nous pouvons donc mesurer le centre précis . Dans chaque "groupe déchiqueté", nous pouvons discerner un certain nombre de "boules" périphériques et marquer à nouveau le centre précis de ces tirs extérieurs en fonction du rayon de projectile connu. Ce sont les tirs restants "censurés au centre" qui, nous le savons, n'ont eu d'impact que quelque part à l'intérieur d'un "groupe en lambeaux" (qui est généralement - et si nécessaire supposons - un par cible).
Pour faciliter la solution, je pense qu'il sera plus facile de réduire cela à un ensemble d'échantillons unidimensionnels de la normale, avec un intervalle central de largeur w > d , où d est le diamètre du projectile, contenant c < n échantillons "censurés".
Réponses:
C'est un problème intéressant. Premièrement, je ne ferais pas l'hypothèse d'une distribution normale. Il semble que ce que vous cherchez vraiment, c'est une estimation de la dispersion que vous appliquez de manière équitable à de nombreux tireurs, pistolets, munitions, etc.
J'essaierais de renverser la vapeur. Vous ne savez pas exactement où sont passées toutes les balles, sauf si vous voyez 10 trous séparés (en supposant 10 tirs). Mais vous savez où ils ne sont pas allés. Cela pourrait être utilisé pour contraindre la distribution en supposant des statistiques bayésiennes si vous voulez commencer par une distribution.
Une idée qui pourrait être la meilleure ici est d'arrêter d'essayer de le faire mathématiquement et de simplement faire quelque chose de sensé comme ça. Prenez la cible et exécutez une routine de traitement d'image pour marquer la zone de prise de vue qui peut être non connectée. Mesurez le moment moyen et le second moment et utilisez-les comme un estimateur. Si vous voulez aller un peu plus loin et essayer de le gaussianiser, vous pouvez exécuter une simple expérience de Monte Carlo pour obtenir un facteur d'étalonnage.
la source
D'un autre point de vue, on pourrait voir cela à la lumière du domaine des statistiques spatiales, qui a créé un assortiment de mesures, dont beaucoup ont été placées dans des boîtes à outils (voir, par exemple, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
Wikipédia (lien: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) a en fait une bonne page d'introduction discutant de concepts tels que les mesures de la tendance centrale spatiale et de la dispersion spatiale. Pour citer Wikipedia sur ce dernier:
"Pour la plupart des applications, la dispersion spatiale doit être quantifiée d'une manière invariante aux rotations et aux réflexions. Plusieurs mesures simples de la dispersion spatiale pour un ensemble de points peuvent être définies en utilisant la matrice de covariance des coordonnées des points. La trace, le déterminant , et la plus grande valeur propre de la matrice de covariance peut être utilisée comme mesure de la dispersion spatiale. Une mesure de la dispersion spatiale qui n'est pas basée sur la matrice de covariance est la distance moyenne entre les plus proches voisins. [1] "
Les concepts connexes comprennent les mesures de l'homogénéité spatiale, les fonctions K et L de Ripley, et peut-être les plus pertinents pour l'analyse des amas de balles, le test de Cuzick – Edwards pour le regroupement des sous-populations au sein des populations en grappes. Ce dernier test est basé sur la comparaison (en utilisant des analyses du "plus proche voisin" pour tabuler les statistiques) avec une population témoin, qui dans le contexte actuel pourrait être basée sur des cibles réelles observées classées comme ne présentant pas de regroupement, ou selon une simulation théorique, à partir de disent la distribution de Rayleigh.
la source