Trouver la précision d'une estimation de simulation Monte Carlo

Contexte

Je conçois une simulation Monte Carlo qui combine les sorties de séries de modèles, et je veux être sûr que la simulation me permettra de faire des affirmations raisonnables sur la probabilité du résultat simulé et la précision de cette estimation de probabilité.

La simulation trouvera la probabilité qu'un jury issu d'une communauté spécifiée condamne un certain accusé. Ce sont les étapes de la simulation:

En utilisant les données existantes, générez un modèle de probabilité logistique ( M ) en régressant le «premier vote du juré» sur les prédicteurs démographiques.
Utilisez les méthodes de Monte Carlo pour simuler 1 000 versions de M (c'est-à-dire 1 000 versions des coefficients pour les paramètres du modèle).
Sélectionnez l'une des 1 000 versions du modèle ( M _i ).
Empanel 1 000 jurys en sélectionnant au hasard 1 000 ensembles de 12 «jurés» dans une «communauté» ( C ) d'individus avec des distributions de caractéristiques démographiques spécifiques.
Calculer de manière déterministe la probabilité d'un premier tour de scrutin coupable pour chaque juré à l'aide de M _i .
Rendez le vote probable de chaque «juré» en un vote déterminé (selon qu'il est supérieur ou inférieur à la valeur choisie au hasard entre 0 et 1).
Déterminez le «vote final» de chaque «jury» en utilisant un modèle (dérivé de données empiriques) de la probabilité qu'un jury condamne, sous réserve de la proportion de jurés votant pour une condamnation au premier tour.
Enregistrez la proportion de verdicts de culpabilité pour les 1000 jurys ( PG _i ).
Répétez les étapes 3-8 pour chacune des 1000 versions simulées de M .
Calculer la valeur moyenne du PG et du rapport que l'estimation ponctuelle de la probabilité de condamnation en C .
Identifiez les valeurs des percentiles 2,5 et 97,5 pour PG et signalez-les comme un intervalle de confiance de 0,95.

J'utilise actuellement 1 000 jurés et 1 000 jurys selon la théorie selon laquelle 1 000 tirages aléatoires à partir d'une distribution de probabilité - les caractéristiques démographiques de C ou des versions de M - rempliront cette distribution.

Des questions

Est-ce que cela me permettra de déterminer avec précision la précision de mon estimation? Si oui, combien de jurys dois-je empaneler pour chaque calcul PG _i pour couvrir la distribution de probabilité de C (donc j'évite le biais de sélection); puis-je utiliser moins de 1 000?

Merci beaucoup pour toute aide!

confidence-interval monte-carlo standard-error simulation Maggie
la source

Juste par curiosité: est-ce que quelque chose dans ce modèle est subordonné à la question de savoir si l'accusé est réellement coupable ?

whuber

Le modèle est basé sur les réponses du sondage à un modèle de fait unique, donc la culpabilité réelle ne varie pas. Je prédis comment différents jurys sortiraient dans une seule affaire contestée.

Maggie

OK, je plaisante, vous déclarez trois estimations: la moyenne et les 2,5 et 97,5 centiles de PG. Pour laquelle (s) avez-vous besoin d'une détermination "précise" et quelle doit être sa précision?

whuber

De plus, l'étape (6) est mystérieuse. Pourriez-vous expliquer ce qu'il est censé faire? Existe-t-il une «valeur choisie au hasard» différente pour chaque juré (5), chaque jury (4), chaque modèle (3) ou une combinaison de ceux-ci?

whuber

(Voir commentaire ci-dessus) Je pense que je peux réduire (a), le nombre de jurys. L'erreur d'échantillonnage est fonction du nombre d'échantillons. Avec 1000 jurys par modèle, j'ai un million d'échantillons au total. L'erreur d'échantillonnage associée à 10 ^ 6 échantillons est de ~ 0,1%. Si j'utilise seulement 35 jurys par modèle, j'aurais 3,5 * 10 ^ 4 échantillons et ~ 0,5% d'erreur d'échantillonnage. Cette erreur d'échantillonnage est beaucoup plus petite que mon erreur de mesure de ~ 5,0%. Par conséquent, je devrais pouvoir utiliser 35 jurys par modèle et simplement utiliser l'erreur de mesure pour estimer mon intervalle de confiance.

Maggie

Réponses:

Il existe un critère général et «dans l'univers» pour la qualité de Monte Carlo - la convergence.

Tenez-vous à un M et vérifiez comment le PG se comporte avec le nombre de jurys - il devrait converger, vous montrera donc un certain nombre de répétitions pour lesquelles vous aurez un nombre raisonnable (pour votre application) de chiffres significatifs. Répétez ce test pour quelques autres Ms pour être sûr que vous n'avez pas eu de chance avec la sélection M, puis passez à toute la simulation.

la source

Je ne sais pas si quelqu'un a bien répondu à la question. Il comprend deux parties: (1) La stratégie de modélisation décrite fournit-elle une solution défendable au problème qu'elle veut résoudre - à savoir, quelle est la probabilité qu'un jury tiré au hasard d'une communauté, C , avec des caractéristiques démographiques spécifiées, vote pour trouver un accusé coupable? Et (2) Si la stratégie de modélisation est raisonnable, combien de «jurys» doit-elle sélectionner et combien de «verdicts» doit-elle simuler pour chacun, afin de rapporter une estimation défendable de la probabilité de condamnation & 0,95 IC? Elle veut économiser sur l'informatique. Voir son dernier commentaire

dmk38

Il me semble que le problème ici est de savoir si le modèle est trop complexe à regarder sans utiliser la simulation de Monte Carlo.

Si le modèle est relativement simple, il devrait être possible de l'examiner par le biais de statistiques classiques et de trouver une solution à la question posée, sans réexécuter le modèle plusieurs fois. C'est un peu une simplification excessive, mais si tout ce que votre modèle a fait était de produire des points basés sur une distribution normale, vous pouvez facilement dériver le type de réponses que vous recherchez. Bien sûr, si le modèle est aussi simple, il est peu probable que vous ayez besoin de faire une simulation de Monte Carlo pour trouver vos réponses.

Si le problème est complexe et qu'il n'est pas possible de le décomposer en élémentaire, le Monte-Carlo est le bon type de modèle à utiliser, mais je ne pense pas qu'il existe un moyen de définir des limites de confiance sans exécuter le modèle. En fin de compte, pour obtenir le type de limites de confiance décrit, le modèle devrait être exécuté un certain nombre de fois, une distribution de probabilité devrait être adaptée aux résultats et à partir de là, les limites de confiance pourraient être définies. L'un des défis de la simulation Monte-Carlo est que les modèles donnent des réponses correctes et régulières pour les distributions dans la plage moyenne, mais les queues donnent souvent des résultats beaucoup plus variables, ce qui signifie finalement plus de passages pour définir la forme des sorties à 2,5% et 97,5% centiles.

Ian Turner
la source