Contexte
Je conçois une simulation Monte Carlo qui combine les sorties de séries de modèles, et je veux être sûr que la simulation me permettra de faire des affirmations raisonnables sur la probabilité du résultat simulé et la précision de cette estimation de probabilité.
La simulation trouvera la probabilité qu'un jury issu d'une communauté spécifiée condamne un certain accusé. Ce sont les étapes de la simulation:
En utilisant les données existantes, générez un modèle de probabilité logistique ( M ) en régressant le «premier vote du juré» sur les prédicteurs démographiques.
Utilisez les méthodes de Monte Carlo pour simuler 1 000 versions de M (c'est-à-dire 1 000 versions des coefficients pour les paramètres du modèle).
Sélectionnez l'une des 1 000 versions du modèle ( M i ).
Empanel 1 000 jurys en sélectionnant au hasard 1 000 ensembles de 12 «jurés» dans une «communauté» ( C ) d'individus avec des distributions de caractéristiques démographiques spécifiques.
Calculer de manière déterministe la probabilité d'un premier tour de scrutin coupable pour chaque juré à l'aide de M i .
Rendez le vote probable de chaque «juré» en un vote déterminé (selon qu'il est supérieur ou inférieur à la valeur choisie au hasard entre 0 et 1).
Déterminez le «vote final» de chaque «jury» en utilisant un modèle (dérivé de données empiriques) de la probabilité qu'un jury condamne, sous réserve de la proportion de jurés votant pour une condamnation au premier tour.
Enregistrez la proportion de verdicts de culpabilité pour les 1000 jurys ( PG i ).
Répétez les étapes 3-8 pour chacune des 1000 versions simulées de M .
Calculer la valeur moyenne du PG et du rapport que l'estimation ponctuelle de la probabilité de condamnation en C .
Identifiez les valeurs des percentiles 2,5 et 97,5 pour PG et signalez-les comme un intervalle de confiance de 0,95.
J'utilise actuellement 1 000 jurés et 1 000 jurys selon la théorie selon laquelle 1 000 tirages aléatoires à partir d'une distribution de probabilité - les caractéristiques démographiques de C ou des versions de M - rempliront cette distribution.
Des questions
Est-ce que cela me permettra de déterminer avec précision la précision de mon estimation? Si oui, combien de jurys dois-je empaneler pour chaque calcul PG i pour couvrir la distribution de probabilité de C (donc j'évite le biais de sélection); puis-je utiliser moins de 1 000?
Merci beaucoup pour toute aide!
Réponses:
Il existe un critère général et «dans l'univers» pour la qualité de Monte Carlo - la convergence.
Tenez-vous à un M et vérifiez comment le PG se comporte avec le nombre de jurys - il devrait converger, vous montrera donc un certain nombre de répétitions pour lesquelles vous aurez un nombre raisonnable (pour votre application) de chiffres significatifs. Répétez ce test pour quelques autres Ms pour être sûr que vous n'avez pas eu de chance avec la sélection M, puis passez à toute la simulation.
la source
Il me semble que le problème ici est de savoir si le modèle est trop complexe à regarder sans utiliser la simulation de Monte Carlo.
Si le modèle est relativement simple, il devrait être possible de l'examiner par le biais de statistiques classiques et de trouver une solution à la question posée, sans réexécuter le modèle plusieurs fois. C'est un peu une simplification excessive, mais si tout ce que votre modèle a fait était de produire des points basés sur une distribution normale, vous pouvez facilement dériver le type de réponses que vous recherchez. Bien sûr, si le modèle est aussi simple, il est peu probable que vous ayez besoin de faire une simulation de Monte Carlo pour trouver vos réponses.
Si le problème est complexe et qu'il n'est pas possible de le décomposer en élémentaire, le Monte-Carlo est le bon type de modèle à utiliser, mais je ne pense pas qu'il existe un moyen de définir des limites de confiance sans exécuter le modèle. En fin de compte, pour obtenir le type de limites de confiance décrit, le modèle devrait être exécuté un certain nombre de fois, une distribution de probabilité devrait être adaptée aux résultats et à partir de là, les limites de confiance pourraient être définies. L'un des défis de la simulation Monte-Carlo est que les modèles donnent des réponses correctes et régulières pour les distributions dans la plage moyenne, mais les queues donnent souvent des résultats beaucoup plus variables, ce qui signifie finalement plus de passages pour définir la forme des sorties à 2,5% et 97,5% centiles.
la source