Je voudrais générer des données avec "Model 1" et les adapter avec "Model 2". L'idée sous-jacente est d'étudier les propriétés de robustesse du «modèle 2». Je suis particulièrement intéressé par le taux de couverture de l'intervalle de confiance à 95% (basé sur l'approximation normale).
- Comment définir le nombre d'exécutions d'itérations?
- Est-il vrai que des répétitions plus importantes que nécessaires peuvent entraîner des biais erronés? Si oui, comment est-ce?
simulation
monte-carlo
user7064
la source
la source
Réponses:
Sur la base de votre commentaire de suivi, il semble que vous essayez d'estimer la probabilité de couverture d'un intervalle de confiance lorsque vous supposez une variance d'erreur constante lorsque la vraie variance d'erreur n'est pas constante.
La façon dont je pense à cela est que, pour chaque exécution, l'intervalle de confiance couvre la vraie valeur ou non. Définissez une variable indicatrice:
Alors la probabilité de couverture qui vous intéresse est que vous pouvez estimer par la proportion d'échantillon qui, je pense, est ce que vous proposez.E(Yi)=p
Comment définir le nombre d'exécutions d'itérations?
Nous savons que la variance d'un essai de Bernoulli est , et vos simulations généreront des essais de Bernoulli IID, donc la variance de votre estimation basée sur la simulation de est , où est le nombre de simulations. Vous pouvez choisir pour réduire autant que vous le souhaitez cette variance. C'est un fait quep(1−p) p p(1−p)/n n n
Donc, si vous souhaitez que la variance soit inférieure à un certain seuil prédéfini, , vous pouvez le garantir en choisissant .δ n≥1/4δ
Dans un cadre plus général, si vous essayez d'étudier les propriétés de la distribution d'échantillonnage d'un estimateur par simulation (par exemple, c'est la moyenne et la variance), vous pouvez choisir votre nombre de simulations en fonction de la précision que vous souhaitez atteindre dans un analogue mode à celle décrite ici.
Notez également que, lorsque la moyenne (ou un autre moment) d'une variable est l'objet d'intérêt, comme c'est le cas ici, vous pouvez construire un intervalle de confiance pour elle en fonction des simulations utilisant l'approximation normale (c'est-à-dire le théorème de la limite centrale) , comme discuté dans la belle réponse de MansT. Cette approximation normale est meilleure à mesure que le nombre d'échantillons augmente, donc, si vous prévoyez de construire un intervalle de confiance en faisant appel au théorème de la limite centrale, vous voudrez que soit suffisamment grand pour que cela s'applique. Pour le cas binaire, comme vous l'avez ici, il semble que cette approximation soit bonne même lorsque et sont assez modérés - disons, .n np n(1−p) 20
Est-il vrai que des répétitions plus importantes que nécessaires peuvent entraîner des biais erronés? Si oui, comment est-ce?
Comme je l'ai mentionné dans un commentaire - cela dépend de ce que vous entendez par faux. Un plus grand nombre de simulations ne produira pas de biais au sens statistique, mais il peut révéler un biais sans importance qui n'est perceptible qu'avec une taille d'échantillon astronomiquement grande. Par exemple, supposons que la véritable probabilité de couverture de l'intervalle de confiance mal était de . Ensuite, ce n'est pas vraiment un problème dans un sens pratique, mais vous ne pouvez saisir cette différence que si vous avez exécuté une tonne de simulations.94.9999%
la source
J'utilise souvent la largeur des intervalles de confiance comme un moyen rapide et sale pour déterminer le nombre d'itérations nécessaires.
Soit le véritable taux de couverture de l'intervalle de confiance à 95% lorsque les données du «modèle 1» sont ajustées au «modèle 2». Si est le nombre de fois que l'intervalle de confiance couvre la vraie valeur du paramètre en itérations, alors .p X n X∼Bin(n,p)
L'estimateur a la moyenne et l'écart type . Pour les grands , est approximativement normal et vous donne un intervalle de confiance d'environ 95% pour . Puisque vous savez (devinerait) que , il s'ensuit que la largeur de cet intervalle est d'environ .p^=X/n p p(1−p)/n−−−−−−−−−√ n p^ p^±1.96p^(1−p^)/n−−−−−−−−−√ p p≈0.95 2⋅1.960.95⋅0.05/n−−−−−−−−−−√
Si vous pensez qu'un intervalle de confiance de largeur (par exemple) est acceptable, vous trouvez le nombre approximatif d'itérations nécessaires pour cela en résolvant l'équation0.1 n
De cette façon, vous pouvez trouver un raisonnable en choisissant la précision que vous recherchez.n
la source
Si vous effectuez une simulation, le nombre minimum d'exécutions requises dépend de votre objectif (qu'essayez-vous d'estimer et avec quelle précision?). Si vous essayez d'estimer la réponse moyenne, l'écart-type de la moyenne de l'échantillon est . Donc, si est la demi-largeur requise pour l'intervalle de confiance à pour la moyenne que vous voulez ou .Population Standard Deviationn−−√ d 95% d=1.96×Pop.Std.Devn−−√ n=(1.96×Pop.Std.Dev)2d2
Faire plus de simulations (en supposant que tous les échantillons sont générés par un processus aléatoire) ne fait rien pour nuire à l'estimation en termes d'exactitude ou de biais.
La couverture d'un intervalle de confiance approximatif sera différente de la couverture exacte de souhaitée et l'erreur de couverture devrait diminuer avec l'augmentation de . Comme mentionné par Macro et MansT, vous pouvez limiter l'estimation de couverture de Monte Carlo en fonction de la variance de la proportion binomiale étant .95% n p(1−p)n
la source