Etude de simulation: comment choisir le nombre d'itérations?

Je voudrais générer des données avec "Model 1" et les adapter avec "Model 2". L'idée sous-jacente est d'étudier les propriétés de robustesse du «modèle 2». Je suis particulièrement intéressé par le taux de couverture de l'intervalle de confiance à 95% (basé sur l'approximation normale).

Comment définir le nombre d'exécutions d'itérations?
Est-il vrai que des répétitions plus importantes que nécessaires peuvent entraîner des biais erronés? Si oui, comment est-ce?

simulation monte-carlo user7064
la source

Qu'entendez-vous par «taux de couverture de l'intervalle de confiance à 95%»? Si l'intervalle de confiance est exact ou un bon intervalle approximatif, il couvre la vraie valeur du paramètre environ 95% du temps.

Michael R. Chernick

Si vous générez un intervalle de confiance basé sur le modèle 2 pour les données générées sous le modèle 1, cela semble indiquer que les deux modèles sont liés et contiennent certains des mêmes paramètres. Pouvez-vous expliquer un peu plus? De plus, lorsque vous dites "faux" dans votre deuxième puce, voulez-vous dire faux ou simplement sans importance? Un plus grand nombre de simulations ne devrait pas produire de biais, mais il pourrait révéler un biais qui a peu d'importance pratique que vous ne verriez pas avec un plus petit nombre, similaire à la façon dont vous pouvez détecter (c.-à-d. Obtenir une signification statistique pour) un très petit effet lorsque vous avoir un très grand échantillon.

Macro

@Michael Chernick: Une sous-couverture, par exemple, peut être atteinte si l'erreur standard est trop petite. J'ai modifié ma question pour spécifier que j'utilise des intervalles de confiance basés sur l'approximation normale.

user7064

@Macro: "Model 1" génère des données normales avec des termes d'erreur hétéroscédastiques et "Model 2" est le modèle linéaire standard.

user7064

Réponses:

Sur la base de votre commentaire de suivi, il semble que vous essayez d'estimer la probabilité de couverture d'un intervalle de confiance lorsque vous supposez une variance d'erreur constante lorsque la vraie variance d'erreur n'est pas constante.

La façon dont je pense à cela est que, pour chaque exécution, l'intervalle de confiance couvre la vraie valeur ou non. Définissez une variable indicatrice:

Y_{i} = {\begin{cases} 1 & i f t h e i n t e r v a l c o v e r s \\ 0 & i f i t d o e s n o t \end{cases}

$Y_i = \begin{cases} 1 & {\rm if \ the \ interval \ covers} \\ 0 & {\rm if \ it \ does \ not } \end{cases}$

Alors la probabilité de couverture qui vous intéresse est que vous pouvez estimer par la proportion d'échantillon qui, je pense, est ce que vous proposez. $E(Y_i) = p$

Comment définir le nombre d'exécutions d'itérations?

Nous savons que la variance d'un essai de Bernoulli est , et vos simulations généreront des essais de Bernoulli IID, donc la variance de votre estimation basée sur la simulation de est , où est le nombre de simulations. Vous pouvez choisir pour réduire autant que vous le souhaitez cette variance. C'est un fait que $p(1-p)$ $p$ $p(1-p)/n$ $n$ $n$

p (1 - p) / n \leq 1 / 4 n

$p(1-p)/n \leq 1/4n$

Donc, si vous souhaitez que la variance soit inférieure à un certain seuil prédéfini, , vous pouvez le garantir en choisissant . $\delta$ $n \geq 1/4\delta$

Dans un cadre plus général, si vous essayez d'étudier les propriétés de la distribution d'échantillonnage d'un estimateur par simulation (par exemple, c'est la moyenne et la variance), vous pouvez choisir votre nombre de simulations en fonction de la précision que vous souhaitez atteindre dans un analogue mode à celle décrite ici.

Notez également que, lorsque la moyenne (ou un autre moment) d'une variable est l'objet d'intérêt, comme c'est le cas ici, vous pouvez construire un intervalle de confiance pour elle en fonction des simulations utilisant l'approximation normale (c'est-à-dire le théorème de la limite centrale) , comme discuté dans la belle réponse de MansT. Cette approximation normale est meilleure à mesure que le nombre d'échantillons augmente, donc, si vous prévoyez de construire un intervalle de confiance en faisant appel au théorème de la limite centrale, vous voudrez que soit suffisamment grand pour que cela s'applique. Pour le cas binaire, comme vous l'avez ici, il semble que cette approximation soit bonne même lorsque et sont assez modérés - disons, . $n$ $np$ $n(1-p)$ $20$

Est-il vrai que des répétitions plus importantes que nécessaires peuvent entraîner des biais erronés? Si oui, comment est-ce?

Comme je l'ai mentionné dans un commentaire - cela dépend de ce que vous entendez par faux. Un plus grand nombre de simulations ne produira pas de biais au sens statistique, mais il peut révéler un biais sans importance qui n'est perceptible qu'avec une taille d'échantillon astronomiquement grande. Par exemple, supposons que la véritable probabilité de couverture de l'intervalle de confiance mal était de . Ensuite, ce n'est pas vraiment un problème dans un sens pratique, mais vous ne pouvez saisir cette différence que si vous avez exécuté une tonne de simulations. $94.9999\%$

Macro
la source

J'utilise souvent la largeur des intervalles de confiance comme un moyen rapide et sale pour déterminer le nombre d'itérations nécessaires.

Soit le véritable taux de couverture de l'intervalle de confiance à 95% lorsque les données du «modèle 1» sont ajustées au «modèle 2». Si est le nombre de fois que l'intervalle de confiance couvre la vraie valeur du paramètre en itérations, alors . $p$ $X$ $n$ $X\sim {\rm Bin}(n,p)$

L'estimateur a la moyenne et l'écart type . Pour les grands , est approximativement normal et vous donne un intervalle de confiance d'environ 95% pour . Puisque vous savez (devinerait) que , il s'ensuit que la largeur de cet intervalle est d'environ . $\hat{p}=X/n$ $p$ $\sqrt{p(1-p)/n}$ $n$ $\hat{p}$ $\hat{p}\pm 1.96\sqrt{\hat{p}(1-\hat{p})/n}$ $p$ $p\approx 0.95$ $2\cdot 1.96\sqrt{0.95\cdot 0.05/n}$

Si vous pensez qu'un intervalle de confiance de largeur (par exemple) est acceptable, vous trouvez le nombre approximatif d'itérations nécessaires pour cela en résolvant l'équation $0.1$ $n$

0.1 = 2 \cdot 1.96 \sqrt{0.95 \cdot 0.05 / n} .

$0.1=2\cdot 1.96\sqrt{0.95\cdot 0.05/n}.$

De cette façon, vous pouvez trouver un raisonnable en choisissant la précision que vous recherchez. $n$

MånsT
la source

(+1) il semble que nous ayons soumis une réponse très similaire à peu près au même moment, mais je pense que la langue différente utilisée peut être utile à certains.

Macro

Oui, en effet, je ne sais toujours pas quelle réponse accepter! Quoi qu'il en soit, +1 pour les deux!

user7064

@Macro: +1 à vous aussi. La variance et la largeur d'intervalle sont bien sûr plus ou moins équivalentes ici. Les grands esprits pensent de la même façon - tout comme le nôtre. ;)

MånsT

@ MånsT Ai-je raison de supposer que si la largeur de mon CI est de 0,01, alors pour un taux de couverture de 90%, le nombre d'itérations nécessaires serait pour un IC à 95%? Disons que cet IC est pour une estimation de proportion. Comment la taille de l'échantillon de mon modèle binomial (puis choisir des quantiles pour trouver l'IC) affecte-t-elle la probabilité de couverture?

n = (2 \cdot 1.65 \sqrt{0.95 \cdot 0.05} / 0.01)^{2}

$n=(2\cdot 1.65 \sqrt{0.95\cdot 0.05}/0.01)^2$

A Gore

Si vous effectuez une simulation, le nombre minimum d'exécutions requises dépend de votre objectif (qu'essayez-vous d'estimer et avec quelle précision?). Si vous essayez d'estimer la réponse moyenne, l'écart-type de la moyenne de l'échantillon est . Donc, si est la demi-largeur requise pour l'intervalle de confiance à pour la moyenne que vous voulez ou . $\dfrac{\text{Population Standard Deviation}}{\sqrt{n}}$ $d$ $95\%$ $d= 1.96 \times \dfrac{\text{Pop.Std.Dev}}{\sqrt{n}}$ $n=\dfrac{ (1.96 \times\text{Pop.Std.Dev})^2}{d^2}$

Faire plus de simulations (en supposant que tous les échantillons sont générés par un processus aléatoire) ne fait rien pour nuire à l'estimation en termes d'exactitude ou de biais.

La couverture d'un intervalle de confiance approximatif sera différente de la couverture exacte de souhaitée et l'erreur de couverture devrait diminuer avec l'augmentation de . Comme mentionné par Macro et MansT, vous pouvez limiter l'estimation de couverture de Monte Carlo en fonction de la variance de la proportion binomiale étant . $95\%$ $n$ $\dfrac{p(1-p)}{n}$

Michael R. Chernick
la source

Salut michael. Je pense que cette réponse manque le point. L'OP tente d'étudier comment les propriétés de couverture d'un intervalle de confiance sont modifiées lorsque vous supposez une variance constante, mais la vraie variance n'est pas constante.

Macro

@Macro: Vous avez raison. J'ai délibérément mis la question dans un contexte plus large pour éviter les réponses spécifiques au problème de l'hypothèse d'une variance constante.

user7064

@Macro Cela ne faisait pas partie de la question à laquelle j'ai répondu. Apparemment, cela a été clarifié plus tard. Il semble également que ce qui était intéressant était l'exactitude d'un intervalle de confiance qui utilise l'approximation normale. Cela ne semble être abordé dans aucune des réponses.

Michael R. Chernick

@Michael, oui je sais - mon argument était plus que vous (et moi) avons demandé des éclaircissements mais vous n'avez pas attendu les éclaircissements avant de poster votre réponse. Re: votre deuxième commentaire, vous pouvez étudier les propriétés de couverture de n'importe quel intervalle de cette manière, qu'il soit basé sur l'approximation normale ou non. Si vous pensez qu'il y a quelque chose de distinct à ajouter qui manque aux réponses existantes, veuillez modifier votre réponse afin que nous puissions tous apprendre.

Macro

@Macro Bien sûr, je suis d'accord avec vous. J'ai édité ma réponse au profit de l'OP. Je soupçonne qu'il n'y a rien dans le contenu que vous ne connaissiez déjà.

Michael R. Chernick