J'admets, le paragraphe pourrait prêter à confusion.
Lorsque vous effectuez un test de permutation, vous estimez une valeur de p. Le problème est que l'estimation de la valeur de p a une erreur elle-même qui est calculée comme . Si l'erreur est trop importante, la valeur de p n'est pas fiable.p(1−p)k−−−−−√
Alors, combien de permutations k faut-il pour obtenir une estimation fiable?
Définissez d'abord votre erreur maximale autorisée, c'est-à-dire la précision. Que ce soit . Alors une valeur de p estimée doit être dans l'intervalle (puisque p est distribué approximativement normalement )P[p−3∗P,p+3∗P]
Utilisation de la limite supérieure
Le paragraphe cité de l'article suggère d'utiliser comme estimation de la limite supérieure de l'erreur au lieu de . Cela correspond à une valeur de p inconnue de p = 0,5 (où l'erreur est maximale parmi tous les ps pour un k fixe).12k√p(1−p)k−−−−−√
Donc: Vous voulez savoir où k .12k√≤P
<=>14P2≤k
Mais comme la formule citée représente une limite supérieure, cette approche est très approximative.
Utilisation de l'erreur au niveau de signification
Une autre approche utilise le niveau de signification souhaité comme p pour calculer la précision requise. Cela est correct, car l'erreur du p estimé est plus importante si nous sommes proches du seuil de décision (qui est le niveau de signification).α
Dans ce cas , on veut savoir où k .α(1−α)k−−−−−√≤P
<=>(α(1−α))P2≤k
Notez que si la vraie valeur p inconnue est clairement supérieure à , l'erreur est en fait plus grande, donc p dans ne tient plus.α[p−3∗P,p+3∗P]
Prolonger l'intervalle de confiance
Cette approche correspond au centre de l'intervalle de confiance se trouvant juste au seuil de décision. Pour forcer la borne supérieure de l'intervalle de confiance du p estimé à être inférieure au seuil de décision (qui est plus correct), il faut ...
lα(1−α)k−−−−−√≤P
<=>(l)2(α(1−α))P2≤k
où l correspond (voir à nouveau le graphique )
| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |
Exemples:
Soit la précison désirée P égale à 0,005.
Ensuite, en utilisant la borne supérieure approximative, on obtient .k>=10000
En utilisant P à et en demandant un intervalle de confiance à 95%, on obtient .α=0.05k>=7600
Pour P = 0,01 à et un intervalle de confiance à 95%, on obtient k> = 396.α=0.01
Enfin : je suggère fortement de plonger plus profondément dans les simulations de Monte-Carlo. Le wikipedia fournit un début.