Nombre de permutations requis pour une valeur de p basée sur la permutation

8

Si j'ai besoin de calculer une valeur basée sur la permutation avec un niveau de signification , de combien de permutations ai-je besoin?pα

De l'article "Tests de permutation pour étudier les performances du classificateur" , page 5:

En pratique, la borne supérieure est généralement utilisée pour déterminer le nombre d'échantillons requis pour obtenir la précision souhaitée du test.1/(2k)

... où est le nombre de permutations.k

Comment calculer le nombre de permutations requises à partir de cette formule?

Neptune
la source

Réponses:

12

J'admets, le paragraphe pourrait prêter à confusion.

Lorsque vous effectuez un test de permutation, vous estimez une valeur de p. Le problème est que l'estimation de la valeur de p a une erreur elle-même qui est calculée comme . Si l'erreur est trop importante, la valeur de p n'est pas fiable.p(1p)k

Alors, combien de permutations k faut-il pour obtenir une estimation fiable?

Définissez d'abord votre erreur maximale autorisée, c'est-à-dire la précision. Que ce soit . Alors une valeur de p estimée doit être dans l'intervalle (puisque p est distribué approximativement normalement )P[p3P,p+3P]

Utilisation de la limite supérieure

Le paragraphe cité de l'article suggère d'utiliser comme estimation de la limite supérieure de l'erreur au lieu de . Cela correspond à une valeur de p inconnue de p = 0,5 (où l'erreur est maximale parmi tous les ps pour un k fixe).12kp(1p)k

Donc: Vous voulez savoir où k .12kP

<=>14P2k

Mais comme la formule citée représente une limite supérieure, cette approche est très approximative.

Utilisation de l'erreur au niveau de signification

Une autre approche utilise le niveau de signification souhaité comme p pour calculer la précision requise. Cela est correct, car l'erreur du p estimé est plus importante si nous sommes proches du seuil de décision (qui est le niveau de signification).α

Dans ce cas , on veut savoir où k .α(1α)kP

<=>(α(1α))P2k

Notez que si la vraie valeur p inconnue est clairement supérieure à , l'erreur est en fait plus grande, donc p dans ne tient plus.α[p3P,p+3P]

Prolonger l'intervalle de confiance

Cette approche correspond au centre de l'intervalle de confiance se trouvant juste au seuil de décision. Pour forcer la borne supérieure de l'intervalle de confiance du p estimé à être inférieure au seuil de décision (qui est plus correct), il faut ...

lα(1α)kP

<=>(l)2(α(1α))P2k

où l correspond (voir à nouveau le graphique )

| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |

Exemples: Soit la précison désirée P égale à 0,005.

Ensuite, en utilisant la borne supérieure approximative, on obtient .k>=10000

En utilisant P à et en demandant un intervalle de confiance à 95%, on obtient .α=0.05k>=7600

Pour P = 0,01 à et un intervalle de confiance à 95%, on obtient k> = 396.α=0.01

Enfin : je suggère fortement de plonger plus profondément dans les simulations de Monte-Carlo. Le wikipedia fournit un début.

steffen
la source
Merci, j'ai écrit ceci: epibiostat.ucsf.edu/biostat/sen/statgen/… et j'essaie de le comparer à la méthode que vous avez écrite. Quelles sont les différences selon vous?
Neptune
@Neptune J'ai mis à jour ma réponse pour créer le lien. La version étendue est maintenant équivalente (à part la suppression , ce qui est une simplification inutile à mon humble avis). (1α))
steffen