Pour les statistiques de test discrètes, la distribution des -la valeur est discrète et stochastiquement plus grande que la distribution uniforme. Par conséquent, le test d'hypothèse correspondant basé sur la valeur de p (rejeter si la valeur de p est inférieure à 0,05, par exemple) est toujours prudent en ce sens que la probabilité de faire une erreur de type I sera inférieure à 0,05. Je sais que parfois il est recommandé d'utiliser la valeur moyenne. Mais je pense qu'il n'y a aucune preuve que l'utilisation de la valeur mi-p contrôle toujours l'erreur de type I. Existe-t-il un autre moyen de réduire la prudence? Quelqu'un qui est familier avec ce domaine peut-il donner un indice ou signaler une littérature existante à ce sujet?
8
Réponses:
Je ne l'ai jamais entendu suggérer d'utiliser une valeur p moyenne. Cela ne contrôlera pas nécessairement votre erreur de type un. Comme indiqué précédemment, la bonne façon d'atteindre une taille de 0,05 est d'effectuer un test randomisé. Cependant, votre erreur de type un est correcte, que le test soit randomisé ou non. Dans le cas conservateur et non aléatoire, votre procédure de test a une taille inférieure au niveau alpha nominal. Puisqu'un niveau alpha de .05 est arbitraire de toute façon, il devrait être suffisant pour signaler la taille du test.
la source
Une méthode pour réduire la prudence de certaines statistiques de test discrètes
(ou plus généralement, obtenir simplement plus de choix de niveau de signification)
Selon le test, une approche parfois utile qui ne nécessite pas de randomisation consiste à ajouter une infime fraction d'une autre statistique raisonnable pour rompre les liens.
Par exemple, imaginez que nous testions le tau de Kendall, mais dans des échantillons de petite à moyenne taille, il est encore assez discret, il est donc difficile d'atteindre un niveau de signification souhaité.
Pour être concret, disons que vous voulez un niveau proche deα = 10 % sur un test bilatéral, avec n = 7 .
Les niveaux de signification réalisables sont de 6,9% ou 13,6%; ni l'un ni l'autre n'est très proche de ce qui est nécessaire!
Une chose que nous pourrions faire est d'ajouter une infime fraction d'une statistique différente, qui n'est pas parfaitement corrélée avec celle que nous avons; cela signifie que de nombreux accords qui fournissaient des statistiques qui étaient auparavant liées ne le sont plus, même si leurs valeurs sont proches.
Par exemple, si nous utilisons le rho de Spearman pour rompre les liens, par exemple en regardant0,999 τ+ 0,001 ρ , les valeurs sont presque identiques à celles d'avant, mais les niveaux de signification réalisables sont désormais de 8,9% et 10,9% - pas parfaits , mais bien meilleurs qu'auparavant - et dans ce cas, la statistique est toujours sans distribution.
Notez que le poids surρ peut être fait aussi petit que souhaité.
Voici une illustration - le noir est l'ECDF de la corrélation originale de Kendall, tandis que le rouge est la version «rompre les liens». J'ai rendu la contribution relative du Spearman beaucoup plus importante ici (un poids de 0,1) afin que vous puissiez voir l'effet plus clairement:
Zoomons sur la région près du niveau de 2,5% et 5% à l'extrémité gauche (une queue, pour correspondre à 5% et 10% à deux queues):
Comme nous le voyons, nous pouvons ainsi nous rapprocher beaucoup plus du niveau de signification souhaité, tout en conservant à peu près toutes les autres propriétés souhaitables, quel que soit le degré de proximité souhaité.
Il existe différents ajustements pour rendre le résultat encore plus semblable à Kendall (par exemple, pour le configurer de sorte que l'attente du petit ajustement de la corrélation de Kendall à chaque corrélation de Kendall soit nulle, mais c'est rarement un problème pour moi).
[Si vous ne savez vraiment pas lequel de Kendall et Spearman vous souhaitez utiliser pour une corrélation non paramétrique, un mixage plus uniforme a une distribution beaucoup plus normale (bien que ce soit un peu difficile de calculer sa variance si vous ne le faites pas déterminer la distribution exacte - une caractéristique intéressante de l'utilisation d'une version avec presque toutes les statistiques est que vous pouvez utiliser une approximation normale existante plus facilement, même si ce n'est pas une distribution aussi agréable).]
Cette même approche pour obtenir des niveaux de signification «plus agréables» (et des valeurs de p) peut fonctionner avec d'autres tests; Je l'ai vu utilisé avec un test de signe (rompre les liens avec une statistique de rang signé correctement redimensionnée) par exemple.
la source