Existe-t-il des tests statistiques «ésotériques» à très faible puissance?

11

Contexte

En informatique, en mathématiques et parfois dans d'autres domaines, les exemples «ésotériques» peuvent non seulement être divertissants, mais utiles pour illustrer certains concepts, par exemple:

  • Bogosort et Slowsort sont des algorithmes de tri très inefficaces qui peuvent être utilisés pour comprendre les propriétés des algorithmes, en particulier par rapport à d'autres algorithmes de tri.

  • Les langages de programmation ésotériques démontrent à quel point le concept d'un langage de programmation est étendu et aident à apprécier de bons langages de programmation.

  • La fonction Weierstraß et la fonction Dirichlet sont principalement utilisées pour illustrer certaines idées fausses sur le concept de continuité.

Je prépare actuellement un enseignement sur l'utilisation des tests d'hypothèses et je pense qu'avoir un test à très faible puissance (mais sans autres défauts) aiderait à illustrer le concept de puissance statistique. (Bien sûr, je dois encore décider moi-même si un exemple donné est didactiquement utile pour mon public ou tout simplement déroutant.)

Question réelle

Existe-t-il un test statistique à faible puissance intentionnelle, plus précisément:

  • Le test s'inscrit dans le cadre général des tests d'hypothèse, c'est-à-dire qu'il fonctionne avec une hypothèse nulle, a des exigences et renvoie une  valeur p (correcte) .
  • Il n'est pas destiné / proposé pour une application sérieuse.
  • Il a une très faible puissance (en raison d'un défaut de conception intentionnel et non en raison de la faible taille de l'échantillon ou de l'effet).

Si vous pouvez fondamentalement affirmer qu'un tel test ne peut pas exister, je considérerais également cela comme une réponse valable à ma question. Si, par contre, il existe une pléthore de tels tests, je suis intéressé par le plus efficace sur le plan didactique, c'est-à-dire qu'il devrait être facilement accessible et avoir un effet saisissant.

Notez que je ne demande pas une sélection générale d'erreurs statistiques (cueillette de cerises, etc.) ou similaire.

Ce que j'ai trouvé jusqu'à présent

Les recherches sur Internet ne m'ont rien rapporté.

Chaque tentative de construire quelque chose comme ça aboutissait à un test existant (utile) ou le format n'était pas celui d'un test normal. Par exemple, j'ai pensé à un test pour déterminer si une population a une médiane positive qui ne renvoie que oui si tous les échantillons sont positifs; mais ce test ne renvoie pas de  valeur p et ne rentre donc pas dans le cadre de test habituel. Si je compte simplement les signes positifs et négatifs comme une statistique de test (et calcule les  valeurs de p en conséquence), je me retrouve avec le test de signe , qui est un test raisonnable.

Wrzlprmft
la source
2
Étant plus mathématiques, les exemples «ésotériques» (qui abondent) ont tendance à être des contre-exemples spécifiques aux malentendus populaires; un certain nombre de manuels contiennent de tels exemples. En l'état, votre question est essentiellement une question de type "grande liste" et est donc trop large (même si vous devez noter que plusieurs utilisateurs ont conclu que la question n'était pas claire); si vous pouvez clarifier votre question et en restreindre la portée, elle pourrait mieux convenir au site.
Glen_b -Reinstate Monica
1
Faible puissance par rapport à quoi? Lehmann a donné un exemple de test de rapport de vraisemblance généralisé qui avait une puissance inférieure dans toute autre hypothèse que sous la valeur nulle.
Scortchi - Réintégrer Monica
2
N'importe lequel des estimateurs stupides auxquels vous appliquez Rao-Blackwellization pourrait être utilisé comme statistique de test. Par exemple, il y a la première observation dans l'échantillon, utilisée comme estimateur de la moyenne. Lorsque Rao-Blackwellized, vous obtenez la moyenne de l'échantillon. J'ai dû faire de nombreux exercices comme celui-ci en classe. Quoi qu'il en soit, cette statistique pourrait être utilisée à la place de la moyenne de l'échantillon dans quelque chose comme un test . Mais non, je ne peux pas penser à quoi que ce soit directement sous la forme que vous recherchez, ou j'écrirais une réponse, pas un commentaire. Mais il doit y avoir quelque chose, illustrant l'échec d'une méthode générale de construction de tests. t
user54038
1
Je déterrerai le papier Lehmann quand je serai devant un ordinateur. La puissance d'un test sous la valeur nulle est juste la taille du test.
Scortchi - Réintégrer Monica
3
Un exemple de test utilisé dans une classe dans laquelle j'étais étudiant (il y a de nombreuses années) était "lancer un dé à 20 faces et le rejeter si vous obtenez un 1" (dans le cadre d'une discussion sur les courbes de puissance). Bien sûr, cela ignore complètement les données, mais c'est un test "valide" dans la mesure où il n'a pas un taux d'erreur de type I supérieur (qui était de 5% dans le contexte dans lequel l'exemple a été donné).
Glen_b -Reinstate Monica

Réponses:

7

Il y a un corollaire peu remarqué au lemme de Neyman – Pearson (preuve dans Geisser (2006), Modes of Parametric Statistical Inference , Ch 4.4): définit le test de niveau le moins puissant , , de l'hypothèse nulle densité vs densité partir des données .

Eϕ(X)=α
ϕ(x)={0 when f0(x)<kf1(x)1 when f0(x)>kf1(x)
ααϕH0:f0H1:f1x

De ce résultat, vous pouvez dériver des tests uniformément les moins puissants, localement les moins puissants, uniformément les moins puissants similaires et les moins puissants "totalement biaisés" (je veux dire ceux qui ont une puissance plus faible sous n'importe quelle alternative que sous le nul). Si vous avez déjà un uniforme le plus puissant, etc. test, multipliez simplement votre statistique de test par -1 pour maintenir le partitionnement de l'espace échantillon qu'il induit tout en inversant l'ordre des partitions.


Peut-être, comme le suggère @ user54038, "l'échec d'une méthode générale de construction de tests" pourrait être plus intéressant. Lehmann (1950), "Quelques principes de la théorie des tests d'hypothèses statistiques", Ann. Math. Statist. , 21 , 1, attribue l'exemple suivant à Stein:

Soit une variable aléatoire capable de prendre les valeurs avec des probabilités comme indiqué:X0,±1,±2

22110Hypothesis H:α2α212α12ααAlternatives:pC(1p)C1C1α(12α)1C1α(12α)α1c1α
Ici, , , sont les constantes , et s'étend sur l'intervalle .αC0<α12α2α<C<αp[0,1]

On souhaite tester l'hypothèse au niveau de signification . Le test du rapport de vraisemblance rejette lorsque , et donc sa puissance est contre chaque alternative. Puisque , ce test est littéralement pire qu'inutile, car un test avec puissance peut être obtenu sans observer du tout, simplement en utilisant une table de nombres aléatoires.HαX=±2CC<ααX

Notez que c'est le test de vraisemblance généralisé qu'il envisage, avec dans le rôle d'un paramètre de nuisance à maximiser. Ainsi, lorsque ou , ou respectivement, et le rapport de vraisemblance arrive à dans les deux cas; pour toute autre valeur de c'est la valeur inférieure de .pX=2X=2p^=1p^=02CαX1C1α

Scortchi
la source
5

(Lié au commentaire de @Scortchi)

Supposons et nous voulons tester l'hypothèseXN(μ,1)

H0:μ=0H1:μ0

Par souci d'esetoricism, augmentons nos données avec un "coin flip" indépendant où est connu et pas plus petit que le niveau de signification (c'est-à-dire ). Considérez les régions de rejet du formulaire:ZBernoulli(p)pαp[α,1]

R={(X,Z) | z=1 |x|>Φ1(α2p)}

Par construction, il s'agit d'un test valide de taille .α

P(XR | μ=0)=P(Z=1 , |X|>Φ1(α2p))=P(Z=1)P(|X|>Φ1(α2p))=pαp=α

Cependant, la puissance de ce test ne peut jamais être supérieure à . Par exemple, supposons que nos données observées soient . Il est évident que l'hypothèse nulle devrait être rejetée, mais puisque notre pièce "montre des queues", nous ne rejetons pas le nul. La définition de conduit à un exemple encore plus stupide où la région de rejet ne dépend pas du tout de , mais est toujours une région de rejet valide avec la taille .p(x,z)=(1000000,0)p = α X αp=αXα

Une question similaire pourrait être posée comme devoirs en changeant l'intersection en union dans la région de rejet. Cette région est uniformément moins puissante que celle sans , mais est plus raisonnable dans le sens où la puissance n'a pas de limite supérieure.Z

knrumsey
la source
2
(+1) Étroitement lié car ayant une statistique auxiliaire unidimensionnelle , vous pouvez vous dispenser du lancer de pièce en laissant , où est la fonction de distribution de . SZ=1(S<FS1(p))FS()S
Scortchi - Réintégrer Monica