Mis à part Durbin-Watson, quels tests d'hypothèse peuvent produire des résultats non concluants?

10

La statistique du test de Durbin-Watson peut se situer dans une région non concluante, où il n'est pas possible de rejeter ou de rejeter l'hypothèse nulle (dans ce cas, d'autocorrélation nulle).

Quels autres tests statistiques peuvent produire des résultats "non concluants"?

Y a-t-il une explication générale (agitant la main est très bien) pour expliquer pourquoi cet ensemble de tests est incapable de prendre une décision binaire "rejet" / "échec de rejet"?

Ce serait un bonus si quelqu'un pouvait mentionner les implications de la théorie de la décision dans le cadre de sa réponse à cette dernière question - la présence d'une catégorie supplémentaire de (in) conclusion signifie-t-elle que nous devons considérer les coûts des types I et II erreurs d'une manière plus sophistiquée?

hypothesis-testing statistical-significance decision-theory Silverfish
la source

2

Un peu hors sujet, mais les tests randomisés ont une telle saveur. Pour certaines valeurs des données, vous devez aléatoirement accepter ou refuser.

Christoph Hanck

@ChristophHanck merci, c'était une connexion intéressante que je n'aurais pas remarquée. Pas ce que je voulais, mais je gardais la question délibérément vague dans l'espoir que ce soit un fourre-tout - selon la ou les réponses, je pourrais resserrer son attention plus tard.

Silverfish

10

L' article de Wikipedia explique que la distribution de la statistique de test sous l'hypothèse nulle dépend de la matrice de conception - la configuration particulière des valeurs des prédicteurs utilisées dans la régression. Durbin et Watson ont calculé les limites inférieures de la statistique de test selon laquelle le test d'autocorrélation positive doit rejeter, à des niveaux de signification donnés, pour toute matrice de conception, et les limites supérieures sur lesquelles le test ne doit pas rejeter pour toute matrice de conception. La «région non concluante» est simplement la région où vous auriez à calculer des valeurs critiques exactes, en tenant compte de votre matrice de conception, pour obtenir une réponse définitive.

Une situation analogue serait de devoir effectuer un test t unilatéral à un échantillon lorsque vous connaissez uniquement la statistique t, et non la taille de l'échantillon ^† : 1,645 et 6,31 (correspondant à des degrés de liberté infinis et un seul) serait les limites pour un test de taille 0,05.

En ce qui concerne la théorie de la décision - vous avez une nouvelle source d'incertitude à prendre en compte en plus de la variation d'échantillonnage, mais je ne vois pas pourquoi elle ne devrait pas être appliquée de la même manière qu'avec les hypothèses nulles composites. Vous êtes dans la même situation que quelqu'un avec un paramètre de nuisance inconnu, quelle que soit la façon dont vous y êtes arrivé; donc si vous devez prendre une décision de rejet / conservation tout en contrôlant l'erreur de type I sur toutes les possibilités, rejetez de manière conservatrice (c'est-à-dire lorsque la statistique Durbin-Watson est sous la borne inférieure, ou la statistique t au-dessus de 6,31).

† Ou peut-être avez-vous perdu vos tables; mais peut se souvenir de certaines valeurs critiques pour un gaussien standard, et la formule de la fonction quantile de Cauchy.

Scortchi - Réintégrer Monica
la source

(+1) Merci. Je savais que c'était le cas pour le test de Durbin-Watson (j'aurais dû le mentionner dans ma question vraiment) mais je me demandais si c'était un exemple d'un phénomène plus général, et si oui, s'ils fonctionnaient tous essentiellement de la même manière. Je suppose que cela peut se produire, par exemple, lors de l'exécution de certains tests alors que l'on n'a accès qu'à des données récapitulatives (pas nécessairement dans une régression), mais DW est le seul cas dont je me souvienne avoir vu les valeurs critiques supérieures et inférieures compilées et tabulées . Si vous avez des idées sur la façon dont je peux mieux cibler la question, ce serait très bienvenu.

Silverfish

La première question est un peu vague ("Quels autres tests statistiques [...]?"), Mais je ne pense pas que vous puissiez la clarifier sans répondre à la seconde ("Y a-t-il une explication générale [...]?") vous-même - dans l'ensemble, je pense que tout va bien en l'état.

Scortchi - Réintégrer Monica

7

Un autre exemple de test avec des résultats éventuellement non concluants est un test binomial pour une proportion lorsque seule la proportion, et non la taille de l'échantillon, est disponible. Ce n'est pas complètement irréaliste - nous voyons ou entendons souvent des allégations mal rapportées de la forme "73% des gens conviennent que ..." et ainsi de suite, où le dénominateur n'est pas disponible.

Supposons par exemple que nous ne connaissions que la proportion d'échantillon arrondie correctement au pourcentage entier le plus proche et que nous souhaitons tester contre au niveau . $H_0: \pi = 0.5$ $H_1: \pi \neq 0.5$ $\alpha = 0.05$

Si notre proportion observée était alors la taille de l'échantillon pour la proportion observée doit être d'au moins 19, car est la fraction avec le plus petit dénominateur qui arrondirait à . Nous ne savons pas si le nombre de succès observés était en fait 1 sur 19, 1 sur 20, 1 sur 21, 1 sur 22, 2 sur 37, 2 sur 38, 3 sur 55, 5 sur 100 ou 50 sur 1000 ... mais quelle que soit celle-ci, le résultat serait significatif au niveau . $p=5\%$ $\frac{1}{19}$ $5\%$ $\alpha = 0.05$

En revanche, si nous savons que la proportion de l'échantillon était de nous ne savons pas si le nombre de succès observé était de 49 sur 100 (ce qui ne serait pas significatif à ce niveau) ou de 4900 sur 10 000 (ce qui atteint juste la signification). Dans ce cas, les résultats ne sont donc pas concluants. $p = 49\%$

Notez qu'avec des pourcentages arrondis , il n'y a pas de région "échec de rejet": même est cohérent avec des échantillons comme 49 500 succès sur 100 000, ce qui entraînerait un rejet, ainsi que des échantillons comme 1 succès sur 2 essais , ce qui entraînerait l'échec du rejet de . $p=50\%$ $H_0$

Contrairement au test de Durbin-Watson, je n'ai jamais vu de résultats tabulés pour lesquels les pourcentages sont significatifs; cette situation est plus subtile car il n'y a pas de limites supérieure et inférieure pour la valeur critique. Un résultat de ne serait clairement pas concluant, car zéro succès dans un essai serait insignifiant mais aucun succès dans un million d'essais ne serait hautement significatif. Nous avons déjà vu que n'est pas concluant mais qu'il y a des résultats significatifs, par exemple entre les deux. De plus, l'absence de coupure n'est pas uniquement due aux cas anormaux de et . Jouant un peu, l'échantillon le moins significatif correspondant à $p=0\%$ $p=50\%$ $p=5\%$ $p=0\%$ $p=100\%$ $p=16\%$ est 3 succès dans un échantillon de 19, auquel cas serait donc significatif; pour nous pourrions avoir 1 succès dans 6 essais, ce qui est insignifiant, donc ce cas n'est pas concluant (car il existe clairement d'autres échantillons avec qui serait important); pour il peut y avoir 2 succès dans 11 essais (insignifiants, ), ce cas n'est donc pas non plus concluant; mais pour l'échantillon le moins significatif possible est de 3 succès dans 19 essais avec , ce qui est donc significatif à nouveau. $\Pr(X \leq 3) \approx 0.00221 < 0.025$ $p=17\%$ $\Pr(X \leq 1) \approx 0.109 > 0.025$ $p=16\%$ $p=18\%$ $\Pr(X \leq 2) \approx 0.0327 > 0.025$ $p=19\%$ $\Pr(X \leq 3) \approx 0.0106 < 0.025$

En fait, est le pourcentage arrondi le plus élevé en dessous de 50% pour être significatif sans ambiguïté au niveau de 5% (sa valeur p la plus élevée serait pour 4 succès dans 17 essais et est juste significative), tandis que est le résultat non nul le plus bas qui n'est pas concluant (car il pourrait correspondre à 1 succès dans 8 essais). Comme on peut le voir dans les exemples ci-dessus, ce qui se passe entre les deux est plus compliqué! Le graphique ci-dessous a une ligne rouge à : les points en dessous de la ligne sont significatifs sans ambiguïté mais ceux au-dessus ne sont pas concluants. La configuration des valeurs de p est telle qu'il n'y aura pas de limites inférieures et supérieures uniques sur le pourcentage observé pour que les résultats soient significativement sans ambiguïté. $p=24\%$ $p=13\%$ $\alpha=0.05$

Valeur p la moins significative du test binomial avec une taille d'échantillon inconnue

Code R

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Le code d'arrondi est extrait de cette question StackOverflow .)

Silverfish
la source

Mis à part Durbin-Watson, quels tests d'hypothèse peuvent produire des résultats non concluants?

Réponses: