Je regardais cette page sur l'implémentation Monte Carlo du test Lillefors. Je ne comprends pas cette phrase:
Il y a une erreur aléatoire dans ce calcul à partir de la simulation. Cependant, en raison de l'astuce d'ajouter 1 au numérateur et au dénominateur dans le calcul de la valeur P, il peut être utilisé directement sans tenir compte du caractère aléatoire.
Que signifient-ils par l'astuce d'ajouter 1 au numérateur et au dénominateur?
Le morceau de code pertinent est ici:
n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
x.star <- rnorm(n)
d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)
monte-carlo
lilliefors
Aksakal
la source
la source
Réponses:
L'explication sur la page référencée est
Pour comprendre cela, il faut regarder le code, dont les lignes clés (considérablement abrégées) sont
Le problème saillant est que le code ne correspond pas à la citation. Comment les réconcilier? Une tentative commence par la dernière moitié de la citation. Nous pouvons interpréter la procédure comme comprenant les étapes suivantes:
Collect indépendamment et les données distribuées de façon identique selon une loi de probabilité . Appliquer une procédure de test (implémentée dans le code as ) pour produire le nombre .X1,X2,…,Xn G t T0=t(X1,…,Xn)
fred
Générer par ordinateur ensembles de données comparables, chacune de taille , selon une hypothèse nulle avec la loi de probabilité . Appliquez à chacun de ces ensembles de données pour produire nombres .N=nsim n F t N T1,T2,…,TN
Calculez
( « » est la fonction de l' indicateur mis en oeuvre par la comparaison d'une valeur vectorielle dans le code). Le côté droit est comprise comme étant aléatoire grâce à l' simultané aléatoire de (la statistique de test réel) et le caractère aléatoire de la ( les statistiques des tests simulés).I T0 Ti
d.star > d.hat
Dire que les données sont conformes à l'hypothèse nulle est Affirmer que . Choisissez une taille de test , . La multiplication des deux côtés par et la soustraction de montre que la chance que pour n'importe quel nombre soit la chance que pas plus de du dépasse . Cela simplement que se trouve dans le sommet de l'ensemble trié de toutes les statistiques de test . Depuis (par construction)F=G α 0<α<1 N+1 1 P≤α α (N+1)α−1 Ti T0 T0 (N+1)α N+1 T0 est indépendant de tous les , lorsque est une distribution continue, cette chance sera la fraction du total représentée par la partie entière ; c'est-à-dire, et il sera exactement égal à celui fourni est un nombre entier ; c'est-à-dire quand .Ti F ⌊(N+1)α⌋
C'est certainement l'une des choses que nous voulons que soit vraie pour toute quantité qui mérite d'être appelée une "valeur p": elle devrait avoir une distribution uniforme sur . Pourvu que soit assez grand, de sorte que tout soit proche d'une fraction de la forme , ce aura presque un uniforme Distribution. (Pour en savoir plus sur les conditions supplémentaires requises pour une valeur de p, veuillez lire la boîte de dialogue que j'ai publiée au sujet des valeurs de p. )[0,1] N+1 α k/(N+1)=k/(nsim+1) P
Évidemment, la citation doit utiliser " " au lieu de " " partout où elle apparaît.nsim+1 nsim
la source
Je crois qu'ici, 1 est ajouté aux deux parce que la statistique observée est incluse dans la distribution de référence; si tel est le cas, c'est à cause de la partie "au moins aussi grande" de la définition de la valeur p.
Je n'en suis pas sûr car le texte semble dire quelque chose de différent, mais c'est pourquoi je le ferais.
la source