Si vous lancez une pièce et obtenez 268 têtes et 98 queues, vous pouvez calculer la probabilité que la pièce soit équitable de plusieurs façons. Une simple observation heuristique aurait très probablement conclu qu'une telle pièce est injuste. J'ai calculé la valeur de p dans R avec:
> coin <- pbinom(98, 366, 0.5)
> coin*2
[1] 2.214369e-19
Cette valeur est inférieure à 0,05, ergo nous rejetons l'hypothèse que c'est une pièce équitable.
Mais que se passe-t-il si vous avez dit que la même pièce a atterri sur son côté 676 fois pendant le procès. Heureusement, vous arriverez probablement à la même conclusion, mais les tests de pièces justes typiques seraient-ils toujours valables?
Voici un graphique pour illustrer le problème:
Quelles sont les méthodes valides pour tester l'hypothèse selon laquelle il existe une probabilité égale qu'un événement se produise dans les zones ombrées?
REMARQUE: il y a 629 mouvements positifs (413 négatifs) dans l'illustration du graphique.
Code R qui génère les données:
require("quantmod")
ticker <- getSymbols("SLV")[,6]
change <- (ticker - lag(ticker, 24)) / lag(ticker, 24)
change <- na.locf(change, na.rm=TRUE)
# some other calculations
dens <- density(change)
plot(dens)
# some formatting stuff
la source
Réponses:
Je suis à peu près sûr que la réponse est oui , le test binomial standard de la `` monnaie équitable '' est toujours valide: si vous souhaitez tester si deux des trois probabilités d'une distribution multinomiale sont les mêmes mais que vous n'êtes intéressé par aucune hypothèse sur la troisième probabilité, vous pouvez analyser les nombres des deux résultats correspondants comme s'ils étaient tirés d'une distribution binomiale .
En fait, cela semble faire un assez bon exercice sur des statistiques suffisantes et une probabilité conditionnelle:
Vous pouvez considérer cela comme une distribution multinomiale avec trois résultats possibles et donc deux paramètres estimables (car les trois probabilités doivent être égales à 1). Mais vous n'êtes pas intéressé par la probabilité du résultat `` moyen '', vous pouvez donc considérer cela comme le paramètre de nuisance et la différence entre le nombre de résultats `` supérieurs '' et `` inférieurs '' comme paramètre d'intérêt.
Il est simple de montrer (en utilisant le théorème de factorisation de Fisher-Neyman ) que les nombres de résultats «supérieurs» et «inférieurs» forment ensemble une statistique suffisante (bidimensionnelle) pour le paramètre d'intérêt, c'est-à-dire le nombre de résultats «moyens» ne 't fournir des informations supplémentaires sur la valeur du paramètre d'intérêt. Le nombre de résultats «moyens» est clairement une statistique suffisante pour le paramètre de nuisance. Si nous conditionnons à ce dernier, je pense (je n'ai pas vérifié correctement) que la probabilité conditionnelle résultante finira par être la même que la probabilité de la distribution binomiale, c'est-à-dire le problème du lancer de pièces.
la source
Si vous définissez cela comme un problème binomial (p, 1-p), et non comme un problème multinomial, vous ne pourrez décrire que le passé. Vous ne pourrez rien dire sur l'avenir. Pourquoi? Votre suppression des «flips de bord» du milieu est impliquée dans votre regroupement des données.
En d'autres termes, vos "données décrites" probabilité "p" d'un résultat positif et probabilité "1-p" d'un résultat négatif ne s'appliqueront pas au prochain "flip binomial de la pièce", car à l'avenir vous avez vraiment des probabilités "x", "y" et "(1-xy)".
Modifier (27/03/2011) ===============================
J'ai ajouté le diagramme suivant pour aider à expliquer mes commentaires ci-dessous.
la source