Un seul test statistique peut prouver que l'hypothèse nulle (H0) est fausse et donc l'hypothèse alternative (H1) est vraie. Mais il ne peut pas être utilisé pour montrer que H0 est vrai car le fait de ne pas rejeter H0 ne signifie pas que H0 est vrai.
Mais supposons que vous ayez la possibilité de faire le test statistique plusieurs fois car vous disposez de nombreux jeux de données, tous indépendants les uns des autres. Tous les jeux de données sont le résultat du même processus et vous voulez faire une déclaration (H0 / H1) sur le processus lui-même et ne vous intéressez pas aux résultats de chaque test. Vous collectez ensuite toutes les valeurs de p résultantes et vous vous rendez compte, via un histogramme, que les valeurs de p sont clairement uniformément réparties.
Mon raisonnement est maintenant que cela ne peut se produire que si H0 est vrai - sinon les valeurs de p seraient distribuées différemment. Est-ce donc suffisamment de preuves pour conclure que H0 est vrai? Ou est-ce que je manque ici quelque chose d'essentiel, parce qu'il m'a fallu beaucoup de volonté pour écrire "conclure que H0 est vrai", ce qui sonne horriblement mal dans ma tête.
la source
Réponses:
J'aime votre question, mais malheureusement ma réponse est NON, cela ne prouve pasH0 . La raison est très simple. Comment sauriez-vous que la distribution des valeurs de p est uniforme? Vous devrez probablement effectuer un test d'uniformité qui vous renverra sa propre valeur de p, et vous vous retrouverez avec le même type de question d'inférence que vous tentiez d'éviter, une étape plus loin seulement. Au lieu de regarder la valeur de p du H0 , vous regardez maintenant une valeur de p d'un autre H′0 sur l'uniformité de la distribution des valeurs de p d'origine.
MISE À JOUR
Voici la démonstration. Je génère 100 échantillons de 100 observations à partir de la distribution gaussienne et de Poisson, puis j'obtiens 100 valeurs de p pour le test de normalité de chaque échantillon. Ainsi, la prémisse de la question est que si les valeurs de p proviennent d'une distribution uniforme, cela prouve que l'hypothèse nulle est correcte, ce qui est une affirmation plus forte qu'un habituel "ne parvient pas à rejeter" dans l'inférence statistique. Le problème est que "les valeurs de p sont uniformes" est une hypothèse elle-même, que vous devez en quelque sorte tester.
Dans l'image (première ligne) ci-dessous, je montre les histogrammes des valeurs de p d'un test de normalité pour l'échantillon de Guassian et de Poisson, et vous pouvez voir qu'il est difficile de dire si l'un est plus uniforme que l'autre. C'était mon point principal.
La deuxième ligne montre l'un des échantillons de chaque distribution. Les échantillons sont relativement petits, vous ne pouvez donc pas avoir trop de bacs. En fait, cet échantillon gaussien particulier ne semble pas du tout gaussien du tout sur l'histogramme.
Dans la troisième rangée, je montre les échantillons combinés de 10 000 observations pour chaque distribution sur un histogramme. Ici, vous pouvez avoir plus de bacs et les formes sont plus évidentes.
Enfin, je lance le même test de normalité et j'obtiens des valeurs de p pour les échantillons combinés et il rejette la normalité pour Poisson, tout en échouant pour la gaussienne. Les valeurs de p sont: [0.45348631] [0.]
Ce n'est pas une preuve, bien sûr, mais la démonstration de l'idée que vous feriez mieux d'exécuter le même test sur l'échantillon combiné, au lieu d'essayer d'analyser la distribution des valeurs de p à partir des sous-échantillons.
Voici le code Python:
la source
David Hume et le problème de l'induction
Pendant des siècles, chaque cygne observé par les Européens était blanc. Puis les Européens ont découvert l'Australie et ont vu des cygnes noirs.
Pendant des siècles, la loi de gravité de Newton a été conforme à l'observation et a été jugée correcte. Il a été renversé cependant par la théorie d'Einstein de la relativité générale.
Une liste (incomplète) des voies à suivre:
Karl Popper et le falsificationnisme
De l'avis de Karl Popper , aucune loi scientifique n'est jamais prouvée. Nous n'avons que des lois scientifiques non encore prouvées fausses.
Popper a soutenu que la science avance en devinant des hypothèses et en les soumettant à un examen rigoureux. Elle avance par déduction (observation prouvant que les théories sont fausses), et non par induction (observation répétée prouvant que les théories sont vraies). Une grande partie des statistiques fréquentistes a été construite conformément à cette philosophie.
Le point de vue de Popper a été extrêmement influent, mais comme Kuhn et d'autres l'ont soutenu, il n'est pas tout à fait conforme à la pratique empiriquement observée d'une science réussie.
Probabilité bayésienne, subjective
C'est une façon logique de modéliser vos propres croyances subjectives, mais ce n'est pas une manière magique de produire des probabilités qui sont vraies en termes de correspondance avec la réalité. Une question délicate pour toute interprétation bayésienne est d'où viennent les prieurs? Et si le modèle est mal spécifié?
George P. Box
Un célèbre aphorisme de George EP Box est que «tous les modèles sont faux, mais certains sont utiles».
La loi de Newton n'est peut-être pas vraie, mais elle est toujours utile pour de nombreux problèmes. La vision de Box est très importante dans le contexte moderne du Big Data où les études sont tellement maîtrisées que vous pouvez rejeter pratiquement toute proposition significative. Vraiment vrai contre faux est une mauvaise question: ce qui compte, c'est de savoir si un modèle vous aide à comprendre les données.
Commentaires supplémentaires
Peut-être aussi intéressant, l'analyse statistique des résultats de plusieurs études est appelée méta-analyse .
Jusqu'où vous pouvez aller au-delà des interprétations statistiques étroites est une question difficile.
la source
Dans un sens, vous avez raison (voir la courbe en p) avec quelques petites mises en garde:
Avec des applications réalistes, vous avez tendance à rencontrer des problèmes supplémentaires. Celles-ci surviennent principalement, car aucune personne / laboratoire / groupe d'étude ne peut généralement effectuer toutes les études nécessaires. En conséquence, on a tendance à regarder les études de nombreux groupes, à quel point vous avez augmenté les préoccupations (c.-à-d. Si vous avez fait vous-même toutes les expériences pertinentes, du moins vous le savez) de sous-déclaration, de rapports sélectifs des résultats significatifs / surprenants, p-hacking, tests multiples / corrections de tests multiples et ainsi de suite.
la source
Hypothèse nulle (H0): la gravité fait tout tomber dans l'univers vers la surface de la Terre.
Hypothèse alternative (H1): rien ne tombe jamais.
la source
Gravity causes everything in the universe to fall toward Earth's surface
n'est pas l'hypothèse alternativeThere is at least one thing in the universe that does not fall toward the Earth's surface
et nonNothing ever falls
?