Une distribution uniforme de nombreuses valeurs de p donne-t-elle des preuves statistiques que H0 est vrai?

28

Un seul test statistique peut prouver que l'hypothèse nulle (H0) est fausse et donc l'hypothèse alternative (H1) est vraie. Mais il ne peut pas être utilisé pour montrer que H0 est vrai car le fait de ne pas rejeter H0 ne signifie pas que H0 est vrai.

Mais supposons que vous ayez la possibilité de faire le test statistique plusieurs fois car vous disposez de nombreux jeux de données, tous indépendants les uns des autres. Tous les jeux de données sont le résultat du même processus et vous voulez faire une déclaration (H0 / H1) sur le processus lui-même et ne vous intéressez pas aux résultats de chaque test. Vous collectez ensuite toutes les valeurs de p résultantes et vous vous rendez compte, via un histogramme, que les valeurs de p sont clairement uniformément réparties.

Mon raisonnement est maintenant que cela ne peut se produire que si H0 est vrai - sinon les valeurs de p seraient distribuées différemment. Est-ce donc suffisamment de preuves pour conclure que H0 est vrai? Ou est-ce que je manque ici quelque chose d'essentiel, parce qu'il m'a fallu beaucoup de volonté pour écrire "conclure que H0 est vrai", ce qui sonne horriblement mal dans ma tête.

Leander Moesinger
la source
1
Vous pourriez être intéressé par ma réponse à une autre question stats.stackexchange.com/questions/171742/… qui contient quelques commentaires sur les hypothèses ici.
mdewey
H0 est faux par sa définition.
Joshua
1
Soit dit en passant, la raison pour laquelle j'ai autant de tests (et je n'ai pas simplement combiné toutes les données en une seule) est que mes données sont réparties dans le monde entier et je voulais voir s'il y avait des modèles spatiaux dans le p-values ​​(il n'y en a pas, mais s'il y en avait, cela signifierait que l'indépendance est violée ou que H0 / H1 est vrai dans différentes parties du globe). Je n'ai pas inclus cela dans le texte de la question parce que je voulais le garder général.
Leander Moesinger

Réponses:

22

J'aime votre question, mais malheureusement ma réponse est NON, cela ne prouve pas H0 . La raison est très simple. Comment sauriez-vous que la distribution des valeurs de p est uniforme? Vous devrez probablement effectuer un test d'uniformité qui vous renverra sa propre valeur de p, et vous vous retrouverez avec le même type de question d'inférence que vous tentiez d'éviter, une étape plus loin seulement. Au lieu de regarder la valeur de p du H0 , vous regardez maintenant une valeur de p d'un autre H0 sur l'uniformité de la distribution des valeurs de p d'origine.

MISE À JOUR

Voici la démonstration. Je génère 100 échantillons de 100 observations à partir de la distribution gaussienne et de Poisson, puis j'obtiens 100 valeurs de p pour le test de normalité de chaque échantillon. Ainsi, la prémisse de la question est que si les valeurs de p proviennent d'une distribution uniforme, cela prouve que l'hypothèse nulle est correcte, ce qui est une affirmation plus forte qu'un habituel "ne parvient pas à rejeter" dans l'inférence statistique. Le problème est que "les valeurs de p sont uniformes" est une hypothèse elle-même, que vous devez en quelque sorte tester.

Dans l'image (première ligne) ci-dessous, je montre les histogrammes des valeurs de p d'un test de normalité pour l'échantillon de Guassian et de Poisson, et vous pouvez voir qu'il est difficile de dire si l'un est plus uniforme que l'autre. C'était mon point principal.

La deuxième ligne montre l'un des échantillons de chaque distribution. Les échantillons sont relativement petits, vous ne pouvez donc pas avoir trop de bacs. En fait, cet échantillon gaussien particulier ne semble pas du tout gaussien du tout sur l'histogramme.

Dans la troisième rangée, je montre les échantillons combinés de 10 000 observations pour chaque distribution sur un histogramme. Ici, vous pouvez avoir plus de bacs et les formes sont plus évidentes.

Enfin, je lance le même test de normalité et j'obtiens des valeurs de p pour les échantillons combinés et il rejette la normalité pour Poisson, tout en échouant pour la gaussienne. Les valeurs de p sont: [0.45348631] [0.]

entrez la description de l'image ici

Ce n'est pas une preuve, bien sûr, mais la démonstration de l'idée que vous feriez mieux d'exécuter le même test sur l'échantillon combiné, au lieu d'essayer d'analyser la distribution des valeurs de p à partir des sous-échantillons.

Voici le code Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()
Aksakal
la source
2
@LeanderMoesinger, vous allez faire valoir un point fort en rassemblant tous vos tests en un seul. Supposons que vous ayez un échantillon avec 100 observations et obtenez une valeur de p; puis obtenez 99 échantillons supplémentaires et obtenez 100 valeurs de p. Au lieu de cela, vous pouvez simplement exécuter un échantillon de 10 000 observations et obtenir une valeur de p, mais ce sera plus convaincant.
Aksakal
1
@LeanderMoesinger, il est probable qu'il ne soit pas petit
Aksakal
1
Votre réponse ne répond pas à la question, il n'a pas posé de question sur la preuve mais sur la preuve .
Carlos Cinelli
3
@CarlosCinelli, il aura un tas de valeurs p, qui, selon lui, sont uniformes. Comment est-ce une preuve à moins qu'il ne prouve que les valeurs sont uniformes? C'est ce dont je parle.
Aksakal
2
@Aksakal il s'agit de mathématiques, un événement observé (comme une séquence de valeurs de p) peut ne pas constituer la preuve de quelque chose, mais la raison ne découle pas logiquement de votre argument.
Carlos Cinelli
21

n

H0H0

David Hume et le problème de l'induction

H0H0

aA[aB]

  • Pendant des siècles, chaque cygne observé par les Européens était blanc. Puis les Européens ont découvert l'Australie et ont vu des cygnes noirs.

  • Pendant des siècles, la loi de gravité de Newton a été conforme à l'observation et a été jugée correcte. Il a été renversé cependant par la théorie d'Einstein de la relativité générale.

H0

Une liste (incomplète) des voies à suivre:

Karl Popper et le falsificationnisme

De l'avis de Karl Popper , aucune loi scientifique n'est jamais prouvée. Nous n'avons que des lois scientifiques non encore prouvées fausses.

Popper a soutenu que la science avance en devinant des hypothèses et en les soumettant à un examen rigoureux. Elle avance par déduction (observation prouvant que les théories sont fausses), et non par induction (observation répétée prouvant que les théories sont vraies). Une grande partie des statistiques fréquentistes a été construite conformément à cette philosophie.

Le point de vue de Popper a été extrêmement influent, mais comme Kuhn et d'autres l'ont soutenu, il n'est pas tout à fait conforme à la pratique empiriquement observée d'une science réussie.

Probabilité bayésienne, subjective

θ

θθθP(θ)P(θX)θX. La façon dont vous vous comportez dans diverses situations a une certaine correspondance avec ces probabilités subjectives.

C'est une façon logique de modéliser vos propres croyances subjectives, mais ce n'est pas une manière magique de produire des probabilités qui sont vraies en termes de correspondance avec la réalité. Une question délicate pour toute interprétation bayésienne est d'où viennent les prieurs? Et si le modèle est mal spécifié?

George P. Box

Un célèbre aphorisme de George EP Box est que «tous les modèles sont faux, mais certains sont utiles».

La loi de Newton n'est peut-être pas vraie, mais elle est toujours utile pour de nombreux problèmes. La vision de Box est très importante dans le contexte moderne du Big Data où les études sont tellement maîtrisées que vous pouvez rejeter pratiquement toute proposition significative. Vraiment vrai contre faux est une mauvaise question: ce qui compte, c'est de savoir si un modèle vous aide à comprendre les données.

Commentaires supplémentaires

θ0

Peut-être aussi intéressant, l'analyse statistique des résultats de plusieurs études est appelée méta-analyse .

Jusqu'où vous pouvez aller au-delà des interprétations statistiques étroites est une question difficile.

Matthew Gunn
la source
Cela a été une lecture intéressante et a donné de bonnes choses à penser! J'aimerais pouvoir accepter plusieurs réponses.
Leander Moesinger
Une bonne explication. Mon prof a une fois résumé Kuhn dans l'esprit de Popper: «La science passe des funérailles aux funérailles»
skrubber
Kuhn, etc., célèbre mal interpréter Popper lorsqu'il prétend que ses observations ne correspondent pas à la façon dont la science est réalisée. C'est ce qu'on appelle le falsificationnisme natif, et ce n'est pas ce que Popper (plus tard) a avancé. C'est un homme de paille.
Konrad Rudolph
2
Ce sont des réponses comme celle-ci que je continue à visiter les sites StackExchange.
Trilarion
5

Dans un sens, vous avez raison (voir la courbe en p) avec quelques petites mises en garde:

  1. pααH0
  2. H0H0

Avec des applications réalistes, vous avez tendance à rencontrer des problèmes supplémentaires. Celles-ci surviennent principalement, car aucune personne / laboratoire / groupe d'étude ne peut généralement effectuer toutes les études nécessaires. En conséquence, on a tendance à regarder les études de nombreux groupes, à quel point vous avez augmenté les préoccupations (c.-à-d. Si vous avez fait vous-même toutes les expériences pertinentes, du moins vous le savez) de sous-déclaration, de rapports sélectifs des résultats significatifs / surprenants, p-hacking, tests multiples / corrections de tests multiples et ainsi de suite.

Björn
la source
1
(+1) Le power point est extrêmement important! Différentes théories peuvent produire des données d'observation équivalentes, et une partie essentielle de la conception de l'expérience consiste à produire et / ou à collecter des données qui vous permettraient de faire la distinction.
Matthew Gunn
-2

Hypothèse nulle (H0): la gravité fait tout tomber dans l'univers vers la surface de la Terre.

Hypothèse alternative (H1): rien ne tombe jamais.

p<0.01

usul
la source
2
Pensez-vous que Galileo a fait un million d'essais? Rien de tout cela n'est nécessaire en sciences physiques. L'établissement des lois de la nature en appliquant une méthode scientifique ne se réduit pas à une inférence statistique.
Aksakal
2
-1 Ceci est scientifiquement, statistiquement et historiquement inexact. Les Grecs croyaient autrefois que c'était l'affinité qui attirait des objets sur la Terre. Pas mal, mais n'explique pas bien les problèmes du système corporel 3+. Les hypothèses doivent être complémentaires. Enfin, le fait d'indiquer un biais éventuellement connu sous le nom de H_0 et de montrer que les expériences continuent de conduire à la même conclusion incorrecte ne rend pas la conclusion correcte. ex. les femmes gagnent moins que les hommes b / c elles sont moins motivées, échantillonnez tous les salaires des femmes, H_0 est vrai!
AdamO
@AdamO c'est exactement mon point.
usul
@AdamO, dans les pays occidentaux, les femmes gagnent moins quand elles travaillent moins pour diverses raisons, y compris leur propre choix, des contre-incitations de toutes sortes et un environnement de travail hostile à certains endroits. Lorsqu'elles travaillent de la même façon, elles gagnent à peu près la même chose, par exemple, voir les salaires des infirmières de l'assurance-maladie où les femmes sont la grande majorité: medscape.com/slideshow/… . Ils gagnent tous le même 37 $ en travaillant à l'heure. Totalement hors sujet, bien sûr.
Aksakal
2
Si votre hypothèse nulle Gravity causes everything in the universe to fall toward Earth's surfacen'est pas l'hypothèse alternative There is at least one thing in the universe that does not fall toward the Earth's surfaceet non Nothing ever falls?
Eff