J'essaie d'écrire une série de billets de blog sur les valeurs p et j'ai pensé qu'il serait intéressant de revenir là où tout a commencé - qui semble être le document de Pearson de 1900. Si vous êtes familier avec ce papier, vous vous souviendrez qu'il couvre les tests d'adéquation.
Pearson est un peu lâche avec son langage en ce qui concerne les valeurs p. Il utilise à plusieurs reprises les "cotes" lorsqu'il décrit comment interpréter sa valeur de p. Par exemple, à la p.168, en parlant des résultats des lancers répétés de 12 dés, il dit " ... ce qui nous amène à P = .0000016, ou les chances sont de 62 499 à 1 contre un tel système de déviation sur un hasard Avec de telles cotes, il serait raisonnable de conclure que les dés présentent un biais vers les points les plus élevés. "
Dans cet article, il fait référence à des travaux antérieurs, dont un livre de 1891 sur les moindres carrés de Merriman.
Mais Pearson présente le calcul des valeurs de p (test de qualité d'ajustement du chi carré).
Pearson a-t-il été la première personne à concevoir des valeurs p? Lorsque je fais une recherche sur les valeurs de p, Fisher est mentionné - et son travail date des années 1920.
Édité: et un merci pour la mention de Laplace - il ne semble pas aborder l'hypothèse nulle (Pearson semble le faire implicitement, bien qu'il n'ait jamais utilisé ce terme dans son article de 1900). Pearson a examiné la qualité des tests d'ajustement de: en supposant que les dénombrements sont dérivés d'un processus non biaisé, quelle est la probabilité que les dénombrements observés (et les dénombrements plus déviants) découlent de la distribution présumée?
Son traitement des probabilités / cotes (il convertit les probabilités en cotes) suggère qu'il travaille avec une idée implicite de l'hypothèse nulle. Surtout, il mentionne également que la probabilité découlant de la valeur x ^ 2 montre les chances "contre un système de déviations aussi improbable ou plus improbable que celui-ci" - langage que nous reconnaissons maintenant - en ce qui concerne ses valeurs de p calculées.
Arbuthnot n'est-il pas allé aussi loin?
N'hésitez pas à mettre vos commentaires comme réponses. Ce serait bien de voir une discussion.
la source
Réponses:
Jacob Bernoulli (~ 1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710s) - Abraham de Moivre (1718)
Le cas d' Arbuthnot 1, voir les explications dans la note ci - dessous , peut également être lu dans Doctrine of Chance de De Moivre (1718) à partir de la page 251-254 qui étend cette ligne de pensée.
De Moivre fait deux étapes / progrès:
L'approximation normale d'une distribution de Bernoulli, qui aide à calculer facilement les probabilités que les résultats se situent dans ou en dehors d'une certaine plage. Dans la section qui précède l'exemple du cas d'Arbuthnot, de Moivre parle de son approximation (maintenant appelée distribution gaussienne / normale) pour la distribution de Bernoulli. Cette approximation permet de calculer facilement une valeur de p (ce qu'Arbuthnot n'a pas pu faire).
Généralisation de l'argument d'Arbuthnot. Il mentionne que "cette méthode de raisonnement peut également être utilement appliquée dans certaines autres enquêtes très intéressantes". (ce qui peut donner un crédit partiel à de Moivre pour avoir vu l'applicabilité générale de l'argument)
Selon de Moivre, Jacob Bernoulli a écrit sur ce problème dans son Ars Conjectandi . De Moivre nomme cela en anglais «Assigner les limites dans lesquelles, par la répétition des expériences, la probabilité d'un événement peut approcher indéfiniment d'une probabilité donnée», mais le texte original de Bernouilli est en latin. Je ne connais pas suffisamment le latin pour savoir si Bernoulli écrivait sur un concept comme la valeur p ou plus comme la loi des grands nombres. Il est intéressant de noter que Bernouilli prétend avoir eu ces idées pendant 20 ans (et aussi l'ouvrage 1713 a été publié après sa mort en 1705, il semble donc précéder la date 1710 mentionnée dans les commentaires de @Glen_b pour Arbuthnot).
Une source d'inspiration pour de Moivre était Nicolaus Bernouilli, qui en 1712/1713 a fait les calculs pour que la probabilité que le nombre de garçons naissant ne soit pas inférieure à 7037 et pas plus grande que 7363, quand 14000 est le nombre total d'enfants nés et la probabilité pour un garçon est de 18/35.
(Les chiffres de ce problème étaient basés sur 80 ans de statistiques pour Londres. Il a écrit à ce sujet dans des lettres à Pierre Raymond de Montmort publiées dans la deuxième édition (1713) de l' essai de Montmort sur les jeux de hasard .)
Les calculs, que je n'ai pas tout à fait suivis, ont révélé une probabilité de 43,58 à 1. (En utilisant un ordinateur sommant tous les termes de la probabilité d'un binôme de 7037 à 7363, j'obtiens 175: 1, donc j'ai peut-être mal interprété son travail / calcul. )
1: John Arbuthnot a écrit sur ce cas dans Un argument pour la providence divine, tiré de la régularité constante observée dans les naissances des deux sexes (1710).
Explication de l'argument d'Arbuthnot: le rapport de naissance garçon: fille est remarquablement différent du milieu. Il ne calcule pas exactement la valeur de p (ce qui n'est pas son objectif), mais utilise la probabilité d'obtenir des garçons> des filles 82 fois de suite faisant valoir que ce nombre serait encore plus petit si l'on considère que l'on peut prendre une plage plus petite et que cela s'est produit plus qu'à Londres et 82 ans, il finit par conclure que c'est très peu probable et que ce doit être une providence (divine) pour contrer la plus grande mortalité des hommes pour finalement aboutir à des hommes et des femmes égaux.1282∼ 14836000000000000000000000
Écrit par StackExchangeStrike
la source
J'ai trois liens / arguments à l'appui qui soutiennent la date ~ 1600-1650 pour les statistiques formellement développées et beaucoup plus tôt pour simplement l' utilisation des probabilités.
Si vous acceptez le test d'hypothèse comme base, avant la probabilité, le dictionnaire d'étymologie en ligne propose ceci:
Le Wiktionnaire propose:
Sur les probabilités et les statistiques, Wikipedia propose:
Tiré de "Wolfram, Stephen (2002). Un nouveau type de science. Wolfram Media, Inc. p. 1082.":
Autres sources:
La section "Origines historiques" indique:
[1]. Arbuthnott J. Un argument pour la divine Providence, tiré de la régularité constante observée dans les naissances des deux sexes. Phil Trans 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 publié le 1er janvier 1710
Nous avons d'autres discussions sur notre site SE concernant la méthode Fischer contre Neyman-Pearson-Wald ici: "L'hybride" entre les approches Fisher et Neyman-Pearson pour les tests statistiques est-il vraiment un "méli-mélo incohérent"? .
Un article du Journal of Epidemiology and Biostatistics (2001) Vol. 6, n ° 2, 193–204 de Senn, intitulé: «Opinion: Two cheers for P-values?» explique cela dans l'introduction:
Les références
L'American Statistical Association a une page Web sur l' histoire des statistiques qui, avec cette information, a une affiche (reproduite en partie ci-dessous) intitulée "Chronologie des statistiques".
AD 2: Les preuves d'un recensement achevé pendant la dynastie des Han survivent.
1500s: Girolamo Cardano calcule les probabilités de différents lancers de dés.
Années 1600: Edmund Halley établit un lien entre le taux de mortalité et l'âge et élabore des tables de mortalité.
Années 1700: Thomas Jefferson dirige le premier recensement américain.
1839: Création de l'American Statistical Association.
1894: Le terme «écart type» est introduit par Karl Pearson.
1935: RA Fisher publie Design of Experiments.
Dans la section "Histoire" de la page Web de Wikipédia " Loi des grands nombres ", il explique:
Non, probablement pas.
Dans « The ASA's Statement on p-Values: Context, Process, and Purpose » (09 juin 2016) par Wasserstein et Lazar, doi: 10.1080 / 00031305.2016.1154108, il y a une déclaration officielle sur la définition de la valeur p (qui n'est pas doute pas accepté par toutes les disciplines utilisant ou rejetant les valeurs de p) qui se lisent comme suit:
" . Qu'est-ce qu'une valeur p?
De manière informelle, une valeur de p est la probabilité, selon un modèle statistique spécifié, qu'un résumé statistique des données (par exemple, la différence moyenne de l'échantillon entre deux groupes comparés) soit égal ou supérieur à sa valeur observée.
3. Principes
...
6. En soi, une valeur de p ne fournit pas une bonne mesure de preuve concernant un modèle ou une hypothèse.
Les chercheurs devraient reconnaître qu'une valeur de p sans contexte ou autre preuve fournit des informations limitées. Par exemple, une valeur de p proche de 0,05 prise seule ne fournit que des preuves faibles contre l'hypothèse nulle. De même, une valeur de p relativement élevée n'implique pas de preuve en faveur de l'hypothèse nulle; de nombreuses autres hypothèses peuvent être également ou plus cohérentes avec les données observées. Pour ces raisons, l'analyse des données ne devrait pas se terminer par le calcul d'une valeur p lorsque d'autres approches sont appropriées et réalisables. ".
Le rejet de l' hypothèse nulle s'est probablement produit bien avant Pearson.
La page de Wikipédia sur les premiers exemples de tests d'hypothèse nulle déclare:
Premiers choix d'hypothèse nulle
Paul Meehl a fait valoir que l'importance épistémologique du choix de l'hypothèse nulle est largement méconnue. Lorsque l'hypothèse nulle est prédite par la théorie, une expérience plus précise sera un test plus sévère de la théorie sous-jacente. Lorsque l'hypothèse nulle par défaut est «aucune différence» ou «aucun effet», une expérience plus précise est un test moins sévère de la théorie qui a motivé la réalisation de l'expérience. Un examen des origines de cette dernière pratique peut donc être utile:
1778: Pierre Laplace compare les taux de natalité des garçons et des filles dans plusieurs villes européennes. Il déclare: "il est naturel de conclure que ces possibilités sont à peu près dans le même rapport". Ainsi l'hypothèse nulle de Laplace selon laquelle les taux de natalité des garçons et des filles devraient être égaux étant donné la "sagesse conventionnelle".
1900: Karl Pearson développe le test du chi carré pour déterminer "si une forme donnée de courbe de fréquence décrira efficacement les échantillons prélevés dans une population donnée". Ainsi, l'hypothèse nulle est qu'une population est décrite par une distribution prédite par la théorie. Il utilise comme exemple les nombres de cinq et six dans les données de lancer de dés de Weldon.
1904: Karl Pearson développe le concept de «contingence» afin de déterminer si les résultats sont indépendants d'un facteur catégorique donné. Ici, l'hypothèse nulle est par défaut que deux choses ne sont pas liées (par exemple la formation de cicatrices et les taux de mortalité dus à la variole). L'hypothèse nulle dans ce cas n'est plus prédite par la théorie ou la sagesse conventionnelle, mais est plutôt le principe d'indifférence qui conduit Fisher et d'autres à rejeter l'utilisation des "probabilités inverses".
Malgré le fait qu'une personne soit créditée pour avoir rejeté une hypothèse nulle, je ne pense pas qu'il soit raisonnable de la qualifier de " découverte du scepticisme basé sur une faible position mathématique".
la source