Qui a d'abord utilisé / inventé les valeurs p?

30

J'essaie d'écrire une série de billets de blog sur les valeurs p et j'ai pensé qu'il serait intéressant de revenir là où tout a commencé - qui semble être le document de Pearson de 1900. Si vous êtes familier avec ce papier, vous vous souviendrez qu'il couvre les tests d'adéquation.

Pearson est un peu lâche avec son langage en ce qui concerne les valeurs p. Il utilise à plusieurs reprises les "cotes" lorsqu'il décrit comment interpréter sa valeur de p. Par exemple, à la p.168, en parlant des résultats des lancers répétés de 12 dés, il dit " ... ce qui nous amène à P = .0000016, ou les chances sont de 62 499 à 1 contre un tel système de déviation sur un hasard Avec de telles cotes, il serait raisonnable de conclure que les dés présentent un biais vers les points les plus élevés. "

Dans cet article, il fait référence à des travaux antérieurs, dont un livre de 1891 sur les moindres carrés de Merriman.

Mais Pearson présente le calcul des valeurs de p (test de qualité d'ajustement du chi carré).

Pearson a-t-il été la première personne à concevoir des valeurs p? Lorsque je fais une recherche sur les valeurs de p, Fisher est mentionné - et son travail date des années 1920.

Édité: et un merci pour la mention de Laplace - il ne semble pas aborder l'hypothèse nulle (Pearson semble le faire implicitement, bien qu'il n'ait jamais utilisé ce terme dans son article de 1900). Pearson a examiné la qualité des tests d'ajustement de: en supposant que les dénombrements sont dérivés d'un processus non biaisé, quelle est la probabilité que les dénombrements observés (et les dénombrements plus déviants) découlent de la distribution présumée?

Son traitement des probabilités / cotes (il convertit les probabilités en cotes) suggère qu'il travaille avec une idée implicite de l'hypothèse nulle. Surtout, il mentionne également que la probabilité découlant de la valeur x ^ 2 montre les chances "contre un système de déviations aussi improbable ou plus improbable que celui-ci" - langage que nous reconnaissons maintenant - en ce qui concerne ses valeurs de p calculées.

Arbuthnot n'est-il pas allé aussi loin?

N'hésitez pas à mettre vos commentaires comme réponses. Ce serait bien de voir une discussion.

Michelle
la source
7
Cet article suggère qu'il a été utilisé par Laplace, ce qui
9
On pourrait soutenir qu'Arbuthnot (1710) dans An Argument for Divine Providence, tiré de la régularité constante observée dans les naissances des deux sexes, pourrait peut-être compter. Il utilise un modèle de pièce de monnaie («croix et pile»), et calcule d'abord la probabilité d'obtenir exactement autant de têtes que de queues avant de souligner que les «chances prendront dans certains des termes à côté de celui du milieu, et s'appuieront sur un mais il est très improbable (si la simple chance gouverne) qu’ils n’atteignent jamais les extrémités "; on peut le voir se rapprocher d'une notion de valeur p là.
Glen_b -Reinstate Monica
4
Curieusement, David dans sa liste jstor.org/stable/2685564?seq=1#page_scan_tab_contents suggère que le terme P-value a été utilisé pour la première fois en 1943 par Deming dans son livre "Statistical ajustement of data". Je sais que vous recherchez le concept et non le terme, mais j'ai trouvé intéressant de voir quand le terme est finalement apparu.
mdewey
2
Qui a inventé pourrait être difficile à découvrir. Mais qui est à blâmer pour l'utilisation actuelle des valeurs de p est certainement Fisher.
Carlos Cinelli
1
Nous définissons la valeur de p comme «la probabilité d'obtenir un résultat dans une certaine fourchette (souvent une certaine valeur ou plus extrême pour une statistique calculée comme celle utilisée par Pearson en 1900) étant donné qu'une certaine hypothèse est juste»?
Sextus Empiricus

Réponses:

19

Jacob Bernoulli (~ 1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710s) - Abraham de Moivre (1718)

Le cas d' Arbuthnot 1, voir les explications dans la note ci - dessous , peut également être lu dans Doctrine of Chance de De Moivre (1718) à partir de la page 251-254 qui étend cette ligne de pensée.

De Moivre fait deux étapes / progrès:

  1. L'approximation normale d'une distribution de Bernoulli, qui aide à calculer facilement les probabilités que les résultats se situent dans ou en dehors d'une certaine plage. Dans la section qui précède l'exemple du cas d'Arbuthnot, de Moivre parle de son approximation (maintenant appelée distribution gaussienne / normale) pour la distribution de Bernoulli. Cette approximation permet de calculer facilement une valeur de p (ce qu'Arbuthnot n'a pas pu faire).

  2. Généralisation de l'argument d'Arbuthnot. Il mentionne que "cette méthode de raisonnement peut également être utilement appliquée dans certaines autres enquêtes très intéressantes". (ce qui peut donner un crédit partiel à de Moivre pour avoir vu l'applicabilité générale de l'argument)


  • Selon de Moivre, Jacob Bernoulli a écrit sur ce problème dans son Ars Conjectandi . De Moivre nomme cela en anglais «Assigner les limites dans lesquelles, par la répétition des expériences, la probabilité d'un événement peut approcher indéfiniment d'une probabilité donnée», mais le texte original de Bernouilli est en latin. Je ne connais pas suffisamment le latin pour savoir si Bernoulli écrivait sur un concept comme la valeur p ou plus comme la loi des grands nombres. Il est intéressant de noter que Bernouilli prétend avoir eu ces idées pendant 20 ans (et aussi l'ouvrage 1713 a été publié après sa mort en 1705, il semble donc précéder la date 1710 mentionnée dans les commentaires de @Glen_b pour Arbuthnot).

  • Une source d'inspiration pour de Moivre était Nicolaus Bernouilli, qui en 1712/1713 a fait les calculs pour que la probabilité que le nombre de garçons naissant ne soit pas inférieure à 7037 et pas plus grande que 7363, quand 14000 est le nombre total d'enfants nés et la probabilité pour un garçon est de 18/35.

    (Les chiffres de ce problème étaient basés sur 80 ans de statistiques pour Londres. Il a écrit à ce sujet dans des lettres à Pierre Raymond de Montmort publiées dans la deuxième édition (1713) de l' essai de Montmort sur les jeux de hasard .)

    Les calculs, que je n'ai pas tout à fait suivis, ont révélé une probabilité de 43,58 à 1. (En utilisant un ordinateur sommant tous les termes de la probabilité d'un binôme de 7037 à 7363, j'obtiens 175: 1, donc j'ai peut-être mal interprété son travail / calcul. )


1: John Arbuthnot a écrit sur ce cas dans Un argument pour la providence divine, tiré de la régularité constante observée dans les naissances des deux sexes (1710).

Explication de l'argument d'Arbuthnot: le rapport de naissance garçon: fille est remarquablement différent du milieu. Il ne calcule pas exactement la valeur de p (ce qui n'est pas son objectif), mais utilise la probabilité d'obtenir des garçons> des filles 82 fois de suite faisant valoir que ce nombre serait encore plus petit si l'on considère que l'on peut prendre une plage plus petite et que cela s'est produit plus qu'à Londres et 82 ans, il finit par conclure que c'est très peu probable et que ce doit être une providence (divine) pour contrer la plus grande mortalité des hommes pour finalement aboutir à des hommes et des femmes égaux.

128214836000000000000000000000

Arbuthnot: alors la chance de A sera proche d'une quantité infiniment petite, au moins inférieure à toute fraction assignable. D'où il résulte que c'est l'Art, et non le hasard qui gouverne.


Écrit par StackExchangeStrike

Sextus Empiricus
la source
Probablement A History of Inverse Probability d'Andrew Dale pourrait vous aider davantage. (À la recherche d'une traduction de Bernoulli, j'ai trouvé qu'il avait traduit le passage pertinent mentionné par de Moivre). Au début, cette probabilité inverse, désormais considérée comme une technique bayésienne, aurait pu être un outil assez fréquentiste d'interprétation et d'utilisation.
Sextus Empiricus
3

J'ai trois liens / arguments à l'appui qui soutiennent la date ~ 1600-1650 pour les statistiques formellement développées et beaucoup plus tôt pour simplement l' utilisation des probabilités.

Si vous acceptez le test d'hypothèse comme base, avant la probabilité, le dictionnaire d'étymologie en ligne propose ceci:

" hypothèse (n.)

1590, «une déclaration particulière»; Années 1650, "une proposition, supposée et prise pour acquise, utilisée comme prémisse", de l'hypothèse du moyen français et directement de l'hypothèse du latin tardif, de l'hypothèse grecque "base, fondement, fondation", donc en usage prolongé "base d'un argument, supposition, "littéralement" un placement sous, "de l'hypo-" sous "(voir hypo-) + thèse" un placement, proposition "(de la forme redupliquée de la racine de TARTE * dhe-" mettre, mettre "). Un terme en logique; le sens scientifique plus étroit date des années 1640. ".

Le Wiktionnaire propose:

"Enregistré depuis 1596, de l'hypothèse du moyen français, de l'hypothèse du latin tardif, du grec ancien ὑπόθεσις (hupóthesis," base, base d'un argument, supposition "), littéralement" un placement sous ", lui-même de ὑποτίθημι (hupotíthēmi," j'ai mis avant, suggérer »), de ὑπό (hupó,« ci-dessous ») + τίθημι (títhēmi,« je mets, place »).

Hypothèse de nom (hypothèses plurielles)

(sciences) Utilisé de manière lâche, une conjecture provisoire expliquant une observation, un phénomène ou un problème scientifique qui peut être testé par une observation, une enquête et / ou une expérimentation plus poussées. En tant que terme scientifique, voir la citation ci-jointe. Comparez avec la théorie et la citation qui y est donnée. citations ▲

  • 2005, Ronald H. Pine, http://www.csicop.org/specialarticles/show/intelligent_design_or_no_model_creationism , 15 octobre 2005:

    Beaucoup trop d'entre nous ont appris à l'école qu'un scientifique, en essayant de comprendre quelque chose, émettra d'abord une "hypothèse" (une supposition ou une supposition - pas nécessairement même une supposition "instruite"). ... [Mais] le mot "hypothèse" devrait être utilisé, en science, exclusivement pour une explication raisonnée, sensible et fondée sur les connaissances pour expliquer pourquoi un phénomène existe ou se produit. Une hypothèse peut être encore non vérifiée; peut avoir déjà été testé; peut avoir été falsifié; n'ont peut-être pas encore été falsifiés, bien que testés; ou peut avoir été testé dans une myriade de façons d'innombrables fois sans être falsifié; et il pourrait en arriver à être universellement accepté par la communauté scientifique. Une compréhension du mot «hypothèse», tel qu'il est utilisé en science, nécessite une compréhension des principes qui sous-tendent Occam ' s La pensée de Razor et Karl Popper en ce qui concerne la "falsifiabilité" - y compris la notion selon laquelle toute hypothèse scientifique respectable doit, en principe, être "capable" d'être prouvée fausse (si elle devait, en fait, se révéler être fausse), mais on ne peut jamais prouver la vérité. Un aspect d'une bonne compréhension du mot "hypothèse", tel qu'il est utilisé en science, est que seul un pourcentage extrêmement faible d'hypothèses pourrait devenir une théorie. ".

Sur les probabilités et les statistiques, Wikipedia propose:

" Collecte de données

Échantillonnage

Lorsque les données complètes du recensement ne peuvent pas être collectées, les statisticiens collectent des données d'échantillonnage en développant des plans d'expériences spécifiques et des échantillons d'enquête. La statistique elle-même fournit également des outils de prédiction et de prévision par le biais de modèles statistiques. L'idée de faire des inférences sur la base de données échantillonnées a commencé vers le milieu des années 1600 en rapport avec l'estimation des populations et le développement de précurseurs de l'assurance-vie . (Référence: Wolfram, Stephen (2002). Un nouveau type de science. Wolfram Media, Inc. p. 1082. ISBN 1-57955-008-8).

Pour utiliser un échantillon comme guide pour une population entière, il est important qu'il représente vraiment la population globale. L'échantillonnage représentatif garantit que les inférences et les conclusions peuvent s'étendre en toute sécurité de l'échantillon à la population dans son ensemble. Un problème majeur consiste à déterminer dans quelle mesure l'échantillon choisi est réellement représentatif. Les statistiques offrent des méthodes pour estimer et corriger tout biais dans les procédures d'échantillonnage et de collecte de données. Il existe également des méthodes de conception expérimentale pour les expériences qui peuvent atténuer ces problèmes au début d'une étude, renforçant sa capacité à discerner des vérités sur la population.

La théorie de l'échantillonnage fait partie de la discipline mathématique de la théorie des probabilités. La probabilité est utilisée en statistique mathématique pour étudier les distributions d'échantillonnage des statistiques d'échantillonnage et, plus généralement, les propriétés des procédures statistiques. L'utilisation de toute méthode statistique est valable lorsque le système ou la population considérée satisfait aux hypothèses de la méthode. La différence de point de vue entre la théorie des probabilités classique et la théorie de l'échantillonnage est, en gros, que la théorie des probabilités part des paramètres donnés d'une population totale pour déduire les probabilités qui se rapportent aux échantillons. L'inférence statistique, cependant, se déplace dans la direction opposée - inférant de manière inductive des échantillons aux paramètres d'une population plus grande ou totale .

Tiré de "Wolfram, Stephen (2002). Un nouveau type de science. Wolfram Media, Inc. p. 1082.":

" Analyse statistique

• Histoire. Certains calculs de cotes pour les jeux de hasard étaient déjà effectués dans l'Antiquité. À partir des années 1200, des résultats de plus en plus élaborés basés sur l' énumération combinatoire des probabilités ont été obtenus par des mystiques et des mathématiciens, des méthodes systématiquement correctes étant développées au milieu des années 1600 et au début des années 1700.. L'idée de faire des inférences à partir des données échantillonnées est apparue au milieu des années 1600 dans le cadre de l'estimation des populations et du développement de précurseurs de l'assurance-vie. La méthode de calcul de la moyenne pour corriger ce qui était supposé être des erreurs d'observation aléatoires a commencé à être utilisée, principalement en astronomie, au milieu des années 1700, tandis que l'ajustement des moindres carrés et la notion de distribution des probabilités ont été établis vers 1800. Des modèles probabilistes basés sur des variations aléatoires entre les individus ont commencé à être utilisées en biologie au milieu des années 1800, et bon nombre des méthodes classiques maintenant utilisées pour l'analyse statistique ont été développées à la fin des années 1800 et au début des années 1900 dans le contexte de la recherche agricole. En physique, les modèles fondamentalement probabilistes étaient au cœur de l'introduction de la mécanique statistique à la fin des années 1800 et de la mécanique quantique au début des années 1900.

Autres sources:

"Ce rapport, en termes principalement non mathématiques, définit la valeur de p, résume les origines historiques de l'approche de la valeur de p aux tests d'hypothèse, décrit diverses applications de p≤0,05 dans le contexte de la recherche clinique et discute de l'émergence de p≤ 5 × 10−8 et d'autres valeurs comme seuils pour les analyses statistiques génomiques. "

La section "Origines historiques" indique:

[1]

[1]. Arbuthnott J. Un argument pour la divine Providence, tiré de la régularité constante observée dans les naissances des deux sexes. Phil Trans 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 publié le 1er janvier 1710

1-45-789dix,11

Je proposerai une défense limitée des valeurs P uniquement. ... ".

Les références

1 Hald A. A history of probability and statistics and their appli- cations before 1750. New York: Wiley, 1990.
2 Shoesmith E, Arbuthnot, J. In: Johnson, NL, Kotz, S, editors. Leading personalities in statistical sciences. New York: Wiley, 1997:7–10. 
3 Bernoulli, D. Sur le probleme propose pour la seconde fois par l’Acadamie Royale des Sciences de Paris. In: Speiser D,
editor. Die Werke von Daniel Bernoulli, Band 3, Basle:
Birkhauser Verlag, 1987:303–26. 
4 Arbuthnot J. An argument for divine providence taken from
the constant regularity observ’d in the births of both sexes. Phil Trans R Soc 1710;27:186–90. 
5 Freeman P. The role of P-values in analysing trial results. Statist Med 1993;12:1443 –52. 
6 Anscombe FJ. The summarizing of clinical experiments by
significance levels. Statist Med 1990;9:703 –8.
7 Royall R. The effect of sample size on the meaning of signifi- cance tests. Am Stat 1986;40:313 –5.
8 Senn SJ. Discussion of Freeman’s paper. Statist Med
1993;12:1453 –8.
9 Gardner M, Altman D. Statistics with confidence. Br Med J
1989.
10 Matthews R. The great health hoax. Sunday Telegraph 13
September, 1998. 
11 Matthews R. Flukes and flaws. Prospect 20–24, November 1998.

@Martijn Weterings : "Pearson en 1900 était-il le renouveau ou est-ce que ce concept (fréquentiste) est apparu plus tôt? Comment Jacob Bernoulli a-t-il pensé son" théorème d'or "dans un sens fréquentiste ou dans un sens bayésien (que disent et sont les Ars Conjectandi y a-t-il plus de sources)?

L'American Statistical Association a une page Web sur l' histoire des statistiques qui, avec cette information, a une affiche (reproduite en partie ci-dessous) intitulée "Chronologie des statistiques".

  • AD 2: Les preuves d'un recensement achevé pendant la dynastie des Han survivent.

  • 1500s: Girolamo Cardano calcule les probabilités de différents lancers de dés.

  • Années 1600: Edmund Halley établit un lien entre le taux de mortalité et l'âge et élabore des tables de mortalité.

  • Années 1700: Thomas Jefferson dirige le premier recensement américain.

  • 1839: Création de l'American Statistical Association.

  • 1894: Le terme «écart type» est introduit par Karl Pearson.

  • 1935: RA Fisher publie Design of Experiments.

Chronologie partielle des statistiques

Dans la section "Histoire" de la page Web de Wikipédia " Loi des grands nombres ", il explique:

"Le mathématicien italien Gerolamo Cardano (1501-1576)a déclaré sans preuve que la précision des statistiques empiriques tend à s'améliorer avec le nombre d'essais. Cela a ensuite été formalisé comme une loi de grand nombre. Une forme spéciale du LLN (pour une variable aléatoire binaire) a d'abord été démontrée par Jacob Bernoulli. Il lui a fallu plus de 20 ans pour développer une preuve mathématique suffisamment rigoureuse qui a été publiée dans son Ars Conjectandi (The Art of Conjecturing) en 1713. Il l'a appelé son "Théorème d'Or" mais il est devenu généralement connu comme "Théorème de Bernoulli". Cela ne doit pas être confondu avec le principe de Bernoulli, du nom du neveu de Jacob Bernoulli, Daniel Bernoulli. En 1837, SD Poisson l'a décrit plus en détail sous le nom de "loi des grands nombres". Par la suite, il était connu sous les deux noms, mais le "

Après que Bernoulli et Poisson aient publié leurs efforts, d'autres mathématiciens ont également contribué au raffinement de la loi, notamment Chebyshev, Markov, Borel, Cantelli et Kolmogorov et Khinchin. ".


Question: "Pearson a-t-il été la première personne à concevoir des valeurs p?"

Non, probablement pas.

Dans « The ASA's Statement on p-Values: Context, Process, and Purpose » (09 juin 2016) par Wasserstein et Lazar, doi: 10.1080 / 00031305.2016.1154108, il y a une déclaration officielle sur la définition de la valeur p (qui n'est pas doute pas accepté par toutes les disciplines utilisant ou rejetant les valeurs de p) qui se lisent comme suit:

" . Qu'est-ce qu'une valeur p?

De manière informelle, une valeur de p est la probabilité, selon un modèle statistique spécifié, qu'un résumé statistique des données (par exemple, la différence moyenne de l'échantillon entre deux groupes comparés) soit égal ou supérieur à sa valeur observée.

3. Principes

...

6. En soi, une valeur de p ne fournit pas une bonne mesure de preuve concernant un modèle ou une hypothèse.

Les chercheurs devraient reconnaître qu'une valeur de p sans contexte ou autre preuve fournit des informations limitées. Par exemple, une valeur de p proche de 0,05 prise seule ne fournit que des preuves faibles contre l'hypothèse nulle. De même, une valeur de p relativement élevée n'implique pas de preuve en faveur de l'hypothèse nulle; de nombreuses autres hypothèses peuvent être également ou plus cohérentes avec les données observées. Pour ces raisons, l'analyse des données ne devrait pas se terminer par le calcul d'une valeur p lorsque d'autres approches sont appropriées et réalisables. ".

Le rejet de l' hypothèse nulle s'est probablement produit bien avant Pearson.

La page de Wikipédia sur les premiers exemples de tests d'hypothèse nulle déclare:

Premiers choix d'hypothèse nulle

Paul Meehl a fait valoir que l'importance épistémologique du choix de l'hypothèse nulle est largement méconnue. Lorsque l'hypothèse nulle est prédite par la théorie, une expérience plus précise sera un test plus sévère de la théorie sous-jacente. Lorsque l'hypothèse nulle par défaut est «aucune différence» ou «aucun effet», une expérience plus précise est un test moins sévère de la théorie qui a motivé la réalisation de l'expérience. Un examen des origines de cette dernière pratique peut donc être utile:

1778: Pierre Laplace compare les taux de natalité des garçons et des filles dans plusieurs villes européennes. Il déclare: "il est naturel de conclure que ces possibilités sont à peu près dans le même rapport". Ainsi l'hypothèse nulle de Laplace selon laquelle les taux de natalité des garçons et des filles devraient être égaux étant donné la "sagesse conventionnelle".

1900: Karl Pearson développe le test du chi carré pour déterminer "si une forme donnée de courbe de fréquence décrira efficacement les échantillons prélevés dans une population donnée". Ainsi, l'hypothèse nulle est qu'une population est décrite par une distribution prédite par la théorie. Il utilise comme exemple les nombres de cinq et six dans les données de lancer de dés de Weldon.

1904: Karl Pearson développe le concept de «contingence» afin de déterminer si les résultats sont indépendants d'un facteur catégorique donné. Ici, l'hypothèse nulle est par défaut que deux choses ne sont pas liées (par exemple la formation de cicatrices et les taux de mortalité dus à la variole). L'hypothèse nulle dans ce cas n'est plus prédite par la théorie ou la sagesse conventionnelle, mais est plutôt le principe d'indifférence qui conduit Fisher et d'autres à rejeter l'utilisation des "probabilités inverses".

Malgré le fait qu'une personne soit créditée pour avoir rejeté une hypothèse nulle, je ne pense pas qu'il soit raisonnable de la qualifier de " découverte du scepticisme basé sur une faible position mathématique".

Rob
la source
J'ai recherché le travail de Daniel Bernouilli (deuxième édition est 1808 mais le travail lui-même est de 1734) "RECHERCHES PHYSYQUES ET ASTRONOMIQUES, sur le problème proposé pour la seconde fois par l'Académie Royale des Sciences de Paris: Quelle est la cause physique de l'inclinaison des plans des Orbites des Planètes par rapport au plan de l'Équateur de la révolution du Soleil autour de son ax; et d'où vient que les inclinaisons de ces Orbites sont différentes entre elles. e-rara. ch / zut / wihibe / content / titleinfo / 13426461
Sextus Empiricus
1:175