Quelle est la différence entre probabilité et statistique?

Réponses:

114

Persi Diaconis a répondu brièvement à cette question: les problèmes considérés par probabilité et par statistique sont inverses. Dans la théorie des probabilités, nous considérons un processus sous-jacent comportant une certaine aléatoire ou une incertitude modélisée par des variables aléatoires, et nous déterminons ce qui se passe. Dans les statistiques, nous observons quelque chose qui s'est passé et essayons de déterminer quel processus sous-jacent expliquerait ces observations.

Mark Meckes
la source
2
Les statistiques observent donc ce qui se passe dans le monde physique, théorisent le processus sous-jacent, puis l'ayant trouvé, l'utilisent dans le sens de probabilité pour prédire ce qui va se passer ensuite.
hslc
Je ne suis pas un statisticien, mais si je comprends bien, je dirais que c'est en partie ce que font les statistiques.
Mark Meckes
16
Induction vs déduction?
Paolo
6
Comme Paolo l'a dit, la théorie des probabilités concerne principalement la partie déductive, les statistiques avec la partie inductive des processus de modélisation avec incertitude. Il est peut-être intéressant de mentionner que si l'on pense que le raisonnement inductif plausible doit être cohérent, alors le résultat est une statistique bayésienne, et plus intéressant, cela peut être dérivé de la théorie des probabilités. La statistique bayésienne est donc une théorie de la probabilité appliquée pour ainsi dire.
Thies Heidecke
1
@Paolo Statistical Inference est considérée comme une "statistique inductive"
kervin
77

J'aime l'exemple d'un pot de bonbons haricots rouges et verts.

Un probabiliste commence par connaître la proportion de chacun et demande la probabilité de tirer un bonbon rouge. Un statisticien déduit la proportion de bonbons à la gelée rouge en prélevant des échantillons dans le bocal.

John D. Cook
la source
Mais n'est-ce pas juste une formulation? Un probabiliste pourrait demander "étant donné que j'ai tiré trois haricots rouges, quelle est la probabilité que la proportion soit de cinquante-cinq?"
Thomas Ahle
2
@ThomasAhle: Ce n'est pas une question de probabilité bien définie, sauf si vous supposez un modèle probabiliste sous-jacent pour la distribution originale des couleurs.
Mark Meckes
55

Il est trompeur de simplement dire que les statistiques sont simplement l'inverse de la probabilité. Oui, les questions statistiques sont des questions de probabilité inverse, mais ce sont des problèmes inverses mal posés , et cela fait une grande différence quant à la manière dont elles sont traitées.

La probabilité est une branche des mathématiques pures - les questions de probabilité peuvent être posées et résolues en utilisant un raisonnement axiomatique. Il existe donc une réponse correcte à toute question de probabilité.

Les questions statistiques peuvent être converties en questions de probabilité en utilisant des modèles de probabilité . Une fois que nous faisons certaines hypothèses sur le mécanisme générant les données, nous pouvons répondre aux questions statistiques en utilisant la théorie des probabilités. CEPENDANT, la formulation et la vérification appropriées de ces modèles de probabilité sont tout aussi importantes, voire plus importantes que l’analyse ultérieure du problème à l’aide de ces modèles.

On pourrait dire que les statistiques comportent deux parties. La première partie est la question de savoir comment formuler et évaluer des modèles probabilistes pour le problème; cette entreprise relève du domaine de la "philosophie des sciences". La deuxième partie est la question de l’obtention de réponses après la prise en compte d’un certain modèle. Cette partie de la statistique relève bien de la théorie des probabilités appliquées et, en pratique, contient également une bonne part de l’analyse numérique.

Voir: http://bactra.org/reviews/error/

charles.y.zheng
la source
2
Je t'aime pour cette réponse
badatmath
16

J'aime cela des calculs calculés de Steve Skienna (voir le lien pour une discussion complète):

En résumé, la théorie des probabilités nous permet de trouver les conséquences d'un monde idéal donné, tandis que la théorie statistique nous permet de mesurer la mesure dans laquelle notre monde est idéal.

ars
la source
13

La probabilité est une science pure (mathématique), les statistiques concernent les données. Ils sont liés puisque la probabilité forme en quelque sorte un fondement des statistiques, fournissant des idées de base.


la source
3
La probabilité est donc pure mathématique et la statistique est mathématique appliquée?
hslc
4
Les statistiques peuvent être appliquées et peuvent ne pas l'être; le concept de données est toujours présent.
13

Le tableau 3.1 de la biostatistique intuitive répond à cette question avec le diagramme présenté ci-dessous. Notez que toutes les flèches pointent vers la droite pour la probabilité et vers la gauche pour les statistiques.

PROBABILITÉ

Général ---> Spécifique

Population ---> Échantillon

Modèle ---> Données

STATISTIQUES

Général <--- Spécifique

Population <--- échantillon

Modèle <--- Données

Harvey Motulsky
la source
1
Donc, statistiques sont synonymes d'analyse de données?
hslc
3
Je ne vois aucune distinction.
Harvey Motulsky
3
Certaines analyses de données ne reposent pas sur des statistiques fréquentistes.
Fr.
11

Probability répond aux questions sur ce qui va se passer, les statistiques répondent aux questions sur ce qui s'est passé.

Justin Bozonier
la source
3
Selon cette définition, cependant, un intervalle de prédiction est une probabilité plutôt qu'une statistique.
Glen_b
10

La probabilité concerne la quantification de l'incertitude alors que les statistiques expliquent la variation d'une mesure d'intérêt (par exemple, pourquoi les niveaux de revenu varient-ils?) Que nous observons dans le monde réel.

Nous expliquons la variation en utilisant certains facteurs observables (par exemple, le sexe, le niveau d'éducation, l'âge, etc. pour l'exemple de revenu). Cependant, comme nous ne pouvons pas éventuellement prendre en compte tous les facteurs possibles qui affectent le revenu, nous laissons toute variation inexpliquée à des erreurs aléatoires (c’est là que l’incertitude de quantification entre en jeu).

Comme nous attribuons "Variation = Effet des facteurs observables + Effet des erreurs aléatoires", nous avons besoin des outils fournis par la probabilité pour prendre en compte l’effet des erreurs aléatoires sur la variation observée.

Quelques exemples suivent:

Quantifier l'incertitude

Exemple 1: vous lancez un dé à 6 faces. Quelle est la probabilité d'obtenir un 1?

Exemple 2: Quelle est la probabilité que le revenu annuel d'une personne adulte sélectionnée au hasard aux États-Unis soit inférieur à 40 000 $?

Explication de la variation

Exemple 1: Nous observons que le revenu annuel d'une personne varie. Quels facteurs expliquent la variation du revenu d'une personne?

De toute évidence, nous ne pouvons pas prendre en compte tous les facteurs. Ainsi, nous attribuons le revenu d’une personne à certains facteurs observables (par exemple, le niveau d’éducation, le sexe, l’âge, etc.) et laissons toute variation restante à l’incertitude (ou dans le langage statistique: à des erreurs aléatoires).

Exemple 2: Nous observons que certains consommateurs choisissent Tide la plupart du temps pour acheter un détergent, alors que d'autres consommateurs choisissent la marque de détergent xyz. Qu'est-ce qui explique la variation de choix? Nous attribuons la variation des choix à certains facteurs observables tels que le prix, le nom de marque, etc., et laissons toute variation inexpliquée à des erreurs aléatoires (ou incertitudes).

Alexis
la source
1
Et si les erreurs aléatoires devenaient plus grandes que les facteurs observables au fil du temps?
hslc
Dans ce cas, vous retravaillez votre modèle car il ne correspond plus à la réalité.
8

La probabilité correspond à l'incertitude, tandis que les statistiques sont une poursuite empirique et vorace de la vérité (les maudits menteurs sont exclus, bien sûr).


la source
Je pense ici à toutes les probabilités fréquentistes / bayésiennes et à toutes les statistiques descriptives / exploratoires / inférentielles.
7

Semblable à ce que Mark a dit, Statistics s'appelait historiquement Probabilité Inverse , puisqu'elle tente de déduire les causes d'un événement à partir des observations, alors que la probabilité tend à être l'inverse.

Raegtin
la source
6

La probabilité d'un événement est sa fréquence relative à long terme. Donc, il s'agit essentiellement de vous indiquer la possibilité , par exemple, d'obtenir une "tête" lors du prochain lancer d'une pièce ou un "3" au prochain lancer d'un dé.

Une statistique est une mesure numérique calculée à partir d'un échantillon de la population. Par exemple, la moyenne de l'échantillon. Nous utilisons cela comme une statistique qui estime la moyenne de la population, qui est un paramètre. Donc, fondamentalement, cela vous donne une sorte de résumé d’un échantillon.

  • Vous ne pouvez obtenir une statistique qu'à partir d'un échantillon, sinon, si vous calculez une mesure numérique sur une population, cela s'appelle un paramètre de population.
Tony Breyal
la source
6

Les études de probabilité, eh bien, comment les événements sont probables. Vous savez intuitivement ce qu'est la probabilité.

La statistique est l'étude des données: les montrer (en utilisant des outils tels que des graphiques), les résumer (en utilisant des moyennes et des écarts types, etc.), en tirant des conclusions sur le monde à partir duquel ces données ont été tirées (ajustement des lignes aux données, etc.), et - c’est la clé - quantifier à quel point nous pouvons être sûrs de nos conclusions.

Afin de quantifier à quel point nous pouvons être sûrs de nos conclusions, nous devons utiliser Probabilité. Supposons que vous disposiez des données de l'année dernière sur les précipitations dans la région où vous habitez et où j'habite. L'année dernière, il a plu en moyenne 1/4 de pouce par semaine chez vous et 3/8 de pouce chez moi. On peut donc dire que les précipitations dans ma région sont en moyenne 50% plus importantes que chez vous, pas vrai? Pas si vite, Sparky. Ce pourrait être une coïncidence: peut-être est-il arrivé qu'il pleuve beaucoup l'année dernière où je vis. Nous pouvons utiliser Probability pour estimer la confiance que nous pouvons avoir dans notre conclusion que ma maison est 50% plus soggier que la vôtre.

Vous pouvez donc dire en gros que la probabilité est le fondement mathématique de la théorie de la statistique.

Carlos Accioly
la source
5

En théorie des probabilités, on nous donne des variables aléatoires X1, X2, ... d'une certaine manière, puis nous étudions leurs propriétés, c'est-à-dire que nous calculons la probabilité P {X1 \ in B1}, et étudions la convergence de X1, X2, ... etc. .

En statistique mathématique, nous avons n réalisations de certaines variables aléatoires X et ensemble de distributions D; le problème est de trouver parmi les distributions de D une qui est la plus susceptible de générer les données que nous avons observées.


la source
Nous ne pouvons donc trouver que les motifs que nous recherchions au départ?
HSBC
4

En probabilité, la distribution est connue et connaissable à l'avance - vous commencez avec une fonction de distribution de probabilité connue (ou similaire) et en échantillonnez.

En statistique, la distribution est inconnue à l’avance. Il peut même être inconnaissable. Des hypothèses sont émises sur la distribution de probabilité derrière les données observées, afin de pouvoir appliquer la théorie des probabilités à ces données afin de savoir si une hypothèse nulle concernant ces données peut être rejetée ou non.

Il existe une discussion philosophique sur le point de savoir si la probabilité existe dans le monde réel ou si elle est un produit idéal de nos imaginations mathématiques, et toutes nos observations ne peuvent être que statistiques.

EnergyNumbers
la source
3

La statistique est la recherche de la vérité face à l'incertitude. La probabilité est l'outil qui permet de quantifier l'incertitude.

(J'ai fourni une autre réponse, plus longue, qui supposait que l'on demandait quelque chose du genre "comment l'expliquerais-tu à ta grand-mère?")

Carlos Accioly
la source
3

(Ω,F,P)θ(Ω,F,Pθ)θ

θθ

Avertissement: les réponses ci-dessus sont des réponses mathématiques. En réalité, une grande partie de la statistique consiste également à concevoir / découvrir des modèles appropriés, à remettre en question les modèles existants, à concevoir des expériences, à traiter des données imparfaites, etc. "Tous les modèles sont erronés."

gusl
la source
4
De manière analogue, si on demande "qu'est-ce que la chimie?" nous pourrions répondre qu'il s'agit d'un ensemble d'équations différentielles. Une description de la théorie mathématique peut nous donner une petite idée de ce qu’est un sujet, mais ce n’est pas le sujet lui-même.
whuber
3

Probabilité : à partir de paramètres connus, trouvez la probabilité d'observer un ensemble de données particulier.

Statistiques : Étant donné un ensemble particulier de données observées, faites une inférence sur les paramètres possibles.

La statistique est "plus subjective" et "plus d'art que de science" (par rapport à la probabilité).

Exemple_

p

p=12HHH

18

HHHp

Différents statisticiens donneront des réponses différentes, souvent longues.

Kenny LJ
la source
3

La différence entre les probabilités et les statistiques est que, dans les probabilités, il n'y a pas d'erreur. Nous sommes certains de la probabilité, car nous savons exactement combien de faces ont une pièce de monnaie ou combien de caramels bleus se trouvent dans le vase. Mais dans les statistiques, nous examinons une partie de la population de ce que nous examinons, et à partir de là, nous essayons de voir la vérité, mais il y a toujours un% de mauvaises conclusions. La seule chose qui soit vraie dans les statistiques, c’est une% erreur, c’est en fait une probabilité.

TheodoreM
la source
2

Le texte de Savage intitulé Foundations of Statistics a été cité plus de 12 000 fois sur Google Scholar [3]. Il raconte ce qui suit.

Il est unanimement convenu que les statistiques dépendent en quelque sorte de la probabilité. Mais, en ce qui concerne la probabilité et son lien avec les statistiques, il y a rarement eu un désaccord aussi complet et une rupture de la communication depuis la Tour de Babel. Sans doute, une grande partie du désaccord est purement terminologique et disparaîtrait sous une analyse suffisamment précise.

https://en.wikipedia.org/wiki/Foundations_of_statistics

La théorie de la probabilité est donc à la base de la statistique. Tout le reste est un jeu juste.

Mais en essayant d'être plus utile, pratique avec une réponse ...

Cependant, la théorie des probabilités contient beaucoup de choses d’intérêt mathématique qui ne concernent pas directement les statistiques. De plus, de nombreux sujets statistiques sont indépendants de la théorie des probabilités

https://en.wikipedia.org/wiki/Probability_and_statistics

Ce qui précède n’est nullement exhaustif ni autoritaire, mais j’estime que cela est utile.

Généralement, cela m'a aidé à voir des choses telles que ...

Mathématiques discrètes >> Théorie des probabilités >> Statistiques

Chacun étant fortement utilisé, en moyenne, dans les fondements du suivant. C'est-à-dire qu'il y a de grandes intersections dans la façon dont nous étudions les fondements suivants.

PS Il existe des statistiques inductives et déductives, ce n'est donc pas là que réside la différence.

Kervin
la source
0

Beaucoup de mathématiciens et de mathématiciens disent que «STATISTIQUES est l'inverse de PROBABILITÉ», mais que ce n'est pas particulièrement juste. La manière d’approcher ou la méthode de résolution de ces 2 sont complètement différentes mais elles sont INTERCONNECTÉES .

je voudrais me référer à mon ami John D Cook .....

"J'aime l'exemple d'un pot de bonbons haricots rouges et verts.

Un probabiliste commence par connaître la proportion de chacun et trouve la probabilité de tirer un bonbon rouge. Un statisticien déduit la proportion de bonbons à la gelée rouge en prélevant des échantillons dans le bocal. "

Maintenant, la probabiliste utilise la proportion de haricot rouge obtenue en prélevant un échantillon dans le pot pour trouver la probabilité de tirer un haricot rouge du pot.

Considérez cet exemple ---- >>>

Lors d'un examen, 30% des élèves ont échoué en physique, 25% en mathématiques et 12% en physique et en mathématiques. Un élève sélectionné au hasard trouve la probabilité que l'élève ait échoué en physique, s'il est connu qu'il a échoué en maths.

La somme ci-dessus est un problème de probabilité, mais si nous examinons attentivement, nous verrons que la somme est fournie avec des données statistiques.

30% des élèves ont échoué en physique, 25% des "maths", ce sont essentiellement des fréquences si les pourcentages sont calculés. Nous disposons donc de données statistiques qui nous aident à déterminer la probabilité

TELLEMENT, LA PROBABILITÉ ET LES STATISTIQUES SONT TRÈS INTERCONNECTÉES, OU plutôt nous pouvons dire que la probabilité dépend beaucoup des statistiques

Hirak Mondal
la source
0

Le terme "statistiques" est merveilleusement expliqué par JC Maxwell dans l'article Molecules (in Nature 8, 1873, p. 437–441). Permettez-moi de citer le passage pertinent:

Lorsque les membres actifs de la section F se procurent un rapport du recensement ou tout autre document contenant les données numériques des sciences économiques et sociales, ils commencent par répartir l’ensemble de la population en groupes, par âge, impôt sur le revenu, éducation, etc. croyances religieuses ou condamnations pénales. Le nombre d'individus est beaucoup trop important pour qu'ils puissent retracer l'histoire de chacun séparément, de sorte que, pour réduire leur travail dans les limites de l'homme, ils concentrent leur attention sur un petit nombre de groupes artificiels. Le nombre variable d'individus dans chaque groupe, et non l'état variable de chaque individu, constitue la principale donnée à partir de laquelle ils travaillent.

Ceci, bien sûr, n'est pas la seule méthode pour étudier la nature humaine. Nous pouvons observer le comportement d’hommes individuels et le comparer à celui auquel leur caractère antérieur et leurs circonstances actuelles, selon la meilleure théorie existante, nous conduiraient. Ceux qui pratiquent cette méthode s’efforcent d’améliorer leur connaissance des éléments de la nature humaine, de la même manière qu’un astronome corrige les éléments d’une planète en comparant sa position réelle à celle déduite des éléments reçus. L’étude de la nature humaine par les parents et les maîtres d’école, par les historiens et les hommes d’État doit donc être distinguée de celle des greffiers, des tabulatrices et des hommes d’État qui font confiance aux chiffres. L'un peut s'appeler l'historique et l'autre la méthode statistique.

Les équations de la dynamique expriment complètement les lois de la méthode historique telle qu'appliquée à la matière, mais l'application de ces équations implique une connaissance parfaite de toutes les données. Mais la plus petite partie de la matière que nous puissions expérimenter est constituée de millions de molécules, dont aucune ne nous paraît individuellement sensible. Nous ne pouvons donc pas déterminer le mouvement réel de l'une de ces molécules, de sorte que nous sommes obligés d'abandonner la méthode historique stricte et d'adopter la méthode statistique pour traiter de grands groupes de molécules.

Il donne cette explication de la méthode statistique dans plusieurs autres travaux. Par exemple, "dans la méthode d’investigation statistique, nous ne suivons pas le système lorsqu’il est en mouvement, mais nous fixons notre attention sur une phase particulière, et nous vérifions si le système est dans cette phase ou non, et aussi quand il entre dans la phase et quand il le quitte "(Trans. Cambridge Philos. Soc. 12, 1879, p. 547-570).

Il y a un autre beau passage de Maxwell à propos de "probabilité" (extrait d'une lettre à Campbell de 1850, reproduite dans La vie de James Clerk Maxwell , p. 143):

la science actuelle de la logique ne connaît pour l'instant que des choses soit certaines, soit impossibles, soit totalement douteuses, dont aucune (heureusement) nous devons raisonner. Par conséquent, la vraie logique de ce monde est le calcul des probabilités, qui tient compte de l'ampleur de la probabilité (qui est ou qui devrait être dans l'esprit d'un homme raisonnable).

On peut donc dire:

- En statistique, nous "concentrons notre attention sur un petit nombre de groupes artificiels" ou de quantités; nous faisons une sorte de catalogage ou de recensement.

- Probablement, nous calculons notre incertitude à propos de certains événements ou de certaines quantités.

Les deux sont distincts et nous pouvons faire l'un sans l'autre.

Par exemple, si nous effectuons un recensement complet de la population entière d'un pays et comptons le nombre exact de personnes appartenant à des groupes particuliers tels que l'âge, le sexe, etc., nous établissons des statistiques. Il n'y a pas d'incertitude - de probabilité - en cause, car les chiffres que nous trouvons sont exacts et connus.

D'autre part, imaginez quelqu'un passant devant nous dans la rue, et nous nous interrogeons sur leur âge. Dans ce cas, nous sommes incertains et nous utilisons des probabilités, mais il n'y a pas de statistiques impliquées, car nous ne faisons pas de recensement ou de catalogue.

Mais les deux peuvent aussi se produire ensemble. Si nous ne pouvons pas procéder à un recensement complet de la population, nous devons deviner combien de personnes appartiennent à des groupes d'âge ou de sexe spécifiques. Par conséquent, nous utilisons des probabilités en établissant des statistiques. Inversement, nous pouvons prendre en compte des données statistiques exactes sur l'âge des personnes et essayer à partir de ces données de mieux deviner la personne qui passe devant nous. Par conséquent, nous utilisons des statistiques tout en décidant d'une probabilité.

pglpm
la source
Nous vous remercions de votre contribution. Bien qu’intéressant, il ne correspond pas à ce que les statisticiens pensent des statistiques, ni à ce qu’elles font réellement, comme le montre stats.stackexchange.com/questions/140547/… .
whuber
C'est un point discutable. Je connais des statisticiens professionnels qui ne sont pas d’accord avec la définition de l’ASA (qui est terriblement vague) et qui sont d’accord avec Maxwell.
pglpm