Quelle est la différence entre «vraisemblance» et «probabilité»?

474

La page wikipedia affirme que probabilité et probabilité sont des concepts distincts.

Dans le langage non technique, le terme "probabilité" est généralement synonyme de "probabilité", mais dans l’utilisation statistique, il existe une distinction claire entre les perspectives: le nombre représentant la probabilité de certains résultats observés étant donné un ensemble de valeurs de paramètres est considéré probabilité de l'ensemble des valeurs des paramètres en fonction des résultats observés.

Quelqu'un peut-il donner une description plus terre-à-terre de ce que cela signifie? En outre, il serait bon d’avoir quelques exemples de divergences entre "probabilité" et "probabilité".

Douglas S. Stones
la source
9
Excellente question. J'ajouterais "chance" et "chance" là aussi :)
Neil McGuigan
5
Je pense que vous devriez jeter un coup d’œil à cette question stats.stackexchange.com/questions/665/… car la probabilité est à des fins statistiques et la probabilité de probabilité.
robin girard
3
Wow, ce sont de très bonnes réponses. Donc, un grand merci pour cela! Dans quelques instants, je choisirai celle que j’aime particulièrement comme réponse «acceptée» (bien qu’il y en ait plusieurs que je pense méritent également).
Douglas S. Stones
1
Notez également que le "rapport de probabilité" est en réalité un "rapport de probabilité" car il est fonction des observations.
JohnRos

Réponses:

321

La réponse dépend de si vous avez affaire à des variables aléatoires discrètes ou continues. Donc, je vais diviser ma réponse en conséquence. Je suppose que vous voulez des détails techniques et pas nécessairement une explication en anglais simple.

Variables aléatoires discrètes

Supposons que vous ayez un processus stochastique prenant des valeurs discrètes (par exemple, le résultat de lancer une pièce 10 fois, le nombre de clients qui arrivent dans un magasin en 10 minutes, etc.). Dans de tels cas, nous pouvons calculer la probabilité d’observer un ensemble particulier de résultats en faisant des hypothèses appropriées sur le processus stochastique sous-jacent (par exemple, la probabilité des têtes d’atterrissage est et les lancers de pièces sont indépendants).p

Indiquez les résultats observés par et l'ensemble des paramètres décrivant le processus stochastique sous la forme . Ainsi, lorsque nous parlons de probabilité, nous voulons calculer . En d' autres termes, étant donné des valeurs spécifiques pour , est la probabilité que nous observions les résultats représentés par .OθP(O|θ)θP(O|θ)O

Cependant, lorsque nous modélisons un processus stochastique réel, nous ignorons souvent . Nous observons simplement et le but est alors d'arriver à une estimation pour qui serait un choix plausible étant donné les résultats observés . Nous savons que pour une valeur de la probabilité d'observer est . Ainsi, un processus d'estimation « naturelle » est de choisir la valeur de qui maximiserait la probabilité que nous fait observer . En d'autres termes, nous trouvons les valeurs de paramètre qui maximisent la fonction suivante:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O) est appelée la fonction de vraisemblance. Notez que, par définition, la fonction de vraisemblance est conditionnée par le observé et qu’elle est fonction des paramètres inconnus .Oθ

Variables aléatoires continues

Dans le cas continu, la situation est similaire avec une différence importante. Nous ne pouvons plus parler de la probabilité que nous observions donné car dans le cas continu . Sans entrer dans les détails techniques, l’idée de base est la suivante:OθP(O|θ)=0

Notons la fonction de densité de probabilité (pdf) associée aux résultats sous la forme: . Ainsi, dans le cas continu, nous estimons résultats observés en maximisant la fonction suivante:Of(O|θ)θO

L(θ|O)=f(O|θ)

Dans cette situation, nous ne pouvons pas affirmer sur le plan technique que nous trouvons la valeur du paramètre qui maximise la probabilité que nous observons comme nous le PDF maximisons associé aux résultats observés .OO

nbro
la source
35
La distinction entre variables discrètes et variables continues disparaît du point de vue de la théorie de la mesure.
whuber
24
@whuber oui mais une réponse utilisant la théorie des mesures n'est pas accessible à tout le monde.
16
@Srikant: D'accord. Le commentaire était à l’avantage de OP, qui est mathématicien (mais peut-être pas un statisticien), afin d’éviter d’être induit en erreur en pensant que la distinction est fondamentale.
whuber
6
Vous pouvez interpréter une densité continue de la même façon que le cas discret si est remplacé par , en ce sens que si nous demandons (c'est-à-dire que les données sont contenues dans une région infiniment petite autour de ) et la réponse est (le indique clairement que nous calculons l'aire d'une infinie petite "bin" d'un histogramme ). d O P r ( O ( O ' , O ' + d O ' ) | & thetav ) O O ' f ( O ' | & thetav ) d O ' d O 'OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
probabilitéislogique
9
Je suis plus de 5 ans en retard à la fête, mais je pense qu'un suivi très crucial de cette réponse serait stats.stackexchange.com/questions/31238/… qui insiste sur le fait que la fonction de vraisemblance est pas un pdf en ce qui concerne . ) est bien un pdf de données vu la valeur du paramètre, mais puisque étant une fonction de seul (avec des données maintenues constantes), il est indifférent que soit un pdf de données données . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Shobhit
136

C'est le genre de question à laquelle presque tout le monde va répondre et je m'attends à ce que toutes les réponses soient bonnes. Mais vous êtes un mathématicien, Douglas, alors laissez-moi vous donner une réponse mathématique.

Un modèle statistique doit connecter deux entités conceptuelles distinctes: les données , qui sont des éléments d'un ensemble (tel qu'un espace vectoriel), et un éventuel modèle quantitatif du comportement des données. Les modèles sont généralement représentés par des points sur une variété à dimension finie, une variété à frontière ou un espace de fonctions (ce dernier est appelé problème "non paramétrique").xθθ

Les données sont connectées aux modèles possibles au moyen d'une fonction . Pour tout donné , est censé être la probabilité (ou densité de probabilité) de . Par contre, pour un donné , peut être considéré comme une fonction de et est généralement supposé avoir certaines propriétés intéressantes, comme être continuellement différentiable en second lieu. L'intention de voir de cette manière et d'invoquer ces hypothèses est annoncée en appelant la "probabilité".xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

Cela ressemble beaucoup à la distinction entre variables et paramètres dans une équation différentielle: parfois, nous souhaitons étudier la solution (c'est-à-dire que nous nous concentrons sur les variables en tant qu'argument) et parfois, nous souhaitons étudier comment la solution varie avec les paramètres. La principale distinction est que dans les statistiques, nous avons rarement besoin d’étudier la variation simultanée des deux ensembles d’arguments; aucun objet statistique ne correspond naturellement à la modification des données et des paramètres du modèle . C'est pourquoi vous entendez davantage parler de cette dichotomie que dans des contextes mathématiques analogues.xθ

whuber
la source
6
+1, quelle réponse cool. L'analogie avec les équations différentielles semble très appropriée.
Mpiktas
3
En tant qu'économiste, bien que cette réponse ne soit pas aussi pertinente que les concepts précédents, elle était la plus informative au sens intuitif. Merci beaucoup.
Robson
1
En réalité, cette affirmation n'est pas vraiment vraie "il n'y a pas d'objet statistique qui correspond naturellement à la modification des données x et des paramètres du modèle θ". Il y a, on appelle ça "lissage, filtrage et prédiction", dans les modèles linéaires c'est le filtre de Kalman, dans les modèles non linéaires, ils ont les filtres non linéaires complets, en.wikipedia.org/wiki/Kushner_equation etc.
crow
1
Oui, bonne réponse! Aussi boiteux que cela puisse paraître, en choisissant au lieu de la notation standard de , il m'a été plus facile de voir que nous sommes départ avec une probabilité conjointe qui peut être définie comme une probabilité ou une probabilité conditionnelle. De plus, le commentaire "certaines propriétés intéressantes" a aidé. Merci! P ( x , θ )Λ(x,θ)P(x,θ)
Mike Williamson
2
@whuber Oui, je sais que n'est pas la notation habituelle. C'est exactement pourquoi ça a aidé! J'ai cessé de penser que cela devait avoir une signification particulière et je me suis contenté de suivre la logique. ;-pΛ
Mike Williamson
111

Je vais essayer de minimiser les mathématiques dans mon explication car il existe déjà de bonnes explications mathématiques.

Comme le souligne Robin Girand, la différence entre probabilité et vraisemblance est étroitement liée à la différence entre probabilité et statistique . En un sens, les probabilités et les statistiques concernent des problèmes opposés ou inverses.

Considérons un tirage au sort. (Ma réponse sera similaire à celle de l' exemple 1 sur Wikipedia .) Si nous savons que la pièce est juste ( ), une question de probabilité type est la suivante: Quelle est la probabilité d'obtenir deux têtes de suite. La réponse est .P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Une question statistique typique est: la pièce est-elle juste? Pour répondre à cette question, nous devons nous demander: dans quelle mesure notre échantillon appuie-t-il notre hypothèse selon laquelle ?P(H)=P(T)=0.5

Le premier point à noter est que le sens de la question s’est inversé. En probabilité, nous commençons avec un paramètre supposé ( ) et estimons la probabilité d'un échantillon donné (deux têtes d'affilée). En statistique, nous commençons avec l'observation (deux têtes d'affilée) et faisons INFERENCE sur notre paramètre ( ).p = P ( H ) = 1 - P ( T ) = 1 - qP(head)p=P(H)=1P(T)=1q

L'exemple 1 sur Wikipedia nous montre que l'estimation de la probabilité maximale de après 2 en-têtes est . Mais les données n'excluent en aucun cas la valeur réelle du paramètre (ne nous occupons pas des détails pour le moment). En effet, seules de très petites valeurs de et en particulier de peuvent être raisonnablement éliminées après (deux lancers de la pièce). Après le troisième lancer, nous pouvons éliminer la possibilité que (c’est-à-dire que ce n’est pas une pièce à deux têtes), mais la plupart des valeurs intermédiaires peuvent être raisonnablement étayées par les données.p M L E = 1 p ( H ) = 0,5 p ( H ) p ( H ) = 0 n = 2 P ( H ) = 1,0 p ( H )P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. (Un intervalle de confiance binomial exact à 95% pour est compris entre 0,094 et 0,992.p(H)

Après 100 lancers de pièces et (disons) 70 têtes, nous avons maintenant une base raisonnable pour soupçonner que la pièce n'est en réalité pas juste. Un IC de 95% exact sur est maintenant compris entre 0,600 et 0,787 et la probabilité d'observer un résultat aussi extrême que 70 têtes (ou queues) ou plus à partir de 100 lancers étant donné est 0,0000785.p ( H ) = 0,5p(H)p(H)=0.5

Bien que je n’ai pas utilisé explicitement les calculs de vraisemblance, cet exemple illustre bien le concept de vraisemblance: La vraisemblance est une mesure de la mesure dans laquelle un échantillon prend en charge des valeurs particulières d’un paramètre dans un modèle paramétrique .

Thylacoleo
la source
3
Très bonne réponse! Les trois derniers paragraphes sont particulièrement utiles. Comment élargiriez-vous cela pour décrire le cas continu?
Demetris
8
Pour moi, meilleure réponse. Les mathématiques ne me dérangent pas du tout, mais pour moi, les mathématiques sont un outil régi par ce que je veux (je n’apprécie pas les mathématiques pour elle-même, mais pour ce qui m’aide à faire). Ce n'est qu'avec cette réponse que je connais ce dernier.
Mörre
73

Je vais vous donner le point de vue de la théorie de la vraisemblance qui a été créée par Fisher - et constitue la base de la définition statistique de l'article de Wikipedia cité.

Supposons que vous ayez des nombres aléatoires qui proviennent d'une distribution paramétrés , où est le paramètre caractérisant . Alors la probabilité de serait: , avec connu . F ( X ; θ ) θ F X = x P ( X = x ) = F ( x ; θ ) θXF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Le plus souvent, vous avez les données et est inconnu. Étant donné le modèle supposé , la probabilité est définie comme la probabilité que les données observées soient fonction de : . Notez que est connu, mais est inconnu; en fait, la motivation pour définir la probabilité est de déterminer le paramètre de la distribution.θ F θ L ( θ ) = P ( θ ; X = x ) X θXθFθL(θ)=P(θ;X=x)Xθ

Bien qu'il semble que nous ayons simplement réécrit la fonction de probabilité, l'une des principales conséquences est que la fonction de vraisemblance n'obéit pas aux lois de la probabilité (par exemple, elle n'est pas liée à l'intervalle [0, 1]). Cependant, la fonction de vraisemblance est proportionnelle à la probabilité des données observées.

Ce concept de vraisemblance conduit en réalité à une autre école de pensée, les "vraisemblables" (distincts des fréquentistes et des bayésiens) et vous pouvez utiliser Google pour rechercher tous les différents débats historiques. La pierre angulaire est le principe de vraisemblance qui dit essentiellement que nous pouvons effectuer une inférence directement à partir de la fonction de vraisemblance (ni les bayésiens ni les fréquentistes ne l'acceptent, car ce n'est pas une inférence basée sur les probabilités). De nos jours, une grande partie de ce qui est enseigné comme "fréquentiste" dans les écoles est en fait un amalgame de pensée fréquentiste et de vraisemblance.

Pour une compréhension plus approfondie, un point de départ intéressant et une référence historique est la probabilité d’ Edwards . Pour une approche moderne, je recommanderais la merveilleuse monographie de Richard Royall, intitulée: « Les preuves statistiques: un paradigme de vraisemblance» .

ars
la source
3
Réponse intéressante, je pensais en fait que "l'école de vraisemblance" était essentiellement "les fréquentistes qui ne conçoivent pas d'école d'échantillons", tandis que "l'école de design" était le reste des fréquentistes. En fait, je trouve difficile de dire moi-même quelle «école» je suis, car je connais un peu toutes les écoles. L'école "Probabilité comme logique étendue" est ma préférée (duh), mais je n'ai pas assez d'expérience pratique pour l'appliquer à de vrais problèmes pour être dogmatique à ce sujet.
Probistislogic
5
+1 pour "la fonction de vraisemblance n'obéit pas aux lois de la probabilité (par exemple, elle n'est pas liée à l'intervalle [0, 1]). Cependant, la fonction de vraisemblance est proportionnelle à la probabilité des données observées".
Walrus the Cat
10
"la fonction de vraisemblance n'obéit pas aux lois de la probabilité" pourrait utiliser des éclaircissements supplémentaires, en particulier dans la mesure où il a été écrit: θ: L (θ) = P (θ; X = x), c'est-à-dire assimilée à une probabilité!
redcalx
Merci pour votre réponse. Pourriez-vous s'il vous plaît répondre au commentaire que @locster a fait?
Vivek Subramanian
2
Pour moi, non mathématicien, cela se lit comme des mathématiques religieuses, avec des croyances différentes donnant des valeurs différentes quant aux chances que des événements se produisent. Pouvez-vous la formuler de manière à ce qu'il soit plus facile de comprendre quelles sont les différentes croyances et pourquoi elles ont toutes un sens, au lieu que l'une soit simplement incorrecte et que l'autre école / conviction soit correcte? (hypothèse qu'il existe une manière correcte de calculer les chances que des événements se produisent)
Zelphir Kaltstahl
57

Compte tenu de toutes les bonnes réponses techniques ci-dessus, permettez-moi de revenir à la formulation: la probabilité quantifie l'anticipation (du résultat), la vraisemblance quantifie la confiance (dans le modèle).

Supposons que quelqu'un nous défie à un «jeu de jeu rentable». Ensuite, les probabilités nous serviront à calculer des éléments tels que le profil attendu de vos gains et de vos pertes (moyenne, mode, médiane, variance, ratio d’information, valeur à risque, ruine des joueurs, etc.). En revanche, la probabilité nous servira à quantifier si nous faisons confiance à ces probabilités en premier lieu; ou si nous «sentons un rat».


Incidemment, puisque quelqu'un de la hiérarchie a mentionné les religions de la statistique, je crois que le ratio de probabilité fait partie intégrante du monde bayésien ainsi que du monde fréquentiste: dans le monde bayésien, la formule de Bayes combine simplement la probabilité antérieure et la probabilité de produire postérieur.

gitan
la source
Cette réponse le résume pour moi. J'ai dû réfléchir à ce que cela signifiait quand j'ai lu que la probabilité n'était pas une probabilité, mais le cas suivant m'est apparu. Quelle est la probabilité qu'une pièce soit juste, étant donné que nous voyons quatre têtes d'affilée? Nous ne pouvons vraiment pas parler de probabilité ici, mais le mot "confiance" semble approprié. Avons-nous le sentiment de pouvoir faire confiance à la pièce?
Navette
C’était peut-être à l’origine le but recherché par les probabilités, mais de nos jours, les probabilités sont des calculs bayésiens, et il est bien connu que les probabilités peuvent fusionner croyances et plausibilité, c’est pourquoi la théorie de Dempster-Shafer a été créée pour dissocier les deux interprétations.
gaborous
50

Supposons que vous ayez une pièce de monnaie avec une probabilité pour atterrir les têtes et pour atterrir. Soit têtes et queues. Définir comme suitp(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3) est la probabilité de x étant donné que , est la probabilité de étant donné . Fondamentalement, la vraisemblance par rapport à la probabilité vous indique quel paramètre de densité est considéré comme la variable.p=2/3f(1,p)px=1

Yaroslav Bulatov
la source
Beau complément aux définitions théoriques utilisées ci-dessus!
Frank Meulenaar le
Je vois que donne la probabilité d'avoir têtes dans essais. Votre ressemble à la ième racine de celle-ci: . Qu'est-ce que ça veut dire? Cknpn(1p)knnkpx(1p)1xkx=n/k
Little Alien
41

Si j’ai une pièce équitable (valeur de paramètre), la probabilité qu’elle se redresse est de 0,5. Si je lance une pièce 100 fois et qu'elle revient 52 fois, il y a de fortes chances qu'elle soit juste (la valeur numérique de la probabilité prenant potentiellement plusieurs formes).

John
la source
4
Ceci et la réponse de Gypsy devraient être au top! Intuition et clarté au-dessus de la rigueur mathématique, pour ne pas dire plus péjoratif.
Nemanja Radojković
24

P(x|θ) peut être vu de deux points de vue:

  • En fonction de , traiter comme connu / observé. xθSi n'est pas une variable aléatoire, alors est appelée la probabilité ( paramétrée ) de des paramètres du modèle , qui est parfois aussi écrite sous la forme ou . Si est une variable aléatoire, comme dans les statistiques bayésiennes, alors est une probabilité conditionnelle , définie par .θP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • En fonction de , traiter comme observé. x θxPar exemple, lorsque vous essayez de trouver une certaine assignation pour qui maximise , alors est appelée probabilité maximale de des données , parfois écrit comme . Ainsi, le terme probabilité est juste un raccourci pour désigner la probabilité pour certaines données résultant de l'attribution de valeurs différentes à (par exemple, lorsque l'on parcourt l'espace de recherche deθ θ P ( x | θ ) P ( x | θ ) θ x L ( θ | x ) P ( x | θ ) x θ θθ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ pour une bonne solution). Ainsi, il est souvent utilisé comme fonction objective, mais aussi comme mesure de performance pour comparer deux modèles, comme dans la comparaison de modèles bayésienne .

Souvent, cette expression est toujours fonction de ses deux arguments, il s’agit donc d’une question d’emphase.

Lenar Hoyt
la source
Pour le second cas, je pensais que les gens écrivent habituellement P (theta | x).
Yuqian
A l'origine, intuitivement, je pensais déjà que les deux mots étaient identiques, avec une différence de perspective ou de formulation du langage naturel, alors j'ai l'impression: "Quoi? J'avais raison depuis le début ?!" Mais si tel est le cas, pourquoi est-il si important de les distinguer? L’anglais n’étant pas ma langue maternelle, j’ai grandi avec un seul mot pour désigner apparemment les deux termes (ou n’ai-je simplement jamais eu de problème pour distinguer les termes?) Et n’ai jamais su qu’il y avait une différence. C'est seulement maintenant que je connais deux termes anglais que je commence à douter de ma compréhension de ces choses.
Zelphir Kaltstahl
3
Votre réponse semble très complexe et facile à comprendre. Je me demande pourquoi il a eu si peu de votes positifs.
Julian
4
Notez que P (x | ) n'est une probabilité conditionnelle que si est une variable aléatoire, si est un paramètre, il s'agit simplement de la probabilité de x paramétrée par . θ θ θθθθθ
Mircea Mironenco
Je pense que c'est la meilleure réponse parmi tous
Aaron
4

θ

P(X|θ)θP(X|θ)dθθθ

Response777
la source
1
Comme le souligne @Lenar Hoyt, si thêta est une variable aléatoire (ce qui peut être le cas), la probabilité est alors une probabilité. La vraie réponse semble donc être que la probabilité peut être une probabilité, mais qu'elle ne l'est parfois pas.
Mike Wise
@MikeWise, je pense que thêta pourrait toujours être considérée comme une variable "aléatoire", alors qu'il est fort probable que ce ne soit tout simplement pas si "aléatoire" ...
Response777
4

connaissez-vous le pilote de la série télévisée "num3ers" dans laquelle le FBI tente de localiser le port d'attache d'un criminel de série qui semble choisir ses victimes au hasard?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

lx(θ)θpθ(x)xp(x|θ)xθ

Schotti
la source