La page wikipedia affirme que probabilité et probabilité sont des concepts distincts.
Dans le langage non technique, le terme "probabilité" est généralement synonyme de "probabilité", mais dans l’utilisation statistique, il existe une distinction claire entre les perspectives: le nombre représentant la probabilité de certains résultats observés étant donné un ensemble de valeurs de paramètres est considéré probabilité de l'ensemble des valeurs des paramètres en fonction des résultats observés.
Quelqu'un peut-il donner une description plus terre-à-terre de ce que cela signifie? En outre, il serait bon d’avoir quelques exemples de divergences entre "probabilité" et "probabilité".
probability
likelihood
Douglas S. Stones
la source
la source
Réponses:
La réponse dépend de si vous avez affaire à des variables aléatoires discrètes ou continues. Donc, je vais diviser ma réponse en conséquence. Je suppose que vous voulez des détails techniques et pas nécessairement une explication en anglais simple.
Variables aléatoires discrètes
Supposons que vous ayez un processus stochastique prenant des valeurs discrètes (par exemple, le résultat de lancer une pièce 10 fois, le nombre de clients qui arrivent dans un magasin en 10 minutes, etc.). Dans de tels cas, nous pouvons calculer la probabilité d’observer un ensemble particulier de résultats en faisant des hypothèses appropriées sur le processus stochastique sous-jacent (par exemple, la probabilité des têtes d’atterrissage est et les lancers de pièces sont indépendants).p
Indiquez les résultats observés par et l'ensemble des paramètres décrivant le processus stochastique sous la forme . Ainsi, lorsque nous parlons de probabilité, nous voulons calculer . En d' autres termes, étant donné des valeurs spécifiques pour , est la probabilité que nous observions les résultats représentés par .O θ P( O | θ ) θ P( O | θ ) O
Cependant, lorsque nous modélisons un processus stochastique réel, nous ignorons souvent . Nous observons simplement et le but est alors d'arriver à une estimation pour qui serait un choix plausible étant donné les résultats observés . Nous savons que pour une valeur de la probabilité d'observer est . Ainsi, un processus d'estimation « naturelle » est de choisir la valeur de qui maximiserait la probabilité que nous fait observer . En d'autres termes, nous trouvons les valeurs de paramètre qui maximisent la fonction suivante:θ O θ O θ O P( O | θ ) θ O θ
Variables aléatoires continues
Dans le cas continu, la situation est similaire avec une différence importante. Nous ne pouvons plus parler de la probabilité que nous observions donné car dans le cas continu . Sans entrer dans les détails techniques, l’idée de base est la suivante:O θ P( O | θ ) = 0
Notons la fonction de densité de probabilité (pdf) associée aux résultats sous la forme: . Ainsi, dans le cas continu, nous estimons résultats observés en maximisant la fonction suivante:O F( O | θ ) θ O
Dans cette situation, nous ne pouvons pas affirmer sur le plan technique que nous trouvons la valeur du paramètre qui maximise la probabilité que nous observons comme nous le PDF maximisons associé aux résultats observés .O O
la source
C'est le genre de question à laquelle presque tout le monde va répondre et je m'attends à ce que toutes les réponses soient bonnes. Mais vous êtes un mathématicien, Douglas, alors laissez-moi vous donner une réponse mathématique.
Un modèle statistique doit connecter deux entités conceptuelles distinctes: les données , qui sont des éléments d'un ensemble (tel qu'un espace vectoriel), et un éventuel modèle quantitatif du comportement des données. Les modèles sont généralement représentés par des points sur une variété à dimension finie, une variété à frontière ou un espace de fonctions (ce dernier est appelé problème "non paramétrique").x θθ
Les données sont connectées aux modèles possibles au moyen d'une fonction . Pour tout donné , est censé être la probabilité (ou densité de probabilité) de . Par contre, pour un donné , peut être considéré comme une fonction de et est généralement supposé avoir certaines propriétés intéressantes, comme être continuellement différentiable en second lieu. L'intention de voir de cette manière et d'invoquer ces hypothèses est annoncée en appelant la "probabilité".x θ Λ(x,θ) θ Λ(x,θ) x x Λ(x,θ) θ Λ Λ
Cela ressemble beaucoup à la distinction entre variables et paramètres dans une équation différentielle: parfois, nous souhaitons étudier la solution (c'est-à-dire que nous nous concentrons sur les variables en tant qu'argument) et parfois, nous souhaitons étudier comment la solution varie avec les paramètres. La principale distinction est que dans les statistiques, nous avons rarement besoin d’étudier la variation simultanée des deux ensembles d’arguments; aucun objet statistique ne correspond naturellement à la modification des données et des paramètres du modèle . C'est pourquoi vous entendez davantage parler de cette dichotomie que dans des contextes mathématiques analogues.x θ
la source
Je vais essayer de minimiser les mathématiques dans mon explication car il existe déjà de bonnes explications mathématiques.
Comme le souligne Robin Girand, la différence entre probabilité et vraisemblance est étroitement liée à la différence entre probabilité et statistique . En un sens, les probabilités et les statistiques concernent des problèmes opposés ou inverses.
Considérons un tirage au sort. (Ma réponse sera similaire à celle de l' exemple 1 sur Wikipedia .) Si nous savons que la pièce est juste ( ), une question de probabilité type est la suivante: Quelle est la probabilité d'obtenir deux têtes de suite. La réponse est .P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25p=0.5 P(HH)=P(H)×P(H)=0.5×0.5=0.25
Une question statistique typique est: la pièce est-elle juste? Pour répondre à cette question, nous devons nous demander: dans quelle mesure notre échantillon appuie-t-il notre hypothèse selon laquelle ?P(H)=P(T)=0.5
Le premier point à noter est que le sens de la question s’est inversé. En probabilité, nous commençons avec un paramètre supposé ( ) et estimons la probabilité d'un échantillon donné (deux têtes d'affilée). En statistique, nous commençons avec l'observation (deux têtes d'affilée) et faisons INFERENCE sur notre paramètre ( ).p = P ( H ) = 1 - P ( T ) = 1 - qP(head) p=P(H)=1−P(T)=1−q
L'exemple 1 sur Wikipedia nous montre que l'estimation de la probabilité maximale de après 2 en-têtes est . Mais les données n'excluent en aucun cas la valeur réelle du paramètre (ne nous occupons pas des détails pour le moment). En effet, seules de très petites valeurs de et en particulier de peuvent être raisonnablement éliminées après (deux lancers de la pièce). Après le troisième lancer, nous pouvons éliminer la possibilité que (c’est-à-dire que ce n’est pas une pièce à deux têtes), mais la plupart des valeurs intermédiaires peuvent être raisonnablement étayées par les données.p M L E = 1 p ( H ) = 0,5 p ( H ) p ( H ) = 0 n = 2 P ( H ) = 1,0 p ( H )P(H) pMLE=1 p(H)=0.5 p(H) p(H)=0 n=2 P(H)=1.0 . (Un intervalle de confiance binomial exact à 95% pour est compris entre 0,094 et 0,992.p(H)
Après 100 lancers de pièces et (disons) 70 têtes, nous avons maintenant une base raisonnable pour soupçonner que la pièce n'est en réalité pas juste. Un IC de 95% exact sur est maintenant compris entre 0,600 et 0,787 et la probabilité d'observer un résultat aussi extrême que 70 têtes (ou queues) ou plus à partir de 100 lancers étant donné est 0,0000785.p ( H ) = 0,5p(H) p(H)=0.5
Bien que je n’ai pas utilisé explicitement les calculs de vraisemblance, cet exemple illustre bien le concept de vraisemblance: La vraisemblance est une mesure de la mesure dans laquelle un échantillon prend en charge des valeurs particulières d’un paramètre dans un modèle paramétrique .
la source
Je vais vous donner le point de vue de la théorie de la vraisemblance qui a été créée par Fisher - et constitue la base de la définition statistique de l'article de Wikipedia cité.
Supposons que vous ayez des nombres aléatoires qui proviennent d'une distribution paramétrés , où est le paramètre caractérisant . Alors la probabilité de serait: , avec connu . F ( X ; θ ) θ F X = x P ( X = x ) = F ( x ; θ ) θX F(X;θ) θ F X=x P(X=x)=F(x;θ) θ
Le plus souvent, vous avez les données et est inconnu. Étant donné le modèle supposé , la probabilité est définie comme la probabilité que les données observées soient fonction de : . Notez que est connu, mais est inconnu; en fait, la motivation pour définir la probabilité est de déterminer le paramètre de la distribution.θ F θ L ( θ ) = P ( θ ; X = x ) X θX θ F θ L(θ)=P(θ;X=x) X θ
Bien qu'il semble que nous ayons simplement réécrit la fonction de probabilité, l'une des principales conséquences est que la fonction de vraisemblance n'obéit pas aux lois de la probabilité (par exemple, elle n'est pas liée à l'intervalle [0, 1]). Cependant, la fonction de vraisemblance est proportionnelle à la probabilité des données observées.
Ce concept de vraisemblance conduit en réalité à une autre école de pensée, les "vraisemblables" (distincts des fréquentistes et des bayésiens) et vous pouvez utiliser Google pour rechercher tous les différents débats historiques. La pierre angulaire est le principe de vraisemblance qui dit essentiellement que nous pouvons effectuer une inférence directement à partir de la fonction de vraisemblance (ni les bayésiens ni les fréquentistes ne l'acceptent, car ce n'est pas une inférence basée sur les probabilités). De nos jours, une grande partie de ce qui est enseigné comme "fréquentiste" dans les écoles est en fait un amalgame de pensée fréquentiste et de vraisemblance.
Pour une compréhension plus approfondie, un point de départ intéressant et une référence historique est la probabilité d’ Edwards . Pour une approche moderne, je recommanderais la merveilleuse monographie de Richard Royall, intitulée: « Les preuves statistiques: un paradigme de vraisemblance» .
la source
Compte tenu de toutes les bonnes réponses techniques ci-dessus, permettez-moi de revenir à la formulation: la probabilité quantifie l'anticipation (du résultat), la vraisemblance quantifie la confiance (dans le modèle).
Supposons que quelqu'un nous défie à un «jeu de jeu rentable». Ensuite, les probabilités nous serviront à calculer des éléments tels que le profil attendu de vos gains et de vos pertes (moyenne, mode, médiane, variance, ratio d’information, valeur à risque, ruine des joueurs, etc.). En revanche, la probabilité nous servira à quantifier si nous faisons confiance à ces probabilités en premier lieu; ou si nous «sentons un rat».
Incidemment, puisque quelqu'un de la hiérarchie a mentionné les religions de la statistique, je crois que le ratio de probabilité fait partie intégrante du monde bayésien ainsi que du monde fréquentiste: dans le monde bayésien, la formule de Bayes combine simplement la probabilité antérieure et la probabilité de produire postérieur.
la source
Supposons que vous ayez une pièce de monnaie avec une probabilité pour atterrir les têtes et pour atterrir. Soit têtes et queues. Définir comme suitp (1−p) x=1 x=0 f
la source
Si j’ai une pièce équitable (valeur de paramètre), la probabilité qu’elle se redresse est de 0,5. Si je lance une pièce 100 fois et qu'elle revient 52 fois, il y a de fortes chances qu'elle soit juste (la valeur numérique de la probabilité prenant potentiellement plusieurs formes).
la source
Souvent, cette expression est toujours fonction de ses deux arguments, il s’agit donc d’une question d’emphase.
la source
la source
connaissez-vous le pilote de la série télévisée "num3ers" dans laquelle le FBI tente de localiser le port d'attache d'un criminel de série qui semble choisir ses victimes au hasard?
la source