Une valeur de distribution de probabilité supérieure à 1 est-elle acceptable?

149

Sur la page Wikipedia sur les classificateurs naïfs de Bayes , il y a cette ligne:

p(height|male)=1.5789 (Une distribution de probabilité sur 1 est OK. C'est l'aire sous la courbe en cloche qui est égale à 1.)

Comment une valeur peut-elle être correcte? Je pensais que toutes les valeurs de probabilité étaient exprimées dans la plage . De plus, étant donné qu'il est possible d'avoir une telle valeur, comment cette valeur est-elle obtenue dans l'exemple présenté sur la page?>10p1

lecteur babelproof
la source
2
Quand j'ai vu que je pensais que ce pourrait être la hauteur de la fonction de densité de probabilité qui peut être n'importe quel nombre positif tant que, si elle est intégrée sur un intervalle quelconque, l'intégrale est inférieure ou égale à 1. Wikipédia devrait corriger cette entrée.
Michael Chernick
16
Parce que cela pourrait aider les futurs lecteurs, je propose une traduction géométrique de la partie générale de cette question: "Comment une forme dont la surface ne dépasse pas peut-elle s’étendre sur plus de dans n’importe quelle direction?" Plus précisément, la forme correspond à la partie du demi-plan supérieur délimitée ci-dessus par le graphique du fichier PDF et la direction en question est verticale. Dans le cadre géométrique (dépourvu de l'interprétation des probabilités), il est facile de penser à des exemples, tels qu'un rectangle de base non supérieur à et de hauteur . 111/22
whuber
l'article de Wikipedia utilise désormais minuscules ppour la densité de probabilité et en majuscules Ppour la probabilité
Aprillion
Je vais laisser ça ici pour le prochain gars: en.wikipedia.org/wiki/Dirac_delta_function
Joshua
1
Il est à noter qu'une fonction de distribution cumulative (l'intégrale du PDF) ne peut pas dépasser 1. Le CDF est beaucoup plus intuitif à utiliser dans de nombreux cas.
naught101

Réponses:

168

Cette page Wiki abuse de la langue en faisant référence à ce nombre comme une probabilité. Vous avez raison, ce n'est pas le cas. C'est en fait une probabilité par pied . Plus précisément, la valeur de 1,5789 (pour une hauteur de 6 pieds) implique que la probabilité d'une hauteur comprise, par exemple, entre 5,99 et 6,01 pieds est proche de la valeur sans unité suivante:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Cette valeur ne doit pas dépasser 1, comme vous le savez. (La petite gamme de hauteurs (0,02 dans cet exemple) est une partie cruciale de l'appareil de probabilité. C'est le "différentiel" de hauteur, que je vais abréger .) Les probabilités par unité de quelque chose sont appelé densité par analogie avec d'autres densités, comme masse par unité de volume.d(height)

Les densités de probabilité de bonne foi peuvent avoir des valeurs arbitrairement grandes, même infinies.

Distribution gamma

Cet exemple montre la fonction de densité de probabilité pour une distribution gamma (avec un paramètre de forme de et une échelle de ). Étant donné que la densité est généralement inférieure à , la courbe doit dépasser afin de disposer d'une aire totale de comme l'exige toutes les distributions de probabilité.3/21/5111

Distribution bêta

Cette densité (pour une distribution bêta avec les paramètres ) devient infinie à et à . La surface totale est encore finie (et égale à )!1/2,1/10011


La valeur de 1,5789 / pied est obtenue dans cet exemple en estimant que les hauteurs des mâles ont une distribution normale avec une moyenne de 5,855 pieds et une variance de 3,50e-2 pieds carrés. (Cela peut être trouvé dans un tableau précédent.) La racine carrée de cette variance est l'écart-type, 0,18717 pieds. Nous ré-exprimons 6 pieds comme le nombre de DS de la moyenne:

z=(65.855)/0.18717=0.7747

La division par l'écart type produit une relation

dz=d(height)/0.18717

La densité de probabilité normale, par définition, est égale à

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(En fait, j'ai triché: j'ai simplement demandé à Excel de calculer NORMDIST (6, 5.855, 0.18717, FALSE). Mais ensuite, je l'ai vraiment comparé à la formule, juste pour être sûr.) Lorsque nous supprimons l' essentiel différentiel de la formule, il ne reste que le nombre , comme le sourire du chat de Cheshire. Nous, lecteurs, devons comprendre que le nombre doit être multiplié par une petite différence de hauteur afin de produire une probabilité.d(height)1.5789

whuber
la source
Je remarque que l'exemple donné sur cette page wiki utilise des densités de probabilité au lieu des probabilités réelles pour le calcul des postérieurs, probablement parce que l'aspect par unité n'est pas nécessaire à des fins de comparaison si les unités comparées sont les mêmes. Etendre ceci, si on ne veut pas supposer la normalité mais plutôt des données empiriques à partir desquelles la densité peut être estimée, par exemple une estimation de la densité du noyau, serait-il valide d'utiliser une lecture à une valeur donnée sur l'axe des abscisses à partir de celle-ci kde pour le calcul des postérieurs dans un classificateur bayésien naïf, en supposant que les unités soient égales?
Babelproofreader
1
@babelproofreader Je pense que les postérieurs sont des mises à jour bayésiennes, via les données d'entraînement, des priors. On ne sait pas comment un kde pourrait être interprété de la même manière, mais je ne suis pas un expert dans ce domaine. Votre question est suffisamment intéressante pour que vous puissiez envisager de la publier séparément.
whuber
Comment déterminez-vous ce qu'est un bon différentiel? Et si vous aviez choisi un différentiel de 1 à la place? la probabilité serait alors plus grande que 1? Désolé pour ma confusion ici. Peux-tu expliquer?
fiacobelli
3
@tree L'aire d'un triangle est la moitié du produit de la longueur de sa base et de sa hauteur.
whuber
1
@ user929304 Vous pouvez vous référer à n'importe quel manuel théorique qui vous intéresse: cela fait partie des bases de la probabilité et des statistiques. Ce concept particulier de densité de probabilité est bien traité dans les meilleurs manuels d'introduction, tels que Freedman, Pisani, & Purves .
whuber
43

C'est une erreur courante de ne pas comprendre la différence entre les fonctions de probabilité de masse, où la variable est discrète, et les fonctions de densité de probabilité, où la variable est continue. Voir Qu'est-ce qu'une distribution de probabilité ?

Les fonctions de probabilité continues sont définies pour un nombre infini de points sur un intervalle continu, la probabilité pour un point unique est toujours égale à zéro. Les probabilités sont mesurées sur des intervalles et non sur des points isolés. C'est-à-dire que l'aire sous la courbe entre deux points distincts définit la probabilité pour cet intervalle. Cela signifie que la hauteur de la fonction de probabilité peut en réalité être supérieure à un. La propriété que l'intégrale doit être égale à un est équivalente à la propriété pour les distributions discrètes selon laquelle la somme de toutes les probabilités doit être égale à un.

Tristan
la source
14
Le NIST fait généralement autorité, mais ici, il est techniquement incorrect (et incommode de démarrer): avoir une probabilité définie à "un nombre infini de points" n'implique pas que "la probabilité à un point unique soit toujours égale à zéro". Bien sûr, ils esquivent juste une distraction à propos de cardinalités infinies, mais le raisonnement est trompeur. Il serait préférable qu’ils omettent simplement la première phrase de la citation.
whuber
En supposant un PDF continu hypothétique , la probabilité en un point unique est généralement infiniment petite (pensez limites dans le calcul). Si le probablement était "toujours zéro" alors, par définition , un tel résultat ne serait pas possible.
nobar il y a
23

Je pense qu'une distribution uniforme continue sur un intervalle fournit un exemple simple pour cette question: Dans une distribution uniforme continue, la densité en chaque point est la même en chaque point (distribution uniforme). De plus, étant donné que l'aire sous le rectangle doit être une (tout comme l'aire sous la courbe normale doit être une), la valeur de densité doit être car tout rectangle de base et l'aire doivent avoir une hauteur de .1 / ( b - a ) b - a 1 1 / ( b - a )[a,b]1/(ba)ba11/(ba)

Donc, la valeur de la densité uniforme sur l'intervalle est , sur l'intervalle elle est , ...1 / ( 0.5 - 0 ) = 2 [ 0 , 0.1 ] 10[0,0.5]1/(0.50)=2[0,0.1]10


la source
4

Je ne sais pas si l'article Wikipedia a été édité après les publications initiales de ce fil de discussion, mais il indique maintenant "Notez qu'une valeur supérieure à 1 est OK ici - il s'agit d'une densité de probabilité plutôt que d'une probabilité, car la hauteur est une variable continue. ", et au moins dans ce contexte immédiat, P est utilisé pour la probabilité et p est utilisé pour la densité de probabilité. Oui, très bâclé puisque l'article utilise p à certains endroits pour désigner la probabilité, et à d'autres comme densité de probabilité.

Retour à la question initiale "Une valeur de distribution de probabilité supérieure à 1 peut-elle être OK?" Non, mais je l'ai vu faire (voir mon dernier paragraphe ci-dessous).

Voici comment interpréter une probabilité> 1. Tout d’abord, notons que les gens peuvent et font un effort de 150%, comme on entend souvent dans les sports et parfois travailler à https://www.youtube.com/watch?v=br_vSdAOHQQ . Si vous êtes certain que quelque chose va se produire, la probabilité est de 1. Une probabilité de 1,5 pourrait être interprétée comme si vous étiez sûr à 150% que l'événement se produirait - un peu comme si vous donniez un effort de 150%.

Et si vous pouvez avoir une probabilité> 1, je suppose que vous pouvez avoir une probabilité <0. Les probabilités négatives peuvent être interprétées comme suit. Une probabilité de 0,001 signifie qu'il n'y a presque aucune chance que l'événement se produise. Probability = 0 signifie "no way". Une probabilité négative, telle que -1,2, correspond à "Vous devez plaisanter".

Lorsque j’étais un jeune garçon à peine sorti de l’école, il ya trois décennies, j’ai assisté à un événement plus surprenant que de briser le mur du son en aviation, à savoir briser le mur de la probabilité. Un analyste avec un doctorat en physique a passé 2 ans à plein temps (probablement à hauteur de 150%) à développer un modèle de calcul de la probabilité de détection de l'objet X, à l'issue duquel son modèle et son analyse ont été menés à bien par des pairs par plusieurs scientifiques et ingénieurs étroitement affiliés aux États-Unis. gouvernement. Je ne vous dirai pas ce qu'est l'objet X, mais l'objet X et la probabilité de le détecter ont toujours suscité un intérêt considérable pour le gouvernement des États-Unis. Le modèle comprenait une formule pour = Prob (l'événement y se produit). PyPyet certains autres termes, tous combinés dans la formule finale, qui était Prob (l'objet X est détecté). En effet, les valeurs calculées de Prob (l'objet X est détecté) se situaient dans l'intervalle de [0,1], comme il est "traditionnel" en probabilité dans la tradition de Kolmogorov. dans sa forme originale était toujours en [0,1] et impliquait des fonctions transcendantales de "variétés de jardin" qui étaient disponibles dans le Fortran standard ou dans toute calculatrice scientifique. Cependant, pour une raison connue uniquement de l'analyste et de Dieu (peut-être parce qu'il l'avait vu faire dans ses cours de physique et ses livres, mais ne savait pas qu'il lui avait été montré les rares cas où cela fonctionnait, pas les nombreux cas où cela fonctionnait pas, et le nom et le jugement scientifique / mathématique de ce type ne sont pas ceux de Dirac),PyPy(et ignorer le terme restant), qui sera dorénavant appelé . C'est ce développement de Taylor à deux termes de qui a été inséré dans l'expression finale de Prob (l'objet X est détecté). Ce qu'il ne s'est pas rendu compte, jusqu'à ce que je le lui fasse remarquer, était que était égal à environ 1,2 en utilisant ses valeurs de base pour tous les paramètres. En effet il était possible pourPyPyPyPyaller jusqu'à environ 1,8. Et c'est ainsi que la barrière de l'unité a été brisée en probabilité. Mais le gars ne savait pas qu'il avait accompli cet exploit de pionnier jusqu'à ce que je le lui fasse remarquer, car il venait d'effectuer des calculs rapides sur une calculatrice scientifique Casio de la taille d'une pile, dans une salle de conférence obscure (je n'aurais pas pu le faire avec une calculatrice à énergie solaire). Ce serait un peu comme si Chuck Yeager sortait dimanche pour faire demi-tour dans son avion et n'était informé que plusieurs mois plus tard qu'il avait franchi le mur du son.

Mark L. Stone
la source
Histoire cool. Avez-vous d'autres informations à ce sujet, comme une citation?
Jay Schyler Raadt
1
@ Jay Schyler Raadt Ceci est documenté à l' adresse stats.stackexchange.com/questions/4220/… , ha, ha.
Mark L. Stone
0

Lorsque la variable aléatoire est continue et que sa fonction de densité de probabilité est , est une probabilité, mais n'est pas une probabilité et peut être supérieur à un. La valeur indiquée n’est pas une probabilité, mais est.Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

En d’autres termes, pour une variable aléatoire continue , , et . Il en va de même pour les probabilités conditionnelles.XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0

Esmailien
la source
-1

La valeur du point pour une valeur de paramètre particulière d'un graphe de densité de probabilité serait une probabilité, non? Dans l'affirmative, l'énoncé peut être corrigé en remplaçant simplement P (hauteur | mâle) par L (hauteur | mâle).

Michael Lew
la source