Habituellement, une distribution de probabilité sur des variables discrètes est décrite à l'aide d'une fonction de masse de probabilité (PMF):
Lorsque nous travaillons avec des variables aléatoires continues, nous décrivons les distributions de probabilité en utilisant une fonction de densité de probabilité (PDF) plutôt qu'une fonction de masse de probabilité.
- Deep Learning par Goodfellow, Bengio et Courville
Cependant, Wolfram Mathworld utilise PDF pour décrire la distribution de probabilité sur des variables discrètes:
Est-ce une erreur? ou ça n'a pas beaucoup d'importance?
Réponses:
Ce n'est pas une erreur: dans le traitement formel des probabilités, via la théorie des mesures, une fonction de densité de probabilité est une dérivée de la mesure de probabilité d'intérêt, prise par rapport à une "mesure dominante" (également appelée "mesure de référence"). Pour les distributions discrètes sur les entiers, la fonction de masse de probabilité est une fonction de densité par rapport à la mesure de comptage . Puisqu'une fonction de masse de probabilité est un type particulier de fonction de densité de probabilité, vous trouverez parfois des références comme celle-ci qui s'y réfèrent comme une fonction de densité, et ils n'ont pas tort de s'y référer de cette façon.
Dans le discours ordinaire sur les probabilités et les statistiques, on évite souvent cette terminologie et fait une distinction entre les "fonctions de masse" (pour les variables aléatoires discrètes) et les "fonctions de densité" (pour les variables aléatoires continues), afin de distinguer les distributions discrètes et continues. Dans d'autres contextes, où l'on énonce des aspects holistiques de la probabilité, il est souvent préférable d'ignorer la distinction et de se référer aux deux comme «fonctions de densité».
la source
treatment
«dans le traitement formel des probabilités» signifie notation, perspective, convention ou autre chose?En plus de la réponse plus théorique en termes de théorie de la mesure, il est également pratique de ne pas distinguer entre pmfs et pdfs dans la programmation statistique. Par exemple, R a une multitude de distributions intégrées. Pour chaque distribution, il a 4 fonctions. Par exemple, pour la distribution normale (à partir du fichier d'aide):
Les utilisateurs R deviennent rapidement habitués aux
d,p,q,r
préfixes. Ce serait ennuyeux si vous deviez faire quelque chose comme dropd
et usem
pour par exemple la distribution binomiale. Au lieu de cela, tout est comme un utilisateur R devrait s'y attendre:la source
scipy.stats
distingue, certains objets ont unepdf
méthode et d'autres ont unepmf
méthode. Ça m'énerve vraiment!