Pourquoi briser le dénominateur du théorème de Bayes?

23

(Je suis un débutant dans les statistiques. Je suis mathématicien et programmeur et j'essaie de créer quelque chose comme un filtre anti-spam bayésien naïf.)

J'ai remarqué à de nombreux endroits que les gens ont tendance à briser le dénominateur dans l'équation du théorème de Bayes. Donc au lieu de ça:

P(UNE|B)P(B)P(UNE)

On nous présente ceci:

P(UNE|B)P(B)P(UNE|B)P(B)+P(UNE|¬B)P(¬B)

Vous pouvez voir que cette convention est utilisée dans cet article Wikipedia et dans cet article perspicace de Tim Peters.

Je suis déconcerté par cela. Pourquoi le dénominateur se décompose-t-il ainsi? Comment cela aide-t-il les choses? Qu'est-ce qui est si compliqué dans le calcul de , ce qui serait le cas dans le cas des filtres anti-spam ?P(UNE)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not

Ram Rachum
la source
Je soupçonne que la réponse est spécifique au domaine (c'est-à-dire spécifique aux filtres anti-spam). Si vous pouvez calculer les composants P (A | B), etc., vous devriez être en mesure de calculer le P plus simple (A) comme vous l'avez indiqué. Ou, peut-être que la réponse est liée à la pédagogie afin que les lecteurs comprennent la relation entre P (A) et sa décomposition en termes de P (A | B), P (B) etc.
1
Je n'ai pas de réponse solide, mais je peux dire que j'ai fait des erreurs stupides sur des tests où j'aurais pu simplement brancher des données sur le dénominateur explicite, mais je pensais que je connaissais P (A) et je me trompais.
Wayne

Réponses:

16

La réponse courte à votre question est: "la plupart du temps, nous ne savons pas ce qu'est le P (fromage), et il est souvent (relativement) difficile à calculer."

La réponse la plus longue pour laquelle la règle / le théorème de Bayes est normalement énoncée dans la façon dont vous avez écrit est parce que dans les problèmes bayésiens, nous avons - assis sur nos genoux - une distribution antérieure (le P (B) ci-dessus) et une probabilité (le P (A | B), P (A | notB) ci-dessus) et c'est une question de multiplication relativement simple de calculer le postérieur (le P (B | A)). Prendre la peine de ré-exprimer P (A) dans sa forme résumée est un effort qui pourrait être dépensé ailleurs.

Cela peut ne pas sembler si compliqué dans le contexte d'un e-mail car, comme vous l'avez noté à juste titre, c'est juste du P (fromage), non? Le problème est qu'avec des problèmes bayésiens plus complexes sur le champ de bataille, le dénominateur est une intégrale inesthétique, qui peut ou non avoir une solution de forme fermée. En fait, nous avons parfois besoin de méthodes de Monte Carlo sophistiquées juste pour approximer l'intégrale et le barattage des nombres peut être une vraie douleur à l'arrière.

Mais plus précisément, nous ne nous soucions généralement pas de ce qu'est le P (fromage). Gardez à l'esprit que nous essayons d'affiner notre croyance quant à savoir si un e-mail est un spam ou non , et nous ne nous soucions pas de la distribution marginale des données (le P (A), ci-dessus). C'est juste une constante de normalisation, de toute façon, qui ne dépend pas du paramètre; l'acte de sommation efface toutes les informations que nous avions sur le paramètre. La constante est une nuisance à calculer et n'est finalement pas pertinente lorsqu'il s'agit de se concentrer sur nos croyances quant à savoir si le spam de l'e-mail est ou non. Parfois, nous sommes obligés de le calculer, auquel cas le moyen le plus rapide de le faire est avec les informations que nous avons déjà: la priorité et la probabilité.


la source
Quelqu'un pourrait-il fournir un exemple d'une «intégrale disgracieuse, qui peut ou non avoir une solution de forme fermée», qui serait utilisée dans certains problèmes?
PaulG
8

L'une des raisons d'utiliser la règle de probabilité totale est que nous traitons souvent les probabilités des composants dans cette expression et il est simple de trouver la probabilité marginale en branchant simplement les valeurs. Pour une illustration de cela, voir l'exemple suivant sur Wikipedia:

Une autre raison est de reconnaître des formes équivalentes de la règle de Bayes en manipulant cette expression. Par exemple:

P(B|UNE)=P(UNE|B)P(B)P(UNE|B)P(B)+P(UNE|¬B)P(¬B)

Divisez le RHS par le numérateur:

P(B|UNE)=11+P(UNE|¬B)P(UNE|B)P(¬B)P(B)

Ce qui est une belle forme équivalente pour la règle de Bayes, rendue encore plus pratique en soustrayant cela de l'expression originale pour obtenir:

P(¬B|UNE)P(B|UNE)=P(UNE|¬B)P(UNE|B)P(¬B)P(B)

C'est la règle de Bayes énoncée en termes de cotes, c'est-à-dire les cotes postérieures contre B = facteur Bayes contre B fois les cotes antérieures contre B. (Ou vous pouvez l'inverser pour obtenir une expression en termes de cotes pour B.) Le facteur Bayes est le rapport des probabilités de vos modèles. Étant donné que nous ne sommes pas sûrs du mécanisme de génération de données sous-jacent, nous observons les données et mettons à jour nos croyances.

Je ne sais pas si vous trouvez cela utile, mais j'espère que ce n'est pas déroutant; vous devez évidemment travailler avec l'expression qui convient le mieux à votre scénario. Peut-être que quelqu'un d'autre peut intervenir avec de meilleures raisons.

ars
la source
Vous pouvez aller plus loin et prendre des journaux. Vous avez alors un ratio log-postérieur = ratio log-a priori + ratio log-vraisemblance
probabilités
6

P(UNE)

P(UNE)P(UNE|B)BP(UNE|B)P(UNE|¬B)B¬BP(UNE|B)P(UNE|¬B)P(B)P(¬B)

P(UNE)=P(UNE|B)P(B)+P(UNE|¬B)P(¬B)
suncoolsu
la source