Est-ce une façon correcte de mettre à jour continuellement une probabilité en utilisant le théorème de Bayes?

9

Disons que j'essaie de découvrir la probabilité que la saveur de crème glacée préférée de quelqu'un soit la vanille.

Je sais que la personne aime aussi les films d'horreur.

Je veux découvrir la probabilité que la crème glacée préférée de la personne soit de la vanille étant donné qu'elle aime les films d'horreur.

Je connais les choses suivantes:

  1. P ( A )5% des personnes choisissent la vanille comme leur saveur de crème glacée préférée. (Ceci est mon )P(UNE)
  2. P ( B | A )dix% des personnes dont la préférée est la glace à la vanille aiment aussi les films d'horreur. (Ceci est mon )P(B|UNE)
  3. P ( B | ¬ A )1% des personnes dont la préférée n'est pas la glace à la vanille aiment aussi les films d'horreur (This is my )P(B|¬UNE)

Donc, je le calcule comme ceci: Je trouve que (arrondi au dix millième le plus proche). Il y a chances que la saveur de crème glacée préférée d'un fan de film d'horreur soit la vanille. P(A|B)=0,344834,48%

P(UNE|B)=0,05×0,1(0,05×0,1)+(0,01×(1-0,05))
P(UNE|B)=0,344834,48%

Mais ensuite, j'apprends que la personne a vu un film d'horreur au cours des 30 derniers jours. Voici ce que je sais:

  1. 34,48% est la probabilité postérieure actualisée que la vanille est l'arôme de crème glacée préféré de la personne - le dans ce problème suivant.P(UNE)
  2. 20% des personnes dont la préférée est la glace à la vanille ont vu un film d'horreur au cours des 30 derniers jours.
  3. 5% des personnes dont la préférée n'est pas la glace à la vanille ont vu un film d'horreur au cours des 30 derniers jours.

Cela donne: fois arrondi.

0,3448×0,2(0,3448×0,2)+(0,05×(1-0,3448))=0,6777

Alors maintenant, je crois qu'il y a chances que le fan de film d'horreur aime la crème glacée étant donné qu'il a vu un film d'horreur au cours des 30 derniers jours.67,79%

Mais attendez, il y a autre chose. J'ai également appris que la personne possède un chat.

Voici ce que je sais:

  1. 67,79% est la probabilité postérieure actualisée que la vanille est la saveur de crème glacée préférée de la personne - le dans ce problème suivantP(UNE)
  2. 40% des personnes dont la crème glacée à la vanille est également propriétaire de chats
  3. dix% des personnes dont la préférée n'est pas la glace à la vanille possèdent également des chats

Cela donne: fois arrondi.

0,6777×0,4(0,6777×0,4)+(0,1×(1-0,6777))=0,8938

Ma question se résume à ceci: est-ce que je mets correctement à jour la probabilité en utilisant le théorème de Bayes? Suis-je en train de me tromper dans mes méthodes?

user1626730
la source
1
amour = favori? vous ne publiez pas de degrés d'amour. si vous l'aimez, c'est votre préféré. clarifier si nécessaire.
generic_user
Bon point. J'ai changé "amour" en "favori". Ce n'est pas grammaticalement correct, mais c'est moins verbeux que de dire «choisissez la vanille pour leur saveur de crème glacée préférée». J'espère que cela clarifie les choses.
user1626730

Réponses:

7

Ce n'est pas correct. La mise à jour séquentielle de ce type ne fonctionne que lorsque les informations que vous recevez séquentiellement sont indépendantes (par exemple, les observations iid d'une variable aléatoire). Si chaque observation n'est pas indépendante, comme dans ce cas, vous devez considérer la distribution de probabilité conjointe. La bonne façon de mettre à jour serait de revenir à la précédente, de trouver la probabilité commune que quelqu'un aime les films d'horreur, ait vu un film d'horreur au cours des 30 derniers jours et possède un chat étant donné qu'il choisit ou non la vanille comme saveur de crème glacée préférée, puis mettez à jour en une seule étape.

La mise à jour séquentielle comme celle-ci lorsque vos données ne sont pas indépendantes entraînera rapidement une probabilité postérieure bien supérieure ou inférieure à ce qu'elle devrait être.

Jonathan Christensen
la source
1
Comment entendez-vous par «lorsque les informations que vous recevez séquentiellement sont indépendantes»? Si vous voulez dire "indépendant de l'événement que vous essayez de prédire", savez-vous comment je peux savoir si les informations que je reçois sont indépendantes?
user1626730
Indépendant conditionnellement compte tenu de l'événement que vous essayez de prédire. S'ils étaient indépendants de l'événement que vous essayez de prédire, ils ne vous feraient aucun bien. Quant à savoir comment vous pouvez le dire - vous devez réfléchir à vos données. Dans ce cas, le fait que quelqu'un ait regardé un film d'horreur au cours des 30 derniers jours n'est clairement pas indépendant du fait qu'il aime ou non les films d'horreur.
Jonathan Christensen
Lorsque vous dites «indépendant sous condition», je suppose que vous voulez dire que chaque P (B) (c'est-à-dire, amateur de films d'horreur, propriétaire de chat) n'est pas lié les uns aux autres? Si oui, la variable de propriété de chat ne serait-elle pas indépendante de celle qui aime les films d'horreur?
user1626730
Oui, vous pouvez faire valoir que la possession d'un chat est indépendante de celle d'un film d'horreur. Ce n'est pas nécessairement, cependant - par exemple, peut-être que les femmes sont à la fois plus susceptibles d'aimer les chats et moins susceptibles d'aimer les films d'horreur.
Jonathan Christensen
Hm, je ne suis pas tout à fait sûr de ce que vous voulez dire en ajoutant un peu sur les femmes et les chats. Pourriez-vous expliquer davantage, s'il vous plaît?
user1626730