Probabilité - Pourquoi multiplier?

22

J'étudie l'estimation du maximum de vraisemblance et j'ai lu que la fonction de vraisemblance est le produit des probabilités de chaque variable. Pourquoi est-ce le produit? Pourquoi pas la somme? J'ai essayé de rechercher sur Google, mais je ne trouve aucune réponse significative.

https://en.wikipedia.org/wiki/Maximum_likelihood

RuiQi
la source
7
Notez que ce n'est pas nécessairement le cas, et en général la probabilité maximale est définie en termes de densité conjointe des variables aléatoires. Bien sûr, s'ils sont indépendants, leur densité conjointe n'est que le produit des marginaux
Ant
N'oubliez pas que la multiplication n'est qu'un raccourci pour l'addition. Quand je dis 2 fois 3, je dis 2 + 2 + 2. Nous nous multiplions parce que nous sommes paresseux. Qui a le temps de le faire à la dure? Vous pouvez ajouter si cela vous aide à voir ce qui se passe (m'a aidé à comprendre le problème de Monty Hall) mais après un certain temps, vous vous ennuierez.
candied_orange
dites que vous avez une probabilité de 80% d'avoir des cheveux bruns et une probabilité de 75% d'avoir des yeux bruns. Pensez-vous qu'il est possible que la probabilité d'être aux cheveux bruns et aux yeux bruns soit 80% + 75% = 155%? que diriez-vous 80% * 75% = 60%?
njzk2

Réponses:

39

Il s'agit d'une question très fondamentale, et au lieu d'utiliser un langage formel et une notation mathématique, j'essaierai d'y répondre à un niveau auquel tous ceux qui peuvent comprendre la question peuvent également comprendre la réponse.

Imaginez que nous avons une race de chats. Ils ont 75% de chances de naître blanc et 25% de chances de naître gris, pas d'autres couleurs. En outre, ils ont une probabilité de 50% d'avoir des yeux verts et une probabilité de 50% d'avoir des yeux bleus, et la couleur du pelage et la couleur des yeux sont indépendantes.

Voyons maintenant une portée de huit chatons:

entrez la description de l'image ici

Vous verrez que 1 sur 4, soit 25%, est gris. De plus, 1 sur 2, ou 50% ont les yeux bleus. Maintenant, la question est,

combien de chatons ont une fourrure grise et des yeux bleus?

Vous pouvez les compter, la réponse est une. Autrement dit, , soit 12,5% de 8 chatons.14×12=18

Pourquoi cela arrive-t-il? Parce que tout chat a une probabilité de 1 sur 4 d'être gris. Alors, choisissez quatre chats, et vous pouvez vous attendre à ce que l'un d'eux soit gris. Mais si vous ne choisissez que quatre chats parmi plusieurs (et obtenez la valeur attendue de 1 chat gris), celui qui est gris a une probabilité de 1 sur 2 d'avoir les yeux bleus. Cela signifie que, du total des chats que vous choisissez, vous multipliez d'abord le total par 25% pour obtenir les chats gris, puis vous multipliez les 25% sélectionnés de tous les chats par 50% pour obtenir ceux qui ont les yeux bleus. Cela vous donne la probabilité d'avoir des chats gris aux yeux bleus.

Les résumer vous donnerait , ce qui fait314+12 ou 6 sur 8. Dans notre photo, cela correspond à résumer les chats aux yeux bleus avec les chats à fourrure grise - et à compter deux fois le chaton aux yeux bleus gris! Un tel calcul peut avoir sa place, mais il est assez inhabituel dans les calculs de probabilité, et ce n'est certainement pas celui sur lequel vous vous interrogez.34

rumtscho
la source
1
Je suis conscient que les autres réponses ici signifient la même chose. Je pense néanmoins qu'une représentation visuelle est nécessaire ici - si le PO avait pu visualiser le concept lui-même, il serait probablement déjà arrivé à la réponse.
rumtscho
C'est en fait une réponse formidable car elle montre chaque variable indépendante comme un axe indépendant dans la matrice de chat. Cela le rend très facile à comprendre. Je vais utiliser cet exemple pour enseigner à mes enfants!
dotancohen
3
Cette réponse est en fait erronée, car elle confond toujours la valeur observée et la valeur attendue. Voyant à quel point il est populaire, je vais essayer de trouver le temps de le mettre à jour avec une explication pourquoi cette façon de sous-définir les chats nous donne un estimateur du maximum de vraisemblance (ou, résoudre le problème de choisir 8 chats au hasard et de découvrir qu'ils ne sont pas les ceux que j'ai peints sur la photo).
rumtscho
Pourquoi cela ne peut-il pas être la population entière de ces chats? (Supposons qu'ils aient des propriétés de recherche particulières - leurs langues sont chimioluminescentes, par exemple.) Ensuite, la confusion n'est pas délétère.
Eric Towers
16

UNEBSUNEBP(UNEB)=P(UNEB)=P(UNE)P(B)UNE1,UNE2,...UNEnP(UNEjejeje)=jejeP(UNEje)je[1,2,...,n]

X1,X2,,XnnF(X1,X2,...,Xn|θ)=je=1je=nF(Xje|θ)

Bahgat Nassour
la source
6

P(UNEB)P(UNE)P(B)

Ainsi, si vous supposez que toutes vos observations sont indépendantes, alors la probabilité d'observer toutes les valeurs que vous avez vues est égale au produit des probabilités individuelles.

Cliff AB
la source
8
P(UNEB)
Salut, merci pour la réponse ! Pourquoi est-ce que je maximise la probabilité (fonction de densité conjointe)? Pourquoi ne puis-je pas maximiser la somme des probabilités de toute observation (ou de toute autre fonction)? Je voudrais trouver la raison pour laquelle la fonction de densité conjointe est choisie. Wikipedia commence par utiliser la fonction de densité conjointe. Mais y a-t-il une raison pour laquelle nous utilisons la fonction de densité conjointe? C'est ce que j'ai essayé de comprendre.
RuiQi
@haziqRazali l'idée de MLE est de choisir les estimations afin de faire l'échantillon que vous avez le plus probablement donné la distribution. D'où le maximum de vraisemblance
Repmat
1
@HaziqRazali Une question comme "pourquoi maximiser la vraisemblance" est une nouvelle question (qui a été posée et répondue ailleurs sur le site)
Glen_b -Reinstate Monica
3

Pourquoi ne pas ajouter?

Parce que cela n'a clairement aucun sens. Supposons que vous ayez un quart et un nickel et que vous souhaitiez les retourner tous les deux. Il y a 50% de chances que le trimestre monte la tête, et 50% de chances que le nickel monte la tête. Si la chance des deux têtes montantes était la somme, cela ferait 100% de chance, ce qui est évidemment faux, car cela ne laisse aucune chance à HT, TH et TT.

Pourquoi multiplier?

Parce qu'il ne du sens. Lorsque vous multipliez les 50% de chances que le quart monte en tête par les 50% de chances que le nickel monte, vous obtenez 0,5 x 0,5 = 0,25 = 25% de chances que les deux pièces soient des têtes. Étant donné qu'il existe quatre combinaisons possibles (HH, HT, TH, HT) et chacune est également probable, cela correspond parfaitement. Lors de l'évaluation de la probabilité que deux événements indépendants se produisent, nous multiplions leurs probabilités individuelles.

Monty Harder
la source
2

Je lis ces articles parce que, comme l'affiche originale, mon besoin est de comprendre pourquoi la « vraisemblance » fn est le « produit » de la densité de chaque valeur d'échantillon - « x ». Une raison lisible et logique est donnée sous le titre Principe de maximum de vraisemblance Réf: [ http://www-structmed.cimr.cam.ac.uk/Course/Likelihood/likelihood.html] Une autre citation Mathématiquement, la vraisemblance est définie comme la probabilité de faire l'ensemble des mesures (même réf.) Bref, la probabilité que vous soyez arrivé à l'échantillon que vous avez sous la main.

Génie
la source
0

Le but de la méthode du maximum de vraisemblance est de trouver un estimateur qui maximise la probabilité d'observer certaines valeurs de la variable (variable endogène). C'est la raison pour laquelle nous devons multiplier les probabilités d'occurrence.

Par exemple: imaginez que le nombre d'appels téléphoniques auxquels une secrétaire peut répondre en une heure suit une distribution de poisson. Ensuite, vous extrayez 2 valeurs de l'échantillon (5 appels téléphoniques et 8 appels téléphoniques par heure) Vous devez maintenant répondre à cette question. Quelle est la valeur du paramètre qui maximise la probabilité d'observer 5 et 8 appels téléphoniques simultanément?. Après, essayez de répondre avec la probabilité d'observer toutes les valeurs du sam

En raison des variables aléatoires indépendantes,

f (y1 = 5 appels téléphoniques) * f (y2 = 8 appels téléphoniques) = ∏if (y, θ) = L (θ, y1, y2)

Enfin, essayez de répondre, la probabilité d'observer toutes les valeurs de l'échantillon.

Enzo Cabañas
la source