Je simplifie une question de recherche que j'ai au travail. Imaginez que j'ai 5 pièces et appelons les têtes un succès. Ce sont des pièces TRÈS biaisées avec une probabilité de succès p = 0,1. Maintenant, si les pièces étaient indépendantes, puis obtenir la probabilité d'au moins 1 tête ou plus est très simple, . Dans mon scénario, mes essais de Bernoulli (lancers de pièces) ne sont pas indépendants. Les seules informations auxquelles j'ai accès sont la probabilité de succès (chacun est p = 0,1) et les corrélations théoriques de Pearson entre les variables binaires.
Existe-t-il un moyen de calculer la probabilité d'un succès ou plus uniquement avec ces informations? J'essaie d'éviter une approche basée sur la simulation car ces résultats théoriques seront utilisés pour guider la précision d'une étude de simulation. J'ai étudié la distribution multivariée de Bernoulli, mais je ne pense pas pouvoir la spécifier entièrement uniquement avec des corrélations et des probabilités marginales de succès. Un de mes amis a recommandé de construire une copule gaussienne avec des marginaux de bernoulli (en utilisant le package R copula
), puis d'utiliser la pMvdc()
fonction sur un grand échantillon pour obtenir la probabilité que je veux, mais je ne sais pas exactement comment m'y prendre.
Réponses:
Non, cela est impossible lorsque vous avez trois pièces ou plus.
Le cas de deux pièces
Voyons d'abord pourquoi cela fonctionne pour deux pièces, car cela donne une idée de ce qui tombe en panne dans le cas de plusieurs pièces.
Soit et Y les variables distribuées de Bernoulli correspondant aux deux cas, X ∼ B e r ( p ) , Y ∼ B e r ( q ) . Rappelons d'abord que la corrélation de X et Y estX Y X∼Ber(p) Y∼Ber(q) X Y
et puisque vous connaissez les marginaux, vous connaissez , E [ Y ] , V a r ( X ) et V a r ( Y ) , donc en connaissant la corrélation, vous connaissez également E [ X Y ] . Maintenant, X Y = 1 si et seulement si X = 1 et Y = 1 , donc E [ X Y ] = P (E[ X] E[ Oui] V a r (X) V a r (Y) E[ XOui] XOui= 1 X= 1 Oui= 1
En connaissant les marginaux, vous connaissez , et q = P ( X = 0 , Y = 1 ) + P ( X = 1 , Y = 1 ) . Puisque nous venons de découvrir que vous connaissez P ( X = 1 , Yp = P( X= 1 , Y= 0 ) + P( X= 1 , Y= 1 ) q= P( X=0,Y=1)+P(X=1,Y= 1) , cela signifie que vous connaissez également P ( X = 1 , Y = 0 ) et P ( X = 0 , Y = 0 ) , mais maintenant vous avez terminé, car la probabilité que vous recherchez estP(X= 1 ,Y= 1 ) P(X= 1 ,Y= 0 ) P( X= 0 , Y= 0 )
Maintenant, je trouve personnellement tout cela plus facile à voir avec une photo. Soit . Ensuite, nous pouvons imaginer les diverses probabilités comme formant un carré:Pje j= P( X= i , Y= j )
Ici, nous avons vu que connaître les corrélations signifiait que vous pouviez déduire , marqué en rouge, et que connaissant les marginaux, vous connaissiez la somme pour chaque bord (dont l'un est indiqué par un rectangle bleu).P11
Le cas de trois pièces
Cela ne se fera pas aussi facilement pour trois pièces; intuitivement, il n'est pas difficile de comprendre pourquoi: en connaissant les marginaux et la corrélation, vous connaissez un total de paramètres, mais la distribution conjointe a 2 3 = 8 résultats, mais en connaissant les probabilités pour 7 d'entre eux, vous pouvez comprendre le dernier; maintenant, 7 > 6 , il semble donc raisonnable que l'on puisse concocter deux distributions conjointes différentes dont les marginaux et les corrélations sont les mêmes, et que l'on puisse permuter les probabilités jusqu'à ce que celles que vous recherchez diffèrent.6=3+3 23=8 7 7>6
Soit , Y et Z les trois variables, et queX Y Z
Dans ce cas, l'image ci-dessus devient la suivante:
Les dimensions ont été heurtées par une: le sommet rouge est devenu plusieurs bords colorés, et le bord couvert par un rectangle bleu est devenu une face entière. Ici, le plan bleu indique qu'en connaissant le marginal, vous connaissez la somme des probabilités à l'intérieur; pour celui de l'image,
Donc, cela met quelques limitations sur les distributions conjointes possibles, mais maintenant nous avons réduit l'exercice à l'exercice combinatoire consistant à mettre des nombres sur les sommets d'un cube. Sans plus tarder, fournissons deux distributions conjointes dont les marginaux et les corrélations sont les mêmes:
Quatre pièces ou plus
Enfin, lorsque nous avons plus de trois pièces, il n'est pas surprenant que nous puissions préparer des exemples qui échouent, car nous avons maintenant un écart encore plus grand entre le nombre de paramètres requis pour décrire la distribution conjointe et ceux qui nous sont fournis par les marginaux et corrélations.
Concrètement, pour tout nombre de pièces supérieur à trois, vous pouvez simplement considérer les exemples dont les trois premières pièces se comportent comme dans les deux exemples ci-dessus et pour lesquels les résultats des deux dernières pièces sont indépendants de toutes les autres pièces.
la source
Les essais de Bernoulli corrélés conduisent à une distribution bêta-binomiale pour les résultats comptés. Il devrait être possible de paramétrer cette distribution pour donner une valeur de corrélation spécifiée, puis de calculer la probabilité souhaitée.
la source