Succès de K dans les essais de Bernoulli ou l'expérience cinématographique de George Lucas

23

Je lis "The Drunkard's Walk" maintenant et je ne peux pas en comprendre une histoire.

Ça y est:

Imaginez que George Lucas réalise un nouveau film Star Wars et décide dans un marché de test de réaliser une expérience folle. Il sort le film identique sous deux titres: "Star Wars: Episode A" et "Star Wars: Episode B". Chaque film a sa propre campagne de marketing et son propre calendrier de distribution, avec les détails correspondants identiques, sauf que les bandes-annonces et les publicités d'un film disent "Episode A" et celles de l'autre, "Episode B".

Maintenant, nous en faisons un concours. Quel film sera le plus populaire? Disons que nous regardons les 20 000 premiers cinéphiles et enregistrons le film qu'ils choisissent de voir (en ignorant les fans inconditionnels qui iront aux deux et insisterons ensuite qu'il y avait des différences subtiles mais significatives entre les deux). Étant donné que les films et leurs campagnes de marketing sont identiques, nous pouvons modéliser mathématiquement le jeu de cette façon: imaginez aligner tous les téléspectateurs d'affilée et lancer une pièce pour chaque téléspectateur tour à tour. Si la pièce tombe tête haute, il voit l'épisode A; si la pièce atterrit, c'est l'épisode B. Parce que la pièce a une chance égale de monter dans les deux sens, vous pourriez penser que dans cette guerre expérimentale au box-office, chaque film devrait être en tête environ la moitié du temps.

Mais les mathématiques du hasard disent le contraire: le nombre le plus probable de changements dans le lead est 0, et il est 88 fois plus probable que l'un des deux films mène à travers les 20000 clients que, disons, le lead bascule en permanence "

J'attribue sans doute cela à un simple problème de procès de Bernoulli et je dois dire que je ne vois pas pourquoi le chef ne bascule pas en moyenne! Quelqu'un peut-il expliquer?

andreister
la source

Réponses:

22

Voici un code R pour simuler l'expérience George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

En l'exécutant, nous obtenons des images comme celles-ci:

entrez la description de l'image ici

où la différence de billets vendus entre A et B est sur l'axe des y.

Ensuite, nous courons telles expériences simulées George Lucas. Pour chaque expérience, nous calculons la proportion de temps passé 0 , c'est-à-dire la proportion de téléspectateurs alignés pour lesquels le nombre de billets vendus à A est supérieur ou égal au nombre de billets vendus à B. Intuitivement, vous dire que cette proportion devrait être à peu près 1 / 2 . Voici un histogramme des résultats:10,00001/2

entrez la description de l'image ici

La proportion est de , en moyenne , en ce sens que la valeur attendue est 1 / 2 , mais 1 / 2 est une valeur improbable par rapport à des valeurs proches de 0 ou 1 . Pour la plupart des expériences, les différences sont soit positives soit négatives la plupart du temps!1/21/21/201

La courbe rouge est la fonction de densité de la distribution de arcsinus, également connu sous le nom de distributionBeta(1/2,1/2) . Ce qui est illustré dans l'image ci-dessus est un théorème connu sous le nom de première loi arscine pour les marches aléatoires , qui dit que lorsque le nombre de pas de la marche aléatoire symétrique simple approche de l'infini, la distribution de la proportion de temps passé au-dessus de tend à distribution d'arc sinus. Une référence standard pour ce résultat est la section III.4 d' une introduction à la théorie des probabilités et ses applications, Vol 1 de William Feller.0


Le code R de l'étude de simulation est

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)
MånsT
la source
Merci! J'ai installé R et je voudrais répéter toutes vos étapes - comment puis-je exécuter 10 000 simulations et calculer la proportion de temps passé?
andreister
@andreister: J'ai édité ma réponse, en ajoutant le code de la simulation à la fin. J'espère que tu trouves cela utile!
MånsT
Merci, c'est très utile! Pour m'assurer de bien comprendre les choses, j'ai créé pastebin.com/mtRdsPkP en fonction de votre code - pouvez-vous cependant feuilleter?
andreister
cumsumsumcumsumii
(suite) Ce sont les informations qui nous intéressent, car nous voulons voir si le chef bascule. sumrésumerait simplement tous les 1 et -1, ce qui vous donnerait le résultat final après que les 20 000 téléspectateurs ont été pris en compte (c'est-à-dire le dernier élément du cumsumvecteur).
MånsT
11

1/2tt=13/4t=3t

11

20,000

Si vous souhaitez calculer certaines des probabilités, vous devez compter quelque chose qui s'apparente à des marches en treillis qui ne traversent pas la diagonale. Il existe une excellente méthode combinatoire qui s'applique aux marches aléatoires (et au mouvement brownien) qui ne franchissent pas une telle ligne, appelée principe de réflexion ou méthode de réflexion . C'est une méthode pour déterminer les nombres catalans . Voici deux autres applications:

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56

Douglas Zare
la source
Merci! J'ai besoin de comprendre la notation avant de comprendre votre réponse! Qu'est-ce que cela signifie "se retrouve devant 10 200−9 800", etc., d'où obtenez-vous les chiffres? Comment voyez-vous le mode 20K?
andreister
10,2009,80011,0009,00010,0019,999.20,00000p000
0

"il est 88 fois plus probable que l'un des deux films conduira à travers les 20 000 clients que, disons, le plomb bascule en permanence"

En anglais simple: l'un des films obtient une avance précoce. Il doit le faire, car le premier client doit aller à A ou B. Ce film est alors tout aussi susceptible de garder son avance que de la perdre.

Des sons 88 fois plus probables , enfin, peu probables, jusqu'à ce que vous vous souveniez qu'une balançoire parfaite est très improbable. Le graphique dans la réponse de MansT , le montrant graphiquement, est fascinant n'est-ce pas.

HORS: Personnellement, je pense que ce sera plus de 88 fois - en raison du <buzzword-alert>marketing viral </buzzword-alert>. Chaque personne demandera aux autres ce qu'elle a vu et sera plus susceptible de visiter le même film. Ils le feront même inconsciemment: les gens sont plus susceptibles de rejoindre une longue file d'attente pour aller voir quelque chose. C'est-à-dire dès que le hasard parmi les premiers clients a créé un leader, la psychologie humaine le gardera comme leader :-).

Darren Cook
la source