Modèle de prévision du nombre de vues Youtube de Gangnam Style

73

Le clip vidéo de PSY "Gangnam style" est populaire. Après un peu plus de deux mois, il compte environ 540 millions de téléspectateurs. La semaine dernière, j’ai appris cela de la part de mes enfants d’âge prés au dîner et la discussion s’est vite engagée sur le point de savoir s’il était possible de prédire le nombre de téléspectateurs dans 10-12 jours et quand (/ if) la chanson. passera 800 millions de téléspectateurs ou 1 milliard de téléspectateurs.

Voici la photo du nombre de téléspectateurs depuis son affichage: PSY OGS

Voici la photo du nombre de téléspectateurs des vidéos musicales n ° 1 "Justin Biever-Baby" et n ° 2 "Eminem - Love the way you lie" qui existent depuis beaucoup plus longtemps Justin Eminem

Ma première tentative de raisonnement à propos du modèle était qu'il devrait s'agir d'une courbe en S, mais cela ne semble pas correspondre aux chansons No1 et No2 et cela ne tient pas non plus au fait qu'il n'y a pas de limite au nombre de vues que la vidéo musicale peut avoir, seulement une croissance plus lente.

Ma question est donc la suivante: quel type de modèle dois-je utiliser pour prévoir le nombre de téléspectateurs de la vidéo musicale?

FredrikD
la source
21
+1 pour avoir réussi à diriger la conversation à table de Gangnam vers les statistiques. Nous avons besoin de gens comme vous!
S. Kolassa - Réintégrer Monica
4
Ce que je peux ajouter à la discussion et qui, je l’espère, sera utile à l’enseignant ou à d’autres qui écrivent des équations pour essayer de modéliser cela, c’est que, dans l’exemple de KONY, le regroupement géographique était un aspect important de la propagation virale. Le fait que PSY soit d’abord un phénomène coréen puis asiatique est une partie importante de l’histoire. Je ne sais pas exactement comment cela serait modélisé, mais cela pourrait être un indice.
Des données concernant les vues, les commentaires, les goûts et les dégoûts de la vidéo en novembre 2012 sont disponibles à l'
adresse

Réponses:

38

Aha, excellente question !!

J'aurais aussi proposé naïvement une courbe logisitique en forme de S, mais il s'agit évidemment d'un mauvais ajustement. Pour autant que je sache, l'augmentation constante est approximative car YouTube comptabilise les vues uniques (une par adresse IP), il ne peut donc y avoir plus de vues que d'ordinateurs.

Nous pourrions utiliser un modèle épidémiologique où les personnes ont des susceptibilités différentes. Pour simplifier les choses, nous pourrions les diviser en deux groupes: le groupe à risque élevé (par exemple les enfants) et le groupe à risque faible (par exemple les adultes). Appelons la proportion d'enfants "infectés" et la proportion d'adultes "infectés" au temps . J'appellerai le nombre (inconnu) d'individus du groupe à risque élevé et le nombre (également inconnu) d'individus du groupe à faible risque.x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

où . Je ne sais pas comment résoudre ce système (peut-être que @EpiGrad le ferait), mais si vous regardez vos graphiques, nous pourrions faire quelques hypothèses simplificatrices. Parce que la croissance ne sature pas, on peut supposer que est très grand et est petit, our1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

qui prédit la croissance linéaire une fois que le groupe à haut risque est complètement infecté. Notez qu'avec ce modèle, il n'y a aucune raison de supposer que , bien au contraire, car le grand terme est maintenant compris dans .r1>r2Yy(t)r2

Ce système résout à

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

où et sont des constantes d'intégration. La population totale "infectée" est alors , qui a 3 paramètres et 2 constantes d'intégration (conditions initiales). Je ne sais pas à quel point il serait facile de s'y adapter ...C1C2x(t)+y(t)

Mise à jour: en jouant avec les paramètres, je ne pouvais pas reproduire la forme de la courbe supérieure avec ce modèle, la transition de à est toujours plus nette que précédemment. En continuant avec la même idée, nous pourrions encore supposer qu'il existe deux types d’utilisateurs d’Internet: les "partageurs" et les "solitaires" . Les partageurs s'infectent les uns les autres, les solitaires se heurtent à la vidéo par hasard. Le modèle est0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

et résout à

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

Nous pourrions supposer que , c'est-à - dire qu'il n'y a que le patient 0 à , ce qui donne car est un grand nombre. donc on peut supposer que . Maintenant, seuls les 3 paramètres , et déterminent la dynamique.x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

Même avec ce modèle, il semble que la flexion soit très forte, ce n’est pas un bon ajustement et le modèle doit donc être faux. Cela rend le problème très intéressant en fait. Par exemple, la figure ci-dessous a été construite avec , et .X=600,000,000r1=3.6671010r2=1,000,000

modèle de croissance de style Gangnam

Mise à jour: D'après les commentaires que j'ai recueillis, Youtube comptabilise les vues (de manière secrète) et non les adresses IP uniques, ce qui fait toute la différence. Retour à la planche à dessin.

Pour rester simple, supposons que les téléspectateurs sont "infectés" par la vidéo. Ils reviennent le regarder régulièrement jusqu'à ce qu'ils éliminent l'infection. L'un des modèles les plus simples est le SIR (Susceptible-Infected-Resistant), qui est le suivant:

˙ I (t)=αS(t)I(t)-βI(t) ˙ R (t)=βI(t)

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

où est le taux d'infection et le taux de clairance. Le nombre total de vues est tel que , où est la moyenne des vues par jour par individu infecté.ß x ( t ) ˙ x ( t ) = k I ( t ) kαβx(t)x˙(t)=kI(t)k

Dans ce modèle, le nombre de vues commence à augmenter brusquement quelque temps après le début de l'infection, ce qui n'est pas le cas dans les données d'origine, peut-être parce que les vidéos se propagent également de manière non virale (ou meme). Je ne suis pas un expert dans l'estimation des paramètres du modèle SIR. En jouant avec des valeurs différentes, voici ce que j’ai trouvé (en R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Extrapolation des vues de la vidéo Youtube de style Gangnam

Le modèle n'est évidemment pas parfait et pourrait être complété de nombreuses manières. Cette ébauche très approximative prédit un milliard de vues vers mars 2013, voyons ...

gui11aume
la source
5
(+1) En première approche. Notez que la politique de YouTube concernant le comptage des points de vue n’est pas bien comprise étant donné qu’ils n’ont pas rendu public leur algorithme. Ils disent seulement: "Une vue est comptabilisée chaque fois que quelqu'un regarde une vidéo sur YouTube. Nous n'obtenons pas plus de précision que cela pour éviter les tentatives visant à gonfler artificiellement la vue" (voir) .
3
@ FredrikD merci. Vous pouvez toujours supprimer l'acceptation en mars 2013 si je me suis trompé: D
gui11aume
2
Estimation des paramètres du modèle SIR, voir rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD
1
Il semble que je vais perdre celui-ci! Ils pourraient atteindre le million avant 2013 ...
gui11aume
2
engadget.com/2012/12/21/gangnam-style- one-billion-views Ainsi, le monde n'a pas pris fin, mais 1 milliard de vues ont été touchées aujourd'hui.
DanTheMan
5

Le modèle le plus courant pour prévoir l'adoption de nouveaux produits est le modèle de diffusion Bass , qui - comme l'a été la réponse de @ gui11aume - modélise les interactions entre les utilisateurs actuels et potentiels. L’adoption de nouveaux produits est un sujet brûlant dans les prévisions, la recherche de ce terme devrait générer des tonnes d’informations (que je n’ai malheureusement pas le temps d’étoffer ici ...).

S. Kolassa - Rétablir Monica
la source
oui, c'est aussi un modèle candidat. Cependant, cela semble supposer que vous ne pouvez être qu'un utilisateur une fois. Ici, vous visualisez la vidéo plusieurs fois si vous êtes "infecté".
FredrikD
1
@FredrikD: prise de point. (Bien que personnellement, je n'ai pas réussi à rester assis même après une seule "utilisation" de ce "produit" ...). Il devrait y avoir des généralisations de Bass pour gérer cela. (Prise sans vergogne :) Le symposium international de prévision de l'année prochaine se tiendra à Séoul. Par conséquent, tout le monde devrait envisager d'y présenter son modèle de prévision Gangnam préféré! ;-)
S. Kolassa - Réintégration de Monica
4

Je regarderais la courbe de croissance de Gompertz .

La courbe de Gompertz est une formule double-exponentielle à 3 paramètres (a, b, c) avec le temps T comme variable indépendante.

Code R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

La formule de croissance de Gompertz est bien connue pour décrire de nombreux phénomènes de cycle de vie dans lesquels, au début, la croissance s’accélère puis s’efface, ce qui donne une courbe sigmoïde asymétrique dont la dérivée est plus raide à gauche qu’à droite du sommet. Par exemple, le nombre total d'articles sur Wikipédia, qui est également de nature virale, suit avec beaucoup de précision la courbe de croissance de Gompertz (avec certains paramètres a, b, c) depuis de nombreuses années.

Graphique des courbes de Gompertz: taille totale et son dérivé de taux de croissance

Édition: si la courbe de Gompertz ne suffit pas à approximer la forme que vous recherchez, vous pouvez ajouter les paramètres d& θ comme décrit dans La distribution généralisée de Weibull de Gompertz exponentée . Notez que ce document utilise à la xplace de tpour le paramètre heure indépendant. Fait intéressant, Wikipedia a également modifié sa meilleure approximation en ajoutant un quatrième paramètre unique d, afin de prendre en compte une divergence de prévision par rapport à la valeur réelle après 2012 . La formule de courbe de Gompertz à 4 paramètres modifiée est la suivante:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

La fonction Gompertz doit son nom à Benjamin Gompertz (1779-1865) , un contemporain gaussien (junior de Gauss âgé de 2 ans à peine), le premier mathématicien à la décrire.

arielf
la source
Bon point! Cependant, le modèle conteste le fait que cela ne semble pas être une limite (voir les No1 et No2). Autrement dit, le facteur a du modèle augmente également avec le temps.
FredrikD
Je mettrais au défi le "Il ne semble pas y avoir de limite." Le style Gangnam peut-il atteindre 1B? 10b? 100B? vues? finalement, le taux de croissance se rapproche de zéro et de la courbe des plateaux. C'est difficile à voir quand vous êtes à la phase de forte croissance, comme nous le sommes maintenant avec Gangnam, mais attendez quelques années et vous gagnerez Gompertz :) L'astuce est bien sûr, pour trouver le bon b, c) paramètres pour ce cas particulier.
arielf
2
Voici une référence pour estimer les paramètres du modèle de Gompertz, voir weibull.com/RelGrowthWeb/…
FredrikD
3

Je pense que vous devez séparer des phénomènes tels que Gangnam Style, qui doit en grande partie être considéré comme un phénomène mème / viral, de Justin Bieber et Eminem, qui sont de grands artistes à part entière et qui se propageraient également largement dans un contexte traditionnel - JB ou Eminem vendraient aussi beaucoup de singles, je ne suis pas sûr que PSY le ferait.

Abaumann
la source
bon point. Après avoir lu et écouté les interviews de PSY et de l’équipe derrière "OGS" (Oppa Gangnam Style), il est clair qu’ils savent très bien sur quel bouton appuyer pour créer un élément viral. Après analyse des images des vues ci-dessus, il semble que le nombre de vues soit linéaire jusqu'à environ 90 jours après le lancement, puis PSY apparaît sur le Grand Prix de Corée et le nombre de vues par unité de temps augmente.
FredrikD
- et en quoi ces deux classes diffèrent-elles des "classiques" - des chansons présumément bien connues lors de leur premier téléchargement sur YouTube (je pense à David Bowie)?
Abaumann
2

OK les gars, nous avons besoin de quelques faits stylisés sur la diffusion de vidéos youtube, qui suggèrent des modèles assez différents de la littérature habituelle sur la diffusion de produits. Voici le meilleur endroit pour commencer: Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn et Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: analyse du plus grand système vidéo de contenu généré par l'utilisateur au monde, actes de la 7ème ACM SIGCOMM conférence sur la mesure de l'Internet, ISBN: 978-1-59593-908-1.

et

X Cheng, C Dale, J Liu, 2008, Statistiques et réseau social de vidéos youtube, dans les actes d'un atelier international sur la qualité de service (IWQoS), Enschede, Pays-Bas, juin.

ProfRoy47
la source
5
Bienvenue sur le site, @ ProfRoy47. Souhaitez-vous élaborer un peu sur ce post? Il n’est pas clair qu’il s’agisse d’une réponse à la question du PO / qu’il est tout à fait autonome. OTOH, cela ne conviendrait pas comme commentaire, et je pense que cela apporte une contribution utile à ce fil. Notre FAQ a quelques discussions concernant les réponses sur CV, qui peuvent vous être utiles.
gung - Rétablir Monica
1

Le modèle n'est évidemment pas parfait et pourrait être complété de nombreuses manières. Cette ébauche très approximative prédit un milliard de vues vers mars 2013, voyons ...

En regardant le ralentissement des vues au cours de la semaine dernière, la date du 13 mars semble être un pari décent. La majorité des nouvelles vues semblent être des utilisateurs déjà infectés qui reviennent plusieurs fois par jour.

En ce qui concerne la complémentarité de votre modèle, une méthode utilisée par les chercheurs pour suivre la propagation d’un virus consiste à surveiller les mutations de son génome - où et quand elle a muté peut montrer aux chercheurs à quelle vitesse un virus est transmis et propagé (voir Dépistage du virus du Nil occidental aux États-Unis). .

Dans la pratique, des vidéos comme Gangnam Style et Party Rock Anthem (du groupe LMFAO) risquent davantage de «muter» en parodies, flash mobs, danses de mariage, remixes et autres réponses vidéo plutôt que, par exemple, les chansons de Justin Bieber's Baby ou d'Eminem.

Les chercheurs pourraient analyser le nombre de réponses vidéo (et de parodies en particulier) en tant que substitut des mutations. Mesurer la fréquence et la popularité de ces mutations au début de la vie de la vidéo pourrait être utile pour modéliser ses vues YouTube de durée de vie.

lucasng
la source
Bienvenue sur le site, @lucasng. CV est destiné aux réponses sérieuses et factuelles à des questions de fond (vous voudrez peut-être lire notre FAQ ), et je pense que le PO a posé cette question à l’esprit. Votre réponse est à la limite ici; Je pense que cela devrait rester basé sur ses idées sur les mutations, etc., mais notez que les opinions sur le bien-fondé des vidéos n’ont pas vraiment de valeur.
gung - Rétablir Monica
Je pense que l'idée est bonne. @gung C'est vrai que ce n'est pas une réponse au PO, mais la deuxième réponse ne l'est pas non plus.
jeudi
@gung: (Une recherche sur Google suggère que) lucasng n'émettait pas d'opinion dans la partie que vous avez rédigée, mais plutôt citait le nom du groupe qui interprète la chanson!
cardinal
1
@ cardinal, merci pour le heads up. Lucasng, désolé pour la confusion; J'ai repris le nom du groupe.
Gay - Rétablir Monica