Le clip vidéo de PSY "Gangnam style" est populaire. Après un peu plus de deux mois, il compte environ 540 millions de téléspectateurs. La semaine dernière, j’ai appris cela de la part de mes enfants d’âge prés au dîner et la discussion s’est vite engagée sur le point de savoir s’il était possible de prédire le nombre de téléspectateurs dans 10-12 jours et quand (/ if) la chanson. passera 800 millions de téléspectateurs ou 1 milliard de téléspectateurs.
Voici la photo du nombre de téléspectateurs depuis son affichage:
Voici la photo du nombre de téléspectateurs des vidéos musicales n ° 1 "Justin Biever-Baby" et n ° 2 "Eminem - Love the way you lie" qui existent depuis beaucoup plus longtemps
Ma première tentative de raisonnement à propos du modèle était qu'il devrait s'agir d'une courbe en S, mais cela ne semble pas correspondre aux chansons No1 et No2 et cela ne tient pas non plus au fait qu'il n'y a pas de limite au nombre de vues que la vidéo musicale peut avoir, seulement une croissance plus lente.
Ma question est donc la suivante: quel type de modèle dois-je utiliser pour prévoir le nombre de téléspectateurs de la vidéo musicale?
Réponses:
Aha, excellente question !!
J'aurais aussi proposé naïvement une courbe logisitique en forme de S, mais il s'agit évidemment d'un mauvais ajustement. Pour autant que je sache, l'augmentation constante est approximative car YouTube comptabilise les vues uniques (une par adresse IP), il ne peut donc y avoir plus de vues que d'ordinateurs.
Nous pourrions utiliser un modèle épidémiologique où les personnes ont des susceptibilités différentes. Pour simplifier les choses, nous pourrions les diviser en deux groupes: le groupe à risque élevé (par exemple les enfants) et le groupe à risque faible (par exemple les adultes). Appelons la proportion d'enfants "infectés" et la proportion d'adultes "infectés" au temps . J'appellerai le nombre (inconnu) d'individus du groupe à risque élevé et le nombre (également inconnu) d'individus du groupe à faible risque.x(t) y(t) t X Y
où . Je ne sais pas comment résoudre ce système (peut-être que @EpiGrad le ferait), mais si vous regardez vos graphiques, nous pourrions faire quelques hypothèses simplificatrices. Parce que la croissance ne sature pas, on peut supposer que est très grand et est petit, our1>r2 Y y
qui prédit la croissance linéaire une fois que le groupe à haut risque est complètement infecté. Notez qu'avec ce modèle, il n'y a aucune raison de supposer que , bien au contraire, car le grand terme est maintenant compris dans .r1>r2 Y−y(t) r2
Ce système résout à
où et sont des constantes d'intégration. La population totale "infectée" est alors , qui a 3 paramètres et 2 constantes d'intégration (conditions initiales). Je ne sais pas à quel point il serait facile de s'y adapter ...C1 C2 x(t)+y(t)
Mise à jour: en jouant avec les paramètres, je ne pouvais pas reproduire la forme de la courbe supérieure avec ce modèle, la transition de à est toujours plus nette que précédemment. En continuant avec la même idée, nous pourrions encore supposer qu'il existe deux types d’utilisateurs d’Internet: les "partageurs" et les "solitaires" . Les partageurs s'infectent les uns les autres, les solitaires se heurtent à la vidéo par hasard. Le modèle est0 600,000,000 x(t) y(t)
et résout à
Nous pourrions supposer que , c'est-à - dire qu'il n'y a que le patient 0 à , ce qui donne car est un grand nombre. donc on peut supposer que . Maintenant, seuls les 3 paramètres , et déterminent la dynamique.x(0)=1 t=0 C1=1X−1≈1X X C2=y(0) C2=0 X r1 r2
Même avec ce modèle, il semble que la flexion soit très forte, ce n’est pas un bon ajustement et le modèle doit donc être faux. Cela rend le problème très intéressant en fait. Par exemple, la figure ci-dessous a été construite avec , et .X=600,000,000 r1=3.667⋅10−10 r2=1,000,000
Mise à jour: D'après les commentaires que j'ai recueillis, Youtube comptabilise les vues (de manière secrète) et non les adresses IP uniques, ce qui fait toute la différence. Retour à la planche à dessin.
Pour rester simple, supposons que les téléspectateurs sont "infectés" par la vidéo. Ils reviennent le regarder régulièrement jusqu'à ce qu'ils éliminent l'infection. L'un des modèles les plus simples est le SIR (Susceptible-Infected-Resistant), qui est le suivant:
˙ I (t)=αS(t)I(t)-βI(t) ˙ R (t)=βI(t)
où est le taux d'infection et le taux de clairance. Le nombre total de vues est tel que , où est la moyenne des vues par jour par individu infecté.ß x ( t ) ˙ x ( t ) = k I ( t ) kα β x(t) x˙(t)=kI(t) k
Dans ce modèle, le nombre de vues commence à augmenter brusquement quelque temps après le début de l'infection, ce qui n'est pas le cas dans les données d'origine, peut-être parce que les vidéos se propagent également de manière non virale (ou meme). Je ne suis pas un expert dans l'estimation des paramètres du modèle SIR. En jouant avec des valeurs différentes, voici ce que j’ai trouvé (en R).
Le modèle n'est évidemment pas parfait et pourrait être complété de nombreuses manières. Cette ébauche très approximative prédit un milliard de vues vers mars 2013, voyons ...
la source
Le modèle le plus courant pour prévoir l'adoption de nouveaux produits est le modèle de diffusion Bass , qui - comme l'a été la réponse de @ gui11aume - modélise les interactions entre les utilisateurs actuels et potentiels. L’adoption de nouveaux produits est un sujet brûlant dans les prévisions, la recherche de ce terme devrait générer des tonnes d’informations (que je n’ai malheureusement pas le temps d’étoffer ici ...).
la source
Je regarderais la courbe de croissance de Gompertz .
La courbe de Gompertz est une formule double-exponentielle à 3 paramètres (a, b, c) avec le temps T comme variable indépendante.
Code R:
La formule de croissance de Gompertz est bien connue pour décrire de nombreux phénomènes de cycle de vie dans lesquels, au début, la croissance s’accélère puis s’efface, ce qui donne une courbe sigmoïde asymétrique dont la dérivée est plus raide à gauche qu’à droite du sommet. Par exemple, le nombre total d'articles sur Wikipédia, qui est également de nature virale, suit avec beaucoup de précision la courbe de croissance de Gompertz (avec certains paramètres a, b, c) depuis de nombreuses années.
Édition: si la courbe de Gompertz ne suffit pas à approximer la forme que vous recherchez, vous pouvez ajouter les paramètres
d
& θ comme décrit dans La distribution généralisée de Weibull de Gompertz exponentée . Notez que ce document utilise à lax
place det
pour le paramètre heure indépendant. Fait intéressant, Wikipedia a également modifié sa meilleure approximation en ajoutant un quatrième paramètre uniqued
, afin de prendre en compte une divergence de prévision par rapport à la valeur réelle après 2012 . La formule de courbe de Gompertz à 4 paramètres modifiée est la suivante:La fonction Gompertz doit son nom à Benjamin Gompertz (1779-1865) , un contemporain gaussien (junior de Gauss âgé de 2 ans à peine), le premier mathématicien à la décrire.
la source
Je pense que vous devez séparer des phénomènes tels que Gangnam Style, qui doit en grande partie être considéré comme un phénomène mème / viral, de Justin Bieber et Eminem, qui sont de grands artistes à part entière et qui se propageraient également largement dans un contexte traditionnel - JB ou Eminem vendraient aussi beaucoup de singles, je ne suis pas sûr que PSY le ferait.
la source
OK les gars, nous avons besoin de quelques faits stylisés sur la diffusion de vidéos youtube, qui suggèrent des modèles assez différents de la littérature habituelle sur la diffusion de produits. Voici le meilleur endroit pour commencer: Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn et Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: analyse du plus grand système vidéo de contenu généré par l'utilisateur au monde, actes de la 7ème ACM SIGCOMM conférence sur la mesure de l'Internet, ISBN: 978-1-59593-908-1.
et
X Cheng, C Dale, J Liu, 2008, Statistiques et réseau social de vidéos youtube, dans les actes d'un atelier international sur la qualité de service (IWQoS), Enschede, Pays-Bas, juin.
la source
En regardant le ralentissement des vues au cours de la semaine dernière, la date du 13 mars semble être un pari décent. La majorité des nouvelles vues semblent être des utilisateurs déjà infectés qui reviennent plusieurs fois par jour.
En ce qui concerne la complémentarité de votre modèle, une méthode utilisée par les chercheurs pour suivre la propagation d’un virus consiste à surveiller les mutations de son génome - où et quand elle a muté peut montrer aux chercheurs à quelle vitesse un virus est transmis et propagé (voir Dépistage du virus du Nil occidental aux États-Unis). .
Dans la pratique, des vidéos comme Gangnam Style et Party Rock Anthem (du groupe LMFAO) risquent davantage de «muter» en parodies, flash mobs, danses de mariage, remixes et autres réponses vidéo plutôt que, par exemple, les chansons de Justin Bieber's Baby ou d'Eminem.
Les chercheurs pourraient analyser le nombre de réponses vidéo (et de parodies en particulier) en tant que substitut des mutations. Mesurer la fréquence et la popularité de ces mutations au début de la vie de la vidéo pourrait être utile pour modéliser ses vues YouTube de durée de vie.
la source