Veuillez m'excuser d'avoir massacré le jargon statistique :) J'ai trouvé ici quelques questions concernant la publicité et les taux de clics. Mais aucun d'eux ne m'a beaucoup aidé dans ma compréhension de ma situation hiérarchique.
Il y a une question connexe. Ces représentations équivalentes du même modèle bayésien hiérarchique? , mais je ne sais pas s'ils ont réellement un problème similaire. Une autre question des Prieurs pour le modèle binomial bayésien hiérarchique va en détail sur les hyperpriors, mais je ne suis pas en mesure de cartographier leur solution à mon problème
J'ai quelques annonces en ligne pour un nouveau produit. J'ai laissé les annonces diffusées pendant quelques jours. À ce stade, suffisamment de personnes ont cliqué sur les annonces pour voir laquelle obtient le plus de clics. Après avoir éliminé tout sauf celui qui a généré le plus de clics, je laisse celui-ci s'exécuter pendant quelques jours pour voir combien de personnes achètent réellement après avoir cliqué sur l'annonce. À ce stade, je sais si c'était une bonne idée de diffuser les annonces en premier lieu.
Mes statistiques sont très bruyantes car je n'ai pas beaucoup de données car je ne vends que quelques articles par jour. Par conséquent, il est vraiment difficile d'estimer combien de personnes achètent quelque chose après avoir vu une annonce. Seulement environ un clic sur 150 entraîne un achat.
De manière générale, je dois savoir si je perds de l'argent sur chaque annonce dès que possible en lissant d'une manière ou d'une autre les statistiques par groupe d'annonces avec les statistiques globales sur toutes les annonces.
- Si j'attends que chaque annonce ait vu suffisamment d'achats, je vais faire faillite car cela prend trop de temps: pour tester 10 annonces, je dois dépenser 10 fois plus d'argent pour que les statistiques de chaque annonce soient suffisamment fiables. À ce moment-là, j'aurais peut-être perdu de l'argent.
- Si je fais la moyenne des achats sur toutes les annonces, je ne pourrai pas supprimer les annonces qui ne fonctionnent tout simplement pas aussi bien.
Puis-je utiliser le taux d'achat global ( sous-distributions N $? Cela signifie que plus je dispose de données pour chaque annonce, plus les statistiques de cette annonce sont indépendantes. Si personne n'a encore cliqué sur une annonce, je suppose que la moyenne mondiale est appropriée.
Quelle distribution choisirais-je pour cela?
Si j'ai eu 20 clics sur A et 4 clics sur B, comment puis-je modéliser cela? Jusqu'à présent, j'ai compris qu'une distribution binomiale ou de Poisson pourrait avoir un sens ici:
purchase_rate ~ poisson
(?)(purchase_rate | group A) ~ poisson
(estimer le prix d'achat uniquement pour le groupe A?)
Mais que dois-je faire ensuite pour calculer réellement le purchase_rate | group A
. Comment puis-je connecter deux distributions ensemble pour donner un sens au groupe A (ou à tout autre groupe).
Dois-je d'abord monter un modèle? J'ai des données que je pourrais utiliser pour "former" un modèle:
- Annonce A: 352 clics, 5 achats
- Annonce B: 15 clics, 0 achat
- Annonce C: 3519 clics, 130 achats
Je cherche un moyen d'estimer la probabilité de l'un des groupes. Si un groupe n'a que quelques points de données, je veux essentiellement revenir à la moyenne mondiale. Je connais un peu les statistiques bayésiennes et j'ai lu beaucoup de PDF décrivant comment ils modélisent en utilisant l'inférence bayésienne et les antécédents conjugués, etc. Je pense qu'il existe un moyen de le faire correctement, mais je ne sais pas comment le modéliser correctement.
Je serais très heureux des conseils qui m'aideraient à formuler mon problème de manière bayésienne. Cela aiderait beaucoup à trouver des exemples en ligne que je pourrais utiliser pour réellement implémenter cela.
Mise à jour:
Merci beaucoup d'avoir répondu. Je commence à comprendre de plus en plus de petits détails sur mon problème. Je vous remercie! Permettez-moi de poser quelques questions pour voir si je comprends mieux le problème maintenant:
Je suppose donc que les conversions sont distribuées sous forme de distributions bêta et qu'une distribution bêta a deux paramètres, et .b
Les paramètres sont des hyperparamètres, ils sont donc des paramètres antérieurs? Donc, au final, j'ai défini le nombre de conversions et le nombre de clics comme paramètre de ma distribution bêta? 1
À un moment donné, lorsque je veux comparer différentes annonces, je calculerais donc . Comment calculer chaque partie de cette formule?
Je pense que est appelé vraisemblance, ou "mode" de la distribution bêta. C'est donc , avec et étant les paramètres de ma distribution. Mais les et spécifiques sont les paramètres de la distribution juste pour l'annonce , non? Dans ce cas, s'agit-il uniquement du nombre de clics et de conversions enregistrés par cette annonce? Ou combien de clics / conversions toutes les annonces ont-elles vues?α - 1 αβαβX
Ensuite, je multiplie avec l'a priori, qui est P (conversion), qui est dans mon cas juste l'a priori de Jeffreys, qui n'est pas informatif. L'avant restera-t-il le même que j'obtiens plus de données?
Je divise par , qui est la probabilité marginale, donc je compte la fréquence à laquelle cette annonce a été cliquée?
En utilisant le précédent de Jeffreys, je suppose que je commence à zéro et je ne sais rien de mes données. Ce prieur est appelé "non informatif". Tandis que je continue à découvrir mes données, dois-je mettre à jour la précédente?
Au fur et à mesure des clics et des conversions, j'ai lu que je devais "mettre à jour" ma distribution. Est-ce à dire que les paramètres de ma distribution changent, ou que les changements antérieurs? Lorsque je reçois un clic pour l'annonce X, dois-je mettre à jour plusieurs distributions? Plus d'un avant?
la source
En réponse à vos modifications:
La mise à jour bayésienne est
Le prieur des Jeffreys n'est pas la même chose que le prieur non informatif, mais je pense que c'est mieux à moins d'avoir une bonne raison de l'utiliser. N'hésitez pas à poser une autre question si vous souhaitez entamer une discussion à ce sujet.
la source