Le problème du monde réel
Un de mes clients s'apprête à envoyer un publipostage à sa liste d'utilisateurs abonnés, et ce défi statistique s'est posé.
Leur équipe marketing dispose de 3 brochures différentes et souhaite savoir quelle brochure obtient le taux de réponse le plus élevé. Ils aimeraient également savoir si l'envoi de l'expéditeur avec une adresse manuscrite, sur une enveloppe épaisse, améliore les résultats par rapport à une enveloppe normale.
Supposons ce qui suit:
- Pour chaque brochure ( ), une personne qui reçoit cette brochure qui l'ouvre réellement et la lit répondra avec la probabilité , où est le taux de réponse réel pour cette brochure
- Les enveloppes épaisses et de haute qualité ont un véritable taux d'ouverture de tandis que les enveloppes normales ont un taux d'ouverture de
- D'après les envois précédents, nous prévoyons que les taux de réponse réels observés se situeront entre environ 1% et 5%.
Nos buts
Nous voulons trouver la meilleure brochure tout en envoyant le moins d'envois. Nous voulons également estimer les deux taux ouverts.
Lors de la collecte des taux de réponse empiriques des expéditeurs envoyés réels, si la vraie différence entre les taux de réponse est supérieure à un demi pour cent, nous devrions être en mesure de détecter cette différence comme statistiquement significative avec
Mes pensées jusqu'à présent
Nous attribuons au hasard des utilisateurs à chacune des 3 brochures, de sorte que utilisateurs reçoivent chaque brochure. Nous voulons savoir de quel nous avons besoin pour atteindre notre sensibilité souhaitée dans la détection des différences de taux de réponse. En supposant le pire des cas, nous devons être en mesure de détecter une différence entre les taux réels de 1% et 1,5%. La SD de cette différence est . Fixer le double de cette quantité (2 écarts types nous donne une confiance de 95%) égal à 0,005 (notre demi-pour cent souhaité) conduit à la solution .
Des questions
- Est-ce la conception optimale ou pouvons-nous faire mieux?
- Mon calcul de correct?
Enfin, quelle est la meilleure façon d'estimer et , ou simplement la différence entre les deux?
Mon idée était d'attribuer au hasard la moitié de chaque groupe de brochures à chaque type d'enveloppe. Dans chaque groupe de brochures, les taux de réponse observés seraient le produit des taux ouverts et du . Cela compliquerait mon calcul de ci-dessus, car j'aurais vraiment dû utiliser ce produit dans mon calcul.
Ma réponse dépendrait alors d'une estimation du taux d'ouverture moyen - - que je devrais deviner. De plus, je ne sais pas comment déterminer la distribution de la différence entre et , car nous avons maintenant trois estimations différentes de cette différence, dont chacune dépend d'un différent , chacun dont nous avons seules des estimations empiriques de, estimations empiriques qui dépendent elles-mêmes de notre estimation du taux d'ouverture moyen.
Merci beaucoup pour toute aide.
Réponses:
Il existe des formules empiriques pour déterminer la taille de l'échantillon. Le test sous-jacent est un test t à deux échantillons pour l'égalité de la métrique (taux de réponse dans votre cas). En supposant que vous voulez que la puissance du test soit de 80%, une de ces formules est où est le dev std de la métrique (taux de réponse) et est la quantité de changement du taux de réponse que vous souhaitez résoudre de manière fiable (avec une signification statistique).n=16σ2/Δ2 σ Δ
En outre, il existe des plans factoriels fractionnaires qui vous permettent d'optimiser le nombre d'essais (en supposant que vous ne voulez pas mesurer les interactions de chaque facteur avec tous les autres facteurs). Ceci est un document d'enquête sur la conception expérimentale qui décrit les détails.
la source
Supposons que vous ayez envoyé les brochures et à un nombre égal de clients , puis utilisateur répond à la brochure , et utilisateurs répondent à la brochure , et . Ensuite, la signification estA B a A b B b>a
Peu importe le nombre d'utilisateurs qui ont reçu vos brochures, combien ont répondu.
la source