Comment concevoir des expériences pour les études de marché (avec une touche)?

8

Imaginez une sorte d'enchère où l'on vous présente, disons, 1000 clients potentiels. Sur la base d'informations sur ces perspectives - âge, sexe, race, revenu, niveau de scolarité, etc. - vous pouvez «enchérir» pour présenter votre produit à une fraction d'entre eux, disons 250. (Ignorez le coût de l'offre). maximiser vos chances de sélectionner le bon sous-ensemble, j'utiliserais probablement un modèle de «vraisemblance» de notre produit construit en utilisant la régression logistique. Je peux tâtonner assez bien dans cette partie.

Cependant, pour construire le modèle de la vraisemblance d'un produit, je dois faire des études de marché, tester le pitch du produit sur des sujets que nous pouvons recruter dans la population en général. C'est en fait assez coûteux. De plus, elle devrait probablement être adaptée à la démographie de la population dont sont tirées les perspectives. Par exemple, un plan factoriel, par exemple, pourrait nous demander de recruter des sujets de test dans une proportion égale à tous les niveaux du facteur racial, alors qu'en réalité nous sommes susceptibles de rencontrer très peu d'Amérindiens, disons, dans les 1000 prospectifs, et peut simplement choisissez de ne pas leur parler du tout en règle générale. (Triste mais vrai.)

Comment concevoir une telle expérience? Pour être concret, les variables de conception sont toutes des facteurs catégoriels et ordinaux, la fraction d'enchères est un paramètre d'entrée (1/4 dans l'exemple cité ci-dessus), tout comme le nombre maximum de sujets pouvant être recrutés. Il semble que peut-être un mélange de conception expérimentale et d'échantillonnage aléatoire pourrait être approprié, mais je suis ouvert à toutes les suggestions et conseils raisonnables.

Je dois également noter qu'étant donné la petite taille probable des effets et les petits pools de recrutement d'échantillons que nous pouvons nous permettre, il est peu probable que l'étude de marché produise des coefficients de régression statistiquement significatifs. Et donc suroptimiser la conception expérimentale est probablement stupide, et toute procédure raisonnablement non folle suffira.

shabbychef
la source
1
Pourriez-vous préciser quels sont les facteurs de l'expérience que vous souhaitez concevoir? Je comprends que vous souhaitez tester un produit sur un échantillon, mais jusqu'à présent, je ne peux pas voir la manipulation expérimentale, sauf peut-être pour le recrutement stratifié dans différents domaines de la population.
tomka
1
Oui, par «expérience», je veux dire comment choisir le bassin de recrues. Nous pouvons sélectionner des recrues pour (à peu près) n'importe quelle combinaison des variables démographiques - âge, race, sexe, niveau de scolarité, etc. - et c'est ma tâche.
shabbychef
1
Quelle est votre principale raison de ne pas utiliser un simple échantillon probabiliste de la population avec n = 1000?
tomka
1
En raison de contraintes budgétaires, le nombre de recrues que nous pouvons échantillonner est beaucoup plus petit - de l'ordre de 50. Pour cette taille et ce nombre de variables de conception, un échantillon aléatoire ne «semblera» pas représentatif en raison d'une erreur d'échantillonnage. Je m'attends à ce qu'une conception expérimentale s'en tire mieux.
shabbychef
2
Je pense que vous cherchez peut-être un échantillon stratifié pour certains groupes, mais ce n'est pas une expérience. L'idée serait de s'assurer que tous les groupes pertinents sont présents dans votre ensemble de données, puis d'utiliser la pondération de conception pour la population. Pourtant, n = 50 est peut-être trop petit pour être stratifié pour toutes les données sociodémographiques que vous mentionnez. Une erreur d'échantillonnage peut également ruiner la qualité de vos prévisions, même si les associations / tailles d'effet sont fortes.
tomka

Réponses:

4

Une approche de votre problème consiste à utiliser un échantillon stratifié. L'un des objectifs de la stratification est de s'assurer que certains domaines (groupes) de la population sont représentés dans l'échantillon, qui autrement seraient trop peu représentés pour une inférence valide, par exemple en raison de la faible probabilité de sélection.

Par exemple, si les «Amérindiens» sont un groupe important en termes de vos estimations à partir du «modèle de vraisemblance», mais que leur probabilité de sélection est très faible, un simple échantillon aléatoire (SRS) de taille peut ne contenir aucun ou très peu quelques unités de ce type. Si vous incluez ensuite Nat. Un m. en tant que variable indicatrice dans le modèle, les estimations seront peut-être extrêmement peu fiables (grandes erreurs-types), ou les paramètres ne peuvent pas du tout être estimés. L'objectif d'un échantillon stratifié est d'éviter cela.n=50

La stratification signifie sélectionner des unités avec une probabilité plus élevée qu'elles ne le feraient dans un SRS. Pour estimer votre régression logistique / polynomiale, vous pourrez utiliser des poids de stratification (poids de conception) pour ajuster la probabilité de sélection plus élevée. Un poids est alors généralement défini comme où est la probabilité de sélection dans l'échantillon stratifié, et est la probabilité de sélection lors de l'utilisation d'un SRS.

wje=πsπpop,
πsπpop

Le problème dans votre application particulière est que vous ne pouvez probablement pas stratifier pour toutes les caractéristiques que vous mentionnez, étant donné la petite taille de l'échantillon (disons ). Dans la stratification, vous devez généralement croiser toutes les caractéristiques et échantillonner à partir de toutes les cellules du tableau de contingence résultant. Le nombre de cellules croît rapidement avec le nombre de caractéristiques et catégories de chaque caractéristique, et à un point de complexité, il n'est plus possible de remplir toutes les cellules suffisamment étant donné un fixe .n=50n=50

Mon conseil est donc de regarder vos caractéristiques et de faire une sélection comme suit. Tout d'abord, faites une liste de toutes les caractéristiques que vous souhaitez avoir dans le modèle final, car vous supposez qu'elles auront un pouvoir prédictif de `` sympathie '' ou elles identifient des groupes qui sont importants dans le `` processus d'appel d'offres ''. Deuxièmement, à partir de ces caractéristiques, faites la distinction entre celles qui impliquent une probabilité de sélection élevée et faible pendant l'échantillonnage. Une faible probabilité de sélection est celle qui vous donnera probablement trop peu d'observations dans l'une des catégories compte tenu d'un échantillon SRS de taille .n

Par exemple, le «genre» sera généralement une variable bien représentée avec une probabilité de 50/50 dans la pop., Donc même si vous aurez des hommes et des femmes «suffisants», mais Nat. Un m. peut ne pas être une variable de ce type, mais reste importante pour votre modèle. Une analyse de puissance peut fournir des indications supplémentaires si nécessaire, mais elle dépend du modèle particulier et peut être très complexe pour la régression polytomique.n=50

Les caractéristiques avec une probabilité de sélection trop faible sont les candidats à la stratification, tandis que les variables avec une probabilité de sélection suffisamment élevée / équilibrée dans leurs catégories peuvent être ignorées dans le plan d'échantillonnage. Maintenant que vous avez identifié les strates cruciales pour votre population et votre modèle , vous pouvez construire la stratégie de plan d'échantillonnage sur celles-ci (c.-à-d. Échantillonner au hasard dans toutes les strates pertinentes pour remplir toutes les «cellules»).

J'espère qu'en faisant cela, vous vous retrouverez avec assez peu de strates pour continuer avec un échantillon de taille .n=50

tomka
la source
Cela m'amène un long chemin vers où je dois aller. Merci beaucoup!
shabbychef