SurveyMonkey ignore-t-il que vous obtenez un échantillon non aléatoire?

SurveyMonkey comporte des étapes et un graphique pour vous permettre de déterminer la taille de l'échantillon dont vous avez besoin pour une marge d'erreur ou un intervalle de confiance donné, en fonction de la taille de votre population.

Taille de l'échantillon SurveyMonkey

Ce tableau ignore-t-il simplement le fait que vous n'obtiendrez pas un échantillon aléatoire, puisque vous n'obtenez que les personnes qui prennent la peine de répondre à l'enquête?

Je suis averti en tapant ceci que la question semble subjective, alors je ne la pose peut-être pas correctement. Il ne s'agit pas vraiment de SurveyMonkey, mais d'une question plus générale - pouvez-vous réellement calculer les intervalles de confiance à partir des données de réponse volontaire en utilisant des techniques avancées que je ne connais pas?

Dans les sondages de sortie ou les enquêtes nationales, ils doivent évidemment faire face à ce problème. Mon éducation n'a pas couvert les techniques d'échantillonnage d'enquête en profondeur, mais je suppose qu'il s'agit de collecter des données démographiques et de les utiliser pour savoir à quel point vous êtes représentatif d'un échantillon.

Mais à part cela, pour une simple enquête en ligne, supposent-ils simplement que les personnes qui prennent la peine de répondre sont un échantillon aléatoire de la population?

confidence-interval sample-size survey sample mat
la source

La réponse courte est oui: Survey Monkey ignore exactement comment vous avez obtenu votre échantillon. Survey Monkey n'est pas assez intelligent pour supposer que ce que vous avez collecté n'est pas un échantillon de commodité, mais pratiquement chaque enquête Survey Monkey est un échantillon de commodité. Cela crée une divergence énorme dans ce que vous estimez exactement qu'aucune quantité d'échantillonnage ne peut / ne peut éliminer. D'une part, vous pourriez définir une population (et les associations qu'elle contient) que vous obtiendriez d'un SRS. De l'autre, vous pouvez définir une population définie par votre échantillonnage non aléatoire, les associations que vous pouvezestimation (et les règles de puissance valent pour de telles valeurs). Il est à vous en tant que chercheur pour discuter de l'écart et laisser le lecteur décider exactement comment valide l'échantillon non aléatoire pourrait être en se rapprochant d' une réelle tendance.

En fait, il existe des utilisations incohérentes du terme biais. Dans la théorie des probabilités, le biais d'un estimateur est définie par . Cependant, un estimateur peut être biaisé, mais cohérent, de sorte que le biais «disparaît» dans de grands échantillons, comme le biais des estimations du maximum de vraisemblance de l'écart-type des VR normalement distribués. à savoir . Estimateurs qui n'ont pas parti pris de fuite, ) sont appelés incompatibles $\mbox{Bias}_n = \theta - \hat{\theta}_n$ $\hat{\theta} \rightarrow_p \theta$ $\hat{\theta} \not\to_p \theta$ en théorie des probabilités. Les experts en conception d'études (comme les épidémiologistes) ont pris la mauvaise habitude d'appeler "biais" les incohérences. Dans ce cas, il s'agit de biais de sélection ou de bénévolat. C'est certainement une forme de biais, mais l'incohérence implique qu'aucune quantité d'échantillonnage ne corrigera jamais le problème.

Afin d'estimer les associations au niveau de la population à partir de données d'échantillonnage de commodité, vous devez identifier correctement le mécanisme de probabilité d'échantillonnage et utiliser la pondération de probabilité inverse dans toutes vos estimations. Dans de très rares situations, cela a-t-il un sens. L'identification d'un tel mécanisme est pratiquement impossible en pratique. Une fois que cela peut être fait, c'est dans une cohorte d'individus avec des informations antérieures qui sont approchés pour remplir un sondage. La probabilité de non-réponse peut être estimée en fonction de ces informations précédentes, par exemple l'âge, le sexe, le SSE, ... La pondération vous donne la possibilité d'extrapoler quels résultats auraient été dans la population des non-répondants. Le recensement est un bon exemple de l'implication de la pondération inverse pour ces analyses.

AdamO
la source

Pourriez-vous développer un peu le sens dans lequel un échantillon de convenance pourrait être considéré comme incohérent mais non biaisé ? Historiquement, de nombreux échantillons de commodité se sont avérés être très biaisés (et "biaisés" est précisément le terme que les gens ont utilisé pour les décrire): le sondage Literary Digest de 1936 en est peut-être l'exemple le plus célèbre.

whuber

@whuber Pardonnez mon utilisation "incohérente" de la terminologie. Le biais était quelque chose que je supposais disparaître dans les grands échantillons, alors que les estimations qui ne sont pas cohérentes ne convergent jamais dans les grands échantillons. Dans la théorie des prob, les exemples d'estimateurs incohérents sont peu nombreux, mais du point de vue du plan d'étude, ils apparaissent tout le temps. Fait intéressant, les épidémiologistes ont tendance à appeler ce «biais» (c'est-à-dire le biais de sélection). Mais la question des affiches semblait suggérer qu'un "échantillonnage plus" atténuerait le biais, comme cela pourrait être le cas avec un biais de type théorie des probabilités.

AdamO

Je ne suis pas sûr d'avoir compris tout cela, alors permettez-moi de me concentrer sur une petite partie: êtes-vous (ou n'êtes-vous pas) en train d'affirmer que de plus grands échantillons [de commodité] réduisent le biais? J'espère que vous ne l'êtes pas, car c'est certainement faux! (C'est une des raisons pour lesquelles le sondage du Literary Digest est notoire: c'est l'un des plus importants jamais entrepris et il présente également l'un des plus grands biais.)

whuber

En effet non! Un échantillonnage plus important n'éliminerait pas un tel biais intrinsèque. Voilà le problème ici. L'affiche s'intéresse à la puissance pour estimer l'association de la population avec un échantillon non aléatoire, et mon point est que vous avez toujours 0 puissance pour estimer cela (à moins que des mécanismes de pondération très prudents et complexes soient utilisés).

AdamO

Merci pour le dernier commentaire; cela clarifie une partie de votre réponse que j'aurais peut-être mal interprétée autrement. (+1)

whuber

SurveyMonkey ignore-t-il que vous obtenez un échantillon non aléatoire?

Réponses: