Modèle d'échantillonnage pour les données externalisées?

Je travaille sur une application d'enquête de santé ouverte, qui devrait être utilisée dans les pays en développement.

L'idée de base est que les entretiens d' enquête sont externalisés - ils sont réalisés par des volontaires non organisés qui soumettent des données de formulaires des entretiens qu'ils ont effectués en utilisant leurs appareils mobiles, et chaque enquête est accompagnée des données GPS du lieu de l'entretien.

Les enquêtes traditionnelles compilées par les agences gouvernementales sont généralement mises en œuvre à l'aide d'un modèle d'échantillonnage standard - généralement un modèle d'échantillonnage probabiliste. Cela nécessite beaucoup de planification centralisée qui ne peut pas toujours être effectuée. (mentionné cela pour mettre ma question dans le bon contexte)

Nous pouvons dire qu'un bénévole mettra en œuvre un échantillonnage de commodité dans sa région. Il interrogera arbitrairement le nombre de personnes qu'il peut atteindre.

Le problème de base est le suivant: comment comprendre et caractériser le modèle d'échantillonnage global de ce système d'enquête? Existe-t-il des méthodologies ou des modèles composés pour traiter de tels cas?

sampling al-Amjad Tawfiq Isstaif
la source

Réponse courte: Il s'agit d'un exemple de commodité. Il n'y a rien que vous puissiez faire pour le justifier.

Une réponse un peu plus longue: vous êtes dans le même bateau que de nombreux réseaux sociaux qui mènent leurs enquêtes internes sans avoir la moindre idée de qui répondrait à une enquête à une question qui apparaîtrait au hasard sur Facebook ou Google + ... sauf que contrairement à ces géants, vous ne 't ont aucune donnée sur ceux qui n'ont pas répondu. La communauté des sondages et de l'opinion publique désapprouve généralement ce type de travail, car il n'est pas du tout clair comment les résultats de ces échantillons fortement biaisés peuvent être généralisés à la population totale (le cas échéant). Vous pouvez essayer de repondérer en fonction des données démographiques connues, mais vous vous retrouverez alors avec une variation de poids de 1 pour une personne qui ne se représente qu'à 1 000 000 affectée au seul 70+ homme de la population qui sait utiliser un ordinateur (et n'est probablement pas représentatif des 1 000 000 70+ mâles restants, de toute façon).

Lectures supplémentaires: «Comment vivre avec les statistiques» s'ouvre sur un chapitre sur les échantillons biaisés. Si vous pouvez le lire et ne pas pleurer de frustration sur votre plan d'échantillonnage, vous pouvez passer à autre chose. Si vous comptez sur des bénévoles, votre échantillon sera orienté vers les populations jeunes et urbaines avec un meilleur accès aux gadgets électroniques. De même, le livret "Qu'est-ce qu'une enquête" élaboré par Fritz Scheuren, ancien président de l'American Statistical Association, s'ouvre sur l'image de Harry Truman dont la victoire n'aurait pas pu être prédite par les techniques de sondage biaisées qui existaient à l'époque.

Il existe des recherches sur les populations difficiles à atteindre . Un projet bien connu était une étude sur le nombre de décès excessifs en Irak où des zones géographiques étaient échantillonnées, et dans chaque zone, le médecin local tentait de solliciter des entretiens auprès de chaque ménage de la ville. Il y a eu une critique croissante de cette conception, mais aussi compromettante soit-elle, elle avait toujours sa composante d'échantillonnage. Voir les articles dans Lancet (comme vous le savez probablement, vous ne pouvez pas devenir plus prestigieux dans le monde médical) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 et http: //dx.doi .org / 10.1016 / S0140-6736 (06) 69491-9 .

StasK
la source

(+1) Stas, y a-t-il quelque chose de fondamentalement différent ici de l' échantillonnage des quotas ? Juste curieux, une lecture rapide de la question fait ressembler à un simple changement de terminologie. En outre, brièvement, quelles sont les principales critiques de l'étude d'échantillonnage en grappes en Irak? Je me souviens l'avoir vu lors de sa première sortie et l'avoir lu un peu.

cardinal

Je suppose qu'une différence est qu'il n'y a pas de quota par individu ...;)

cardinal

Merci beaucoup! Maintenant, j'ai une bonne compréhension avant de repenser l'idée!

al-Amjad Tawfiq Isstaif

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

StasK

Je pense qu'il y avait des problèmes avec le petit nombre de grappes, et une grappe finissant par une valeur aberrante où l'activité militaire était beaucoup plus élevée que partout ailleurs dans le pays. Pour moi, la première chose à regarder serait les déclarations AAPOR et ASA sur l'étude. Alors que Lancet peut être un grand journal médical, et John Hopkins, un grand médecin, reniflant l'autorité AAPOR et leur refusant les documents de méthodologie n'était tout simplement pas professionnel.

StasK

Modèle d'échantillonnage pour les données externalisées?

Réponses: