Un échantillon de population aléatoire a été sondé. On leur a demandé s'ils avaient un régime végétarien. S'ils ont répondu oui, on leur a également demandé de préciser depuis combien de temps ils suivaient un régime végétarien sans interruption. Je veux utiliser ces données pour calculer la durée moyenne d'adhésion au végétarisme. En d'autres termes, quand quelqu'un devient végétarien, je veux savoir longtemps en moyenne qu'il reste végétarien. Supposons que:
- Tous les répondants ont donné des réponses correctes et exactes
- Le monde est stable: la popularité du végétarisme ne change pas, la durée moyenne d'adhésion ne change pas non plus.
Mon raisonnement jusqu'à présent
J'ai trouvé utile d'analyser un modèle de jouet du monde, où au début de chaque année deux personnes deviennent végétariennes. A chaque fois, l'un d'eux reste végétarien pendant 1 an et un autre pendant 3 ans. De toute évidence, la durée moyenne d'adhésion dans ce monde est de (1 + 3) / 2 = 2 ans. Voici un graphique qui illustre l'exemple. Chaque rectangle représente une période de végétarisme:
Disons que nous prenons une enquête au milieu de l'année 4 (ligne rouge). Nous obtenons les données suivantes:
Nous obtiendrions les mêmes données si nous prenions l'enquête à n'importe quelle année, à partir de la troisième année. Si nous faisons simplement la moyenne des réponses que nous obtenons:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Nous sous-estimons parce que nous supposons que tout le monde a cessé d'être végétarien juste après l'enquête, ce qui est évidemment incorrect. Pour obtenir une estimation qui est plus proche de la durée moyenne réelle pendant laquelle ces participants resteraient végétariens, nous pouvons supposer qu'en moyenne, ils ont signalé un temps à mi-chemin de leur période de végétarisme et multiplier les durées déclarées par 2. Dans une grande enquête tirant au hasard de la population (comme celle que j'analyse), je pense que c'est une hypothèse réaliste. Au moins, cela donnerait une valeur attendue correcte. Cependant, si doubler est la seule chose que nous faisons, nous obtenons une moyenne de 2,5, ce qui est une surestimation. En effet, plus la personne reste végétarienne, plus il est probable qu'elle soit dans l'échantillon de végétariens actuels.
J'ai alors pensé que la probabilité qu'une personne se trouve dans l'échantillon de végétariens actuels est proportionnelle à leur durée de végétarisme. Pour tenir compte de ce biais, j'ai essayé de diviser le nombre de végétariens actuels par leur durée d'adhésion prévue:
Cependant, cela donne également une moyenne incorrecte:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 ans
Cela donnerait une estimation correcte si le nombre de végétariens était divisé par leur longueur d'adhésion correcte:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 ans
Mais cela ne fonctionne pas si j'utilise les durées d'adhésion prévues et c'est tout ce que j'ai en réalité. Je ne sais pas quoi essayer d'autre. J'ai lu un peu sur l'analyse de survie mais je ne sais pas comment l'appliquer dans ce cas. Idéalement, j'aimerais également pouvoir calculer un intervalle de confiance à 90%. Tous les conseils seraient grandement appréciés.
EDIT: Il est possible que la question ci-dessus n'ait pas de réponse. Mais il y avait aussi une autre étude qui demandait à un échantillon aléatoire de personnes si elles étaient / étaient végétariennes et combien de fois elles étaient végétariennes dans le passé. Je connais également l'âge de tout le monde dans les deux études et d'autres choses. Peut-être que ces informations peuvent être utilisées conjointement avec l'enquête auprès des végétariens actuels pour obtenir la moyenne d'une manière ou d'une autre. En réalité, l'étude dont j'ai parlé n'est qu'une pièce du puzzle, mais très importante et je veux en tirer le meilleur parti.
la source
Réponses:
Soit le pdf de la longueur d'adhérence X du végétarisme dans la population. Notre objectif est d'estimer E X = ∫ ∞ 0 x f X ( x ) d x .fX(x) X EX=∫∞0xfX(x)dx
En supposant que la probabilité d'être inclus dans l'enquête (l'événement ) est proportionnelle à X , le pdf de la longueur d'adhérence X parmi ceux inclus dans l'enquête est f X | S ( x ) = x f X ( x )S X X
Au moment d'être inclus dans l'enquête, seul un tempsZs'est écoulé. Conditionnel àX(etS), le temps rapporté étant végétarien est uniforme avec pdf
fZ| X=x(z)=1
Code R simulant des données et mettant en œuvre les deux méthodes:
la source
(J'ai hésité à ajouter cela, car il semble que @ JarleTufto a déjà donné une belle approche mathématique; Cependant, je ne suis pas assez intelligent pour comprendre sa réponse, et maintenant je suis curieux de savoir si c'est exactement la même approche, ou si l'approche que je décris ci-dessous a toujours ses utilités.)
Ce que je ferais, c'est deviner une longueur moyenne, et deviner quelques distributions autour d'elle, puis, pour chacune, faire une simulation de ma population, et l'échantillonner régulièrement.
Vous avez dit de supposer que la population totale de végétariens ne change pas, donc chaque fois que mon modèle fait arrêter quelqu'un, un tout nouveau végétarien est créé. Nous devons exécuter le modèle pendant un certain nombre d'années simulées pour nous assurer qu'il s'est stabilisé, avant de commencer à échantillonner. Après cela, je pense que vous pouvez prélever des échantillons chaque mois simulé (*) jusqu'à ce que vous en ayez assez pour former votre intervalle de confiance à 90%.
*: ou quelle que soit la résolution qui fonctionne avec vos données. Si les gens ont donné leur réponse à l'année la plus proche, un échantillonnage tous les 6 mois est suffisant.
De toutes vos suppositions, vous choisissez la moyenne et la distribution qui (en moyenne sur tous les échantillons que vous avez pris) vous donne le résultat le plus proche de ce que votre enquête réelle a donné.
Je répéterais mes suppositions à quelques reprises, pour affiner le meilleur match.
La meilleure distribution peut ne pas être à pic unique. Les ex-végétariens auxquels je peux penser personnellement ont cessé en raison de changements de style de vie majeurs (généralement se marier / vivre avec un pays non végétarien ou en mouvement, ou tomber gravement malade et un médecin suggérant que cela pourrait être un régime alimentaire); de l'autre côté, le pouvoir de l'habitude: plus vous êtes végétarien depuis longtemps, plus vous avez de chances de continuer à l'être. Si vos données avaient demandé l'âge et le statut de la relation, nous pourrions également inclure cela dans la simulation ci-dessus.
la source