Comment calculer la durée moyenne d'adhésion au végétarisme alors que nous ne disposons que de données d'enquête sur les végétariens actuels?

16

Un échantillon de population aléatoire a été sondé. On leur a demandé s'ils avaient un régime végétarien. S'ils ont répondu oui, on leur a également demandé de préciser depuis combien de temps ils suivaient un régime végétarien sans interruption. Je veux utiliser ces données pour calculer la durée moyenne d'adhésion au végétarisme. En d'autres termes, quand quelqu'un devient végétarien, je veux savoir longtemps en moyenne qu'il reste végétarien. Supposons que:

  • Tous les répondants ont donné des réponses correctes et exactes
  • Le monde est stable: la popularité du végétarisme ne change pas, la durée moyenne d'adhésion ne change pas non plus.

Mon raisonnement jusqu'à présent

J'ai trouvé utile d'analyser un modèle de jouet du monde, où au début de chaque année deux personnes deviennent végétariennes. A chaque fois, l'un d'eux reste végétarien pendant 1 an et un autre pendant 3 ans. De toute évidence, la durée moyenne d'adhésion dans ce monde est de (1 + 3) / 2 = 2 ans. Voici un graphique qui illustre l'exemple. Chaque rectangle représente une période de végétarisme:

une illustration

Disons que nous prenons une enquête au milieu de l'année 4 (ligne rouge). Nous obtenons les données suivantes:

une table

Nous obtiendrions les mêmes données si nous prenions l'enquête à n'importe quelle année, à partir de la troisième année. Si nous faisons simplement la moyenne des réponses que nous obtenons:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Nous sous-estimons parce que nous supposons que tout le monde a cessé d'être végétarien juste après l'enquête, ce qui est évidemment incorrect. Pour obtenir une estimation qui est plus proche de la durée moyenne réelle pendant laquelle ces participants resteraient végétariens, nous pouvons supposer qu'en moyenne, ils ont signalé un temps à mi-chemin de leur période de végétarisme et multiplier les durées déclarées par 2. Dans une grande enquête tirant au hasard de la population (comme celle que j'analyse), je pense que c'est une hypothèse réaliste. Au moins, cela donnerait une valeur attendue correcte. Cependant, si doubler est la seule chose que nous faisons, nous obtenons une moyenne de 2,5, ce qui est une surestimation. En effet, plus la personne reste végétarienne, plus il est probable qu'elle soit dans l'échantillon de végétariens actuels.

J'ai alors pensé que la probabilité qu'une personne se trouve dans l'échantillon de végétariens actuels est proportionnelle à leur durée de végétarisme. Pour tenir compte de ce biais, j'ai essayé de diviser le nombre de végétariens actuels par leur durée d'adhésion prévue:

encore une autre table

Cependant, cela donne également une moyenne incorrecte:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 ans

Cela donnerait une estimation correcte si le nombre de végétariens était divisé par leur longueur d'adhésion correcte:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 ans

Mais cela ne fonctionne pas si j'utilise les durées d'adhésion prévues et c'est tout ce que j'ai en réalité. Je ne sais pas quoi essayer d'autre. J'ai lu un peu sur l'analyse de survie mais je ne sais pas comment l'appliquer dans ce cas. Idéalement, j'aimerais également pouvoir calculer un intervalle de confiance à 90%. Tous les conseils seraient grandement appréciés.

EDIT: Il est possible que la question ci-dessus n'ait pas de réponse. Mais il y avait aussi une autre étude qui demandait à un échantillon aléatoire de personnes si elles étaient / étaient végétariennes et combien de fois elles étaient végétariennes dans le passé. Je connais également l'âge de tout le monde dans les deux études et d'autres choses. Peut-être que ces informations peuvent être utilisées conjointement avec l'enquête auprès des végétariens actuels pour obtenir la moyenne d'une manière ou d'une autre. En réalité, l'étude dont j'ai parlé n'est qu'une pièce du puzzle, mais très importante et je veux en tirer le meilleur parti.

Saulius Šimčikas
la source
1
Ce n'est pas une option ATM. Ces données fournissent certainement des preuves de la durée de l'adhésion, je ne sais tout simplement pas comment les utiliser.
Saulius Šimčikas
1
Au moins une de vos images semble avoir disparu (erreur 403 lorsque j'utilise l'URL).
barrycarter
2
@kjetilbhalvorsen Car le problème n'a pas d'importance si les végétariens restent végétariens à vie. À un moment donné, ils cesseront d'être végétariens, soit en mangeant de la viande, soit en mourant.
Pere
4
@kjetil Votre commentaire sur les "vrais végétariens" ressemble un peu à No True Scotsman . La définition ordinaire d'un végétarien ne dit rien de ce qui pourrait arriver à l'avenir, ni de la raison pour laquelle quelqu'un est végétarien, mais seulement de son comportement au moment où l'attribut est considéré. Si quelqu'un est végétarien maintenant, il est végétarien maintenant, pour quelque raison que ce soit. Je ne pense pas que nos sentiments personnels à propos de l'idée de manger de la viande ou des raisons pour lesquelles nous pourrions penser que nous le fassions sont sur le sujet ici; ils appartiennent ailleurs.
Glen_b -Reinstate Monica
2
Étant donné que les personnes qui sont végétariennes depuis plus longtemps sont plus susceptibles d'être sélectionnées pour apparaître dans votre échantillon, cela signifie que la fonction de densité de probabilité de vos données d'échantillon est proportionnelle à un moins la fonction de distribution cumulative des longueurs d'adhérence. Pour faire un exemple de votre exemple, la distribution des longueurs est [0, 0,5, 0, 0,5] (50% durent 1 an, 50% pendant 3 ans), donnant un CDF de [0, 0,5, 0,5, 1 ], un moins étant [1, 0,5, 0,5, 0] qui est proportionnel au nombre [2, 1, 1, 0] de votre échantillon.
PhiNotPi

Réponses:

10

Soit le pdf de la longueur d'adhérence X du végétarisme dans la population. Notre objectif est d'estimer E X = 0 x f X ( x ) d x .fX(x)XEX=0xfX(x)dx

En supposant que la probabilité d'être inclus dans l'enquête (l'événement ) est proportionnelle à X , le pdf de la longueur d'adhérence X parmi ceux inclus dans l'enquête est f X | S ( x ) = x f X ( x )SXX Au moment d'être inclus dans l'enquête, seul un tempsZs'est écoulé. Conditionnel àX(etS), le temps rapporté étant végétarien est uniforme avec pdf fZ| X=x(z)=1

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS Ainsi, en utilisant la loi de la probabilité totale, la distribution globale du tempsZpassé végétarien parmi ceux inclus dans l'enquête devient f Z ( z )
fZ|X=x(z)=1x,0<z<x.
ZFX(z)est la fonction de répartition deX. PuisqueXest une variable positiveFX(0)=P(X0)=0et ainsi
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
FX(z)XXFX(0)=P(X0)=0 .fZ(0)=1/EX

EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

enter image description here

FZ(z)FX(0)=FX(0)>0FZ(0)EXEX dans de telles situations sans faire plus d'hypothèses semble difficile, essentiellement parce que les temps d'adhésion courts présents dans cette situation n'apparaissent guère dans les données observées en raison de l'échantillonnage biaisé.

FX(X)

L(θ)=je=1n1-FX(zje;θ)EX(θ)

Code R simulant des données et mettant en œuvre les deux méthodes:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)
Jarle Tufto
la source
1
Hé, merci beaucoup d'avoir répondu, je n'ai pas encore pris le temps de tout comprendre, je voulais juste ajouter que je connais la distribution générale de cette autre étude. (le seul problème avec l'autre étude, c'est qu'il a fait choisir entre les options depuis combien de temps il était végétarien et l'une des options était "Plus de 10 ans" et la moyenne dépend presque entièrement de la durée de plus de 10 ans) rester végétarien)
Saulius Šimčikas
Ok, j'espère qu'il n'y a pas de défauts majeurs dans mon raisonnement. Je vois que @PhiNotPi arrive au même pdf dans son commentaire au PO.
Jarle Tufto
@Saulius Si vous avez accès au deuxième ensemble de données censuré à droite et que les distributions sous-jacentes peuvent en effet être supposées identiques, alors la solution idéale serait de combiner la probabilité pour cet ensemble de données (ce qui est simple à noter s'il est juste certains échantillonnage censuré à droite), puis maximiser la probabilité conjointe.
Jarle Tufto
celui-là n'est pas censuré à droite: imgur.com/U8ofZ3A Je me rends compte maintenant que je devais le mentionner au début mais je pensais que mon problème avait une solution plus simple ...
Saulius Šimčikas
@Saulius Ces données sont censurées par intervalles. Encore une fois, il est simple de calculer la probabilité.
Jarle Tufto
0

(J'ai hésité à ajouter cela, car il semble que @ JarleTufto a déjà donné une belle approche mathématique; Cependant, je ne suis pas assez intelligent pour comprendre sa réponse, et maintenant je suis curieux de savoir si c'est exactement la même approche, ou si l'approche que je décris ci-dessous a toujours ses utilités.)

Ce que je ferais, c'est deviner une longueur moyenne, et deviner quelques distributions autour d'elle, puis, pour chacune, faire une simulation de ma population, et l'échantillonner régulièrement.

Vous avez dit de supposer que la population totale de végétariens ne change pas, donc chaque fois que mon modèle fait arrêter quelqu'un, un tout nouveau végétarien est créé. Nous devons exécuter le modèle pendant un certain nombre d'années simulées pour nous assurer qu'il s'est stabilisé, avant de commencer à échantillonner. Après cela, je pense que vous pouvez prélever des échantillons chaque mois simulé (*) jusqu'à ce que vous en ayez assez pour former votre intervalle de confiance à 90%.

*: ou quelle que soit la résolution qui fonctionne avec vos données. Si les gens ont donné leur réponse à l'année la plus proche, un échantillonnage tous les 6 mois est suffisant.

De toutes vos suppositions, vous choisissez la moyenne et la distribution qui (en moyenne sur tous les échantillons que vous avez pris) vous donne le résultat le plus proche de ce que votre enquête réelle a donné.

Je répéterais mes suppositions à quelques reprises, pour affiner le meilleur match.

La meilleure distribution peut ne pas être à pic unique. Les ex-végétariens auxquels je peux penser personnellement ont cessé en raison de changements de style de vie majeurs (généralement se marier / vivre avec un pays non végétarien ou en mouvement, ou tomber gravement malade et un médecin suggérant que cela pourrait être un régime alimentaire); de l'autre côté, le pouvoir de l'habitude: plus vous êtes végétarien depuis longtemps, plus vous avez de chances de continuer à l'être. Si vos données avaient demandé l'âge et le statut de la relation, nous pourrions également inclure cela dans la simulation ci-dessus.

Darren Cook
la source