Estimateur d'un taux d'incidence

8

Tout en suivant un cours de statistique pour les étudiants en médecine, j'ai rencontré un problème lié aux taux d'incidence. Le contexte du problème est un chapitre sur la distribution de Poisson. Dans le problème, 2300 fumeurs sont suivis sur une période d'un an au cours de laquelle 24 d'entre eux développent un cancer du poumon. Ils veulent ensuite calculer le taux d'incidence du processus et procéder comme suit:

Incidence rate=24230024/2

Au début, je ne comprenais pas pourquoi ils ont soustrait , mais j'ai supposé que c'était une correction pour le fait que puisque ces 24 personnes développent le cancer au cours de l'année, leur temps à risque est plus court que celui de celles qui ne développent pas la maladie. Aucune autre information n'a été donnée dans le manuel lui-même, du moins pas dans le problème. Une recherche rapide a confirmé que je pensais dans le bon sens.24/2

Mais je ne comprends toujours pas la justification de la formule. Quelqu'un peut-il m'éclairer? Aussi, si quelques références accessibles aux étudiants en médecine pouvaient être données. Cela ne me dérange pas d'avoir plus de références techniques aussi.

Raskolnikov
la source
1
Je ne comprends pas complètement votre question - pouvez-vous l'étoffer un peu plus? Les taux d'incidence ne sont que cela, les taux, et ont donc le temps-personne «exposé» au dénominateur. Vous avez raison sur le 24/2, qui reflète l'hypothèse que les personnes qui développent un cancer du poumon l'ont fait au milieu de l'intervalle, et les censure donc à 6 mois. En revanche, vous pourriez estimer un taux de prévalence (24/2300), mais une prévalence est fonction de l'incidence et de la durée de la maladie, donc moins utile si vous souhaitez identifier les causes de la maladie.
DL Dahly
Mais pourquoi cette hypothèse est-elle OK?
Raskolnikov
Seulement parce que c'est une meilleure hypothèse que la censure à 3 ou 9 mois, par exemple. Sauf si vous avez eu une sorte d'effet saisonnier ou quelque chose de similaire, votre meilleure estimation est le point milieu de l'intervalle. La seule façon d'améliorer cela est de collecter vos données à une résolution temporelle plus élevée.
DL Dahly

Réponses:

6

Je propose de modéliser l'occurrence du cancer comme un processus de Poisson. Plusieurs événements (apparition de tumeurs) sont possibles au sein d'un même individu au cours de la période d'observation. Si est le taux d'apparition d'une tumeur par année, la probabilité de 0 événement est , et la probabilité d'un événement ou plus est .λeλp=1eλ

Vous suivez individus pendant un an. Le nombre d'individus avec 1 événement ou plus est . Le nombre attendu est .nXBin(n,p)E(X)=np=n(1eλ)

Vous observez maintenant événements et souhaitez estimer . Première estimation , puis . Par invariance des estimateurs du maximum de vraisemblance, est le MLE de .xλp^=xnλ^=log(1xn)xn+x22n2λ^λ

Votre estimateur est . La différence entre les deux estimateurs est d'environ , ce qui est très faible si est petit. Je suppose que cela fournit une justification, même si une autre modélisation pourrait éventuellement conduire directement à votre estimateur.x/n1x/2nxn+x22n2x3/6n3x/n

Elvis
la source
4
@Raskolnikov et Elvis (+1), notez également que les fractions continues standard pour tronquées au deuxième rendement convergent et cette approximation est toujours meilleure que l'expansion de la série Taylor de second ordre pour la plage de d'intérêt. log(1z)log(1z)z/(1z/2)z
Cardinal
En fait, j'ai fait la même dérivation mais j'ai fait une erreur en assimilant à . C'est pourquoi je n'ai pas pu comprendre le lien avec l'autre estimateur. peλ
Raskolnikov
@Raskolnikov Je vous remercie pour cette jolie question qui mène à un bel exercice pour mes élèves;) joli pseudo aussi
Elvis
@cardinal Et belle édition!
Elvis
3

En supposant que les diagnostics de cancer sont uniformément répartis sur l'année, les personnes diagnostiquées sont exposées au risque d'être diagnostiquées pendant (en moyenne) six mois avant ce diagnostic.

Votre lien mentionne l'hypothèse d'occurrence à mi-chemin de la période d'observation, mais pas d'où elle vient - ce qui est juste l'hypothèse d'uniformité. Cette hypothèse n'est pas toujours raisonnable et il y a des moments où elle peut faire une différence substantielle. Je recommande de prendre connaissance de l'hypothèse chaque fois que vous utilisez la formule, car vous devez considérer son adéquation et si elle ne convient pas, si elle est susceptible d'avoir un impact substantiel sur l'estimation (dans ce cas, une meilleure hypothèse sur l'événement devrait être étudié)

Glen_b -Reinstate Monica
la source
Alors, c'est tout ce qu'il y a à faire? Hypothèse d'uniformité? Mais pourquoi l'uniformité des diagnostics importerait-elle? Pourquoi pas la probabilité de contracter la maladie, qui, je suppose, serait plus vraisemblablement distribuée par Poisson (au moins comme un modèle nul)?
Raskolnikov
L'hypothèse d'uniformité est d'où elle vient, donc oui, c'est tout; en l'absence d'autres informations (et parfois même en leur présence), il s'agit d'une hypothèse courante dans le calcul de l'exposition au risque. Pour ce qui est du diagnostic, j'ai supposé que les données portaient sur le diagnostic et non sur l'incidence, car nous n'observons pas d'incidence non diagnostiquée - tout ce qui est analysé est à quoi l'hypothèse devrait s'appliquer.
Glen_b -Reinstate Monica
Pour être plus explicite, votre lien mentionne que la formule provient de la «méthode actuarielle». Les éléments actuariels pertinents sont les éléments de l'exposition au risque qui sont à peu près standard dans tous les programmes actuariels que je connais. Cette hypothèse spécifique d'uniformité n'est pas quelque chose que je viens de formuler, elle est absolument explicite dans la formation actuarielle. Vous avez demandé d'où cela venait; le lien mentionne la méthode actuarielle; cela découle à son tour de l'approche actuarielle standard de l'exposition aux risques.
Glen_b -Reinstate Monica