Tout en suivant un cours de statistique pour les étudiants en médecine, j'ai rencontré un problème lié aux taux d'incidence. Le contexte du problème est un chapitre sur la distribution de Poisson. Dans le problème, 2300 fumeurs sont suivis sur une période d'un an au cours de laquelle 24 d'entre eux développent un cancer du poumon. Ils veulent ensuite calculer le taux d'incidence du processus et procéder comme suit:
Au début, je ne comprenais pas pourquoi ils ont soustrait , mais j'ai supposé que c'était une correction pour le fait que puisque ces 24 personnes développent le cancer au cours de l'année, leur temps à risque est plus court que celui de celles qui ne développent pas la maladie. Aucune autre information n'a été donnée dans le manuel lui-même, du moins pas dans le problème. Une recherche rapide a confirmé que je pensais dans le bon sens.
Mais je ne comprends toujours pas la justification de la formule. Quelqu'un peut-il m'éclairer? Aussi, si quelques références accessibles aux étudiants en médecine pouvaient être données. Cela ne me dérange pas d'avoir plus de références techniques aussi.
la source
Réponses:
Je propose de modéliser l'occurrence du cancer comme un processus de Poisson. Plusieurs événements (apparition de tumeurs) sont possibles au sein d'un même individu au cours de la période d'observation. Si est le taux d'apparition d'une tumeur par année, la probabilité de 0 événement est , et la probabilité d'un événement ou plus est .λ e−λ p=1−e−λ
Vous suivez individus pendant un an. Le nombre d'individus avec 1 événement ou plus est . Le nombre attendu est .n X∼Bin(n,p) E(X)=np=n(1−e−λ)
Vous observez maintenant événements et souhaitez estimer . Première estimation , puis . Par invariance des estimateurs du maximum de vraisemblance, est le MLE de .x λ p^=xn λ^=−log(1−xn)≈xn+x22n2 λ^ λ
Votre estimateur est . La différence entre les deux estimateurs est d'environ , ce qui est très faible si est petit. Je suppose que cela fournit une justification, même si une autre modélisation pourrait éventuellement conduire directement à votre estimateur.x/n1−x/2n≈xn+x22n2 x3/6n3 x/n
la source
En supposant que les diagnostics de cancer sont uniformément répartis sur l'année, les personnes diagnostiquées sont exposées au risque d'être diagnostiquées pendant (en moyenne) six mois avant ce diagnostic.
Votre lien mentionne l'hypothèse d'occurrence à mi-chemin de la période d'observation, mais pas d'où elle vient - ce qui est juste l'hypothèse d'uniformité. Cette hypothèse n'est pas toujours raisonnable et il y a des moments où elle peut faire une différence substantielle. Je recommande de prendre connaissance de l'hypothèse chaque fois que vous utilisez la formule, car vous devez considérer son adéquation et si elle ne convient pas, si elle est susceptible d'avoir un impact substantiel sur l'estimation (dans ce cas, une meilleure hypothèse sur l'événement devrait être étudié)
la source