Calculer la probabilité d'apparition de la maladie

8

Je suis médecin, alors soyez gentil avec moi et ma compréhension de base des statistiques.

J'ai un ensemble de données composé de patients et de leurs visites et j'ai étiqueté la présence d'un type spécifique de taupe dans leur main gauche et / ou droite avec {0,1} valeurs (0 = pas présent et 1 = présent). L'ensemble de données ressemble à ceci:

** Je l'ai supprimé car les réponses sont fournies; Je peux l'envoyer sur nouvelle demande

Donc, cela signifie que le patient A1-001 a eu 6 visites sans présence de taupe dans sa main droite lors de toutes les visites et présent de taupe dans sa main gauche dans toutes les visites sauf la première.

Je suis intéressé à trouver la probabilité qu'une main développe une taupe uniquement parmi les patients qui ont développé une taupe dans une main et à trouver la probabilité de développer une taupe dans l'autre main (étant donné que le patient avait déjà une taupe dans l'autre main) .

De plus, je veux savoir quelle est la probabilité de développer un grain de beauté au cours des visites parmi les patients qui ont développé un grain de beauté à un moment donné dans les deux mains

Pourriez-vous m'aider à modéliser ces questions simples?

laza
la source
"En outre, je veux savoir quelle est la probabilité de développer une taupe dans la même visite chez les patients qui ont développé une taupe à un moment donné dans les deux mains." - Mais vous codez les grains de beauté par main comme présents ou absents plutôt que de compter le nombre de grains de beauté, donc si un patient a déjà un grain de beauté dans chaque main, comment un grain de beauté supplémentaire serait-il visible dans les données?
Kodiologist
@ Kodiologist Oui, je ne m'intéresse qu'à la présence et non au nombre de taupes. Si un patient a déjà une taupe dans chaque main, il n'est pas possible d'en avoir une supplémentaire: il est seulement possible de rester avec cette taupe ou la taupe pour disparaître.
laza
2
La fourniture de l'ensemble de données complet peut clarifier la question et aider à recevoir une réponse.
Todd D
@Todd Je ne comprends pas comment la fourniture de l'ensemble de données changera la solution au problème. Je ne suis pas mathématicien mais je pense que le problème est bien défini même avec cette taille d'échantillon. Je suppose que résoudre le problème pour N = 3 (nombre de patients) sera le même que résoudre le problème pour N = 100.
laza
1
@laza, les mathématiques ne sont pas difficiles pour les mathématiciens. Mais vous posez un problème qui ne concerne pas les mathématiques et essaie plutôt de comprendre ce que vous voulez dire (c'est pourquoi un ensemble de données plus important a été demandé) ...... que voulez-vous dire par " probabilité de développer un grain de beauté au cours de la même visite chez les patients qui ont développé un grain de beauté à un moment donné dans les deux mains. " ? Vous n'avez pas répondu à cette question de Kodiologist,
Sextus Empiricus

Réponses:

5

Je pense personnellement que cela se prête bien à une analyse de survie.

Vous avez des personnes sans grains de beauté dans une certaine main au début de la période (votre population à risque); vous pouvez les sélectionner, et vous avez des points de temps pour le suivi et s'ils ont été censurés ou non (développé une taupe). Cela vous donne un risque pour la cohorte que vous avez sélectionnée.

Vous pouvez ensuite calculer un rapport de risque (par exemple pour développer un grain de beauté droit chez les personnes ayant un grain de beauté gauche au départ, par rapport à celles qui n'en ont pas). Cela pourrait être exprimé sur un graphique de Kaplan-Meier et sera accompagné d'un intervalle de confiance.

James
la source
Bonjour @James, je pense que je vais donner un coup de feu à ce lifelines.readthedocs.io/en/latest/… Que pensez-vous?
laza
Je suis sûr que ça va. Bien que j'aime python, je préfère généralement R pour les statistiques, mais cela semble raisonnablement bien pris en charge.
James
pouvez-vous me donner un indice ou deux en apportant les données au format correct?
laza
Comme cela dit, vous devez savoir la période pendant laquelle les gens ont été observés et quand ils sont «morts» (c'est-à-dire qu'ils ont eu une taupe) ou la dernière fois qu'ils ont été vus s'ils n'avaient pas obtenu une taupe. Donc, pour chaque patient, suivez le temps entre le moment où vous les avez vus sans taupe et le moment où ils ont eu la taupe ou ont été vus pour la dernière fois. C'est la colonne «T» dans l'exemple de lien. La colonne «E» indique s'ils ont obtenu un grain de beauté ou non. Vous avez ensuite besoin d'une ligne par patient.
James
Mais que se passe-t-il si le patient a un grain de beauté immédiatement lors de la première visite? Et dans une autre question, pourquoi pensez-vous que les chaînes de Markov ne conviennent pas à ce problème? C'est un problème de transition et d'après ce que j'ai lu, ils semblent très appropriés pour s'attaquer à ce genre de problèmes.
laza
0

Il n'y a pas de modélisation à faire ici, toutes vos questions sont de simples probabilités conditionnelles.

D'accord, puisque les gens n'ont pas apprécié cette réponse, vous devez clarifier deux ou trois choses.

Je suis intéressé à trouver la probabilité qu'une main développe une taupe uniquement parmi les patients qui ont développé une taupe dans une main et à trouver la probabilité de développer une taupe dans l'autre main (étant donné que le patient avait déjà une taupe dans l'autre main) .

Voulez-vous dire par visite? Ou qu'ils n'ont jamais développé de grain de beauté? De votre exemple:

Les patients 1 et 3 ont développé une taupe d'une part. Par contre, le patient 1 n'a jamais développé de grain de beauté, contrairement au patient 3, vous pouvez donc affirmer que la réponse à votre question est de 50%. Maintenant, vous pouvez également affirmer que le patient 1 a eu 4 examens avec 1 mole et non de l'autre et que le patient 3 a eu 0 examens avec 1 mole et pas l'autre, de sorte que la probabilité pourrait être de 1/5 = 20%. Cela dépend de la façon dont vous définissez votre question.

astel
la source
Merci pour votre réponse. Pouvez-vous m'aider même avec ça? J'apprécierai vraiment cela. Certains de mes collègues, cependant, m'ont dit d'utiliser la modélisation longitudinale pour les données ou les statistiques bayésiennes. Celles-ci ne s'appliquent pas ici, je suppose?
laza
3
Cet article ne répond pas à la question, car toute déclaration sur une probabilité est intrinsèquement un modèle. La question importante est "quel modèle est-ce (ou devrait-il être)?"
whuber
0

Personnellement, je pense que vous pouvez commencer par étudier les modèles linéaires généralisés de multicovariance : https://cran.r-project.org/web/packages/mcglm/index.html

https://cran.r-project.org/web/packages/mcglm/vignettes/GLMExamples.html

http://cursos.leg.ufpr.br/mcglm4aed/slides/2-mcglm.html#(1)

Ces modèles sont appropriés lorsque vous avez plus d'une variable de réponse et qu'ils ne sont pas gaussiens, et c'est votre cas, car vous avez deux variables binaires (taupe ou non taupe dans chaque main). En outre, la méthode vous permet de gérer les dépendances intra-individuelles, ce qui est donné par la structure longitudinale. Ici, longitudinal signifie des mesures répétées pour le même individu au cours du temps.

Je pense que les liens ci-dessus vous aideront à avoir une bonne idée de ces techniques, et ils fournissent également l'implémentation informatique dans R.

Bruna w
la source