Je travaille actuellement avec un grand ensemble de données sur les réclamations d'assurance maladie qui incluent certaines réclamations de laboratoire et de pharmacie. Cependant, les informations les plus cohérentes dans l'ensemble de données sont constituées des codes de diagnostic (ICD-9CM) et de procédure (CPT, HCSPCS, ICD-9CM).
Mes objectifs sont de:
- Identifier les conditions précurseurs les plus influentes (comorbidités) pour une condition médicale comme une maladie rénale chronique;
- Identifier la probabilité (ou probabilité) qu'un patient développera une condition médicale basée sur les conditions qu'il a eues dans le passé;
- Faites de même que 1 et 2, mais avec des procédures et / ou des diagnostics.
- De préférence, les résultats seraient interprétables par un médecin
J'ai regardé des choses comme les articles du Heritage Health Prize Milestone et j'ai beaucoup appris d'eux, mais ils se concentrent sur la prévision des hospitalisations.
Voici donc mes questions: Quelles méthodes pensez-vous fonctionnent bien pour des problèmes comme celui-ci? Et, quelles ressources seraient les plus utiles pour en savoir plus sur les applications et les méthodes de science des données pertinentes pour les soins de santé et la médecine clinique?
EDIT # 2 pour ajouter un tableau en clair:
CKD est la condition cible, "maladie rénale chronique", ".any" indique qu'ils ont acquis cette condition à tout moment, ".isbefore.ckd" signifie qu'ils avaient cette condition avant leur premier diagnostic de CKD. Les autres abréviations correspondent à d'autres conditions identifiées par les groupes de codes ICD-9CM. Ce regroupement se produit dans SQL pendant le processus d'importation. Chaque variable, à l'exception de patient_age, est binaire.
la source
Réponses:
Je n'ai jamais travaillé avec des données médicales, mais d'un raisonnement général, je dirais que les relations entre les variables dans les soins de santé sont assez compliquées. Différents modèles, tels que les forêts aléatoires, la régression, etc. pourraient capturer seulement une partie des relations et ignorer les autres. Dans de telles circonstances, il est logique d'utiliser l'exploration et la modélisation statistiques générales .
Par exemple, la toute première chose que je ferais serait de trouver des corrélations entre les conditions précurseurs possibles et les diagnostics. Par exemple, dans quel pourcentage des cas de maladie rénale chronique a été précédée par une longue grippe? S'il est élevé, cela ne signifie pas toujours un lien de causalité , mais donne une assez bonne matière à réflexion et aide à mieux comprendre les relations entre différentes conditions.
Une autre étape importante est la visualisation des données. Est-ce que l'IRC survient plus souvent chez les hommes que chez les femmes? Et leur lieu de résidence? Quelle est la répartition des cas d'IRC par âge? Il est difficile de saisir un grand ensemble de données sous la forme d'un ensemble de nombres, les tracer les rend beaucoup plus faciles.
Lorsque vous avez une idée de ce qui se passe, effectuez des tests d'hypothèse pour vérifier votre hypothèse. Si vous rejetez l'hypothèse nulle (hypothèse de base) en faveur d'une autre, félicitations, vous avez fait "quelque chose de réel".
Enfin, lorsque vous avez une bonne compréhension de vos données, essayez de créer un modèle complet . Cela peut être quelque chose de général comme PGM (par exemple un réseau bayésien construit manuellement), ou quelque chose de plus spécifique comme la régression linéaire ou SVM , ou quoi que ce soit. Mais de toute façon, vous saurez déjà comment ce modèle correspond à vos données et comment vous pouvez mesurer son efficacité.
En tant que bonne ressource de départ pour l'apprentissage de l'approche statistique, je recommanderais le cours d' introduction aux statistiques de Sebastian Thrun. Bien qu'il soit assez basique et n'inclue pas de sujets avancés, il décrit les concepts les plus importants et donne une compréhension systématique de la théorie des probabilités et des statistiques.
la source
Bien que je ne sois pas un scientifique des données, je suis un épidémiologiste travaillant en milieu clinique. Votre question de recherche ne précisait pas de période de temps (c.-à-d. Les chances de développer une IRC en 1 an, 10 ans, toute la vie?).
Généralement, je passerais par un certain nombre d'étapes avant même de penser à la modélisation (analyse univariée, analyse bivariée, contrôles de colinéarité, etc.). Cependant, la méthode la plus couramment utilisée pour essayer de prédire un événement binaire (en utilisant des variables binaires continues OU) est la régression logistique. Si vous vouliez considérer l'IRC comme une valeur de laboratoire (albumine d'urine, DFGe), vous utiliseriez une régression linéaire (résultat continu).
Alors que les méthodes utilisées doivent être éclairées par vos données et vos questions, les cliniciens sont habitués à voir les rapports de cotes et les rapports de risque car ce sont les mesures d'association les plus fréquemment rapportées dans les revues médicales telles que NEJM et JAMA.
Si vous travaillez sur ce problème du point de vue de la santé humaine (par opposition à la Business Intelligence), les modèles de prévision clinique de Steyerberg sont une excellente ressource.
la source
"Identifier les conditions précurseurs les plus influentes (comorbidités) pour une condition médicale comme une maladie rénale chronique"
Je ne suis pas sûr qu'il soit possible d'identifier les conditions les plus influentes; Je pense que cela dépendra du modèle que vous utilisez. Pas plus tard qu'hier, j'ai ajusté une forêt aléatoire et un arbre de régression boosté aux mêmes données, et l'ordre et l'importance relative que chaque modèle donnait pour les variables étaient assez différents.
la source