Prédire la prochaine condition médicale à partir des conditions passées dans les données sur les réclamations

12

Je travaille actuellement avec un grand ensemble de données sur les réclamations d'assurance maladie qui incluent certaines réclamations de laboratoire et de pharmacie. Cependant, les informations les plus cohérentes dans l'ensemble de données sont constituées des codes de diagnostic (ICD-9CM) et de procédure (CPT, HCSPCS, ICD-9CM).

Mes objectifs sont de:

  1. Identifier les conditions précurseurs les plus influentes (comorbidités) pour une condition médicale comme une maladie rénale chronique;
  2. Identifier la probabilité (ou probabilité) qu'un patient développera une condition médicale basée sur les conditions qu'il a eues dans le passé;
  3. Faites de même que 1 et 2, mais avec des procédures et / ou des diagnostics.
  4. De préférence, les résultats seraient interprétables par un médecin

J'ai regardé des choses comme les articles du Heritage Health Prize Milestone et j'ai beaucoup appris d'eux, mais ils se concentrent sur la prévision des hospitalisations.

Voici donc mes questions: Quelles méthodes pensez-vous fonctionnent bien pour des problèmes comme celui-ci? Et, quelles ressources seraient les plus utiles pour en savoir plus sur les applications et les méthodes de science des données pertinentes pour les soins de santé et la médecine clinique?

EDIT # 2 pour ajouter un tableau en clair:

CKD est la condition cible, "maladie rénale chronique", ".any" indique qu'ils ont acquis cette condition à tout moment, ".isbefore.ckd" signifie qu'ils avaient cette condition avant leur premier diagnostic de CKD. Les autres abréviations correspondent à d'autres conditions identifiées par les groupes de codes ICD-9CM. Ce regroupement se produit dans SQL pendant le processus d'importation. Chaque variable, à l'exception de patient_age, est binaire.

Jamie
la source
1
Pouvez-vous fournir des exemples de données (en anglais simple, pas de codes)?
ffriend
J'ai ajouté quelques exemples de données à mon message d'origine. Dans cette version, chaque condition est indiquée par un code à trois lettres.
Jamie
1
R est cool, mais pas très lisible par l'homme. Pourriez-vous s'il vous plaît reformater un échantillon de vos données sous forme de tableau (par exemple en utilisant le format CSV ou TSV; 5-6 colonnes est ok)? De plus, une explication des variables (ce que "anx.any", "flu.isbefore.ckd", etc. signifient réellement et ce qui est à prévoir) sera très utile.
ffriend
1
Pouvez-vous fournir plus d'informations sur les paramètres utilisés dans l'ensemble de données afin que nous puissions comprendre s'il existe des corrélations. Certaines abréviations que vous avez mentionnées ne me sont pas claires. Ce serait formidable si vous pouviez partager votre identifiant de messagerie pour que nous collaborions hors ligne. Merci!
JohnGalt
1
Ce n'est que peu lié, mais notre plus récent défi en science des données concernait la prévision des réclamations à partir d'autres réclamations. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Lorsque la solution est publiée, elle peut contenir quelques idées intéressantes.
Sean Owen du

Réponses:

7

Je n'ai jamais travaillé avec des données médicales, mais d'un raisonnement général, je dirais que les relations entre les variables dans les soins de santé sont assez compliquées. Différents modèles, tels que les forêts aléatoires, la régression, etc. pourraient capturer seulement une partie des relations et ignorer les autres. Dans de telles circonstances, il est logique d'utiliser l'exploration et la modélisation statistiques générales .

Par exemple, la toute première chose que je ferais serait de trouver des corrélations entre les conditions précurseurs possibles et les diagnostics. Par exemple, dans quel pourcentage des cas de maladie rénale chronique a été précédée par une longue grippe? S'il est élevé, cela ne signifie pas toujours un lien de causalité , mais donne une assez bonne matière à réflexion et aide à mieux comprendre les relations entre différentes conditions.

Une autre étape importante est la visualisation des données. Est-ce que l'IRC survient plus souvent chez les hommes que chez les femmes? Et leur lieu de résidence? Quelle est la répartition des cas d'IRC par âge? Il est difficile de saisir un grand ensemble de données sous la forme d'un ensemble de nombres, les tracer les rend beaucoup plus faciles.

Lorsque vous avez une idée de ce qui se passe, effectuez des tests d'hypothèse pour vérifier votre hypothèse. Si vous rejetez l'hypothèse nulle (hypothèse de base) en faveur d'une autre, félicitations, vous avez fait "quelque chose de réel".

Enfin, lorsque vous avez une bonne compréhension de vos données, essayez de créer un modèle complet . Cela peut être quelque chose de général comme PGM (par exemple un réseau bayésien construit manuellement), ou quelque chose de plus spécifique comme la régression linéaire ou SVM , ou quoi que ce soit. Mais de toute façon, vous saurez déjà comment ce modèle correspond à vos données et comment vous pouvez mesurer son efficacité.


En tant que bonne ressource de départ pour l'apprentissage de l'approche statistique, je recommanderais le cours d' introduction aux statistiques de Sebastian Thrun. Bien qu'il soit assez basique et n'inclue pas de sujets avancés, il décrit les concepts les plus importants et donne une compréhension systématique de la théorie des probabilités et des statistiques.

ami
la source
Merci pour cela! Il confirme certaines des étapes que j'ai déjà franchies (analyse exploratoire, test d'hypothèse, etc.).
Jamie
7

Bien que je ne sois pas un scientifique des données, je suis un épidémiologiste travaillant en milieu clinique. Votre question de recherche ne précisait pas de période de temps (c.-à-d. Les chances de développer une IRC en 1 an, 10 ans, toute la vie?).

Généralement, je passerais par un certain nombre d'étapes avant même de penser à la modélisation (analyse univariée, analyse bivariée, contrôles de colinéarité, etc.). Cependant, la méthode la plus couramment utilisée pour essayer de prédire un événement binaire (en utilisant des variables binaires continues OU) est la régression logistique. Si vous vouliez considérer l'IRC comme une valeur de laboratoire (albumine d'urine, DFGe), vous utiliseriez une régression linéaire (résultat continu).

Alors que les méthodes utilisées doivent être éclairées par vos données et vos questions, les cliniciens sont habitués à voir les rapports de cotes et les rapports de risque car ce sont les mesures d'association les plus fréquemment rapportées dans les revues médicales telles que NEJM et JAMA.

Si vous travaillez sur ce problème du point de vue de la santé humaine (par opposition à la Business Intelligence), les modèles de prévision clinique de Steyerberg sont une excellente ressource.

dani
la source
1
Merci pour les suggestions utiles. Je vais certainement consulter ce livre! Bien que j'aie accès aux valeurs de laboratoire, les données ne sont pas fiables et sporadiques, donc j'essaye de m'en tenir aux données que je peux obtenir des réclamations. Les abréviations variables sont en fait des regroupements AHRQ Clinical Classification Software de codes de diagnostic.
Jamie
3

"Identifier les conditions précurseurs les plus influentes (comorbidités) pour une condition médicale comme une maladie rénale chronique"

Je ne suis pas sûr qu'il soit possible d'identifier les conditions les plus influentes; Je pense que cela dépendra du modèle que vous utilisez. Pas plus tard qu'hier, j'ai ajusté une forêt aléatoire et un arbre de régression boosté aux mêmes données, et l'ordre et l'importance relative que chaque modèle donnait pour les variables étaient assez différents.

JenSCDC
la source
Merci, Andy. Pourriez-vous élaborer un peu? Est-ce parce que les variables ne capturent pas suffisamment de détails?
Jamie
Je n'ai aucune idée. Je suppose que cela dépend de la façon dont les différents modèles fonctionnent.
JenSCDC
Pourriez-vous suggérer certaines des solutions que vous avez essayées ou envisagées?
Jamie
Jusqu'à présent, je ne l'ai pas fait non plus, donc pas d'aide là-bas. Pardon.
JenSCDC
Je suis maintenant en vacances pour les prochaines semaines, mais quand je reviendrai, je vais y jeter un œil car cela a vraiment piqué mon intérêt.
JenSCDC