Quels sont les critères d'appariement minimaux recommandés pour un appariement fiable et démographique des patients?

30

Lors de l'appariement des patients sur la base des données démographiques, existe-t-il des recommandations sur les champs qui doivent correspondre pour que le patient soit le "même patient"?

Je sais que les algorithmes seront différents pour différentes implémentations, je suis simplement curieux de savoir s'il existe des meilleures pratiques ou des recommandations autour de ce processus.

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip

etc?

Préoccupé parTunbridgeWells
la source
4
Il est probable que la réponse à cette question puisse également changer en fonction du pays spécifique ou même de considérations ethniques et culturelles. Par exemple, le nom d'une personne peut ne pas être un bon identifiant de patient pour les aborigènes australiens (ou il faudrait lui attribuer un "poids" plus faible dans son cas) car elle peut changer de nom au fil du temps. Les aborigènes australiens qui portent le même nom qu'un défunt l'abandonnent car ils considèrent qu'il est très mauvais de porter le même nom que quelqu'un qui est mort. Quelque chose de semblable se produit dans d'autres cultures où le nom des morts est tabou. lien
4
Ou un autre exemple tiré d'une étude non encore publiée: chez les immigrants philippins aux États-Unis, les dix noms de famille les plus courants représentent environ 6% de la population totale. Chez les immigrants vietnamiens, ils représentent environ 60%. Les noms sont un meilleur identifiant chez les Philippins que chez les Vietnamiens. Je posterai certainement cette étude une fois qu'elle sera disponible.
Juste pour clarifier: l'objectif principal est-il de faire correspondre deux ensembles d'enregistrements?
Lorsque vous tentez de faire correspondre des enregistrements, assurez-vous de faire la distinction entre la force d'une correspondance ("Bob" est très similaire à "Bob") et le nombre de correspondances possibles (il existe de nombreux Bobs). Si deux enregistrements ont le même nom et qu'il n'y a pas d'autres enregistrements avec ce nom , c'est probablement la même personne même si les adresses diffèrent. En supposant que vous ayez un grand corpus, bien sûr.
Jon de tous les métiers

Réponses:

20

Il y a ce grand essai (en espagnol, désolé) écrit par Pablo Pazos, un ingénieur CS de l'Uruguay qui travaille sur l'informatique de la santé depuis 2006 et a apporté de grandes contributions au domaine, dans lequel il décrit un algorithme pour le faire.

Vous pouvez exécuter l'article via un traducteur, mais l'essentiel est que les informations de base pour déterminer l'identité d'une personne sont ses prénoms et noms de famille (à la fois du père et de la mère), le sexe et la date de naissance. Chose intéressante, il exclut spécifiquement les numéros d'identification comme SSN de ses algorithmes de correspondance d'identité, car "aucun type d'identifiant ne fait partie de son identité" (je suppose que ce point pourrait être discutable, cependant). De plus, il exclut les attributs comme l'adresse municipale, les numéros de téléphone, etc., car ils ne sont pas vraiment liés à l'identité de quelqu'un, ils ne sont pas associés à "qui est réellement quelqu'un".

En outre, il attribue différents "poids" à chacun des anciens attributs, comme ceci:

  • Prénom: 17,5%
  • Deuxième prénom: 17,5%
  • Nom de famille (père): 17,5%
  • Nom de famille (mère): 17,5%
  • Sexe: 10%
  • Date de naissance: 20%

Avec les correspondances trouvées sur chacun de ces attributs, il décrit une méthodologie pour obtenir un "indice de correspondance de concordance" avec lequel des comparaisons entre les enregistrements peuvent être possibles. De plus, des correspondances "partielles" sur les attributs de nom sont possibles en utilisant des algorithmes comme la distance de Levenshtein .

Bonne lecture, OMI. Désolé, c'est en espagnol, mais j'espère avoir pu transmettre ses principales idées.


la source
2
c'est super, merci. +1 également pour mentionner la distance car les fautes de frappe sont assez courantes, en particulier dans les communautés à forte diversité culturelle, comme c'est souvent le cas en Amérique du Nord. Cela dit, la plupart des cas où je dois effectuer des correspondances avec le domaine des valeurs possibles est assez restreint. Donc, dans ces cas, tout critère fiable (comme les numéros d'assurance maladie) qui renvoie un seul hit dans la base de données sera suffisant, si plusieurs entrées sont renvoyées, j'ai tendance à demander à l'utilisateur (si disponible) ou à filtrer avec un critère supplémentaire.
(... suite) Notez cependant que ces cas s'appliquent bien à l'installation locale d'un DME dans une clinique ou un hôpital, ou d'un SIF à un service de radio-logie. Dans ces cas, le client est inscrit à la clinique ou à l'hôpital ou non. Dans le cas de MPI, c'est un tout nouveau jeu de balle.
13

Il n'y a pas d'algorithme magique unique pour l'appariement des patients, et je doute qu'il y en ait jamais.

Pour commencer, il existe des écarts régionaux. Comme l'a souligné MMattoli, ce qui fonctionne bien dans un hôpital urbain des États-Unis ne conviendra probablement pas bien dans une clinique rurale australienne traitant des aborigènes.

En outre, les sites individuels ont des vues différentes sur la tolérance aux pannes. Si vous ne correspondiez que lorsque vous en êtes absolument sûr , vous obtiendrez beaucoup de matchs manqués. Cela provoque des enregistrements de patients en double, ce qui crée un tout autre ensemble de problèmes. La plupart des sites seront prêts à se contenter de la certitude , mais dans quelle mesure est-ce suffisamment sûr? Demandez à 10 personnes et vous obtiendrez 12 réponses.

Par conséquent, le «meilleur» algorithme sera configurable, afin que vos clients puissent l'ajuster en fonction de leurs besoins.

Lorsque vous envisagez une correspondance, différents champs offrent différents degrés de confiance.

Les identifiants spécifiques aux soins de santé offrent la plus grande confiance, car leur objectif principal est d'identifier de manière unique la personne au sein du système de santé. Les hôpitaux s'efforcent généralement de ne pas les dupliquer.

Exemples:

  • Identifiant national de santé (par exemple numéro NHS britannique)
  • Numéro de dossier médical attribué par l'hôpital.

D'autres identifiants de patients peuvent également offrir un niveau de confiance élevé, selon le système. Par exemple, une carte d'identité militaire est probablement très pertinente dans un hôpital militaire.

Exemples:

  • ID militaire
  • Numéro d'assurance
  • Numéro de sécurité sociale (aux États-Unis, le numéro de sécurité sociale n'est généralement pas considéré comme une correspondance à haute confiance, en raison de la fraude généralisée en matière d'assurance.)

En l'absence d'identifiants uniques, il faut recourir à des informations démographiques. Il est mal avisé de faire correspondre sur tout un terrain, mais le match plus sur le terrain démographique, plus confiant le match.

Les choses sur une personne qui ne changent pas souvent sont bonnes pour correspondre:

  • prénom
  • Le genre
  • Date de naissance

Mais des informations encore plus malléables peuvent être prises en compte dans le match pour renforcer la confiance:

  • Adresse
  • Numéro de téléphone
  • Adresse e-mail
Lynn
la source
3
Le SSN a également une restriction très stricte, par exemple au Canada, il est même illégal de le demander à moins que vous ne soyez un employeur ou une banque (peut-être un peu plus, je ne suis pas avocat). D'autres endroits comme la Chine l'utilisent pour presque n'importe quoi, même pour acheter des billets de train pendant les vacances à fort trafic.
Les changements de nom sont courants si vous êtes une femme. Et deux personnes portent souvent le même nom et vivent même au même endroit (père avec un fils nommé d'après lui par exemple).
HLGEM
@HLGEM: Tout à fait correct, c'est pourquoi aucun champ démographique ne doit être utilisé pour l'appariement. Mais lorsque les gens doivent y recourir, les champs les plus statiques (qui changent néanmoins parfois) sont plus fiables que l'alternative. Cela ne les rend pas bons, cependant.
Lynn
7

Il convient également de vérifier les noms de famille précédents, car ils changent souvent.

Andy Judson
la source
+1 «souvent» est un euphémisme. :) Cela peut certainement être le cas pour les patients qui ne sont pas identifiables ou sans nom, les nouveau-nés, mal identifiés, etc. Les noms sont plus difficiles, mais plus significatifs, dans un environnement avec beaucoup de transactions.
4

Outre les combinaisons évidentes des trois suivantes données dans votre question

First Name
Last Name
Date of Birth
City
State
ZIP/Pin Code

Je penserais à ajouter phone number (Home and/or Cell)à la liste. De nos jours, il est assez courant et chacun aura un numéro unique et même si certaines personnes changent parfois leur numéro de téléphone, la plupart des gens se souviennent des anciens numéros de téléphone, ce qui peut donc être utile.

Nous avons constaté que l'adresse souffre souvent de plusieurs orthographes et de plusieurs façons de rendre, en particulier dans des pays comme l'Inde où les gens utilisent une langue locale et les logiciels de gestion des patients utilisent toujours l'anglais.

Jamess
la source
3

Le sexe dans les enregistrements semble souvent dériver du prénom. J'ai vu une variance accrue dans le sexe pour les étrangers, quand nous ne pouvons pas dériver le sexe du nom.

En Allemagne, nous avons d'autres variantes avec des noms contenant le «Umlaute» comme «äöü», qui sont parfois remplacés par «ae oe ue».

bernd_k
la source
1

Ma pensée est dans l'ordre ci-dessous 1). SSN, nom et 5 premiers caractères du prénom 2). SSN, date de naissance et 5 premiers caractères du prénom 3). SSN, date de naissance et nom de famille 4). SSN, sexe, date de naissance 5). Nom, 5 premiers caractères du prénom, ville et code postal


la source
1

C'est un problème vraiment difficile aux États-Unis. Les noms ne sont pas uniques et changent souvent au cours de la vie d'une personne ou sont présentés différemment (Rob contre Robert par exemple), de sorte qu'ils ne peuvent jamais être utilisés pour identifier le patient, sauf en conjonction avec des informations plus fiables. Le numéro d'assurance maladie et le fournisseur changent beaucoup plus fréquemment et peuvent être les mêmes pour plusieurs membres de la famille. Le SSN est censé être unique, mais il y a de la fraude autour de lui. Même chose avec le numéro de permis de conduire que tout le monde n'aura bien sûr pas.

Personnellement, je commencerais par le numéro de police d'assurance et la combinaison de la date de naissance et du nom, puis par la combinaison SSN et la date de naissance et le nom. Je vérifierais l'adresse et le téléphone pour me donner une assurance supplémentaire lorsqu'ils correspondent, mais pas beaucoup de poids s'ils ne le font pas. De plus, j'utiliserais le groupe sanguin comme facteur d'exclusion s'il est connu (et nous savons tous que les vampires de l'hôpital prélèveront des échantillons de sang) car cela ne change pas. La correspondance de nom devrait être une correspondance floue en raison du problème de varaition de nom. Les autres éléments devraient généralement rechercher une correspondance exacte en premier sur la correspondance floue de la thématique si la confiance du nom est vraiment élevée (il pourrait s'agir d'une faute de frappe entrant dans le SSN).

HLGEM
la source