Une technique d'amorçage appropriée pour les données en cluster?

16

J'ai une question concernant la technique d'amorçage appropriée à utiliser avec des données où un clustering puissant est présent.

J'ai été chargé d'évaluer un modèle prédictif multivarié à effets mixtes sur les données de sinistres d'assurance en notant le modèle de référence actuel sur les données de sinistres plus récentes, afin de déterminer dans quelle mesure le modèle prédit quels épisodes de soins contiennent la fréquence de sessions la plus élevée (supérieur 95e centile). La sensibilité, la spécificité et la valeur prédictive positive (PPV) seront utilisées pour évaluer l'efficacité du modèle.

Le bootstrapping semble être la bonne voie à suivre pour construire des intervalles de confiance pour la sensibilité, la spécificité et les pourcentages PPV. Malheureusement, un bootstrap naïf n'est pas approprié étant donné que les données sur les réclamations sont 1) corrélées par le fournisseur de soins, 2) regroupées en épisodes de soins avec des visites plus fréquentes pendant des mois plus tôt dans l'épisode de soins (donc une certaine autocorrélation est présente). Une variation de la technique de bootstrap des blocs mobiles serait-elle appropriée ici?

Ou peut-être qu'une procédure de bootstrap en trois étapes fonctionnerait: 1) échantillon avec remplacement à partir des fournisseurs distincts dans les données, puis 2) échantillon avec remplacement à partir d'épisodes de soins distincts par des fournisseurs sélectionnés, puis 3) échantillon avec remplacement à partir de revendications distinctes au sein de chacun épisode sélectionné.

Merci beaucoup pour toutes suggestions!

RobertF
la source

Réponses:

14

La deuxième approche que vous suggérez semble raisonnable, mais il s'avère qu'il est préférable de n'échantillonner qu'avec remplacement au niveau le plus élevé et sans remplacement aux sous-niveaux restants lors du démarrage des données hiérarchiques. Ceci est illustré par des simulations de Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) ont théoriquement étudié différentes approches pour des ensembles de données à 2 niveaux et ont constaté que l'échantillonnage avec remplacement aux deux niveaux n'était pas une idée brillante.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

L'autocorrélation que vous mentionnez est un problème grave. D'un autre côté, la sélection sans remplacement des épisodes de soins préserverait la structure d'autocorrélation, alors ce n'est peut-être pas un gros problème.

Pelle
la source
Je me demande si la solution suivante est appropriée:
Rafael
... désolé, je n'ai pas pu terminer mon commentaire précédent. La voici: ... Créez un code (id) qui prend en compte chaque niveau de clustering (par exemple episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , puis utilisez GEE qui vous permet de gérer l'autocorrélation. J'ai lu quelque part que les modèles GEE donnent une estimation robuste même en présence de structures clustyer. Cette solution semble-t-elle raisonnable?
Rafael