J'ai une question concernant la technique d'amorçage appropriée à utiliser avec des données où un clustering puissant est présent.
J'ai été chargé d'évaluer un modèle prédictif multivarié à effets mixtes sur les données de sinistres d'assurance en notant le modèle de référence actuel sur les données de sinistres plus récentes, afin de déterminer dans quelle mesure le modèle prédit quels épisodes de soins contiennent la fréquence de sessions la plus élevée (supérieur 95e centile). La sensibilité, la spécificité et la valeur prédictive positive (PPV) seront utilisées pour évaluer l'efficacité du modèle.
Le bootstrapping semble être la bonne voie à suivre pour construire des intervalles de confiance pour la sensibilité, la spécificité et les pourcentages PPV. Malheureusement, un bootstrap naïf n'est pas approprié étant donné que les données sur les réclamations sont 1) corrélées par le fournisseur de soins, 2) regroupées en épisodes de soins avec des visites plus fréquentes pendant des mois plus tôt dans l'épisode de soins (donc une certaine autocorrélation est présente). Une variation de la technique de bootstrap des blocs mobiles serait-elle appropriée ici?
Ou peut-être qu'une procédure de bootstrap en trois étapes fonctionnerait: 1) échantillon avec remplacement à partir des fournisseurs distincts dans les données, puis 2) échantillon avec remplacement à partir d'épisodes de soins distincts par des fournisseurs sélectionnés, puis 3) échantillon avec remplacement à partir de revendications distinctes au sein de chacun épisode sélectionné.
Merci beaucoup pour toutes suggestions!