Obtention et interprétation d'intervalles de confiance bootstrap à partir de données hiérarchiques

10

Je suis intéressé à obtenir un intervalle de confiance bootstrap sur la quantité X, lorsque cette quantité est mesurée 10 fois pour chacun des 10 individus.

Une approche consiste à obtenir la moyenne par individu, puis à amorcer les moyennes (par exemple, rééchantillonner les moyennes avec remplacement).

Une autre approche consiste à effectuer les opérations suivantes à chaque itération de la procédure d'amorçage: au sein de chaque individu, rééchantillonner les 10 observations de cet individu avec remplacement, puis calculer une nouvelle moyenne pour cet individu, et enfin calculer une nouvelle moyenne de groupe. Dans cette approche, chaque individu observé dans l'ensemble de données d'origine contribue toujours à la moyenne du groupe à chaque itération de la procédure de bootstrap.

Enfin, une troisième approche consiste à combiner les deux approches ci-dessus: rééchantillonner les individus puis rééchantillonner au sein de ces individus. Cette approche diffère de l'approche précédente en ce qu'elle permet au même individu de contribuer à la multiplication de la moyenne du groupe à chaque itération, bien que parce que chaque contribution est générée via une procédure de rééchantillonnage indépendante, on peut s'attendre à ce que ces contributions varient légèrement les unes des autres.

En pratique, je trouve que ces approches produisent des estimations différentes pour l'intervalle de confiance (par exemple avec un ensemble de données, je trouve que la troisième approche donne des intervalles de confiance beaucoup plus grands que les deux premières approches), donc je suis curieux de savoir ce que chacune pourrait être interprété pour représenter.

Mike Lawrence
la source

Réponses:

7

Votre première approche concerne un entre CI. Si vous vouliez mesurer à l'intérieur de S, c'est la mauvaise approche.

La deuxième approche générerait un CI interne qui ne s'appliquerait qu'à ces 10 personnes.

La dernière approche est la bonne pour le S CI. Toute augmentation de l'IC est due au fait que votre IC est plus représentatif d'un IC qui pourrait être appliqué à la population au lieu de ces 10 S.

John
la source
6

Selon Davison et Hinckley ("Méthodes Bootstrap et leur application", 1997, section 3.8), le troisième algorithme est conservateur. Ils préconisent une quatrième approche: simplement rééchantillonner les sujets.

Andrew Robinson
la source
1
Intéressant, je vais devoir chercher cette référence. Êtes-vous sûr de vouloir dire «quatrième» approche? La première approche que j'énumère semble décrire «un simple rééchantillonnage des sujets».
Mike Lawrence
1
Oui, il le fait, mais il décrit le rééchantillonnage des moyens du sujet. D&H préconise de rééchantillonner les sujets et d'adapter le modèle d'origine.
Andrew Robinson du
2
Vous aimerez également voir les publications récentes: Ren, Shiquan, Lai, Hong, Tong, Wenjing, Aminzadeh, Mostafa, Hou, Xuezhang and Lai, Shenghan (2010) 'Nonparametric bootstrapping for hierarchical data', Journal of Applied Statistics, 37: 9, 1487 - 1498
Andrew Robinson
2
@Mike: rééchantillonner l'ensemble de l'ordinateur est ce que font les statisticiens d'enquête dans leurs bootstraps. Il s'agit en effet d'une procédure différente qui ne serait équivalente à votre "première" approche que si (i) vous estimez uniquement la moyenne, et (ii) les données ne sont pas pondérées et équilibrées. Voir également citeulike.org/user/ctacmo/article/1334050 , citeulike.org/user/ctacmo/article/1475866 , citeulike.org/user/ctacmo/article/582039 .
StasK