Pourquoi ne pas toujours utiliser des CI d'amorçage?

12

Je me demandais comment les CI d'amorçage (et BCa en barticulaire) fonctionnent sur les données normalement distribuées. Il semble y avoir beaucoup de travail examinant leurs performances sur différents types de distributions, mais n'a rien trouvé sur les données normalement distribuées. Comme il semble évident d'étudier d'abord, je suppose que les documents sont tout simplement trop vieux.

J'ai fait quelques simulations de Monte Carlo en utilisant le package de démarrage R et j'ai trouvé que les CI d'amorçage étaient en accord avec les CI exacts, bien que pour les petits échantillons (N <20), ils aient tendance à être un peu libéraux (petits CI). Pour les échantillons suffisamment grands, ils sont essentiellement les mêmes.

Cela me fait me demander s'il y a une bonne raison de ne pas toujours utiliser le bootstrap. Étant donné la difficulté d'évaluer si une distribution est normale et les nombreux écueils derrière cela, il semble raisonnable de ne pas décider et signaler les IC bootstrap quelle que soit la distribution. Je comprends la motivation de ne pas utiliser systématiquement les tests non paramétriques, car ils ont moins de puissance, mais mes simulations me disent que ce n'est pas le cas pour les CI bootstrap. Ils sont encore plus petits.

Une question similaire qui me dérange est pourquoi ne pas toujours utiliser la médiane comme mesure de la tendance centrale. Les gens recommandent souvent de l'utiliser pour caractériser des données non distribuées normalement, mais comme la médiane est la même que la moyenne des données distribuées normalement, pourquoi faire une distinction? Il semblerait tout à fait avantageux que nous puissions nous débarrasser des procédures permettant de décider si une distribution est normale ou non.

Je suis très curieux de savoir ce que vous pensez de ces questions et si elles ont déjà été discutées. Des références seraient très appréciées.

Merci!

Pierre

dragice
la source
Voir ma question ici concernant la moyenne et la médiane: stats.stackexchange.com/questions/96371/…
Alexis
Pour de nombreux problèmes, le rééchantillonnage est impossible à calculer. Par exemple, si vous souhaitez simplement calculer les IC pour une grande matrice 3D ou pour une longue série chronologique.
jona

Réponses:

4

Il est avantageux d'examiner la motivation de l'intervalle BCa et ses mécanismes (c'est-à-dire les «facteurs de correction»). Les intervalles BCa sont l'un des aspects les plus importants du bootstrap car ils sont le cas plus général des intervalles de centile de bootstrap (c'est-à-dire l'intervalle de confiance basé uniquement sur la distribution du bootstrap elle-même).

En particulier, examinez la relation entre les intervalles BCa et les intervalles de percentile de bootstrap: lorsque l'ajustement pour l'accélération (le premier "facteur de correction") et l'asymétrie (le deuxième "facteur de correction") sont tous deux nuls, alors les intervalles BCa reviennent à l'intervalle de pourcentage d'amorçage Bootstrap typique.

Je ne pense pas que ce serait une bonne idée d'utiliser TOUJOURS le bootstrap. Le bootstrap est une technique robuste qui a une variété de mécanismes (ex: intervalles de confiance et il existe différentes variations du bootstrap pour différents types de problèmes tels que le bootstrap sauvage lorsqu'il y a hétéroscédasticité) pour ajuster pour différents problèmes (ex: non-normalité ), mais elle repose sur une hypothèse cruciale: les données représentent avec précision la véritable population.

Cette hypothèse, bien que simple par nature, peut être difficile à vérifier, en particulier dans le contexte de petits échantillons (il se pourrait qu'un petit échantillon soit un reflet fidèle de la vraie population!). Si l'échantillon d'origine sur lequel la distribution de bootstrap (et donc tous les résultats qui en découlent) n'est pas suffisamment précis, vos résultats (et donc votre décision basée sur ces résultats) seront défectueux.

CONCLUSION: Il y a beaucoup d'ambiguïté avec le bootstrap et vous devez faire preuve de prudence avant de l'appliquer.

mmmmmmmmmm
la source
2
"Si l'échantillon d'origine sur lequel la distribution de bootstrap (et donc tous les résultats qui en découlent) n'est pas suffisamment précis, alors vos résultats (et donc votre décision basée sur ces résultats) seront défectueux." -> mais le bootstrap CI fonctionne-t-il moins bien que l'alternative analytique dans ces cas?
jona
3
L'hypothèse selon laquelle les données représentent adéquatement la population n'est pas exclusive au seul amorçage: elle concerne les statistiques en général, donc si les données sont inadéquates, alors toutes les inférences, inférences de bootstrap ou autres, qui ont été faites sont trompeuses (une fausse hypothèse implique conclusion!).
mmmmmmmmmm
4
Donc, cette mise en garde ne vise pas le bootstrap, mais l'inférence, et n'est pas un argument contre l'utilisation du bootstrap sur une autre méthode, mais sur la confiance absolue dans les méthodes faillibles. Je ne vois donc pas comment cela est pertinent dans ce contexte.
jona
Désolé, un peu de retard sur ce sujet .... @ jona: cela ne serait-il pas pertinent car le bootstrapping amplifierait encore l'échantillon? Donc, si votre échantillon est une fausse représentation malheureuse de la population, alors utiliser le bootstrap vous éloignerait encore plus du centre de population? N'est-ce pas là un argument potentiel contre le recours systématique au bootstrap?
sisdog