Je me demandais comment les CI d'amorçage (et BCa en barticulaire) fonctionnent sur les données normalement distribuées. Il semble y avoir beaucoup de travail examinant leurs performances sur différents types de distributions, mais n'a rien trouvé sur les données normalement distribuées. Comme il semble évident d'étudier d'abord, je suppose que les documents sont tout simplement trop vieux.
J'ai fait quelques simulations de Monte Carlo en utilisant le package de démarrage R et j'ai trouvé que les CI d'amorçage étaient en accord avec les CI exacts, bien que pour les petits échantillons (N <20), ils aient tendance à être un peu libéraux (petits CI). Pour les échantillons suffisamment grands, ils sont essentiellement les mêmes.
Cela me fait me demander s'il y a une bonne raison de ne pas toujours utiliser le bootstrap. Étant donné la difficulté d'évaluer si une distribution est normale et les nombreux écueils derrière cela, il semble raisonnable de ne pas décider et signaler les IC bootstrap quelle que soit la distribution. Je comprends la motivation de ne pas utiliser systématiquement les tests non paramétriques, car ils ont moins de puissance, mais mes simulations me disent que ce n'est pas le cas pour les CI bootstrap. Ils sont encore plus petits.
Une question similaire qui me dérange est pourquoi ne pas toujours utiliser la médiane comme mesure de la tendance centrale. Les gens recommandent souvent de l'utiliser pour caractériser des données non distribuées normalement, mais comme la médiane est la même que la moyenne des données distribuées normalement, pourquoi faire une distinction? Il semblerait tout à fait avantageux que nous puissions nous débarrasser des procédures permettant de décider si une distribution est normale ou non.
Je suis très curieux de savoir ce que vous pensez de ces questions et si elles ont déjà été discutées. Des références seraient très appréciées.
Merci!
Pierre
Réponses:
Il est avantageux d'examiner la motivation de l'intervalle BCa et ses mécanismes (c'est-à-dire les «facteurs de correction»). Les intervalles BCa sont l'un des aspects les plus importants du bootstrap car ils sont le cas plus général des intervalles de centile de bootstrap (c'est-à-dire l'intervalle de confiance basé uniquement sur la distribution du bootstrap elle-même).
En particulier, examinez la relation entre les intervalles BCa et les intervalles de percentile de bootstrap: lorsque l'ajustement pour l'accélération (le premier "facteur de correction") et l'asymétrie (le deuxième "facteur de correction") sont tous deux nuls, alors les intervalles BCa reviennent à l'intervalle de pourcentage d'amorçage Bootstrap typique.
Je ne pense pas que ce serait une bonne idée d'utiliser TOUJOURS le bootstrap. Le bootstrap est une technique robuste qui a une variété de mécanismes (ex: intervalles de confiance et il existe différentes variations du bootstrap pour différents types de problèmes tels que le bootstrap sauvage lorsqu'il y a hétéroscédasticité) pour ajuster pour différents problèmes (ex: non-normalité ), mais elle repose sur une hypothèse cruciale: les données représentent avec précision la véritable population.
Cette hypothèse, bien que simple par nature, peut être difficile à vérifier, en particulier dans le contexte de petits échantillons (il se pourrait qu'un petit échantillon soit un reflet fidèle de la vraie population!). Si l'échantillon d'origine sur lequel la distribution de bootstrap (et donc tous les résultats qui en découlent) n'est pas suffisamment précis, vos résultats (et donc votre décision basée sur ces résultats) seront défectueux.
CONCLUSION: Il y a beaucoup d'ambiguïté avec le bootstrap et vous devez faire preuve de prudence avant de l'appliquer.
la source