J'ai consulté de nombreuses questions sur ce site concernant l'amorçage et les intervalles de confiance, mais je suis toujours confus. Une partie de la raison de ma confusion tient probablement au fait que mes connaissances en statistiques ne sont pas suffisamment avancées pour comprendre un grand nombre de réponses. Je suis à mi-chemin d'un cours d'introduction aux statistiques et mon niveau en mathématiques ne concerne que le milieu de l'Algèbre II. Si l'une des personnes bien informées de ce site pouvait expliquer ce problème à mon niveau, ce serait extrêmement utile.
Nous apprenions en classe comment prendre des échantillons à l'aide de la méthode bootstrap et les utiliser pour créer un intervalle de confiance des statistiques que nous aimerions mesurer. Ainsi, par exemple, supposons que nous prenons un échantillon d’une grande population et trouvons que 40% d’entre eux déclarent qu’ils voteront pour le candidat A. Nous supposons que cet échantillon est un reflet fidèle de la population d’origine, auquel cas nous pouvons prendre des échantillons de découvrir quelque chose sur la population. Nous prenons donc des rééchantillons et trouvons (avec un niveau de confiance de 95%) que l’intervalle de confiance obtenu est compris entre 35% et 45%.
Ma question est la suivante: que signifie réellement cet intervalle de confiance ?
Je continue à lire qu'il y a une différence entre les intervalles de confiance (Frequentist) et les intervalles crédibles (Bayésiens). Si je comprends bien, un intervalle crédible dire qu'il ya une probabilité de 95% que la situation le vrai paramètre est dans l'intervalle donné (35% -45%), tandis qu'un intervalle de confiance dire qu'il ya 95% que ce type de situation (mais pas nécessairement dans notre cas en particulier), la méthode que nous utilisons indiquerait avec précision que le paramètre réel se situe dans l'intervalle donné.
En supposant que cette définition soit correcte, ma question est la suivante: quel est le "vrai paramètre" dont nous parlons lorsque nous utilisons des intervalles de confiance construits à l'aide de la méthode bootstrap? Parlons-nous (a) du paramètre réel de la population d'origine ou (b) du paramètre réel de l' échantillon ? Si (a), nous dirions alors que 95% du temps, la méthode bootstrap rapportera avec précision les affirmations vraies concernant la population d'origine. Mais comment pourrions-nous savoir cela? Toute la méthode bootstrap ne repose-t-elle pas sur l' hypothèseque l'échantillon initial reflète fidèlement la population à partir de laquelle il a été pris? Si (b), je ne comprends pas du tout la signification de l'intervalle de confiance. Ne connaissons-nous pas déjà le vrai paramètre de l'échantillon? C'est une mesure simple!
J'ai discuté de cela avec mon professeur et elle a été très utile. Mais je suis toujours confus.
la source
Ce que vous dites, c'est qu'il n'est pas nécessaire de trouver un intervalle de confiance à partir des rééchantillons initialisés. Si vous êtes satisfait de la statistique (moyenne ou proportion d'échantillon) obtenue à partir de rééchantillons bootstrapped, ne trouvez pas d'intervalle de confiance ni d'interprétation. Mais si vous n'êtes pas satisfait de la statistique obtenue à partir de rééchantillons bootstrapped ou que vous êtes satisfait, mais que vous souhaitez tout de même trouver l'intervalle de confiance, l'interprétation de cet intervalle de confiance est identique à celle de tout autre intervalle de confiance. C'est parce que lorsque vos ré-échantillons bootstrapés représentent exactement (ou sont supposés être ainsi) la population d'origine, alors où est le besoin d'intervalle de confiance? La statistique des rééchantillons initialisés est le paramètre de population d'origine lui-même, mais si vous ne la considérez pas comme le paramètre de population d'origine, vous devez rechercher l'intervalle de confiance. Donc, tout dépend de la façon dont vous considérez. Supposons que vous ayez calculé un intervalle de confiance de 95% à partir de rééchantillons initialisés. À présent, l'interprétation est la suivante: "95% du temps, cette méthode bootstrap donne précisément un intervalle de confiance contenant le paramètre de population réel".
(C'est ce que je pense. Corrigez-moi s'il y a des erreurs).
la source
Nous faisons référence au vrai paramètre de la population d'origine. Il est possible de faire cela en supposant que les données ont été tirées de manière aléatoire à partir de la population d'origine - dans ce cas, il existe des arguments mathématiques indiquant que les procédures de bootstrap donneront un intervalle de confiance valide, du moins à mesure que la taille de l'ensemble de données devient suffisamment grande. .
la source