Disons que j'ai un échantillon et l' échantillon de bootstrap de cet échantillon pour un stastitique (par exemple la moyenne). Comme nous le savons tous, cet échantillon bootstrap estime la distribution d'échantillonnage de l'estimateur de la statistique.
Maintenant, la moyenne de cet échantillon bootstrap est-elle une meilleure estimation de la statistique de la population que la statistique de l' échantillon d' origine ? Dans quelles conditions serait-ce le cas?
estimation
bootstrap
Amelio Vazquez-Reina
la source
la source
Réponses:
Généralisons, afin de nous concentrer sur le nœud du problème. J'exposerai les moindres détails afin de ne laisser aucun doute. L'analyse ne requiert que les éléments suivants:
La moyenne arithmétique d'un ensemble de nombres est définie comme étantz1, … , Zm
L'attente est un opérateur linéaire. Autrement dit, lorsque sont des variables aléatoires et sont des nombres, alors l'attente d'une combinaison linéaire est la combinaison linéaire des attentes,α iZje, i = 1 , … , m αje
Soit un échantillon obtenu à partir d'un ensemble de données en prenant éléments uniformément de avec remplacement. Soit soit la moyenne arithmétique de . Il s'agit d'une variable aléatoire. alors( B 1 , … , B k ) x = ( x 1 , … , x n ) k x m ( B ) BB ( B1, … , Bk) x = ( x1, … , Xn) k X m ( B ) B
suit par la linéarité de l'attente. Puisque les éléments de sont tous obtenus de la même façon, ils ont tous la même attente, b dit:B b
Cela simplifie ce qui précède pour
Par définition, l'attente est la somme des valeurs pondérées par la probabilité. Étant donné que chaque valeur de est supposée avoir une chance égale de 1 / n d'être sélectionnée,X 1 / n
la moyenne arithmétique des données.
Pour répondre à la question, si l'on utilise la moyenne des données pour estimer la moyenne de la population, alors la moyenne bootstrap (ce qui est le cas k = n ) est également égale à ˉ x , et est donc identique comme estimateur de la moyenne de la population.X¯ k = n X¯
Pour les statistiques qui ne sont pas des fonctions linéaires des données, le même résultat ne tient pas nécessairement. Cependant, il serait faux de simplement substituer la moyenne de bootstrap à la valeur de la statistique sur les données: ce n'est pas ainsi que fonctionne le bootstrap. Au lieu de cela, en comparant la moyenne de bootstrap à la statistique des données, nous obtenons des informations sur le biais de la statistique. Cela peut être utilisé pour ajuster la statistique d'origine pour supprimer le biais. Ainsi, l'estimation corrigée du biais devient ainsi une combinaison algébrique de la statistique d'origine et de la moyenne de bootstrap. Pour plus d'informations, recherchez «BCa» (bootstrap à correction de biais et accéléré) et «ABC». Wikipedia fournit quelques références.
la source
Puisque la distribution est défini comme bootstrap F n ( x ) = 1
la source