Pouvons-nous utiliser des échantillons bootstrap plus petits que l'échantillon d'origine?

Je veux utiliser le bootstrap pour estimer les intervalles de confiance pour les paramètres estimés à partir d'un ensemble de données de panel avec N = 250 entreprises et T = 50 mois. L'estimation des paramètres est coûteuse en calcul (quelques jours de calcul) en raison de l'utilisation du filtrage de Kalman et de l'estimation non linéaire complexe. Par conséquent, le prélèvement (avec remplacement) d'échantillons B (en centaines ou plus) de M = N = 250 entreprises à partir de l'échantillon d'origine et l'estimation des paramètres B fois est impossible à calculer, même s'il s'agit de la méthode de base pour le bootstrap.

J'envisage donc d'utiliser un M plus petit (par exemple 10) pour les échantillons de bootstrap (plutôt que la pleine taille de N = 250), tiré au hasard avec remplacement par les entreprises d'origine, puis mettre à l'échelle la matrice de covariance estimée par bootstrap des paramètres du modèle avec (dans l'exemple ci-dessus par 1/25) pour calculer la matrice de covariance pour les paramètres du modèle estimés sur l'échantillon complet. $\frac{1}{\frac{N}{M}}$

Les intervalles de confiance souhaités peuvent ensuite être estimés sur la base d'une hypothèse de normalité ou empiriques pour un échantillon plus petit mis à l'échelle à l'aide d'une procédure similaire (par exemple, réduit à l'aide d'un facteur de . $\frac{1}{\sqrt{\frac{N}{M}}}$

Cette solution de contournement est-elle logique? Y a-t-il des résultats théoriques pour justifier cela? Des alternatives pour relever ce défi?

confidence-interval bootstrap nonlinear-regression kalman-filter Hazhir
la source

Réponses:

Cette question a été posée il y a longtemps, mais je poste une réponse au cas où quelqu'un la découvrirait à l'avenir. En bref, la réponse est oui: vous pouvez le faire dans de nombreux paramètres et vous êtes justifié de corriger le changement de taille d'échantillon par le . Cette approche est généralement appelée boostrap sur , et elle fonctionne dans la plupart des paramètres que le bootstrap `` traditionnel '' fait, ainsi que dans certains paramètres dans lesquels elle ne fonctionne pas. $\sqrt{\frac{M}{N}}$ $M$ $N$

La raison en est que de nombreux arguments de cohérence bootstrap utilisent des estimateurs de la forme , où sont des variables aléatoires et est un paramètre de la distribution sous-jacente. Par exemple, pour la moyenne de l'échantillon, et . $\frac{1}{\sqrt{N}} (T_N - \mu)$ $X_1, \ldots, X_N$ $\mu$ $T_N = \frac{1}{N} \sum_{i=1}^N X_i$ $\mu = \mathbb{E}(X_1)$

De nombreuses preuves de cohérence bootstrap soutiennent que, comme , étant donné un échantillon fini et une estimation ponctuelle associée , où les sont tirés de la vraie distribution sous-jacente et les sont dessinés en remplacement de . $N \to \infty$ $\{x_1, \ldots, x_N\}$ $\hat{\mu}_N = T_N(x_1, \ldots, x_N)$

\begin{matrix} (1) & \sqrt{N} (T_{N} (X_{1}^{*}, \dots, X_{N}^{*}) - {\hat{μ}}_{N}) \overset{D}{\to} \sqrt{N} (T_{N} (X_{1}, \dots, X_{N}) - μ) \end{matrix}

$\sqrt{N}(T_N(X_1^*, \ldots, X_N^*) - \hat{\mu}_N) \overset{D}{\to} \sqrt{N}(T_N(X_1, \ldots, X_N) - \mu) \tag{1} \label{convergence}$

X_{i}

$X_i$

X_{i}^{*}

$X_i^*$

{x_{1}, \dots, x_{N}}

$\{x_1, \ldots, x_N\}$

Cependant, nous pourrions également utiliser des échantillons plus courts de longueur et considérer l'estimateur Il s'avère que, comme , l'estimateur ( ) a la même distribution limite que ci-dessus dans la plupart des paramètres où ( ) détient et certains où il ne le fait pas. Dans ce cas, ( ) et ( ) ont la même distribution limite, motivant le facteur de correction par exemple l'écart type de l'échantillon. $M < N$

\begin{matrix} (2) & \sqrt{M} (T_{M} (X_{1}^{*}, \dots, X_{M}^{*}) - {\hat{μ}}_{N}) . \end{matrix}

$\sqrt{M}(T_M(X_1^*, \ldots, X_M^*) - \hat{\mu}_N). \tag{2} \label{m_out_of_n}$

M, N \to \infty

$M, N \to \infty$

2

$\ref{m_out_of_n}$

1

$\ref{convergence}$

1

$\ref{convergence}$

2

$\ref{m_out_of_n}$

\sqrt{\frac{M}{N}}

$\sqrt{\frac{M}{N}}$

Ces arguments sont tous asymptotiques et ne tiennent que dans la limite . Pour que cela fonctionne, il est important de ne pas choisir trop petit. Il y a une théorie (par exemple Bickel et Sakov ci-dessous) sur la façon de choisir le optimal en fonction de pour obtenir les meilleurs résultats théoriques, mais dans votre cas, les ressources de calcul peuvent être le facteur décisif. $M, N \to \infty$ $M$ $M$ $N$

Pour une certaine intuition: dans de nombreux cas, nous avons comme , de sorte que peut être considéré un peu comme un sur bootstrap avec et (j'utilise des minuscules pour éviter toute confusion de notation ). De cette façon, émuler la distribution de ( ) en utilisant un bootstrap sur avec est une chose plus `` juste '' à faire que la traditionnelle ( sur $\hat{\mu}_N \overset{D}{\to} \mu$ $N \to \infty$

\begin{matrix} (3) & \sqrt{N} (T_{N} (X_{1}, \dots, X_{N}) - μ), \end{matrix}

$\sqrt{N}(T_N(X_1, \ldots, X_N) - \mu), \tag{3} \label{m_out_of_n_intuition}$

m

$m$

n

$n$

m = N

$m=N$

n = \infty

$n = \infty$

3

$\ref{m_out_of_n_intuition}$

M

$M$

N

$N$

M < N

$M < N$

N

$N$

N

$N$ ) gentil. Un avantage supplémentaire dans votre cas est qu'il est moins coûteux à calculer.

Comme vous le mentionnez, Politis et Romano est le principal document. Je trouve Bickel et al (1997) ci-dessous un bon aperçu du bootstrap sur également. $M$ $N$

Sources :

PJ Bickel, F Goetze, WR van Zwet. 1997. Rééchantillonnage de moins de observations: gains, pertes et remèdes aux pertes. Statistica Sinica. $n$

PJ Bickel, un Sakov. 2008. Sur le choix de dans le ouf de bootstrap et les bornes de confiance pour les extrema. Statistica Sinica. $m$ $m$ $n$

aph416
la source

Après avoir lu plus sur le sujet, il semble qu'il existe une théorie établie sous le "sous-échantillonnage" permettant de faire ce type d'estimation d'intervalle de confiance. La référence clé est "Politis, DN; Romano, JP (1994). Grandes régions de confiance des échantillons basées sur des sous-échantillons sous des hypothèses minimales. Annals of Statistics, 22, 2031-2050."

L'idée est de prélever des échantillons de taille M <N, "sans remplacement" pour chaque échantillon (mais avec remplacement sur différents échantillons de taille B), à partir des N points de données initiaux (série dans mon cas), et d'estimer l'intervalle de confiance de paramètre d'intérêt à l'aide de ces échantillons et de la méthode de bootstrap commune. Échelle ensuite l'intervalle de confiance en fonction du taux de variation de la variance de la distribution sous-jacente du paramètre avec les changements de M. Ce taux est de 1 / M dans de nombreux paramètres courants, mais pourrait être estimé empiriquement si nous répétons la procédure avec quelques M différents valeurs et examiner les changements dans la taille des plages inter-centiles.

Hazhir
la source