Estimation de marche aléatoire avec AR (1)

Lorsque j'estime une marche aléatoire avec un AR (1), le coefficient est très proche de 1 mais toujours inférieur.

Quelle est la raison mathématique pour laquelle le coefficient n'est pas supérieur à un?

regression autoregressive random-walk Marco
la source

J'ai essayé avec la boîte à outils Matlab et aussi avec mon script sur arima (où le coefficient est limité à [-10,10] et le résultat est le même). J'essaye avec un simple OLS et le résultat est le même.

Marco

L'estimation est biaisée à la baisse, nous devons lire l'article de Dickey et Fuller.

Marco

Réponses:

Nous estimons par OLS le modèle

X_{t} = ρ X_{t - 1} + u_{t}, E (u_{t} ∣ {X_{t - 1}, X_{t - 2}, . . .}) = 0, X_{0} = 0

$x_{t} = \rho x_{t-1} + u_t,\;\; E(u_t \mid \{x_{t-1}, x_{t-2},...\}) =0,\;x_0 =0$

Pour un échantillon de taille T, l'estimateur est

\hat{ρ} = \frac{\sum_{t = 1}^{T} X_{t} X_{t - 1}}{\sum_{t = 1}^{T} X_{t - 1}^{2}} = ρ + \frac{\sum_{t = 1}^{T} u_{t} X_{t - 1}}{\sum_{t = 1}^{T} X_{t - 1}^{2}}

$\hat \rho = \frac {\sum_{t=1}^T x_{t}x_{t-1}}{\sum_{t=1}^T x_{t-1}^2} = \rho + \frac {\sum_{t=1}^T u_tx_{t-1}}{\sum_{t=1}^T x_{t-1}^2}$

Si le véritable mécanisme de génération de données est une marche aléatoire pure, alors , et $\rho=1$

X_{t} = X_{t - 1} + u_{t} ⟹ X_{t} = \sum_{je = 1}^{t} u_{je}

$x_{t} = x_{t-1} + u_t \implies x_t= \sum_{i=1}^t u_i$

La distribution d'échantillonnage de l'estimateur OLS, ou de manière équivalente, la distribution d'échantillonnage de , n'est pas symétrique autour de zéro, mais est plutôt biaisée à gauche de zéro, avec % des valeurs obtenues (c'est-à-dire masse de probabilité ) étant négative, et donc nous obtenons le plus souvent . Voici une distribution de fréquence relative $\hat \rho - 1$ $\approx 68$ $\approx$ $\hat \rho < 1$

entrez la description de l'image ici

\begin{aligned} Signifier: - 0,0017773 \\ Médian: - 0,00085984 \\ Le minimum: - 0,042875 \\ Maximum: 0,0052173 \\ Écart-type: 0,0031625 \\ Asymétrie: - 2,2568 \\ Ex. kurtosis: 8.3017 \end{aligned}

$\begin{align} \text{Mean:} -0.0017773\\ \text{Median:} -0.00085984\\ \text{Minimum: } -0.042875\\ \text{Maximum: } 0.0052173\\ \text{Standard deviation: } 0.0031625\\ \text{Skewness: } -2.2568\\ \text{Ex. kurtosis: } 8.3017\\ \end{align}$

On l'appelle parfois la distribution "Dickey-Fuller", car elle est la base des valeurs critiques utilisées pour effectuer les tests Unit-Root du même nom.

Je ne me souviens pas avoir vu une tentative de fournir une intuition pour la forme de la distribution d'échantillonnage. Nous examinons la distribution d'échantillonnage de la variable aléatoire

\hat{ρ} - 1 = (\sum_{t = 1}^{T} u_{t} X_{t - 1}) \cdot (\frac{1}{\sum_{t = 1}^{T} X_{t - 1}^{2}})

$\hat \rho - 1 = \left(\sum_{t=1}^T u_tx_{t-1}\right)\cdot \left(\frac {1}{\sum_{t=1}^T x_{t-1}^2}\right)$

Si est Standard Normal, alors la première composante de est la somme des distributions Product-Normal non indépendantes (ou "Normal-Product"). La deuxième composante de est l'inverse de la somme des distributions Gamma non indépendantes (khi-deux à l'échelle d'un degré de liberté, en fait). $u_t$ $\hat \rho - 1$ $\hat \rho - 1$

Nous n'avons pas non plus de résultats analytiques, alors simulons (pour un échantillon de ). $T=5$

Si nous additionnons des normales de produit indépendantes, nous obtenons une distribution qui reste symétrique autour de zéro. Par exemple:

entrez la description de l'image ici

Mais si nous additionnons les normales de produit non indépendantes comme dans notre cas, nous obtenons

entrez la description de l'image ici

qui est asymétrique vers la droite mais avec plus de masse de probabilité attribuée aux valeurs négatives. Et la masse semble être poussée encore plus vers la gauche si nous augmentons la taille de l'échantillon et ajoutons plus d'éléments corrélés à la somme.

L'inverse de la somme des Gammas non indépendants est une variable aléatoire non négative avec un biais positif.

Ensuite, nous pouvons imaginer que, si nous prenons le produit de ces deux variables aléatoires, la masse de probabilité relativement plus grande dans l'orthant négatif de la première, combinée avec les valeurs positives uniquement qui se produisent dans la seconde (et l'asymétrie positive qui peut ajouter un tiret de valeurs négatives plus grandes), créez le biais négatif qui caractérise la distribution de . $\hat \rho -1$

Alecos Papadopoulos
la source

Wow, belle analyse! Pourriez-vous indiquer laquelle des hypothèses OLS standard est violée ici?

Richard Hardy

@RichardHardy Merci. Je reviendrai plus tard pour répondre à votre commentaire.

Alecos Papadopoulos

Je suis toujours curieux des hypothèses OLS ... Merci d'avance!

Richard Hardy

X_{t + 1} = α X_{t} + ϵ

$X_{t+1} = \alpha X_t + \epsilon$

X_{t + 1} - X_{t}

$X_{t+1} - X_t$

\hat{ρ} < 1

$\hat \rho<1$

\hat{ρ} - 1

$\hat \rho-1$

Ce n'est pas vraiment une réponse mais trop long pour un commentaire, donc je poste ça quand même.

J'ai pu obtenir un coefficient supérieur à 1 deux fois sur cent pour un échantillon de 100 (en utilisant "R"):

N=100                   # number of trials
T=100                   # length of time series
coef=c()
for(i in 1:N){
 set.seed(i)
 x=rnorm(T)             # generate T realizations of a standard normal variable
 y=cumsum(x)            # cumulative sum of x produces a random walk y
 lm1=lm(y[-1]~y[-T])    # regress y on its own first lag, with intercept
 coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1

Les réalisations 84 et 95 ont un coefficient supérieur à 1, il n'est donc pas toujours inférieur à un. Cependant, la tendance est clairement d'avoir une estimation biaisée à la baisse. Les questions demeurent, pourquoi ?

Edit: les régressions ci-dessus incluaient un terme d'interception qui ne semble pas appartenir au modèle. Une fois l'interception supprimée, j'obtiens beaucoup plus d'estimations au-dessus de 1 (3158 sur 10000) - mais cela reste clairement inférieur à 50% de tous les cas:

N=10000                 # number of trials
T=100                   # length of time series
coef=c()
for(i in 1:N){
 set.seed(i)
 x=rnorm(T)             # generate T realizations of a standard normal variable
 y=cumsum(x)            # cumulative sum of x produces a random walk y
 lm1=lm(y[-1]~-1+y[-T]) # regress y on its own first lag, without intercept
 coef[i]=as.numeric(lm1$coef[1])
}
length(which(coef<1))/N # the proportion of estimated coefficients below 1

Richard Hardy
la source

exactement, pas "toujours" mineur mais dans la majorité des cas. C'est évidemment un résultat fallacieux. pourquoi la raison?

Marco

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$