Utilité du théorème de Frisch-Waugh

15

Je suis censé enseigner le théorème de Frish Waugh en économétrie, que je n'ai pas étudié.

J'ai compris les mathématiques et j'espère que l'idée aussi "le coefficient que vous obtenez pour un coefficient particulier à partir d'un modèle linéaire multiple est égal au coefficient du modèle de régression simple si vous" éliminez "l'influence des autres régresseurs". L'idée théorique est donc plutôt cool. (Si j'ai totalement mal compris, j'accueille favorablement une correction)

Mais a-t-il des usages classiques / pratiques?

EDIT : J'ai accepté une réponse, mais je suis toujours prêt à en avoir de nouvelles qui apporteront d'autres exemples / applications.

Anthony Martin
la source
4
Un plus évident serait d' ajouter des parcelles variables ?
Silverfish
1
L' introduction à l'économétrie de Dougherty mentionne un autre exemple d'utilisation du théorème de Frisch-Waugh-Lovell. Au début de l'analyse économétrique des séries chronologiques, il était assez courant dans les modèles où les variables avaient des tendances temporelles déterministes de les dissuader toutes avant de régresser. Mais par FWL, vous obtenez les mêmes coefficients simplement en incluant une tendance temporelle en tant que régresseur, et de plus cela donne les erreurs standard "correctes", car il reconnaît que 1 df a ainsi été consommé.
Silverfish
1
Dougherty met en garde contre la procédure, donc à cet égard ce n'est pas un bon exemple, même s'il est instructif. Les variables économiques semblent souvent être stationnaires sur les différences plutôt que stationnaires sur les tendances, de sorte que ce type de tentative de détournement ne fonctionne pas et peut entraîner des régressions parasites.
Silverfish
1
@Silverfish: FWL est une technique purement algébrique, donc la question de savoir si l'extraction d'une tendance déterministe est "correcte" étant donné le DGP sous-jacent est sans aucun doute importante, mais à mon humble avis sans rapport avec FWL, donc en ce sens, votre exemple est parfaitement valide pour Les PO s'interrogent sur les deux façons d'obtenir des estimations ponctuelles.
Christoph Hanck
2
J'ai exploité cette relation dans de nombreux articles, principalement à des fins conceptuelles et pour fournir des exemples intéressants de phénomènes de régression. Voir, entre autres , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 et stats.stackexchange.com/a/71257 .
whuber

Réponses:

14

Prenons le modèle de données du panneau d'effets fixes, également connu sous le nom de modèle des variables factices des moindres carrés (LSDV).

peut être calculé en appliquant directement OLS au modèle y = X β + D α + ϵ , D est unematrice N T × N de variables muettes et α représente les effets fixes spécifiques à chaque individu.bLSDV

y=Xβ+Dα+ϵ,
DNT×Nα

Une autre façon de calculer est d'appliquer la soi-disant transformation intra au modèle habituel afin d'en obtenir une version dégradée, c'est-à-dire M [ D ] y = M [ D ] X β + M [ D ] ϵ . Ici, M [ D ] = I - D ( D D ) - 1 D , la matrice maker résiduelle d'une régression surbLSDV

M[D]y=M[D]Xβ+M[D]ϵ.
M[D]=ID(DD)1D .D

Selon le théorème de Frisch-Waugh-Lovell, les deux sont équivalents, car FWL dit que vous pouvez calculer un sous-ensemble de coefficients de régression d'une régression (ici, ) parβ^

  1. régressant sur les autres régresseurs (ici, D ), sauvegardant les résidus (ici, le temps dégradé yyDy ou , car la régression sur une constante ne fait que rabaisser les variables), puisM[D]y
  2. régressant le sur DXD et sauvegarder les résidus , etM[D]X
  3. régressant les résidus les uns sur les autres, M[D]y sur .M[D]X

La deuxième version est beaucoup plus largement utilisée, car les ensembles de données de panneau typiques peuvent avoir des milliers d'unités de panneau , de sorte que la première approche vous obligerait à exécuter une régression avec des milliers de régresseurs, ce qui n'est pas une bonne idée numériquement, même de nos jours avec une vitesse rapide les ordinateurs, car le calcul de l'inverse de ( D : X ) ( D : X ) serait très coûteux, alors que y et X dégradant le temps sont peu coûteux.N(D:X)(D:X)yX

Christoph Hanck
la source
Merci beaucoup, c'est le genre de réponse que je cherchais, même si c'est un peu avancé pour moi de l'utiliser réellement. Donc, votre réponse me convient, mais je serais heureux si j'en ai d'autres, suis-je censé accepter la vôtre?
Anthony Martin
Si cela a aidé, il serait approprié de le faire. Mais l'acceptation réduira vos chances d'obtenir de meilleures réponses, vous pouvez donc envisager d'attendre avant d'accepter celle-ci. Une prime augmenterait encore vos chances d'obtenir plus de réponses - étant donné qu'il n'y a pas assez d'utilisateurs sur CV qui répondent régulièrement aux questions compte tenu du nombre de questions, même une seule réponse peut amener d'autres utilisateurs actifs à conclure que les questions ont été traitées. (J'ai
posté
7

Voici une version simplifiée de ma première réponse, qui je crois est moins pertinente en pratique, mais peut-être plus facile à "vendre" pour une utilisation en classe.

Les régressions et y i - ˉ y = K j = 2 β j ( x i j - ˉ x j ) + ˜ ϵ i donnent des valeurs identiques β j , j = 2 , ... ,

yi=β1+j=2Kβjxij+ϵi
yiy¯=j=2Kβj(xijx¯j)+ϵ~i
β^j . Cela peut être vu comme suit: prendre x 1j=2,,Kx1=1:=(1,,1)
M1=I1(11)11=I11n,
M1xj=xj1n11xj=xj1x¯j=:xjx¯j.
Hence, the residuals of a regression of variables on a constant, M1xj, are just the demeaned variables (the same logic of course applies to yi).
Christoph Hanck
la source
4

Here is another, more indirect, but I believe interesting one, namely the connection between different approaches to computing the partial autocorrelation coefficient of a stationary time series.

Definition 1

Consider the projection

Y^tμ=α1(m)(Yt1μ)+α2(m)(Yt2μ)++αm(m)(Ytmμ)
The mth partial autocorrelation equals αm(m).

It thus gives the influence of the mth lag on Yt \emph{after controlling for} Yt1,,Ytm+1. Contrast this with ρm, that gives the `raw' correlation of Yt and Ytm.

How do we find the αj(m)? Recall that a fundamental property of a regression of Zt on regressors Xt is that the coefficients are such that regressors and residuals are uncorrelated. In a population regression this condition is then stated in terms of population correlations. Then:

E[Xt(ZtXtα(m))]=0
Solving for α(m) we find the linear projection coefficients
α(m)=[E(XtXt)]1E[XtZt]
Applying this formula to Zt=Ytμ and
Xt=[(Yt1μ),(Yt2μ),,(Ytmμ)]
we have
E(XtXt)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)
Also,
E(XtZt)=(γ1γm)
Hence,
α(m)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)1(γ1γm)
The mth partial correlation then is the last element of the vector α(m).

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The mth partial correlation is the correlation of the prediction error of Yt+m predicted with Yt1,,Ytm+1 with the prediction error of Yt predicted with Yt1,,Ytm+1.

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

Christoph Hanck
la source