Fonctions d'influence et OLS

15

J'essaie de comprendre comment fonctionnent les fonctions d'influence. Quelqu'un pourrait-il expliquer dans le contexte d'une simple régression OLS

yje=α+βXje+εje

où je veux la fonction d'influence pour .β

stevejb
la source
2
Il n'y a pas encore de question spécifique ici: voulez-vous voir comment la fonction d'influence est calculée? Voulez-vous un exemple empirique spécifique? Une explication heuristique de ce que cela signifie?
whuber
1
Si vous recherchez l'article de Frank Critchley de 1986 "influence les fonctions dans les principaux composants" (je ne me souviens pas du nom exact de l'article). Il définit ici la fonction d'influence pour la régression ordinaire (qui peut ou non prouver ma réponse fausse).
probabilitéislogic

Réponses:

15

Les fonctions d'influence sont essentiellement un outil analytique qui peut être utilisé pour évaluer l'effet (ou "influence") de la suppression d'une observation sur la valeur d'une statistique sans avoir à recalculer cette statistique . Ils peuvent également être utilisés pour créer des estimations de variance asymptotique. Si l'influence est égale à variance asymptotique est .I 2II2n

La façon dont je comprends les fonctions d'influence est la suivante. Vous avez une sorte de CDF théorique, noté . Pour les OLS simples, vous avezFi(y)=Pr(Yi<yi)

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Où est le CDF normal standard, et est la variance d'erreur. Vous pouvez maintenant montrer que toute statistique sera une fonction de ce CDF, d'où la notation (c'est-à-dire une fonction de ). Supposons maintenant que nous modifions la fonction F d'un "petit peu", en F ( i ) ( z ) = ( 1 + ζ ) F ( z ) - ζ δ ( i )Φ(z)σ2S(F)FF δ i ( z ) = I ( y i < z ) et ζ = 1F(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) . AinsiF(i)représente le CDF des données avec le "ième" point de données supprimé. On peut faire une série taylor deF(i)(z)surζ=0. Cela donne:ζ=1n1F(i)F(i)(z)ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Notez que donc nous obtenons: S [ F ( i ) ( z , ζ ) ] S [ F ( z ) ] + ζ [ S [ F ( i ) ( z , ζ ) ]F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

La dérivée partielle est appelée ici la fonction d'influence. Cela représente donc une correction approximative de "premier ordre" à apporter à une statistique en raison de la suppression de la "ième" observation. Notez que dans la régression, le reste ne va pas à zéro de façon asymétrique, de sorte qu'il s'agit d'une approximation des changements que vous pouvez réellement obtenir. Maintenant écrivez comme:β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Ainsi, le bêta est fonction de deux statistiques: la variance de X et la covariance entre X et Y. Ces deux statistiques ont des représentations en termes de CDF comme:

et v a r ( X ) = ( X - μ x ( F ) ) 2 d F μ x = x d F

cov(X,Y)=(Xμx(F))(Yμy(F))dF
var(X)=(Xμx(F))2dF
μx=xdF

FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

ζ2

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

β(i)ζ

β(je)(ζ)Cov(X,Oui)-ζ[(Xje-μX)(yje-μy)-Cov(X,Oui)]Vuner(X)-ζ[(Xje-μX)2-Vuner(X)]

Nous pouvons maintenant utiliser la série Taylor:

β(je)(ζ)β(je)(0)+ζ[β(je)(ζ)ζ]ζ=0

Simplifier cela donne:

β(je)(ζ)β-ζ[(Xje-μX)(yje-μy)Vuner(X)-β(Xje-μX)2Vuner(X)]

μyμXvar(X)ζ=1n1

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

x~=xx¯sx

β(i)βxi~n1[yi~sysxxi~β]
probabilitéislogique
la source
Donc, l'histoire concerne l'influence d'un point de données supplémentaire? Je suis plus habitué à la réponse impulsionnelle pour les données de séries chronologiques, dans un contexte statistique, toute influence serait décrite par un effet marginal ou (meilleur choix) un coefficient bêta issu d'une régression standardisée. Eh bien, j'ai vraiment besoin de plus de contexte pour juger la question et la réponse, mais celle-ci est sympa, je pense (+1 pas encore mais en attente).
Dmitrij Celov
@dmitrij - C'est ce qui était implicite (ou ce que j'ai déduit) du lien - il s'agit des propriétés de robustesse d'une statistique. Les fonctions d'influence sont légèrement plus générales que 1 point de données - vous pouvez redéfinir la fonction delta pour en faire la somme (autant d'observations). Je dirais que c'est un "Jacknife pas cher" dans une certaine mesure - parce que vous n'avez pas besoin de réinstaller le modèle.
Probabilislogic
10

Voici une façon super générale de parler des fonctions d'influence d'une régression. Je vais d'abord aborder une façon de présenter les fonctions d'influence:

FΣFϵ(X)

Fϵ(X)=(1-ϵ)F+ϵδX
δXΣ{X}Σ

À partir de cela, nous pouvons définir la fonction d'influence assez facilement:

θ^Fψje:XΓ

ψθ^,F(X)=limϵ0θ^(Fϵ(X))-θ^(F)ϵ

θ^FδX

L'estimation OLS est une solution au problème:

θ^=argminθE[(Oui-Xθ)T(Oui-Xθ)]

(X,y)

θ^ϵ=argminθ(1-ϵ)E[(Oui-Xθ)T(Oui-Xθ)]+ϵ(y-Xθ)T(y-Xθ)

Prendre des conditions de première commande:

{(1-ϵ)E[XTX]+ϵXTX}θ^ϵ=(1-ϵ)E[XTOui]+ϵXTy

Puisque la fonction d'influence n'est qu'un dérivé de Gateaux, nous pouvons maintenant dire:

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

ϵ=0θ^ϵ=θ^=E[XTX]1E[XTY]

ψθ(x,y)=E[XTX]1xT(yxθ)

L'échantillon fini de cette fonction d'influence est:

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

En général, je trouve ce cadre (travailler avec des fonctions d'influence comme dérivées de Gateaux) plus facile à gérer.

jayk
la source