La Hesse empirique d'un estimateur M peut-elle être indéfinie?

15

Jeffrey Wooldridge, dans son analyse économétrique des données de sections et de panels (page 357), dit que la Hesse empirique "n'est pas garantie d'être définie positive, ou même semi-définie positive, pour l'échantillon particulier avec lequel nous travaillons.".

Cela me semble faux car (à part les problèmes numériques), la Hesse doit être semi-définie positive en raison de la définition de l'estimateur M comme valeur du paramètre qui minimise la fonction objective pour l'échantillon donné et du fait bien connu que au minimum (local), la Hesse est semi-définie positive.

Mon argument est-il juste?

[EDIT: La déclaration a été supprimée dans la 2e éd. du livre. Voir commentaire.]

CONTEXTE Supposons que est un estimateur obtenu en minimisant où désigne la ème observation.θ^N

1Ni=1Nq(wi,θ),
wii

Notons la Hesse de par , qH

H(q,θ)ij=2qθiθj

La covariance asymptotique de implique où est la vraie valeur du paramètre. Une façon de l’estimer consiste à utiliser la Hesse empiriqueθ^nE[H(q,θ0)]θ0

H^=1Nje=1NH(wje,θ^n)

C'est le caractère définitif de qui est en cause.H^

Jyotirmoy Bhattacharya
la source
1
@Jyotirmoy, que se passe-t-il si le minimum se produit à la limite de votre espace de paramètres?
cardinal
@cardinal. Vous avez raison, mon argument ne fonctionnera pas dans ce cas. Mais Wooldridge envisage le cas où le minimum est à l'intérieur. N'est-il pas mal dans ce cas?
Jyotirmoy Bhattacharya
@Jyotirmoy, il ne peut certainement être que semi-défini positif. Pensez à des fonctions linéaires ou à une fonction où l'ensemble des points minimaux forme un polytope convexe. Pour un exemple plus simple, considérons tout polynôme à . f(x)=x2nx=0
Cardinal
1
@cardinal. Vrai. Ce qui me préoccupe, c'est l'expression "même semi-définie positive" dans la déclaration citée.
Jyotirmoy Bhattacharya
@Jyotirmoy, existe-t-il une forme spécifique d'estimateur M donnée dans le livre que vous pourriez fournir? Donnez également l'espace des paramètres considéré. Peut-être que nous pourrons alors comprendre ce que l'auteur avait en tête. En général, je pense que nous avons déjà établi que l'affirmation de l'auteur est correcte. Placer des contraintes supplémentaires sur la forme de ou l'espace de paramètres considéré pourrait changer cela. q
cardinal

Réponses:

16

Je pense que tu as raison. Distillons votre argumentation à son essence:

  1. QQ(θ)=1θ^N minimise la fonction définie commeQQ(θ)=1Ni=1Nq(wi,θ).

  2. Soit la Hesse de , d'où par définition et ceci à son tour, par linéarité de différenciation, est égal à .Q H ( θ ) = 2 QHQ 1H(θ)=2Qθiθj1Ni=1NH(wi,θn)

  3. En supposant que se trouve à l'intérieur du domaine de , alors doit être semi-défini positif.QH( θ N)θ^NQH(θ^N)

Ceci est simplement une déclaration sur la fonction : comment il est défini est simplement une distraction, sauf dans la mesure où le supposé second ordre différentiabilité de par rapport à son second argument ( ) assure second ordre différentiabilité de .q θ QQqθQ


Trouver des estimateurs M peut être délicat. Considérez ces données fournies par @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

La procédure R pour trouver l'estimateur M avec produit la solution = . La valeur de la fonction objectif (la moyenne des ) à ce point est égale à 62,3542. Voici un tracé de l'ajustement: ( c 1 , c 2 ) ( - 114,91316 , - 32,54386 ) qq((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Fit 1

Voici un tracé de la fonction objectif (log) dans un voisinage de cet ajustement:

Objectif 1

Quelque chose est louche ici: les paramètres de l'ajustement sont extrêmement éloignés des paramètres utilisés pour simuler les données (près de ) et nous ne semblons pas être au minimum: nous sommes dans une vallée extrêmement peu profonde qui est en pente vers des valeurs plus élevées des deux paramètres:(0.3,0.2)

Objectif 1, vue 3D

Le déterminant négatif de la Hesse à ce stade confirme que ce n'est pas un minimum local! Néanmoins, lorsque vous examinez les étiquettes de l'axe z, vous pouvez voir que cette fonction est plate à une précision à cinq chiffres dans toute la région, car elle est égale à une constante 4,1232 (le logarithme de 62,354). Cela a probablement conduit le minimiseur de la fonction R (avec ses tolérances par défaut) à conclure qu'il était proche d'un minimum.

En fait, la solution est loin de ce point. Pour être sûr de le trouver, j'ai utilisé la méthode " Axe principal ", coûteuse en calcul mais très efficace, dans Mathematica , en utilisant une précision à 50 chiffres (base 10) pour éviter d'éventuels problèmes numériques. Il trouve un minimum près de où la fonction objectif a la valeur 58,292655: environ 6% plus petit que le "minimum" trouvé par R. Ce minimum se produit dans une section extrêmement plate, mais Je peux le faire ressembler (à peine) à un vrai minimum, avec des contours elliptiques, en exagérant la direction dans l'intrigue:(c1,c2)=(0.02506,7.55973)c2

Objectif 2

Les contours vont de 58,29266 au milieu jusqu'à 58,29284 dans les coins (!). Voici la vue 3D (encore une fois de l'objectif du journal):

Objectif 2, vue 3D

Ici, la Hesse est définie positivement: ses valeurs propres sont 55062.02 et 0.430978. Ainsi , ce point est un minimum local (et probablement un minimum global). Voici l'ajustement auquel il correspond:

Fit 2

Je pense que c'est mieux que l'autre. Les valeurs des paramètres sont certainement plus réalistes et il est clair que nous ne pourrons pas faire beaucoup mieux avec cette famille de courbes.

Il y a des leçons utiles que nous pouvons tirer de cet exemple:

  1. L'optimisation numérique peut être difficile, en particulier avec les fonctions d'ajustement non linéaire et de perte non quadratique. Donc:
  2. Vérifiez les résultats de la manière la plus large possible, notamment:
  3. Représentez graphiquement la fonction objectif chaque fois que vous le pouvez.
  4. Lorsque les résultats numériques semblent violer les théorèmes mathématiques, soyez extrêmement méfiant.
  5. Lorsque les résultats statistiques sont surprenants - tels que les valeurs de paramètres surprenantes renvoyées par le code R - soyez extrêmement suspect.
whuber
la source
+1, belle analyse. Je pense que c'est pourquoi Wooldridge a inclus la remarque. Je pense toujours qu'il est possible de penser à un exemple où la toile de jute sera indéfinie. Par exemple, restreindre artificiellement l'espace des paramètres. Dans cet exemple, l'espace des paramètres est un plan entier, c'est pourquoi le minimum local donnera une toile de jute semi-positive. Je pense que le moment est venu d'écrire un bel e-mail à Wooldridge pour avoir son avis sur la question :)
mpiktas
@mpiktas Oui, je suis sûr qu'il existe des problèmes où un minimum global intérieur a une Hesse indéfinie, mais où tous les paramètres sont identifiables. Mais il n'est tout simplement pas possible que la Hesse à un minimum global intérieur suffisamment lisse soit indéfinie. Ce genre de chose a été prouvé à maintes reprises, comme dans la topologie de Milnor d'un point de vue différenciable . Je soupçonne Wooldridge d'avoir été induit en erreur par des "solutions" numériques errantes. (Les fautes de frappe sur la page citée suggèrent qu'elle a été écrite à la hâte, au fait.)
whuber
même à la frontière, la toile de jute sera positive? Je vais consulter le livre, je vois que je manque vraiment de connaissances approfondies dans ce domaine. Les théorèmes classiques sont très simples, j'ai donc supposé qu'il ne devrait pas y avoir autre chose de très compliqué. C'est peut-être l'une des raisons pour lesquelles j'ai eu tant de mal à répondre à la question.
mpiktas
@mpiktas A la frontière, la Hesse ne sera même pas nécessairement définie . L'idée est la suivante: si la matrice dérivée jacobienne / hessienne / seconde est définie à un point critique, alors dans un voisinage la fonction agit comme la forme quadratique déterminée par cette matrice. Si la matrice a des valeurs propres positives et négatives, la fonction doit augmenter dans certaines directions et diminuer dans d'autres: il ne peut pas s'agir d'un extremum local. C'est ce qui inquiète @Jyotirmoy dans l'offre, qui semble contredire cette propriété de base.
whuber
Merci à vous et à @mpiktas pour la très belle analyse. J'aurais tendance à être d'accord avec vous pour dire que Wooldridge confond les difficultés numériques avec les propriétés théoriques de l'estimateur. Voyons s'il y a d'autres réponses.
Jyotirmoy Bhattacharya
7

La citation complète peut être trouvée ici . L'estimation θ N est la solution du problème de minimisation ( page 344 ):θ^N

minθΘN1i=1Nq(wi,θ)

Si la solution θ N est le point intérieur de Θ , la fonction objective est deux fois dérivable et le gradient de la fonction objectif est nul, alors Hessien de la fonction objective (qui est H ) est semi-définie positive.θ^NΘH^

Maintenant ce que Wooldridge dit que pour un échantillon donné, la Hesse empirique n'est pas garantie d'être positive définie ou même semi-définie positive. Cela est vrai, puisque Wooldridge n'exige pas que la fonction objective ait de belles propriétés, il exige qu'il existe une solution unique θ 0 pourN1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Plus loin dans son livre, Wooldridge donne des exemples d'estimations de la Hesse qui sont assurément définies numériquement positives. En pratique, le caractère définitif non positif de la Hesse devrait indiquer que la solution se trouve soit au point limite, soit que l'algorithme n'a pas réussi à trouver la solution. Ce qui est généralement une indication supplémentaire que le modèle ajusté peut être inapproprié pour des données données.

Voici l'exemple numérique. Je génère un problème de moindres carrés non linéaires:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyi

J'ai choisi la fonction objectif carré de la fonction objective des moindres carrés non linéaires habituelle:

q(w,θ)=(yc1xic2)4

Voici le code en R pour optimiser la fonction, son gradient et sa toile de jute.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Testez d'abord que le gradient et la toile de jute fonctionnent comme annoncé.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Le gradient est nul, mais la toile de jute n'est pas positive.

Remarque: Il s'agit de ma troisième tentative de réponse. J'espère que j'ai finalement réussi à donner des énoncés mathématiques précis, qui m'ont échappé dans les versions précédentes.

mpiktas
la source
wyXw=(X,y)y-m(X,θ)m(X,θ)
@mpiktas, je ne sais pas trop comment interpréter votre première phrase en raison de la formulation. Je peux voir deux façons, l'une que j'appellerais correcte et l'autre que je ne verrais pas. De plus, à strictement parler, je ne suis pas d'accord avec la deuxième phrase de votre premier paragraphe. Comme je l'ai montré ci-dessus, il est possible d'être au minimum local à l'intérieur de l'espace des paramètres sans que la Hesse ne soit définie positive.
Cardinal
wyXw=(X,y)
@cardinal, j'ai corrigé ma formulation. Maintenant ça devrait aller. Merci d'avoir signalé le problème.
mpiktas
@mptikas. Ni Wooldridge ni moi ne prétendons que la Hesse doit être définie positive partout. Mon affirmation est que pour un maximum intérieur, la Hesse empirique doit être semi-définie positive comme condition nécessaire d'une fonction lisse atteignant son maximum. Wooldridge semble dire quelque chose de différent.
Jyotirmoy Bhattacharya
3

La toile de jute est indéfinie à un point de selle. Il est possible que ce soit le seul point stationnaire à l'intérieur de l'espace des paramètres.

Mise à jour: laissez-moi développer. Supposons d'abord que la Hesse empirique existe partout.

θ^njeq(wje,)(1/N)jeH(wje,θ^n)θ^njeq(wje,)θ^n

argminθjeq(wje,θ)

0=jeq˙(wje,θ),
q˙q(w,θ)θΨ

Pratiquement parlant, même une Hesse définie positive qui est presque singulière ou mal conditionnée suggérerait que l'estimateur est mauvais et que vous avez plus à vous soucier que d'estimer sa variance.

vqv
la source
X2-y2
+1 Bons points dans la mise à jour, en particulier le dernier paragraphe. Lorsque la Hesse est disponible - comme cela est implicitement supposé tout au long de cette discussion - on utiliserait automatiquement son caractère positif comme l'un des critères pour tester tout point critique et donc cette question ne pourrait tout simplement pas se poser. Cela m'amène à croire que la citation de Wooldridge doit concerner la Hesse à un minimum global putatif, et non à un simple point critique.
whuber
1

Il y a eu beaucoup de tournées autour du pot dans ce fil pour savoir si la Hesse doit être positive (semi) définie au minimum local. Je ferai donc une déclaration claire à ce sujet.

ZZT(Hesse de Lagrangian)Z

Ainsi, la toile de jute de la fonction objectif dans un problème contraint ayant une ou des contraintes actives n'a pas besoin d'être semi-définie positive s'il y a des contraintes actives.

Remarques:

1) Les contraintes actives comprennent toutes les contraintes d'égalité, plus les contraintes d'inégalité qui sont satisfaites de l'égalité.

2) Voir la définition du lagrangien sur https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Si toutes les contraintes sont linéaires, alors la Hesse du Lagrangien = Hesse de la fonction objectif parce que les dérivées 2e des fonctions linéaires sont nulles. Mais vous devez toujours faire la projection jazz si l'une de ces contraintes est active. Notez que les contraintes de limite inférieure ou supérieure sont des cas particuliers de contraintes d'inégalité linéaire. Si les seules contraintes actives sont des contraintes liées, la projection du Hessien dans l'espace nul du Jacobien des contraintes actives revient à éliminer les lignes et les colonnes du Hessian correspondant à ces composants sur leurs bornes.

4) Parce que les multiplicateurs de Lagrange des contraintes inactives sont nuls, s'il n'y a pas de contraintes actives, le Hessien du Lagrangien = le Hessien de la fonction objectif, et la matrice d'identité est une base pour l'espace nul du Jacobien des contraintes actives, qui la simplification du critère étant la condition familière que la toile de jute de la fonction objectif soit semi-définie positive au minimum local (définie positive si strict minimum local).

Mark L. Stone
la source
0

Les réponses positives ci-dessus sont vraies mais elles laissent de côté l'hypothèse d'identification cruciale - si votre modèle n'est pas identifié (ou s'il n'est défini que comme identifié), vous pourriez en effet, comme Wooldridge l'a correctement indiqué, vous retrouver avec une Hesse empirique non PSD. Exécutez simplement un modèle psychométrique / économétrique non jouet et voyez par vous-même.

Vlad
la source
Parce que cela ne semble pas mathématiquement possible, pourriez-vous offrir un exemple simple et clair pour démontrer comment la toile de jute d'une fonction objective continuellement double-différenciable pourrait ne pas être PSD au minimum global?
whuber