La vraisemblance logarithmique dans GLM a-t-elle garanti la convergence vers les maxima mondiaux?

16

Mes questions sont:

  1. Les modèles linéaires généralisés (GLM) convergent-ils vers un maximum global? Si oui, pourquoi?
  2. De plus, quelles contraintes y a-t-il sur la fonction de liaison pour assurer la convexité?

Ma compréhension des GLM est qu'ils maximisent une fonction de vraisemblance hautement non linéaire. Ainsi, j'imagine qu'il existe plusieurs maxima locaux et l'ensemble de paramètres vers lequel vous convergez dépend des conditions initiales de l'algorithme d'optimisation. Cependant, après avoir fait quelques recherches, je n'ai trouvé aucune source unique qui indique qu'il existe plusieurs maxima locaux. De plus, je ne connais pas très bien les techniques d'optimisation, mais je sais que la méthode de Newton-Raphson et l'algorithme IRLS sont très sujets aux maxima locaux.

Veuillez expliquer si possible à la fois sur une base intuitive et mathématique!

EDIT: dksahuji a répondu à ma question d'origine, mais je veux ajouter la question de suivi [ 2 ] ci-dessus. ("Quelles sont les contraintes sur la fonction de liaison pour assurer la convexité?")

DankMasterDan
la source
Je pense que certaines restrictions doivent être exigées avant qu'il en soit ainsi. Quelle est la source de la déclaration?
Glen_b -Reinstate Monica
Plusieurs sites semblaient l'impliquer, mais je n'ai rien trouvé qui le mentionnait carrément, donc je salue également sa dépréciation!
DankMasterDan
tant que la probabilité est bien définie partout sur le domaine (et en ignorant certaines questions numériques tangentielles), je pense que oui. Dans ces conditions, la toile de jute est <0 partout sur le domaine donc la similitude est globalement concave. En fait, les fonctions ne sont pas «hautement non linéaires» dans les paramètres et c'est ce qui compte.
user603
@ user603 quelle est votre source / preuve que la toile de jute est <0 partout?
DankMasterDan
Les régressions logistiques, de Poisson et gaussiennes sont souvent convexes étant donné une "bonne" fonction de liaison. Cependant, avec la fonction de lien arbitraire, ils ne sont pas convexes.
Memming

Réponses:

11

La définition de la famille exponentielle est:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

est la fonction de partition de journal. Maintenant, on peut prouver que les trois choses suivantes s'appliquent au cas 1D (et qu'elles se généralisent à des dimensions plus élevées - vous pouvez examiner les propriétés des familles exponentielles ou la partition de journal):A(θ)

  1. UNEθ=E[ϕ(X)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

Le résultat ci-dessus prouve que est convexe (car c o v ( ϕ ( x ) ) est semi-défini positif). Maintenant, nous examinons la fonction de vraisemblance pour MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

Maintenant est linéaire en thêta et - A ( θ ) est concave. Par conséquent, il existe un maximum global unique.θT[ϕ(D)]A(θ)

Il existe une version généralisée appelée famille exponentielle courbe qui serait également similaire. Mais la plupart des preuves sont sous forme canonique.

dksahuji
la source
cela signifie-t-il donc que GLM a un nomatter minima global unique dont la fonction de liaison est choisie (y compris les fonctions non canoniques)?
DankMasterDan
1
J'essaierai de répondre pour autant que je le pense. p(X|θ)=h(X)eXp(η(θ)Tϕ(X)-UNE(η(θ)))c'est le cas dont vous parlez. C'est encore concave dansη mais peut ne pas être θ donc η devrait être tel que toute la probabilité de journal est concave dans θ.
dksahuji
Notez que la question porte sur la convergence, plutôt que sur l'existence, mais avec quelques restrictions, cela aussi peut être faisable.
Glen_b -Reinstate Monica
@Glen_b Pouvez-vous élaborer? Je ne connais pas de telles restrictions. Peut-être quelque chose comme des restrictions sur la taille des pas dans un optimiseur basé sur un gradient vers la convergence de la garantie en cas de fonction concave.
dksahuji
1
@Glen_b Cela pourrait être vrai en général, mais je ne vois aucune raison pour que la fonction concave ne converge pas vers les optima dans une petite valeur tolérable. Mais je dirais que je n'ai aucune expérience pratique avec ceux-ci et je viens de commencer. :)
dksahuji