Mes questions sont:
- Les modèles linéaires généralisés (GLM) convergent-ils vers un maximum global? Si oui, pourquoi?
- De plus, quelles contraintes y a-t-il sur la fonction de liaison pour assurer la convexité?
Ma compréhension des GLM est qu'ils maximisent une fonction de vraisemblance hautement non linéaire. Ainsi, j'imagine qu'il existe plusieurs maxima locaux et l'ensemble de paramètres vers lequel vous convergez dépend des conditions initiales de l'algorithme d'optimisation. Cependant, après avoir fait quelques recherches, je n'ai trouvé aucune source unique qui indique qu'il existe plusieurs maxima locaux. De plus, je ne connais pas très bien les techniques d'optimisation, mais je sais que la méthode de Newton-Raphson et l'algorithme IRLS sont très sujets aux maxima locaux.
Veuillez expliquer si possible à la fois sur une base intuitive et mathématique!
EDIT: dksahuji a répondu à ma question d'origine, mais je veux ajouter la question de suivi [ 2 ] ci-dessus. ("Quelles sont les contraintes sur la fonction de liaison pour assurer la convexité?")
Réponses:
La définition de la famille exponentielle est:
où est la fonction de partition de journal. Maintenant, on peut prouver que les trois choses suivantes s'appliquent au cas 1D (et qu'elles se généralisent à des dimensions plus élevées - vous pouvez examiner les propriétés des familles exponentielles ou la partition de journal):A(θ)
Le résultat ci-dessus prouve que est convexe (car c o v ( ϕ ( x ) ) est semi-défini positif). Maintenant, nous examinons la fonction de vraisemblance pour MLE:A(θ) cov(ϕ(x))
Maintenant est linéaire en thêta et - A ( θ ) est concave. Par conséquent, il existe un maximum global unique.θT[ϕ(D)] −A(θ)
Il existe une version généralisée appelée famille exponentielle courbe qui serait également similaire. Mais la plupart des preuves sont sous forme canonique.
la source