Pourquoi un GLM prédit-il la moyenne et non le mode d'un signal? Cela ne contredit-il pas le fondement même du GLM, c'est-à-dire le maximum de vraisemblance? Les équations à résoudre pour les paramètres du modèle dans un GLM sont basées sur la maximisation de la vraisemblance comme décrit par la distribution de probabilité du signal modélisé. Cette distribution de probabilité est maximale pour le mode et non pour la moyenne (la distribution normale est une exception: le mode et la moyenne sont identiques). Par conséquent, un GLM devrait prédire le mode , pas la moyenne d'un signal! (Pour plus d'informations sur cette question, voir ici .)
8
Réponses:
Le but de l'ajustement du maximum de vraisemblance est de déterminer les paramètres d'une distribution qui correspondent le mieux aux données - et plus généralement, comment ces paramètres peuvent varier avec les covariables. Dans le cas de GLM, nous voulons déterminer les paramètres d' une certaine répartition de la famille exponentielle, et la façon dont ils sont fonction de certains covariables .θ X
Pour toute distribution de probabilité dans la famille exponentielle sur-dispersée, la moyenne est garantie d'être liée au paramètre de la famille exponentielle canonique via la fonction de lien canonique, . Nous pouvons même déterminer une formule générale pour , et généralement est également inversible. Si nous définissons simplement et , nous obtenons automatiquement un modèle de variation de et avec , quelle que soit la distribution à laquelle nous avons affaire, et ce modèle peut êtreμ θ θ=g(μ) g g μ=g−1(θ) θ=Xβ μ θ X ajustement simple et fiable aux données par optimisation convexe . La réponse de Matt montre comment cela fonctionne pour la distribution de Bernoulli, mais la vraie magie est qu'elle fonctionne pour chaque distribution de la famille.
Le mode ne bénéficie pas de ces propriétés. En fait, comme le souligne Cliff AB, le mode peut même ne pas avoir de relation bijective avec le paramètre de distribution, donc l'inférence à partir du mode est d'une puissance très limitée. Prenons l'exemple de la distribution de Bernoulli. Son mode est soit 0 ou 1, et connaître le mode ne vous indique que si , la probabilité de 1, est supérieure ou inférieure à 1/2. En revanche, la moyenne vous indique exactement ce qu'est .p p
Maintenant, pour clarifier une certaine confusion dans la question: la probabilité maximale n'est pas de trouver le mode d'une distribution, parce que la probabilité n'est pas la même fonction que la distribution. La probabilité implique la distribution de votre modèle dans sa formule, mais c'est là que s'arrêtent les similitudes. La fonction de vraisemblance prend une valeur de paramètre en entrée et vous indique la "probabilité" de votre ensemble de données , étant donné que la distribution du modèle a cette . La distribution du modèle dépend de , mais en tant que fonction, elle prend une valeur en entrée et vous indique à quelle fréquence un échantillon aléatoire de cette distribution sera égalL(θ) θ θ fθ(y) θ y y . Le maximum de et le mode de ne sont pas la même chose.L(θ) fθ(y)
Peut-être que cela aide à voir la formule de la probabilité. Dans le cas des données IID , nous avons Les valeurs de sont toutes fixes - ce sont les valeurs à partir de vos données. La probabilité maximale est de trouver le qui maximise . Trouver le mode de distribution serait de trouver le qui maximise , ce qui n'est pas ce que nous voulons: est fixé dans la vraisemblance, pas une variable.y1,y2,…,yn
Donc, trouver le maximum de la fonction de vraisemblance n'est pas, en général, la même chose que trouver le mode de distribution du modèle. (C'est le mode d' une autre distribution, si vous demandez un objectif bayésien, mais c'est une histoire très différente!)
la source
Il y a deux choses à discuter ici:
Prenons l'exemple glm non trivial le plus simple, le modèle logistique. Dans la régression logistique, nous avons une réponse qui est de 0, 1 évaluée. Nous postulons que est bernoulli distribué conditionnellement à nos donnéesy y
Et nous essayons d'estimer la moyenne de cette distribution conditionnelle (qui dans ce cas est juste ) en la reliant à une fonction linéaire dep X
En faisant une pause et en réfléchissant, nous voyons dans ce cas qu'il est naturel de vouloir connaître , qui est un moyen d'une distribution conditionnelle.p
Dans la configuration glm, n'est pas estimé directement, c'est que la procédure d'estimation cible. Pour arriver à nous utilisons le maximum de vraisemblance. La probabilité d'observer un point de données partir de la distribution de bernoulli conditionnelle, étant donné la valeur de observée et un ensemble spécifique de paramètres , estp β β y X β
où est fonction de et via la relation de liaison.p β X
Notez que c'est qui est échantillonné à partir d'une distribution de probabilité ici, pas bêta.y
Pour appliquer le maximum de vraisemblance, nous inversons ceci dans une fonction de , considérant à la fois et comme fixes et observés:β X y
Mais, n'est pas une fonction de densité , c'est une vraisemblance. Lorsque vous maximisez la probabilité, vous n'évaluez pas le mode d'une distribution, car il n'y a tout simplement pas de distribution vers, eh bien, modifiez la taille.L
Vous pouvez produire une densité à partir de en fournissant une distribution préalable sur les paramètres et en utilisant la règle de Bayes, mais dans la formulation classique de glm, cela n'est pas fait.L β
la source
Merci pour tous les commentaires et réponses. Bien que dans aucun d'entre eux, la réponse à ma question ne soit à 100%, tous m'ont aidé à voir à travers l'apparente contradiction. Ainsi, j'ai décidé de formuler la réponse moi-même, je pense que c'est un résumé de toutes les idées impliquées dans les commentaires et réponses:
Maximisation de la probabilité grâce aux données PDFf(y;θ,ϕ) dans les GLM n'est pas lié au mode def (mais à sa moyenne) pour 2 raisons:
Quand vous maximisezf(y;θ,ϕ) vous ne considérez pasf en tant que fonction de y , mais en fonction de (les paramètres du modèle linéaire). Plus précisément, lorsque vous différenciez pour obtenir un système d'équations conduisant à déterminer , vous ne le faites pas par rapport à ; vous le faites en ce qui concerne . Ainsi, le processus de maximisation vous donne le qui maximise . Un optimal , et non un optimal (qui, en effet, serait le mode), est la sortie du processus de maximisation.β f β y β β f β y
De plus, dans le processus de maximisation, la moyenne, , est fonction de . Par conséquent, grâce au processus de maximisation, nous obtenons également le optimal .μ β μ
la source