Pourquoi les GLM prédisent la moyenne et non le mode?

8

Pourquoi un GLM prédit-il la moyenne et non le mode d'un signal? Cela ne contredit-il pas le fondement même du GLM, c'est-à-dire le maximum de vraisemblance? Les équations à résoudre pour les paramètres du modèle dans un GLM sont basées sur la maximisation de la vraisemblance comme décrit par la distribution de probabilité du signal modélisé. Cette distribution de probabilité est maximale pour le mode et non pour la moyenne (la distribution normale est une exception: le mode et la moyenne sont identiques). Par conséquent, un GLM devrait prédire le mode , pas la moyenne d'un signal! (Pour plus d'informations sur cette question, voir ici .)

nukimov
la source
Je suis un peu trop rouillé pour donner cette réponse, mais je crois que l'idée est qu'il existe une distribution de moyens conditionnels probables, et le GLM fournit le mode de cette distribution. (C'est donc l'estimation modale de la moyenne.)
Shea Parkes
1
J'ai édité votre titre pour refléter le modèle StackExchange - les questions sont des questions, pas des articles d'opinion. (Vous devriez essayer d'éviter de faire sonner le corps de votre question comme une sorte de diatribe.)
Glen_b -Reinstate Monica
7
Notez que la vraisemblance est fonction des paramètres, tandis que le modèle tente de décrire la distribution des données. Il n'y a aucune incohérence. En effet, considérons une régression logistique pour les données binaires, où les proportions ajustées varient entre 0,2 et 0,475. Le mode de la distribution de Bernoulli est dans chaque cas 0 - donc vous dites que le modèle devrait être entièrement composé de 0? C'est beaucoup moins utile qu'un modèle pour la moyenne.
Glen_b -Reinstate Monica
3
Juste une remarque: le mode de votre réponse peut être extrêmement informatif. Dans l'exemple le plus extrême, le mode d'une distribution de Bernoulli sera toujours 0 ou 1.
Cliff AB
9
Ce qui est maximisé en probabilité maximale n'est pas la densité de la distribution des données mais la probabilité du paramètre.
Glen_b -Reinstate Monica

Réponses:

13

Le but de l'ajustement du maximum de vraisemblance est de déterminer les paramètres d'une distribution qui correspondent le mieux aux données - et plus généralement, comment ces paramètres peuvent varier avec les covariables. Dans le cas de GLM, nous voulons déterminer les paramètres d' une certaine répartition de la famille exponentielle, et la façon dont ils sont fonction de certains covariables .θX

Pour toute distribution de probabilité dans la famille exponentielle sur-dispersée, la moyenne est garantie d'être liée au paramètre de la famille exponentielle canonique via la fonction de lien canonique, . Nous pouvons même déterminer une formule générale pour , et généralement est également inversible. Si nous définissons simplement et , nous obtenons automatiquement un modèle de variation de et avec , quelle que soit la distribution à laquelle nous avons affaire, et ce modèle peut êtreμθθ=g(μ)ggμ=g1(θ)θ=XβμθXajustement simple et fiable aux données par optimisation convexe . La réponse de Matt montre comment cela fonctionne pour la distribution de Bernoulli, mais la vraie magie est qu'elle fonctionne pour chaque distribution de la famille.

Le mode ne bénéficie pas de ces propriétés. En fait, comme le souligne Cliff AB, le mode peut même ne pas avoir de relation bijective avec le paramètre de distribution, donc l'inférence à partir du mode est d'une puissance très limitée. Prenons l'exemple de la distribution de Bernoulli. Son mode est soit 0 ou 1, et connaître le mode ne vous indique que si , la probabilité de 1, est supérieure ou inférieure à 1/2. En revanche, la moyenne vous indique exactement ce qu'est .pp

Maintenant, pour clarifier une certaine confusion dans la question: la probabilité maximale n'est pas de trouver le mode d'une distribution, parce que la probabilité n'est pas la même fonction que la distribution. La probabilité implique la distribution de votre modèle dans sa formule, mais c'est là que s'arrêtent les similitudes. La fonction de vraisemblance prend une valeur de paramètre en entrée et vous indique la "probabilité" de votre ensemble de données , étant donné que la distribution du modèle a cette . La distribution du modèle dépend de , mais en tant que fonction, elle prend une valeur en entrée et vous indique à quelle fréquence un échantillon aléatoire de cette distribution sera égalL(θ)θθfθ(y)θyy . Le maximum de et le mode de ne sont pas la même chose.L(θ)fθ(y)

Peut-être que cela aide à voir la formule de la probabilité. Dans le cas des données IID , nous avons Les valeurs de sont toutes fixes - ce sont les valeurs à partir de vos données. La probabilité maximale est de trouver le qui maximise . Trouver le mode de distribution serait de trouver le qui maximise , ce qui n'est pas ce que nous voulons: est fixé dans la vraisemblance, pas une variable.y1,y2,,yn

L(θ)=i=1nfθ(yi)
yiθL(θ)yfθ(y)y

Donc, trouver le maximum de la fonction de vraisemblance n'est pas, en général, la même chose que trouver le mode de distribution du modèle. (C'est le mode d' une autre distribution, si vous demandez un objectif bayésien, mais c'est une histoire très différente!)

Paul
la source
14

Il y a deux choses à discuter ici:

  • Les faits qu'un glm tente de prédire comme la moyenne d'une distribution conditionnelle et estime ses paramètres par maximum de vraisemblance sont cohérents.yβ
  • L'estimation des paramètres par maximum de vraisemblance ne détermine pas le mode d'une distribution. Du moins pas dans la formulation classique d'un glm.

Prenons l'exemple glm non trivial le plus simple, le modèle logistique. Dans la régression logistique, nous avons une réponse qui est de 0, 1 évaluée. Nous postulons que est bernoulli distribué conditionnellement à nos donnéesyy

yXBernoulli(p(X))

Et nous essayons d'estimer la moyenne de cette distribution conditionnelle (qui dans ce cas est juste ) en la reliant à une fonction linéaire depX

log(p1p)=Xβ

En faisant une pause et en réfléchissant, nous voyons dans ce cas qu'il est naturel de vouloir connaître , qui est un moyen d'une distribution conditionnelle.p

Dans la configuration glm, n'est pas estimé directement, c'est que la procédure d'estimation cible. Pour arriver à nous utilisons le maximum de vraisemblance. La probabilité d'observer un point de données partir de la distribution de bernoulli conditionnelle, étant donné la valeur de observée et un ensemble spécifique de paramètres , estpββyXβ

P(yX,β)=py(1p)1y

où est fonction de et via la relation de liaison.pβX

Notez que c'est qui est échantillonné à partir d'une distribution de probabilité ici, pas bêta.y

Pour appliquer le maximum de vraisemblance, nous inversons ceci dans une fonction de , considérant à la fois et comme fixes et observés:βXy

L(β)=py(1p)1y

Mais, n'est pas une fonction de densité , c'est une vraisemblance. Lorsque vous maximisez la probabilité, vous n'évaluez pas le mode d'une distribution, car il n'y a tout simplement pas de distribution vers, eh bien, modifiez la taille.L

Vous pouvez produire une densité à partir de en fournissant une distribution préalable sur les paramètres et en utilisant la règle de Bayes, mais dans la formulation classique de glm, cela n'est pas fait.Lβ

Matthew Drury
la source
4

Merci pour tous les commentaires et réponses. Bien que dans aucun d'entre eux, la réponse à ma question ne soit à 100%, tous m'ont aidé à voir à travers l'apparente contradiction. Ainsi, j'ai décidé de formuler la réponse moi-même, je pense que c'est un résumé de toutes les idées impliquées dans les commentaires et réponses:

Maximisation de la probabilité grâce aux données PDF f(y;θ,ϕ)dans les GLM n'est pas lié au mode def (mais à sa moyenne) pour 2 raisons:

  1. Quand vous maximisez f(y;θ,ϕ)vous ne considérez pasf en tant que fonction de y, mais en fonction de (les paramètres du modèle linéaire). Plus précisément, lorsque vous différenciez pour obtenir un système d'équations conduisant à déterminer , vous ne le faites pas par rapport à ; vous le faites en ce qui concerne . Ainsi, le processus de maximisation vous donne le qui maximise . Un optimal , et non un optimal (qui, en effet, serait le mode), est la sortie du processus de maximisation.βfβyββfβy

  2. De plus, dans le processus de maximisation, la moyenne, , est fonction de . Par conséquent, grâce au processus de maximisation, nous obtenons également le optimal .μβμ

nukimov
la source