Je lis un article très intéressant de Sellers et Shmueli sur les modèles de régression pour les données de comptage. Vers le début (p. 944), ils citent McCullaugh et Nelder (1989) disant que la régression binomiale négative est impopulaire et a un lien canonique problématique. J'ai trouvé le passage référé et il dit (p. 374 de M et N)
"La distribution binomiale négative semble avoir été peu utilisée dans les applications; en particulier, l'utilisation du lien canonique est problématique car elle fait du prédicteur linéaire une fonction d'un paramètre de la fonction de variance".
Sur la page précédente, ils donnent cette fonction de lien comme
et fonction de variance
La distribution est donnée comme
J'ai trouvé que la régression NB était assez largement utilisée (et recommandée dans plusieurs livres). Toutes ces utilisations et recommandations sont-elles erronées?
Quelles sont les conséquences de ce lien problématique?
la source
Réponses:
Je conteste les affirmations de plusieurs points de vue:
i) Bien que le lien canonique puisse être `` problématique '', il n'est pas immédiatement évident que quelqu'un sera intéressé par ce lien - alors que, par exemple, le lien log dans le Poisson est souvent à la fois pratique et naturel, et donc les gens sont souvent intéressé par cela. Même ainsi, dans le cas de Poisson, les gens regardent d'autres fonctions de liaison.
Nous n'avons donc pas besoin de restreindre notre considération au lien canonique.
Un «lien problématique» n'est pas en soi un argument particulièrement révélateur contre la régression binomiale négative.
Le lien de journal, par exemple, semble être un choix tout à fait raisonnable dans certaines applications binomiales négatives, par exemple, dans les cas où les données peuvent être conditionnellement Poisson mais il y a une hétérogénéité dans le taux de Poisson - le lien de journal peut être presque aussi interprétable comme dans le cas de Poisson.
Par comparaison, j'utilise les Gamma GLM assez souvent, mais je ne me souviens pas (à l'exception des exemples de manuels) d'avoir jamais utilisé son lien canonique - j'utilise presque toujours le lien de connexion, car c'est un lien plus naturel à utiliser pour les types de problèmes J'ai tendance à travailler avec.
ii) "Il semble que peu de choses aient été faites ... dans les candidatures" était peut-être à peu près vrai en 1989, mais je ne pense pas que cela existe maintenant. [Même si cela existait maintenant, ce n'est pas un argument que c'est un mauvais modèle, mais seulement qu'il n'a pas été largement utilisé - ce qui pourrait arriver pour toutes sortes de raisons.]
La régression binomiale négative est devenue plus largement utilisée car elle est plus largement disponible, et je la vois utilisée dans des applications beaucoup plus largement maintenant. Dans R, par exemple, j'utilise les fonctions
MASS
qui le supportent (et le livre correspondant, Venables and Ripley's, Modern Applied Statistics with S , utilise une régression binomiale négative dans certaines applications intéressantes) - et j'ai utilisé certaines fonctionnalités dans quelques autres packages avant même que je l'utilise dans R.J'aurais utilisé davantage la régression binomiale négative, même plus tôt, si elle m'avait été facilement accessible; Je suppose que la même chose est vraie pour beaucoup de gens - donc l'argument selon lequel il a été peu utilisé semble être davantage une opportunité.
Bien qu'il soit possible d'éviter une régression binomiale négative (par exemple en utilisant des modèles de Poisson surdispersés) ou un certain nombre de situations où cela n'a pas vraiment d'importance ce que vous faites , il existe plusieurs raisons pour lesquelles ce n'est pas entièrement satisfaisant.
Par exemple, lorsque mon intérêt porte davantage sur les intervalles de prédiction que sur les estimations des coefficients, le fait que les coefficients ne changent pas peut ne pas être une raison suffisante pour éviter le binôme négatif.
Bien sûr, il existe d'autres choix qui modélisent la dispersion (comme le Conway-Maxwell-Poisson qui fait l'objet de l'article que vous avez mentionné); Bien que ce soient certainement des options, il y a parfois des situations où je suis assez heureux que le binôme négatif soit un «ajustement» assez bon comme modèle pour mon problème.
Je ne pense vraiment pas! S'ils l'étaient, cela aurait dû devenir raisonnablement clair maintenant. En effet, si McCullagh et Nelder avaient continué à ressentir la même chose, ils n'avaient pas manqué d'opportunités, ni aucun manque de forums pour clarifier les questions restantes. Nelder est décédé (2010), mais McCullagh est apparemment toujours là .
Si ce court passage dans McCullagh et Nelder est tout ce qu'ils ont, je dirais que c'est un argument assez faible.
Je pense que le problème est principalement lié à la fonction de variance et à la fonction de lien étant liée plutôt que non liée (comme c'est le cas pour à peu près toutes les autres principales familles GLM couramment utilisées), ce qui rend l'interprétation à l'échelle du prédicteur linéaire moins simple (cela ne veut pas dire que c'est le seul problème; je pense que c'est le principal problème pour un pratiquant). Ce n'est pas vraiment une affaire.
À titre de comparaison, je vois que les modèles Tweedie ont été beaucoup plus utilisés ces derniers temps, et je ne vois pas les gens s'inquiéter du fait que apparaît à la fois dans la fonction de variance et dans le lien canonique (ni même dans la plupart des cas inquiétant beaucoup sur le lien canonique).p
Rien de tout cela ne doit rien enlever aux modèles de Conway-Maxwell-Poisson (le sujet du papier Sellers et Shmueli), qui sont également de plus en plus utilisés - je ne souhaite certainement pas participer à un binôme négatif vs COM - Match de tir Poisson.
Je ne le vois tout simplement pas comme l'un ou l'autre, pas plus que (maintenant parlant plus largement) je ne prends une position purement bayésienne ni purement fréquentiste sur les problèmes statistiques. J'utiliserai tout ce qui me semble le meilleur choix dans les circonstances particulières dans lesquelles je me trouve, et chaque choix a tendance à avoir des avantages et des inconvénients.
la source