La prémisse est cette citation de la vignette du package R betareg
1 .
De plus, le modèle partage certaines propriétés (telles que le prédicteur linéaire, la fonction de lien, le paramètre de dispersion) avec les modèles linéaires généralisés (GLM; McCullagh et Nelder 1989), mais ce n'est pas un cas particulier de ce cadre (pas même pour une dispersion fixe )
Cette réponse fait également allusion au fait:
[...] Il s'agit d'un type de modèle de régression qui convient lorsque la variable de réponse est distribuée en Bêta. Vous pouvez le considérer comme analogue à un modèle linéaire généralisé. C'est exactement ce que vous recherchez [...] (c'est moi qui souligne)
Le titre de la question dit tout: pourquoi la régression bêta / dirichlet n'est pas considérée comme des modèles linéaires généralisés (n'est-ce pas)?
Pour autant que je sache, le modèle linéaire généralisé définit des modèles basés sur l'attente de leurs variables dépendantes conditionnelles aux variables indépendantes.
est la fonction de lien qui mappe l'attente, est la distribution de probabilité, les résultats et les prédicteurs,sont des paramètres linéaires etla variance.σ 2
Différents GLM imposent (ou relâchent) la relation entre la moyenne et la variance, mais doit être une distribution de probabilité dans la famille exponentielle, une propriété souhaitable qui devrait améliorer la robustesse de l'estimation si je me souviens bien. Les distributions Beta et Dirichlet font partie de la famille exponentielle, donc je suis à court d'idées.
[1] Cribari-Neto, F. et Zeileis, A. (2009). Régression bêta dans R.
Réponses:
Vérifiez la référence d'origine:
comme le notent les auteurs, les paramètres de la distribution bêta re-paramétrisée sont corrélés, donc
Ainsi, bien que le modèle ressemble à un GLM et quacks comme un GLM, il ne correspond pas parfaitement au cadre.
la source
La réponse de @probabilityislogic est sur la bonne voie.
La distribution bêta est dans la famille exponentielle à deux paramètres . Les modèles GLM simples décrits par Nelder et Wedderburn (1972) n'incluent pas toutes les distributions dans la famille exponentielle à deux paramètres.
En ce qui concerne l'article de N&W, le GLM s'applique aux fonctions de densité du type suivant (ce fut plus tard nommé famille de dispersion exponentielle dans Jørgensen 1987 ):
avec une fonction de liaison supplémentaire et un modèle linéaire pour le paramètre naturel θ = f ( μ ) = f ( X β ) .f( ) θ = f( μ ) = f( Xβ)
Nous pourrions donc réécrire également la distribution ci-dessus:
La famille exponentielle à deux paramètres est:
qui semble similaire mais plus général (même si l'un des est constant).θ
La différence est claire, et il n'est pas possible de mettre la distribution bêta sous forme de GLM.
Cependant, je manque de compréhension suffisante pour créer une réponse plus intuitive et bien informée (j'ai le sentiment qu'il peut y avoir des relations beaucoup plus profondes et plus élégantes avec une variété de principes fondamentaux). Le GLM généralise la distribution de l'erreur en utilisant un modèle de dispersion exponentielle à variable unique à la place d'un modèle des moindres carrés et généralise la relation linéaire dans la moyenne, en utilisant une fonction de lien.
L'intuition la meilleure et la plus simple semble être la dispersion - terme dans l'exponentielle, qui se multiplie avec tout et donc la dispersion ne varie pas avec θ . Alors que plusieurs familles exponentielles à deux paramètres et des méthodes de quasi-vraisemblance, le paramètre de dispersion est également fonction de θ .α ( ϕ ) θ θ
la source
Je ne pense pas que la distribution bêta fasse partie de la famille de dispersion exponentielle . Pour l'obtenir, vous devez avoir une densité
pour les fonctions spécifiées et d ( ) . La moyenne est donnée par c ′ ( θ ) et la variance est donnée par τ c ″ ( θ ) . Le paramètre θ est appelé paramètre canonique.c ( ) ré( ) c′( θ ) τc′ ′( θ ) θ
La distribution bêta ne peut pas être écrit de cette façon - une façon de voir c'est en faisant remarquer qu'il n'y a pas terme la probabilité log - il a log [ y ] et log [ 1 - y ] au lieuy bûche[y] bûche[ 1 -y]
Une autre façon de voir que la version bêta n'est pas une famille de dispersion exponentielle est qu'elle peut s'écrire oùxetzsont indépendants et suivent tous deux des distributions gamma avec le même paramètre d'échelle (et gamma est une famille exponentielle).y=xx+z x z
la source