Traduire la commande glm de R en notation mathématique

8

J'ai le modèle linéaire généralisé suivant. L'objet glmDVest modélisé comme une proportion de succès sur le total des essais. Les objets x_isont des variables continues.

À quoi cela ressemble-t-il en notation mathématique?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))
user2205916
la source
1
Notez que, si votre réponse est une proportion au lieu d'un ensemble de 0s & 1s (que je suppose être ce que vous avez basé sur votre description), vous devez utiliser un weightsargument w / ? Glm , où les poids sont le nombre total d'essais pour chaque observation.
gung - Réintégrer Monica

Réponses:

11

Pour une régression logistique binaire, le cas d'utilisation habituel pour le GLM binomial avec un lien logit, vous modélisez la probabilité que votre variable dépendante soit un «succès» (ou «oui»), classiquement codé comme . Pour ce faire, modélisez les cotes du journal. Donc, plutôt que de modéliser la moyenne de la réponse comme dans OLS, vous modélisez le changement dans les cotes du journal:1

Pr(y=1)=θ=logit1(β0+β1x1+β2x2+...+β7x7)

Où et .logit(x)=log(x1x)logit1(x)=exp(x)1+exp(x)

Une explication plus approfondie et très accessible de cela peut être trouvée dans Agresti, An Introduction to Categorical Data Analysis.

Mais à votre question particulière, vous déclarez que vous modélisez la proportion de succès. Ce n'est pas vraiment ce à quoi sert un GLM binomial. Cependant, ce que vous cherchez vraiment, c'est ce que fait un GLM binomial, et c'est toujours possible dans R. Cela nécessite juste un léger ajustement à ce que vous faites. Dans le cas où vous avez un nombre fini d'essais qui peut avoir succès, vous pouvez toujours utiliser le même modèle, qui a la densité Parce que vos valeurs sont fixées par la conception expérimentale, et est vos succès observés, vous effectuez une inférence sur le paramètreny{0...n}

Pr(y)(ny)θy(1θ)ny
nyθ de la même manière que le cas de réponse binaire plus typique (ci-dessus), dans lequel est fixé à 1, prend la valeur 1 avec la probabilité , et est une fonction de vos paramètres. Pour le cas du lien logit, nous modélisons , principalement parce que ce transformé existe sur toute la ligne réelle, plutôt que sur l'intervalle unitaire . (D'autres propriétés souhaitables du lien logit sont décrites dans Agresti, y compris la validité des coefficients même dans des contextes où des échantillons non aléatoires comme des plans de contrôle de cas sont utilisés; ce n'est pas le cas, par exemple, des fonctions de lien probit.)nyθθ
logit(θ)=β0+β1x1+...+βixi
θ

En termes de R, créez simplement un objet (que vous appelez glmDV) qui est une matrice à 2 colonnes, la première colonne le nombre de succès et la seconde le nombre total d'échecs . Le reste de la déclaration reste le même!yny

Sycorax dit de réintégrer Monica
la source
Cette validation croisée a été très utile. Je vais vérifier Agresti à la bibliothèque. Merci de votre aide.
user2205916
@Sycorax ou @ user2205916, en particulier comment passez-vous la "matrice à 2 colonnes" contenant le nombre de succès et d'échecs à R, et comment R utilise-t-il cela? Je connais bien l'utilisation glmet, à ma connaissance, il n'accepte qu'une variable de réponse à 1 colonne, pas deux colonnes. Veuillez me corriger si je me trompe et citer la documentation pertinente si possible. Je vous remercie!
clarpaul
@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.html Premier paragraphe de "Détails" dans la glmdocumentation. Un bon moyen de découvrir le fonctionnement des fonctions R est de rechercher le nom de la fonction sur Google; cela révèle généralement la documentation pertinente. Vous pouvez également taper ?glmdans une console R
Sycorax dit Reinstate Monica
@Sycorax, merci d'avoir recherché cela pour moi. Je l'ai mis en pratique hier, et cela a semblé fonctionner!
clarpaul