J'ai un problème de régression où les résultats ne sont pas strictement 0, 1 mais plutôt dans la plage de tous les nombres réels de 0 à 1 inclus .
Ce problème a déjà été discuté dans ce fil , bien que ma question soit légèrement différente.
Je ne peux pas utiliser la régression linéaire pour les mêmes raisons que la régression logistique est normalement utilisée. Dans la régression linéaire A) des valeurs IV très élevées fausseront le résultat prévu à 1 et B) le résultat de la régression linéaire n'est pas limité aux limites 0,1.
En regardant cette fonction de coût logistique de mon manuel Je suppose que l'équation est conçue pour calculer un coût supérieur à 0 uniquement lorsque et n'ont pas la même valeur 0 ou 1.
Serait-il possible d'utiliser la régression logistique en modifiant la fonction de coût pour mesurer toutes les erreurs d'hypothèse?
la source
glm()
fonction dans R lorsqu'elle est alimentée avec une réponse continue etfamily=quasibinomial
? C'est-à-dire qu'il va estimer les coefficients avecfamily=binomial
puis, dans une étape supplémentaire, calculer les erreurs types en tenant compte de la sur-dispersion? Si oui, est-ce la même chose que le calcul des "erreurs standard robustes"? J'ai quelques données appropriées et j'ai essayé les deux familles avecglm
; J'obtiens des coefficients identiques mais des erreurs standard différentes. Merci.Lorsque Y est borné, la régression bêta a souvent un sens; voir l'article "Un meilleur presse-citron"
Cela permet des effets de plancher et de plafond; il permet également de modéliser la variance ainsi que la moyenne.
la source
Puisque y n'est pas strictement nul ou un (comme vous l'avez dit), le coût doit toujours être supérieur à zéro. Donc, je ne pense pas que vous ayez besoin de la modification du modèle.
la source
Je propose deux modèles alternatifs:
Si vos résultats (variables y) sont ordonnés, essayez un modèle Probit ordonné.
Si vos résultats (variables y) ne sont pas classés, essayez un modèle Logit multinomial.
la source