Sur l'existence d'un terme d'erreur dans la régression logistique (et sa distribution supposée), j'ai lu à divers endroits que:
- aucun terme d'erreur n'existe
- le terme d'erreur a une distribution binomiale (conformément à la distribution de la variable de réponse)
- le terme d'erreur a une distribution logistique
Quelqu'un peut-il clarifier?
Réponses:
En régression linéaire, les observations sont supposées suivre une distribution gaussienne avec un paramètre moyen dépendant des valeurs des prédicteurs. Si vous soustrayez la moyenne des observations, vous obtenez l' erreur : une distribution gaussienne avec un zéro moyen, et indépendante des valeurs des prédicteurs - c'est-à-dire que les erreurs de tout ensemble de valeurs des prédicteurs suivent la même distribution.
Dans les observations de régression logistique, sont supposés suivre une distribution de Bernoulli † avec un paramètre moyen (une probabilité) conditionnel aux valeurs du prédicteur. Ainsi, pour toute valeur prédictive donnée déterminant une moyenne π, il n'y a que deux erreurs possibles: 1 - π se produisant avec la probabilité π , et 0 - π se produisant avec la probabilité 1 - π . Pour les autres valeurs des prédicteurs, les erreurs seront 1 - π ′ se produisant avec la probabilité π ′y∈{0,1} π 1−π π 0−π 1−π 1−π′ π′ , & se produisant avec la probabilité 1 - π ′ . Il n'y a donc pas de distribution d'erreur commune indépendante des valeurs des prédicteurs, c'est pourquoi les gens disent "aucun terme d'erreur n'existe" (1).0−π′ 1−π′
"Le terme d'erreur a une distribution binomiale" (2) est juste une négligence - "Les modèles gaussiens ont des erreurs gaussiennes, les modèles ergo binomiaux ont des erreurs binomiales". (Ou, comme le souligne @whuber, cela pourrait signifier que "la différence entre une observation et son attente a une distribution binomiale traduite par l'attente".)
«Le terme d'erreur a une distribution logistique» (3) découle de la dérivation de la régression logistique du modèle où vous observez si une variable latente avec des erreurs suite à une distribution logistique dépasse un certain seuil. Ce n'est donc pas la même erreur définie ci-dessus. (Il semblerait étrange de dire OMI en dehors de ce contexte, ou sans référence explicite à la variable latente.)
† Si vous avez observations avec les mêmes valeurs de prédicteur, donnant la même probabilité π pour chacune, alors leur somme ∑ y suit une distribution binomiale avec probabilité π et non. essais k . En considérant ∑ y - k π comme l'erreur conduit aux mêmes conclusions.k π ∑y π k ∑y−kπ
la source
Cela a déjà été couvert. Un modèle qui est contraint d'avoir des valeurs prédites dans ne peut pas avoir un terme d'erreur additif qui ferait sortir les prédictions [ 0 , 1 ] . Prenons l'exemple le plus simple d'un modèle logistique binaire - un modèle ne contenant qu'une interception. Cela équivaut au problème à un échantillon de Bernoulli, souvent appelé (dans ce cas simple) le problème binomial car (1) toutes les informations sont contenues dans la taille de l'échantillon et le nombre d'événements ou (2) la distribution de Bernoulli est un cas spécial de la distribution binomiale avec n = 1[0,1] [0,1] n=1 . Les données brutes dans cette situation sont une série de valeurs binaires, et chacune a une distribution de Bernoulli avec un paramètre inconnu représentant la probabilité de l'événement. Il n'y a pas de terme d'erreur dans la distribution de Bernoulli, il y a juste une probabilité inconnue. Le modèle logistique est un modèle de probabilité.θ
la source
Pour moi, l'unification de la régression logistique, linéaire, poisson etc ... a toujours été en termes de spécification de la moyenne et de la variance dans le cadre du modèle linéaire généralisé. Nous commençons par spécifier une distribution de probabilité pour nos données, normale pour les données continues, Bernoulli pour dichotomique, Poisson pour les comptes, etc ... Ensuite, nous spécifions une fonction de lien qui décrit comment la moyenne est liée au prédicteur linéaire:
Pour la régression linéaire, .g(μi)=μi
La seule chose que l'on pourrait considérer en termes d'écriture d'un terme d'erreur serait de déclarer:
la source
la source