Régression logistique - Terme d'erreur et sa distribution

31

Sur l'existence d'un terme d'erreur dans la régression logistique (et sa distribution supposée), j'ai lu à divers endroits que:

  1. aucun terme d'erreur n'existe
  2. le terme d'erreur a une distribution binomiale (conformément à la distribution de la variable de réponse)
  3. le terme d'erreur a une distribution logistique

Quelqu'un peut-il clarifier?

user61124
la source
6
Avec la régression logistique - ou même les GLM plus généralement - il n'est généralement pas utile de penser en termes d'observation comme "moyenne + erreur". Mieux vaut penser en termes de distribution conditionnelle. Je n'irais pas jusqu'à dire «il n'y a pas de terme d'erreur» car «ce n'est tout simplement pas utile de penser en ces termes». Donc, je ne dirais pas tant que c'est un choix entre 1. ou 2. comme je dirais qu'il vaut généralement mieux dire «rien de ce qui précède». Cependant, quel que soit le degré auquel on pourrait plaider pour «1». ou "2.", cependant, "3." est définitivement faux. Où avez-vous vu ça? yi|x
Glen_b -Reinstate Monica
1
@Glen_b: Peut-on plaider pour (2)? J'ai connu des gens pour le dire mais jamais pour le défendre quand on l'interroge.
Scortchi - Réintégrer Monica
3
@Glen_b Les trois déclarations ont des interprétations constructives dans lesquelles elles sont vraies. (3) est adressé à en.wikipedia.org/wiki/Logistic_distribution#Applications et en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber
@whuber: J'ai corrigé ma réponse par rapport à (3), ce qui n'était pas bien pensé; mais toujours perplexe dans quel sens (2) pourrait être juste.
Scortchi - Réintégrer Monica
2
@Scortchi Bien que vous ayez raison que (2) est incorrect, si nous l'interprétons comme disant que la différence entre une observation et son attente a une distribution binomiale traduite par l'attente , alors elle sera (trivialement) correcte. La remarque entre parenthèses dans (2) suggère fortement que c'est l'interprétation voulue. Notez que d'autres "termes d'erreur" utiles peuvent également être définis, tels que les termes d'erreur et de déviance décrits dans Hosmer & Lemeshow (et, sous réserve des mises en garde appropriées discutées ici, leurs carrés ont des distributions approximatives χ 2 ). χ2χ2
whuber

Réponses:

25

En régression linéaire, les observations sont supposées suivre une distribution gaussienne avec un paramètre moyen dépendant des valeurs des prédicteurs. Si vous soustrayez la moyenne des observations, vous obtenez l' erreur : une distribution gaussienne avec un zéro moyen, et indépendante des valeurs des prédicteurs - c'est-à-dire que les erreurs de tout ensemble de valeurs des prédicteurs suivent la même distribution.

Dans les observations de régression logistique, sont supposés suivre une distribution de Bernoulli avec un paramètre moyen (une probabilité) conditionnel aux valeurs du prédicteur. Ainsi, pour toute valeur prédictive donnée déterminant une moyenne π, il n'y a que deux erreurs possibles: 1 - π se produisant avec la probabilité π , et 0 - π se produisant avec la probabilité 1 - π . Pour les autres valeurs des prédicteurs, les erreurs seront 1 - π se produisant avec la probabilité π y{0,1}π1ππ0π1π1ππ, & se produisant avec la probabilité 1 - π . Il n'y a donc pas de distribution d'erreur commune indépendante des valeurs des prédicteurs, c'est pourquoi les gens disent "aucun terme d'erreur n'existe" (1).0π1π

"Le terme d'erreur a une distribution binomiale" (2) est juste une négligence - "Les modèles gaussiens ont des erreurs gaussiennes, les modèles ergo binomiaux ont des erreurs binomiales". (Ou, comme le souligne @whuber, cela pourrait signifier que "la différence entre une observation et son attente a une distribution binomiale traduite par l'attente".)

«Le terme d'erreur a une distribution logistique» (3) découle de la dérivation de la régression logistique du modèle où vous observez si une variable latente avec des erreurs suite à une distribution logistique dépasse un certain seuil. Ce n'est donc pas la même erreur définie ci-dessus. (Il semblerait étrange de dire OMI en dehors de ce contexte, ou sans référence explicite à la variable latente.)

† Si vous avez observations avec les mêmes valeurs de prédicteur, donnant la même probabilité π pour chacune, alors leur somme y suit une distribution binomiale avec probabilité π et non. essais k . En considérant y - k π comme l'erreur conduit aux mêmes conclusions.kπyπkykπ

Scortchi - Réintégrer Monica
la source
1
Pourriez-vous fournir un exemple simple concernant la partie «aucun terme d'erreur n'existe»? J'ai du mal à le comprendre comme il est écrit.
quirik
@Scortchi J'ai du mal à suivre le cas quand en pratique le modèle est utilisé avec un certain seuil, disons 0,5. L'erreur est alors soit 1 soit 0. Peut-on alors la considérer comme une variable aléatoire de Bernoulli avec le paramètre 1- lorsque le vrai label est 1? π
wabbit
17

Cela a déjà été couvert. Un modèle qui est contraint d'avoir des valeurs prédites dans ne peut pas avoir un terme d'erreur additif qui ferait sortir les prédictions [ 0 , 1 ] . Prenons l'exemple le plus simple d'un modèle logistique binaire - un modèle ne contenant qu'une interception. Cela équivaut au problème à un échantillon de Bernoulli, souvent appelé (dans ce cas simple) le problème binomial car (1) toutes les informations sont contenues dans la taille de l'échantillon et le nombre d'événements ou (2) la distribution de Bernoulli est un cas spécial de la distribution binomiale avec n = 1[0,1][0,1]n=1. Les données brutes dans cette situation sont une série de valeurs binaires, et chacune a une distribution de Bernoulli avec un paramètre inconnu représentant la probabilité de l'événement. Il n'y a pas de terme d'erreur dans la distribution de Bernoulli, il y a juste une probabilité inconnue. Le modèle logistique est un modèle de probabilité.θ

Frank Harrell
la source
9

Pour moi, l'unification de la régression logistique, linéaire, poisson etc ... a toujours été en termes de spécification de la moyenne et de la variance dans le cadre du modèle linéaire généralisé. Nous commençons par spécifier une distribution de probabilité pour nos données, normale pour les données continues, Bernoulli pour dichotomique, Poisson pour les comptes, etc ... Ensuite, nous spécifions une fonction de lien qui décrit comment la moyenne est liée au prédicteur linéaire:

g(μi)=α+xiTβ

Pour la régression linéaire, .g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

La seule chose que l'on pourrait considérer en termes d'écriture d'un terme d'erreur serait de déclarer:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

ei

hard2fathom
la source
0
  1. Aucune erreur n'existe. Nous modélisons la moyenne! La moyenne n'est qu'un vrai nombre.
  2. Cela n'a aucun sens pour moi.
  3. Considérez la variable de réponse comme une variable latente. Si vous supposez que le terme d'erreur est normalement distribué, le modèle devient un modèle probit. Si vous supposez que la distribution du terme d'erreur est logistique, alors le modèle est la régression logistique.
Liu Jim
la source
2
Je ne vois pas comment cela aide à comprendre un modèle de probabilité. Les modèles de probabilité sont plus simples que cela ne le semble.
Frank Harrell