Existe-t-il une hypothèse sur la variable de réponse de la régression logistique?
Par exemple, supposons que nous ayons points de données. Il semble que la réponse provienne d'une distribution de Bernoulli avec . Par conséquent, nous devrions avoir distributions de Bernoulli, avec différents paramètres .Y i p i = logit ( β 0 + β 1 x i ) 1000 p
Ils sont donc "indépendants", mais pas "identiques".
Ai-je raison?
PS. J'ai appris la régression logistique à partir de la littérature "machine learning", où nous optimisons la fonction objectif et vérifions si elle est bonne pour tester les données, sans trop parler d'hypothèses.
Ma question a commencé avec ce post Comprendre la fonction de lien dans le modèle linéaire généralisé où j'essaie d'en savoir plus sur les hypothèses statistiques.
la source
Réponses:
De votre question précédente, vous avez appris que GLM est décrit en termes de distribution de probabilité, de prédicteur linéaire et de fonction de lien et est décrit commegη g
où est une fonction de lien logit et est supposé suivre une distribution de BernoulliYg Oui
chaque suit la distribution Bernoulli avec son propre moyen qui est conditionnelle à . Nous ne supposons pas que chaque provient de la même distribution, avec la même moyenne (ce serait le modèle d'interception uniquement ), mais qu'ils ont tous des moyennes différentes. Nous supposons que les sont indépendants , c'est-à-dire que nous n'avons pas à nous soucier de choses telles que l'autocorrélation entre les valeurs suivantes , etc.μ i X Y i Y i = g - 1 ( μ ) Y i Y iOuije μje X Ouije Ouije= g- 1( μ ) Ouije Ouije
L' hypothèse iid est liée aux erreurs de régression linéaire (c.-à-d. GLM gaussien), où le modèle est
où , nous avons donc un bruit iid autour de . C'est pourquoi nous nous intéressons au diagnostic des résidus et prêtons attention aux parcelles résiduelles vs ajustées . Maintenant, dans le cas d'une régression logistique similaire à GLM, ce n'est pas si simple car il n'y a pas de terme de bruit additif comme avec le modèle gaussien (voir ici , ici et ici ). Nous voulons toujours que les résidus soient "aléatoires" autour de zéro et nous ne voulons pas voir de tendances dans ceux-ci car ils suggèrent qu'il y a des effets qui ne sont pas pris en compte dans le modèle, mais nous ne supposons pas qu'ils le sont normal et / ouμ iεje∼ N( 0 , σ2) μje iid . Voir aussi Sur l'importance de l'hypothèse iid dans le fil d' apprentissage statistique .
En guise de note, notons que nous pouvons même abandonner l'hypothèse que chaque provient du même type de distribution. Il existe des modèles (non GLM) qui supposent que différents peuvent avoir des distributions différentes avec des paramètres différents, c'est-à-dire que vos données proviennent d'un mélange de distributions différentes . Dans ce cas, nous supposerions également que les valeurs sont indépendantes , car les valeurs dépendantes, provenant de distributions différentes avec des paramètres différents (c'est-à-dire des données du monde réel typiques) sont quelque chose qui dans la plupart des cas serait trop compliqué à modéliser (souvent impossible).Y i Y iOuije Ouije Ouije
la source
Comme cela a été dit, bien que nous considérions souvent le cas des erreurs iid dans la régression linéaire, cela n'a pas d'équivalent direct dans la plupart des modèles linéaires généralisés (y compris la régression logistique). Dans la régression logistique, nous utilisons généralement l'hypothèse d'indépendance des résultats qui ont tous une relation très stricte (c'est-à-dire des effets linéaires sur les probabilités logarithmiques). Mais celles-ci entraînent des variables aléatoires qui ne sont pas identiques, et elles ne sont pas décomposables en un terme constant plus une erreur iid comme c'est le cas avec la régression linéaire.
Si vous voulez vraiment montrer que les réponses ont une sorte de relation iid, suivez-moi pour le paragraphe suivant. Sachez juste que cette idée est un peu hors des sentiers battus; vous ne pouvez pas obtenir le plein crédit pour cette réponse sur une finale si votre professeur manque de patience.
Vous connaissez peut-être la méthode inverse-cdf pour générer des variables aléatoires. Sinon, voici un rappel: si a la fonction de distribution cumulative , alors je peux produire des tirages aléatoires à partir de en prenant d'abord des tirages aléatoires puis en calculant . Quel est le lien avec la régression logistique? Eh bien, nous pourrions penser que le processus de génération de nos réponses comporte deux parties; une partie fixe reliant les covariables aux probabilités de succès, et une partie aléatoire qui détermine la valeur de la variable aléatoire conditionnelle à la partie fixe. La partie fixe est définie par la fonction de lien de la régression logistique, c'est-à-direX FX X q∼ uniforme (0,1) X= F- 1X( q) p = expit ( βo+ β1x ) . Pour la partie aléatoire, définissons comme le cdf d'une distribution de Bernoulli avec probabilité . On peut alors penser à la variable de réponse générée par les trois étapes suivantes:FOui( y| p) p Ouije
1.)pi=expit(βo+β1xi)
2.)qi∼uniform(0,1)
3.)Yi=F−1(qi|pi)
L'hypothèse standard dans la régression logistique est alors que est iid.qi
la source