Y a-t-il une hypothèse sur la régression logistique?

18

Existe-t-il une hypothèse sur la variable de réponse de la régression logistique?

Par exemple, supposons que nous ayons points de données. Il semble que la réponse provienne d'une distribution de Bernoulli avec . Par conséquent, nous devrions avoir distributions de Bernoulli, avec différents paramètres .Y i p i = logit ( β 0 + β 1 x i ) 1000 p1000Yipi=logit(β0+β1xi)1000p

Ils sont donc "indépendants", mais pas "identiques".

Ai-je raison?


PS. J'ai appris la régression logistique à partir de la littérature "machine learning", où nous optimisons la fonction objectif et vérifions si elle est bonne pour tester les données, sans trop parler d'hypothèses.

Ma question a commencé avec ce post Comprendre la fonction de lien dans le modèle linéaire généralisé où j'essaie d'en savoir plus sur les hypothèses statistiques.

Haitao Du
la source
1
Une "hypothèse" est quelque chose qu'un théorème peut avoir. La régression linéaire a une "hypothèse" d'erreurs iid (ce ne sont pas les qui sont "supposés" être iid dans la régression linéaire! Ce sont les erreurs) dans le sens où le théorème de Gauss-Markov a cette hypothèse. Maintenant, existe-t-il un théorème selon lequel on a un esprit de régression logistique? Sinon, il n'y a pas d '"hypothèses". y
amoeba dit Reinstate Monica
7
@Amoeba, hxd a raison de noter que les distributions ne sont pas identiques: "iid" ne s'applique pas. Si l'on utilise la régression logistique uniquement pour son ajustement, alors (au moment où vous écrivez) peut-être que peu d'hypothèses sont nécessaires; mais dès que l'on utilise la matrice de covariance estimée des coefficients ou que l'on souhaite construire des intervalles de prédiction (ou d'ailleurs valider les valeurs prédites), alors cela nécessite des hypothèses probabilistes. La réponse habituelle est que les réponses sont indépendantes.
whuber
4
@amoeba une fois que vous voulez effectuer l'inférence (tests d'hypothèses, intervalles de confiance, etc.) plutôt que de simplement calculer des estimations de paramètres, vous ferez une multitude d'hypothèses (certaines plus critiques que d'autres) afin de pouvoir dériver la distribution nulle pertinente de la tester la statistique ou les calculs nécessaires pour un intervalle avec la couverture souhaitée. Même les procédures d'hypothèses relativement basses ont encore des hypothèses, et si nous nous soucions de nos inférences, nous nous demanderons si elles sont susceptibles d'avoir quelque chose près de leurs propriétés nominales.
Glen_b -Reinstate Monica
1
@amoeba, j'aime un théorème qui montre la normalité asymptotique du MLE. J'aime aussi le test du rapport de vraisemblance.
gammer
2
Leurs distributions marginales ne sont pas identiques, sauf si elles ont toutes la même valeur de prédicteur, auquel cas vous venez d'avoir des essais bernoulli IID. Leurs distributions conditionnelles (étant donné le prédicteur) sont toutes les mêmes, mais je ne pense pas que vous diriez normalement que les dans ce cas sont des IID. Yi
gammer

Réponses:

11

De votre question précédente, vous avez appris que GLM est décrit en termes de distribution de probabilité, de prédicteur linéaire et de fonction de lien et est décrit commegηg

η=XβE(Y|X)=μ=g1(η)

où est une fonction de lien logit et est supposé suivre une distribution de BernoulliYgY

YiB(μi)

chaque suit la distribution Bernoulli avec son propre moyen qui est conditionnelle à . Nous ne supposons pas que chaque provient de la même distribution, avec la même moyenne (ce serait le modèle d'interception uniquement ), mais qu'ils ont tous des moyennes différentes. Nous supposons que les sont indépendants , c'est-à-dire que nous n'avons pas à nous soucier de choses telles que l'autocorrélation entre les valeurs suivantes , etc.μ i X Y i Y i = g - 1 ( μ ) Y i Y iYi μiXYiYi=g1(μ)YiYi

L' hypothèse iid est liée aux erreurs de régression linéaire (c.-à-d. GLM gaussien), où le modèle est

yi=β0+β1xi+εi=μi+εi

où , nous avons donc un bruit iid autour de . C'est pourquoi nous nous intéressons au diagnostic des résidus et prêtons attention aux parcelles résiduelles vs ajustées . Maintenant, dans le cas d'une régression logistique similaire à GLM, ce n'est pas si simple car il n'y a pas de terme de bruit additif comme avec le modèle gaussien (voir ici , ici et ici ). Nous voulons toujours que les résidus soient "aléatoires" autour de zéro et nous ne voulons pas voir de tendances dans ceux-ci car ils suggèrent qu'il y a des effets qui ne sont pas pris en compte dans le modèle, mais nous ne supposons pas qu'ils le sont normal et / ouμ iεiN(0,σ2)μiiid . Voir aussi Sur l'importance de l'hypothèse iid dans le fil d' apprentissage statistique .

En guise de note, notons que nous pouvons même abandonner l'hypothèse que chaque provient du même type de distribution. Il existe des modèles (non GLM) qui supposent que différents peuvent avoir des distributions différentes avec des paramètres différents, c'est-à-dire que vos données proviennent d'un mélange de distributions différentes . Dans ce cas, nous supposerions également que les valeurs sont indépendantes , car les valeurs dépendantes, provenant de distributions différentes avec des paramètres différents (c'est-à-dire des données du monde réel typiques) sont quelque chose qui dans la plupart des cas serait trop compliqué à modéliser (souvent impossible).Y i Y iYiYiYi

Tim
la source
6

Comme cela a été dit, bien que nous considérions souvent le cas des erreurs iid dans la régression linéaire, cela n'a pas d'équivalent direct dans la plupart des modèles linéaires généralisés (y compris la régression logistique). Dans la régression logistique, nous utilisons généralement l'hypothèse d'indépendance des résultats qui ont tous une relation très stricte (c'est-à-dire des effets linéaires sur les probabilités logarithmiques). Mais celles-ci entraînent des variables aléatoires qui ne sont pas identiques, et elles ne sont pas décomposables en un terme constant plus une erreur iid comme c'est le cas avec la régression linéaire.

Si vous voulez vraiment montrer que les réponses ont une sorte de relation iid, suivez-moi pour le paragraphe suivant. Sachez juste que cette idée est un peu hors des sentiers battus; vous ne pouvez pas obtenir le plein crédit pour cette réponse sur une finale si votre professeur manque de patience.

Vous connaissez peut-être la méthode inverse-cdf pour générer des variables aléatoires. Sinon, voici un rappel: si a la fonction de distribution cumulative , alors je peux produire des tirages aléatoires à partir de en prenant d'abord des tirages aléatoires puis en calculant . Quel est le lien avec la régression logistique? Eh bien, nous pourrions penser que le processus de génération de nos réponses comporte deux parties; une partie fixe reliant les covariables aux probabilités de succès, et une partie aléatoire qui détermine la valeur de la variable aléatoire conditionnelle à la partie fixe. La partie fixe est définie par la fonction de lien de la régression logistique, c'est-à-direXFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x). Pour la partie aléatoire, définissons comme le cdf d'une distribution de Bernoulli avec probabilité . On peut alors penser à la variable de réponse générée par les trois étapes suivantes:FY(y|p)pYi

1.)pi=expit(βo+β1xi)

2.)qiuniform(0,1)

3.)Yi=F1(qi|pi)

L'hypothèse standard dans la régression logistique est alors que est iid.qi

Cliff AB
la source
1
Vous soulevez plusieurs bons points, mais je ne suis pas sûr que parler d'uniformes iid n'apporte pas encore plus de confusion. Je dirais qu'il vaut mieux s'en tenir à la description standard que , qui en soi suppose que les sont Bernoulli-aléatoires avec une moyenne . Le définir en termes de le rend compliqué parce que le "bruit" est uniforme, mais ensuite transformé de façon non linéaire, il devient donc moche. Y iB ( p i ) Y i p i q iqiYiB(pi)Yipiqi
Tim
@Tim: oui, la deuxième partie de la réponse est plus une note annexe intéressante qu'une réponse concise. Mais cela peut être une façon utile de voir les choses; après tout, c'est essentiellement ainsi que votre ordinateur simule les données de ces modèles!
Cliff AB