Avec la régression OLS appliquée à la réponse continue, on peut construire l'équation de régression multiple en exécutant séquentiellement des régressions des résidus sur chaque covariable. Ma question est, existe-t-il un moyen de le faire avec la régression logistique via les résidus de régression logistique ?
regression
logistic
residuals
Ben Ogorek
la source
la source
Réponses:
Dans la régression linéaire multiple standard, la capacité d'ajuster les estimations des moindres carrés ordinaires (OLS) en deux étapes provient du théorème de Frisch – Waugh – Lovell . Ce théorème montre que l'estimation d'un coefficient pour un prédicteur particulier dans un modèle linéaire multiple est égale à l'estimation obtenue en régressant les résidus de réponse (résidus d'une régression de la variable de réponse par rapport aux autres variables explicatives) par rapport aux résidus de prédicteur (résidus à partir d'une régression de la variable prédictive par rapport aux autres variables explicatives). Évidemment, vous cherchez une analogie avec ce théorème qui peut être utilisée dans un modèle de régression logistique.
Pour cette question, il est utile de rappeler la caractérisation à variable latente de la régression logistique :
Dans cette caractérisation du modèle, la variable de réponse latente n'est pas observable, et au lieu de cela nous observons l'indicateur qui nous dit si la réponse latente est positive ou non. Cette forme du modèle ressemble à une régression linéaire multiple, sauf que nous utilisons une distribution d'erreur légèrement différente (la distribution logistique au lieu de la distribution normale), et plus important encore, nous n'observons qu'un indicateur indiquant si la réponse latente est positive ou non. .Y∗i Yi
Cela crée un problème pour toute tentative de création d'un ajustement en deux étapes du modèle. Ce théorème de Frisch-Waugh-Lovell repose sur la capacité à obtenir des résidus intermédiaires pour la réponse et le prédicteur d'intérêt, pris par rapport aux autres variables explicatives. Dans le cas présent, nous ne pouvons obtenir des résidus qu'à partir d'une variable de réponse "catégorisée". La création d'un processus d'ajustement en deux étapes pour la régression logistique vous obligerait à utiliser les résidus de réponse de cette variable de réponse catégorisée, sans accès à la réponse latente sous-jacente. Cela me semble être un obstacle majeur, et même si cela ne prouve pas l'impossibilité, il semble peu probable qu'il soit possible d'adapter le modèle en deux étapes.
Ci-dessous, je vais vous expliquer ce qui serait nécessaire pour trouver un processus en deux étapes pour s'adapter à une régression logistique. Je ne sais pas s'il existe une solution à ce problème, ou s'il existe une preuve d'impossibilité, mais le matériel ici devrait vous aider à comprendre ce qui est requis.
À quoi ressemblerait une régression logistique en deux étapes? Supposons que nous voulons construire un ajustement en deux étapes pour un modèle de régression logistique où les paramètres sont estimés via une estimation du maximum de vraisemblance à chaque étape. Nous voulons que le processus implique une étape intermédiaire qui correspond aux deux modèles suivants:
Nous estimons les coefficients de ces modèles (via les MLE) et nous obtenons des valeurs ajustées intermédiaires . Ensuite, dans la deuxième étape, nous ajustons le modèle:α^0,α^X,γ^0,γ^X
Comme spécifié, la procédure a beaucoup d'éléments fixes, mais les fonctions de densité et dans ces étapes ne sont pas spécifiées (bien qu'elles devraient être des distributions à moyenne nulle qui ne dépendent pas des données). Pour obtenir une méthode d'ajustement en deux étapes sous ces contraintes, nous devons choisir et pour garantir que le MLE pour dans cet algorithme d'ajustement de modèle en deux étapes est le même que le MLE obtenu à partir du modèle de régression logistique en une étape au dessus de.g f g f βZ
Pour voir si cela est possible, nous écrivons d'abord tous les paramètres estimés de la première étape:
Soit pour que la fonction log-vraisemblance pour la deuxième étape soit:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Nous exigeons que la valeur maximisante de cette fonction soit le MLE du modèle de régression logistique multiple. En d'autres termes, nous avons besoin de:
Je laisse à d'autres le soin de déterminer s'il existe une solution à ce problème ou une preuve d'absence de solution. Je soupçonne que la «catégorisation» de la variable de réponse latente dans une régression logistique rendra impossible de trouver un processus en deux étapes.
la source
Je peux mal interpréter la question. Je doute que vous puissiez construire l'équation de régression linéaire par régression sur les résidus de la manière spécifiée OP . La méthode OP ne fonctionnerait que si les prédicteurs sont indépendants les uns des autres.
Pour le faire fonctionner, supposez que est le vecteur de résultat, est la matrice du modèle pour les prédicteurs déjà dans le modèle et que vous souhaitez inclure . Vous devez régresser le résidu de la régression de sur contre le résidu de la régression de sur pour obtenir le coefficient OLS pour .y X x1 y X x1 X x1
Voici un exemple simple:
Ajuster le modèle avec OLS:
Régression sur les résidus:
C'est faux, vous devez adapter:
Ce qui renvoie le bon coefficient pour x2, cela s'aligne sur les différences attendues de y étant donné les différences de x2, en maintenant x1 constant (en le retirant de y et de x1).
Cela mis à part, dans la régression logistique, ce serait encore plus problématique car les coefficients de régression logistique souffrent d'un biais variable omis même en l'absence de relations confondues, voir ici et ici , donc à moins que tous les prédicteurs du résultat ne soient dans le modèle, on ne peut pas obtenir estimations impartiales des vrais paramètres de la population. De plus, je ne connais aucun résidu du modèle qui pourrait se prêter à une deuxième régression logistique avec toutes les valeurs comprises entre 0 et 1.
Quelques références sur la régression sur les résidus:
la source
J'espère que je n'interprète pas mal votre question, car ma réponse va changer quelque peu le libellé de la façon dont vous avez formulé votre sujet.
Je pense que ce que vous essayez de faire est de construire votre modèle de régression en ajoutant une variable indépendante à la fois. Et, vous faites cela en observant quelle variable prospective a la plus forte corrélation avec le résidu de votre première régression entre Y et X1. Ainsi, la variable avec la corrélation la plus élevée avec ce premier résidu sera X2. Donc, maintenant vous avez un modèle avec deux variables indépendantes X1 et X2. Et, vous continuez ce processus exact pour sélectionner X3, X4, etc. Il s'agit d'un processus progressif.
Vous pouvez faire exactement la même chose avec la régression logistique pour la simple raison que la régression logistique est à peu près une régression OLS où la variable dépendante est le journal de l'impair (ou logit). Mais, que Y soit ou non un logit n'affecte pas le processus pas à pas mentionné ci-dessus.
OLS minimise la somme des erreurs carrées pour correspondre aux données réelles. La régression Logit utilise un processus de probabilité maximale qui génère un ajustement qui n'est pas si différent que OLS. De plus, cela (le mécanisme d'ajustement) ne devrait pas affecter le processus pas à pas qui vous permet de créer votre modèle de régression multiple, que ce dernier soit une régression OLS ou une régression Logit.
la source