Régression logistique multinomiale vs régression logistique binaire one-vs-rest

36

Disons que nous avons une variable dépendante avec peu de catégories et un ensemble de variables indépendantes. Y

Quels sont les avantages de la régression logistique multinomiale par rapport à un ensemble de régressions logistiques binaires (c. -à-d. Un schéma un-vs-reste )? Par ensemble de régression logistique binaire, je veux dire que pour chaque catégorie nous construisons un modèle de régression logistique binaire distinct avec target = 1 lorsque et 0 sinon.yiYY=yi

Tomek Tarczynski
la source
3
Mathématiquement, un modèle logit multinomial est un ensemble de modèles logit binaires, tous comparés à une alternative de base. Mais comme vous pouvez réduire les paramètres génériques et éventuellement en combiner d'autres, le MNL sera toujours au moins aussi efficace (et probablement plus). Je ne vois aucune raison d'utiliser une série de modèles binomiaux.
gregmacfarlane
2
@gmacfarlane: J'ai essayé de simuler des données pour lesquelles MNL serait supérieur à une série de régressions logistiques binaires, mais la qualité était en moyenne la même. Je comparais les cartes de levage et, après avoir fait la moyenne des résultats de quelques simulations, elles sont presque identiques. Vous avez peut-être une idée sur la façon de générer des données afin que MNL bat les régressions logistiques binaires? Bien que MNL ait un grand avantage, ses scores peuvent être interprétés comme une probabilité.
Tomek Tarczynski
La régression logistique multinomiale est l'extension de la régression logit binaire. Il est utilisé lorsque les variables dépendantes de l'étude est égal ou supérieur à trois, alors que logit binaire est utilisé lorsque les variables dépendantes de l'étude sont deux.
Au lecteur, je recommande de commencer par la réponse de @ julieth et de poursuivre en lisant ttphph '. Je pense que le premier répond plus directement à la question initiale mais le dernier ajoute un contexte intéressant. Il montre également les différentes fonctionnalités disponibles dans une routine logicielle courante, ce qui pourrait constituer une raison d'utiliser l'une plutôt que l'autre (voir la déclaration de gregmacfarlane).
Ben Ogorek le

Réponses:

21

Si a plus de deux catégories, votre question sur "l'avantage" d'une régression par rapport à l'autre n'a probablement pas de sens si vous souhaitez comparer les paramètres des modèles , car les modèles seront fondamentalement différents:Y

logP(i)P(not i)=logiti=linear combination pour chaque logistique binaire régression, eti

logP(i)P(r)=logiti=linear combination pour chaque catégorie dans la régression logistique multiple , étant la catégorie de référence choisie ( ).irir

Toutefois, si votre objectif est seulement de prédire la probabilité de chaque catégorie soit approche est justifiée, même si elles peuvent donner différentes estimations de probabilité. La formule pour estimer une probabilité est générique:i

P(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr) , où sont toutes les catégories, et si été choisi comme référence, son . Ainsi, pour la logistique binaire, cette même formule devient . La logistique multinomiale repose sur l'hypothèse (pas toujours réaliste) d' indépendance des alternatives non pertinentes, contrairement à une série de prédictions logistiques binaires.i,j,,rrexp(logit)=1P(i)=exp(logiti)exp(logiti)+1


Un thème distinct concerne les différences techniques entre les régressions logistiques multinomiales et binaires dans le cas où est dichotomique . Y aura-t-il une différence dans les résultats? La plupart du temps, en l'absence de covariables, les résultats seront les mêmes. Néanmoins, il existe des différences entre les algorithmes et les options de sortie. Permettez-moi de citer l'aide de SPSS sur ce problème dans SPSS:Y

Les modèles de régression logistique binaire peuvent être adaptés à l'aide de la procédure de régression logistique ou de la procédure de régression logistique multinomiale. Chaque procédure a des options non disponibles dans l'autre. Une distinction théorique importante est que la procédure de régression logistique produit toutes les prévisions, les résidus, les statistiques d'influence et les tests de qualité de l'ajustement en utilisant des données au niveau du cas individuel, indépendamment de la manière dont les données sont entrées et du nombre de modèles de covariables. est inférieur au nombre total de cas, tandis que la procédure de régression logistique multinomiale agrège en interne les cas pour former des sous-populations avec des modèles de covariables identiques pour les prédicteurs, produisant des prévisions, des résidus et des tests d'ajustement sur la base de ces sous-populations.

La régression logistique offre les fonctionnalités uniques suivantes:

• test de qualité d'ajustement Hosmer-Lemeshow pour le modèle

• Analyses pas à pas

• Contrastes pour définir le paramétrage du modèle

• Points de passage alternatifs pour la classification

• parcelles de classification

• Modèle adapté sur un ensemble de cas à un ensemble de cas éloigné

• Enregistre les prévisions, les résidus et les statistiques d'influence

La régression logistique multinomiale offre les fonctionnalités uniques suivantes:

• Tests de Pearson et de chi-carré de déviance pour la qualité de l'ajustement du modèle

• Spécification des sous-populations pour le regroupement des données pour les tests de qualité de l'ajustement

• Liste des dénombrements, dénombrements prévus et résidus par sous-population

• Correction des estimations de variance pour la dispersion excessive

• matrice de covariance des estimations de paramètres

• Tests de combinaisons linéaires de paramètres

• Spécification explicite de modèles imbriqués

• Ajuster 1-1 des modèles de régression logistique conditionnelle appariés utilisant des variables différenciées

tnphns
la source
Je sais que ces modèles seront différents, mais je ne sais pas lequel est le meilleur dans quelle situation. Je vais poser la question d'une autre manière. Si une tâche vous est confiée: Pour chaque personne, prédisez la probabilité qu’un opérateur de téléphonie mobile soit le préféré (supposons que chacun d’entre eux ait son opérateur de téléphonie mobile préféré). Laquelle de ces méthodes utiliseriez-vous et quels sont les avantages par rapport à la seconde?
Tomek Tarczynski
Je @Tomek ma réponse élargi un peu
ttnphns
Bien que je pense que @ julieth soit la meilleure réponse à la question initiale de OP, je vous en suis reconnaissant pour l'introduction de l'hypothèse de l'indépendance des alternatives non pertinentes. Une question que je me pose encore est de savoir si une logistique distincte le contourne vraiment. l'article Wikipedia que vous avez lié à probit et "logit imbriqué" comme autorisant des violations de l'IIA
Ben Ogorek
Seriez-vous capable d'expliquer comment adapter les modèles avec un choix de catégorie de référence? Pour la catégorie , utilisons-nous uniquement un sous-ensemble de données appartenant à la catégorie de référence ou à la catégorie , pour ? iriir
user21359
13

En raison du titre, je suppose que "avantages de la régression logistique multiple" signifie "régression multinomiale". Il y a souvent des avantages lorsque le modèle est ajusté simultanément. Cette situation particulière est décrite dans Agresti (Analyse de données catégoriques, 2002), page 273. En résumé (pour paraphraser Agresti), vous vous attendez à ce que les estimations d'un modèle commun soient différentes de celles d'un modèle stratifié. Les modèles logistiques distincts ont tendance à avoir des erreurs types plus grandes, bien que cela puisse ne pas être aussi grave lorsque le niveau de résultat le plus fréquent est défini comme niveau de référence.

Juliette
la source
Merci! Je vais essayer de trouver ce livre. Malheureusement, google.books ne fournit le contenu que jusqu'à la page 268.
Tomek Tarczynski
@TomekTarczynski J'ai résumé les informations pertinentes du paragraphe, de sorte que vous n'aurez peut-être plus d'informations sur cette question en regardant le livre (bien que le livre soit génial, vous obtiendrez d'autres informations utiles).
Julieth
4
Citation tirée du livre Agresti: "Les estimations de l'ajustement séparé diffèrent de celles du ML pour l'ajustement simultané des logits J-1. Elles sont moins efficaces et tendent à avoir des erreurs-types plus importantes. Cependant, Begg et Gray 1984 ont montré que la perte d'efficacité est mineur lorsque la catégorie de réponse ayant la prévalence la plus élevée est la ligne de base. ".
Franck Dernoncourt