Disons que nous avons une variable dépendante avec peu de catégories et un ensemble de variables indépendantes.
Quels sont les avantages de la régression logistique multinomiale par rapport à un ensemble de régressions logistiques binaires (c. -à-d. Un schéma un-vs-reste )? Par ensemble de régression logistique binaire, je veux dire que pour chaque catégorie nous construisons un modèle de régression logistique binaire distinct avec target = 1 lorsque et 0 sinon.
logistic
categorical-data
multinomial
Tomek Tarczynski
la source
la source
Réponses:
Si a plus de deux catégories, votre question sur "l'avantage" d'une régression par rapport à l'autre n'a probablement pas de sens si vous souhaitez comparer les paramètres des modèles , car les modèles seront fondamentalement différents:Y
Toutefois, si votre objectif est seulement de prédire la probabilité de chaque catégorie soit approche est justifiée, même si elles peuvent donner différentes estimations de probabilité. La formule pour estimer une probabilité est générique:i
Un thème distinct concerne les différences techniques entre les régressions logistiques multinomiales et binaires dans le cas où est dichotomique . Y aura-t-il une différence dans les résultats? La plupart du temps, en l'absence de covariables, les résultats seront les mêmes. Néanmoins, il existe des différences entre les algorithmes et les options de sortie. Permettez-moi de citer l'aide de SPSS sur ce problème dans SPSS:Y
la source
En raison du titre, je suppose que "avantages de la régression logistique multiple" signifie "régression multinomiale". Il y a souvent des avantages lorsque le modèle est ajusté simultanément. Cette situation particulière est décrite dans Agresti (Analyse de données catégoriques, 2002), page 273. En résumé (pour paraphraser Agresti), vous vous attendez à ce que les estimations d'un modèle commun soient différentes de celles d'un modèle stratifié. Les modèles logistiques distincts ont tendance à avoir des erreurs types plus grandes, bien que cela puisse ne pas être aussi grave lorsque le niveau de résultat le plus fréquent est défini comme niveau de référence.
la source