Peut-on utiliser une variable indépendante catégorielle dans une analyse discriminante?

Réponses:

14

L'analyse discriminante suppose une distribution normale multivariée parce que ce que nous considérons habituellement comme des prédicteurs est vraiment une variable dépendante multivariée, et la variable de regroupement est considérée comme un prédicteur. Cela signifie que les variables catégorielles qui doivent être traitées comme des prédicteurs dans le sens que vous souhaitez ne sont pas bien gérées. C'est une des raisons pour lesquelles beaucoup, y compris moi-même, considèrent que l'analyse discriminante a été rendue obsolète par la régression logistique. La régression logistique ne fait aucune hypothèse de distribution d'aucune sorte, ni à gauche ni à droite du modèle. La régression logistique est un modèle de probabilité directe et ne nécessite pas que l'on utilise la règle de Bayes pour convertir les résultats en probabilités comme le fait l'analyse discriminante.

Frank Harrell
la source
Merci M. Frank Harrell pour votre réponse. En fait, je veux comparer les résultats de l'analyse discriminante et de la régression logistique (modèle logit) en utilisant le même ensemble de variables. Donc, à cette fin, si je dois utiliser les variables catégorielles dans l'analyse discriminante comme variable indépendante, existe-t-il un moyen?
kuwoli
6

La réponse courte est plutôt non que oui.

Une note préliminaire. Il est difficile de dire si les variables qui produisent elles-mêmes des fonctions discriminantes doivent être appelées "indépendantes" ou "dépendantes". LDA est fondamentalement un cas spécifique d'analyse de corrélation canonique, et donc il est ambidirectionnel. Elle peut être considérée comme MANOVA (avec la variable de classe comme facteur indépendant) ou, lorsque la classe est dichotomique, comme une régression linéaire de la classe comme variable dépendante. Il n'est donc pas tout à fait légal de toujours s'opposer à la LDA avec des régressions unidirectionnelles telles que la régression logistique.

LDA suppose que les variables (celles que vous appelez "indépendantes") proviennent d'une distribution normale multivariée, donc - toutes continues. Cette hypothèse est importante pour (1) l'étape de classification de la LDA et (2) pour tester la signification des discriminants produits au stade de l'extraction. L'extraction des discriminants elle-même n'a pas besoin de l'hypothèse.

Cependant, LDA est assez robuste à la violation de l'hypothèse qui est parfois considérée comme une garantie de le faire sur des données binaires . En fait, certaines personnes le font. Des corrélations canoniques (dont LDA est un cas spécifique) peuvent être faites lorsque les deux ensembles sont constitués de variables binaires, voire factices. Encore une fois, l'extraction des fonctions latentes ne pose aucun problème; les problèmes avec une telle application peuvent survenir lorsque des valeurs p ou des objets de classification sont invoqués.

À partir de variables binaires / ordinales, on pourrait calculer des corrélations tétrachoriques / polychoriques et les soumettre à LDA (si le programme permet de saisir des matrices de corrélation à la place des données); mais alors le calcul des scores discriminants au niveau du cas sera problématique.

Une approche plus flexible consisterait à transformer les variables catégorielles (ordinales, nominales) en continues par une mise à l'échelle / quantification optimale . Analyse de corrélation canonique non linéaire (OVERALS). Il le fera sous la tâche de maximiser les corrélations canoniques entre les deux côtés (la variable de classe et les "prédicteurs" catégoriques). Vous pouvez ensuite essayer LDA avec les variables transformées.

La régression logistique (multinomiale ou binaire) peut être une autre alternative à la LDA.

ttnphns
la source
C'est beaucoup plus compliqué que de simplement utiliser un modèle qui était destiné à la situation (régression logistique). L'analyse discriminante n'est pas aussi robuste que certains le pensent. Il est facile de montrer avec un seul prédicteur catégorique binaire que les probabilités postérieures sous forme de da ne sont pas très précises (par exemple, prédire la probabilité d'un événement compte tenu du sexe d'un sujet).
Frank Harrell