J'ai trouvé des pros de l'analyse discriminante et j'ai des questions à leur sujet. Donc:
Lorsque les classes sont bien séparées, les estimations des paramètres de régression logistique sont étonnamment instables. Les coefficients peuvent aller à l'infini. LDA ne souffre pas de ce problème.
Si le nombre de caractéristiques est petit et que la distribution des prédicteurs est approximativement normale dans chacune des classes, le modèle discriminant linéaire est à nouveau plus stable que le modèle de régression logistique.
- Qu'est-ce que la stabilité et pourquoi est-elle importante? (Si la régression logistique fournit un bon ajustement qui fait son travail, alors pourquoi devrais-je me soucier de la stabilité?)
LDA est populaire lorsque nous avons plus de deux classes de réponses, car il fournit également des vues en basse dimension des données.
- Je ne comprends tout simplement pas cela. Comment LDA fournit-il des vues à faible dimension?
- Si vous pouvez nommer plus d'avantages ou d'inconvénients, ce serait bien.
Réponses:
S'il existe des valeurs de covariables qui peuvent prédire parfaitement le résultat binaire, l'algorithme de régression logistique, c'est-à-dire le score de Fisher, ne converge même pas. Si vous utilisez R ou SAS, vous recevrez un avertissement indiquant que des probabilités de zéro et une ont été calculées et que l'algorithme s'est écrasé. C'est le cas extrême de la séparation parfaite, mais même si les données ne sont séparées que dans une large mesure et pas parfaitement, l'estimateur du maximum de vraisemblance pourrait ne pas exister et même s'il existe, les estimations ne sont pas fiables. L'ajustement résultant n'est pas bon du tout. Il existe de nombreux sujets traitant du problème de la séparation sur ce site, alors jetez un œil.
En revanche, on ne rencontre pas souvent de problèmes d'estimation avec le discriminant de Fisher. Cela peut toujours se produire si la matrice de covariance entre ou à l'intérieur est singulière, mais c'est un cas assez rare. En fait, s'il y a séparation complète ou quasi complète, tant mieux car le discriminant a plus de chances de réussir.
Il convient également de mentionner que contrairement à la croyance populaire, la LDA n'est basée sur aucune hypothèse de distribution. Nous ne demandons implicitement que l'égalité des matrices de covariance de la population, car un estimateur groupé est utilisé pour la matrice de covariance intra. Selon les hypothèses supplémentaires de normalité, de probabilités antérieures égales et de coûts de classification erronée, la LDA est optimale en ce sens qu'elle minimise la probabilité de classification erronée.
Il est plus facile de voir cela pour le cas de deux populations et de deux variables. Voici une représentation graphique du fonctionnement de LDA dans ce cas. N'oubliez pas que nous recherchons des combinaisons linéaires des variables qui maximisent la séparabilité.
Les données sont donc projetées sur le vecteur dont la direction permet de mieux réaliser cette séparation. Comment nous trouvons que le vecteur est un problème intéressant d'algèbre linéaire, nous maximisons essentiellement un quotient de Rayleigh, mais laissons cela de côté pour l'instant. Si les données sont projetées sur ce vecteur, la dimension est réduite de deux à un.
La représentation de faible dimension n'est cependant pas sans inconvénients, le plus important étant bien sûr la perte d'informations. C'est moins un problème lorsque les données sont linéairement séparables, mais si elles ne le sont pas, la perte d'informations peut être substantielle et le classificateur fonctionnera mal.
Il pourrait également y avoir des cas où l'égalité des matrices de covariance pourrait ne pas être une hypothèse tenable. Vous pouvez utiliser un test pour vous en assurer, mais ces tests sont très sensibles aux écarts par rapport à la normalité, vous devez donc faire cette hypothèse supplémentaire et également la tester. S'il s'avère que les populations sont normales avec des matrices de covariance inégales, une règle de classification quadratique pourrait être utilisée à la place (QDA) mais je trouve que c'est une règle plutôt maladroite, sans parler de contre-intuitif dans les dimensions élevées.
Dans l'ensemble, le principal avantage du LDA est l'existence d'une solution explicite et sa commodité de calcul, ce qui n'est pas le cas pour les techniques de classification plus avancées telles que SVM ou les réseaux de neurones. Le prix que nous payons est l'ensemble des hypothèses qui vont avec, à savoir la séparabilité linéaire et l'égalité des matrices de covariance.
J'espère que cela t'aides.
EDIT : Je soupçonne que mon affirmation selon laquelle la LDA sur les cas spécifiques que j'ai mentionnés n'exige aucune hypothèse de distribution autre que l'égalité des matrices de covariance m'a coûté un downvote. Ce n'est pas moins vrai néanmoins, alors permettez-moi d'être plus précis.
On peut montrer que la solution de ce problème (jusqu'à une constante) est
C'est l'équivalent de la LDA que vous dérivez sous l'hypothèse de normalité, de matrices de covariance égales, de coûts de classification erronée et de probabilités antérieures, n'est-ce pas? Eh bien oui, sauf maintenant que nous n'avons pas assumé la normalité.
Rien ne vous empêche d'utiliser le discriminant ci-dessus dans tous les paramètres, même si les matrices de covariance ne sont pas vraiment égales. Il n'est peut-être pas optimal dans le sens du coût prévu d'une mauvaise classification (ECM), mais il s'agit d'un apprentissage supervisé afin que vous puissiez toujours évaluer ses performances, en utilisant par exemple la procédure de maintien.
Les références
la source
LDA fait des hypothèses de distribution sévères (normalité multivariée de tous les prédicteurs) contrairement à la régression logistique. Essayez d'obtenir des probabilités postérieures d'appartenance à la classe en fonction du sexe des sujets et vous verrez ce que je veux dire - les probabilités ne seront pas précises.
Voir ceci pour plus d'informations.
Notez que si la normalité multivariable est vérifiée, selon le théorème de Bayes, les hypothèses de régression logistique sont valables. L'inverse n'est pas vrai.
La normalité (ou à tout le moins la symétrie) doit presque tenir pour que les variances et les covariances "fassent le travail". Les prédicteurs non multivariés normalement distribués nuiront même à la phase d'extraction discriminante.
la source
Avertissement: Ce qui suit ici manque complètement de rigueur mathématique.
Pour bien ajuster une fonction (non linéaire), vous avez besoin d'observations dans toutes les régions de la fonction où "sa forme change". La régression logistique ajuste une fonction sigmoïde aux données:
Dans le cas de classes bien séparées, toutes les observations tomberont aux deux "extrémités" où le sigmoïde s'approche de ses asymptotes (0 et 1). Étant donné que tous les sigmoïdes "se ressemblent" dans ces régions, pour ainsi dire, il n'est pas étonnant que le mauvais algorithme d'ajustement aura des difficultés à trouver "le bon".
Jetons un coup d'œil à deux exemples (espérons-le instructifs) calculés avec la
glm()
fonction de R.Cas 1: Les deux groupes se chevauchent dans une certaine mesure:
et les observations se répartissent bien autour du point d'inflexion du sigmoïde ajusté:
Ce sont les paramètres ajustés avec de belles erreurs standard faibles:
et la déviance semble également OK:
Cas 2: Les deux groupes sont bien séparés:
et les observations se trouvent toutes sur les asymptotes pratiquement. La
glm()
fonction a fait de son mieux pour s'adapter à quelque chose, mais s'est plainte des probabilités numériques de 0 ou 1, car il n'y a tout simplement pas d'observations disponibles pour "obtenir la bonne forme de la sigmoïde" autour de son point d'inflexion:Vous pouvez diagnostiquer le problème en notant que les erreurs standard des paramètres estimés passent par le toit:
et en même temps la déviance semble étrangement bonne (parce que les observations correspondent bien aux asymptotes):
Au moins intuitivement, il devrait être clair à partir de ces considérations pourquoi "les estimations des paramètres pour la régression logistique sont étonnamment instables".
la source