J'essaie de me faire une idée de la façon dont LDA «s'inscrit» dans d'autres techniques d'apprentissage supervisé. J'ai déjà lu certains des articles de LDA ici sur LDA. Je connais déjà le perceptron, mais j'apprends juste le LDA maintenant.
Comment le LDA s'intègre-t-il dans la famille des algorithmes d'apprentissage supervisé? Quels pourraient être ses inconvénients par rapport à ces autres méthodes, et à quoi pourrait-elle être mieux utilisée? Pourquoi utiliser LDA, alors qu'on pourrait simplement utiliser, disons, le perceptron par exemple?
Réponses:
Comme AdamO le suggère dans le commentaire ci-dessus, vous ne pouvez pas vraiment faire mieux que de lire le chapitre 4 des éléments de l'apprentissage statistique (que j'appellerai HTF) qui compare LDA avec d'autres méthodes de classification linéaire, en donnant de nombreux exemples, et discute également de l'utilisation du LDA comme technique de réduction de dimension dans la veine de l'ACP qui, comme le souligne ttnphns, est plutôt populaire.
Du point de vue de la classification, je pense que la principale différence est la suivante. Imaginez que vous avez deux classes et que vous souhaitez les séparer. Chaque classe a une fonction de densité de probabilité. La meilleure situation possible serait si vous connaissiez ces fonctions de densité, car vous pourriez alors prédire à quelle classe un point appartiendrait en évaluant les densités spécifiques à la classe à ce point.
Certains types de classificateurs fonctionnent en trouvant une approximation des fonctions de densité des classes. LDA est l'un d'entre eux; il fait l'hypothèse que les densités sont normales à plusieurs variables avec la même matrice de covariance. C'est une hypothèse forte, mais si elle est approximativement correcte, vous obtenez un bon classificateur. De nombreux autres classificateurs adoptent également ce type d'approche, mais essaient d'être plus flexibles que de supposer la normalité. Par exemple, voir page 108 de HTF.
En revanche, à la page 210, HTF prévient:
Une autre approche consiste simplement à rechercher une frontière entre les deux classes, ce que fait le perceptron. Une version plus sophistiquée de ceci est la machine à vecteurs de support. Ces méthodes peuvent également être combinées avec l'ajout de fonctionnalités aux données à l'aide d'une technique appelée kernelization. Cela ne fonctionne pas avec LDA car il ne préserve pas la normalité, mais ce n'est pas un problème pour un classificateur qui cherche juste un hyperplan de séparation.
La différence entre LDA et un classifieur qui cherche un hyperplan de séparation est comme la différence entre un test t et une alternative non paramétrique dans les statistiques ordinaires. Ce dernier est plus robuste (aux valeurs aberrantes, par exemple) mais le premier est optimal si ses hypothèses sont satisfaites.
Une dernière remarque: il pourrait être utile de mentionner que certaines personnes peuvent avoir des raisons culturelles d'utiliser des méthodes comme le LDA ou la régression logistique, ce qui peut obligatoirement générer des tableaux ANOVA, des tests d'hypothèse et des choses rassurantes comme ça. LDA a été inventé par Fisher; le perceptron était à l'origine un modèle pour un neurone humain ou animal et n'avait aucun lien avec les statistiques. Cela fonctionne également dans l'autre sens; certaines personnes pourraient préférer des méthodes telles que les machines à vecteurs de support, car elles ont le genre de hipster-cred de pointe auquel les méthodes du XXe siècle ne peuvent tout simplement pas correspondre. Cela ne veut pas dire qu'ils sont meilleurs. (Un bon exemple de cela est discuté dans Machine Learning for Hackers , si je me souviens bien.)
la source
Pour l'intuition, considérons ce cas:
La ligne représente la "frontière optimale" entre les deux classes o et x.
LDA essaie de trouver un hyperplan qui minimise la variance intercluster et maximise la variance intracluster, puis prend la frontière pour être orthogonale à cet hyperplan. Ici, cela ne fonctionnera probablement pas parce que les grappes ont une grande variance dans la même direction.
Un perceptron, d'autre part, peut avoir une meilleure chance de trouver un bon hyperplan de séparation.
Dans le cas des classes qui ont une distribution gaussienne, cependant, le LDA va probablement faire mieux, puisque le perceptron ne trouve qu'un hyperplan séparateur qui est compatible avec les données, sans donner des garanties au sujet qui hyperplan son choix (il pourrait y avoir un nombre infini d'hyperplans cohérents). Cependant, des versions plus sophistiquées du perceptron peuvent choisir un hyperplan avec des propriétés optimales, telles que maximiser la marge entre les classes (c'est essentiellement ce que font les machines à vecteurs de support).
Notez également que LDA et perceptron peuvent être étendus aux frontières de décision non linéaires via l' astuce du noyau .
la source
L'une des plus grandes différences entre LDA et les autres méthodes est qu'il s'agit simplement d'une technique d'apprentissage automatique pour les données qui sont supposées être normalement distribuées. Cela peut être excellent dans le cas de données manquantes ou de troncature où vous pouvez utiliser l'algorithme EM pour maximiser les probabilités dans des circonstances très étranges et / ou intéressantes. Mettez en garde l' émpteur parce que les spécifications erronées du modèle, telles que les données multimodales, peuvent conduire à des prédictions peu performantes où le clustering K-means aurait mieux fait. Les données multimodales peuvent également être prises en compte avec EM pour détecter les variables latentes ou le regroupement dans LDA.
Par exemple, supposons que vous cherchiez à mesurer la probabilité de développer un diagnostic positif du SIDA dans 5 ans sur la base du nombre de CD4. Supposons en outre que vous ne connaissiez pas la valeur d'un biomarqueur spécifique qui a un impact important sur le nombre de CD4 et est associé à une immunosuppression supplémentaire. Les comptes de CD4 inférieurs à 400 sont inférieurs à la limite inférieure de détection sur la plupart des tests abordables. L'algorithme EM nous permet de calculer de manière itérative l'affectation des LDA et des biomarqueurs ainsi que les moyennes et la covariance pour CD4 pour le DF non tronqué.
la source