LDA contre perceptron

9

J'essaie de me faire une idée de la façon dont LDA «s'inscrit» dans d'autres techniques d'apprentissage supervisé. J'ai déjà lu certains des articles de LDA ici sur LDA. Je connais déjà le perceptron, mais j'apprends juste le LDA maintenant.

Comment le LDA s'intègre-t-il dans la famille des algorithmes d'apprentissage supervisé? Quels pourraient être ses inconvénients par rapport à ces autres méthodes, et à quoi pourrait-elle être mieux utilisée? Pourquoi utiliser LDA, alors qu'on pourrait simplement utiliser, disons, le perceptron par exemple?

Creatron
la source
1
Je pense que vous pouvez être confus sur ce qu'est l'apprentissage supervisé. K-means est un algorithme de clustering d'apprentissage non supervisé. Perceptron est un algorithme de classification d'apprentissage supervisé qui tente de trouver un hyperplan qui sépare les observations négatives des observations positives. LDA est une méthode qui peut être utilisée pour la classification supervisée mais est plus couramment utilisée pour la sélection des fonctionnalités supervisées. Voir la réponse de @ AdamO pour les hypothèses du classificateur LDA.
Bitwise
@Bitwise Oups! Je ne sais pas pourquoi j'ai mis K-means là-dedans. Oui, c'est un algorithme non supervisé. Je vais le supprimer dans une édition.
Creatron
@Bitwise Concernant ce que vous avez dit sur LDA et Perceptron, oui, c'est ce qui me déroute. LDA essaie de trouver un hyperplan sur lequel projeter vos données, de manière à maximiser la variance intercluster, tout en minimisant la variance intra-cluster. Ensuite, à la frontière, vous avez un classificateur. Perceptron fait quelque chose de similaire, en ce sens qu'il essaie également de trouver un hyperplan optimal pour dissocier les données étiquetées. Alors pourquoi utiliser l'un sur l'autre?
Creatron

Réponses:

15

Comme AdamO le suggère dans le commentaire ci-dessus, vous ne pouvez pas vraiment faire mieux que de lire le chapitre 4 des éléments de l'apprentissage statistique (que j'appellerai HTF) qui compare LDA avec d'autres méthodes de classification linéaire, en donnant de nombreux exemples, et discute également de l'utilisation du LDA comme technique de réduction de dimension dans la veine de l'ACP qui, comme le souligne ttnphns, est plutôt populaire.

Du point de vue de la classification, je pense que la principale différence est la suivante. Imaginez que vous avez deux classes et que vous souhaitez les séparer. Chaque classe a une fonction de densité de probabilité. La meilleure situation possible serait si vous connaissiez ces fonctions de densité, car vous pourriez alors prédire à quelle classe un point appartiendrait en évaluant les densités spécifiques à la classe à ce point.

Certains types de classificateurs fonctionnent en trouvant une approximation des fonctions de densité des classes. LDA est l'un d'entre eux; il fait l'hypothèse que les densités sont normales à plusieurs variables avec la même matrice de covariance. C'est une hypothèse forte, mais si elle est approximativement correcte, vous obtenez un bon classificateur. De nombreux autres classificateurs adoptent également ce type d'approche, mais essaient d'être plus flexibles que de supposer la normalité. Par exemple, voir page 108 de HTF.

En revanche, à la page 210, HTF prévient:

Si la classification est le but ultime, alors bien apprendre les densités de classes séparées peut être inutile et peut en fait être trompeur.

Une autre approche consiste simplement à rechercher une frontière entre les deux classes, ce que fait le perceptron. Une version plus sophistiquée de ceci est la machine à vecteurs de support. Ces méthodes peuvent également être combinées avec l'ajout de fonctionnalités aux données à l'aide d'une technique appelée kernelization. Cela ne fonctionne pas avec LDA car il ne préserve pas la normalité, mais ce n'est pas un problème pour un classificateur qui cherche juste un hyperplan de séparation.

La différence entre LDA et un classifieur qui cherche un hyperplan de séparation est comme la différence entre un test t et une alternative non paramétrique dans les statistiques ordinaires. Ce dernier est plus robuste (aux valeurs aberrantes, par exemple) mais le premier est optimal si ses hypothèses sont satisfaites.

Une dernière remarque: il pourrait être utile de mentionner que certaines personnes peuvent avoir des raisons culturelles d'utiliser des méthodes comme le LDA ou la régression logistique, ce qui peut obligatoirement générer des tableaux ANOVA, des tests d'hypothèse et des choses rassurantes comme ça. LDA a été inventé par Fisher; le perceptron était à l'origine un modèle pour un neurone humain ou animal et n'avait aucun lien avec les statistiques. Cela fonctionne également dans l'autre sens; certaines personnes pourraient préférer des méthodes telles que les machines à vecteurs de support, car elles ont le genre de hipster-cred de pointe auquel les méthodes du XXe siècle ne peuvent tout simplement pas correspondre. Cela ne veut pas dire qu'ils sont meilleurs. (Un bon exemple de cela est discuté dans Machine Learning for Hackers , si je me souviens bien.)

Flet
la source
"Certaines personnes pourraient préférer des méthodes telles que les machines à vecteurs de support, car elles ont le genre de hipster-cred de pointe auquel les méthodes du XXe siècle ne peuvent tout simplement pas correspondre." LOL! Tellement vrai. Btw vous avez un talent pour expliquer les choses très clairement et avec précision. Je vous remercie! J'avais besoin d'une «carte» sur la façon dont les choses s'emboîtent et vous l'avez fournie.
Creatron
2

Pour l'intuition, considérons ce cas:

entrez la description de l'image ici

La ligne représente la "frontière optimale" entre les deux classes o et x.

LDA essaie de trouver un hyperplan qui minimise la variance intercluster et maximise la variance intracluster, puis prend la frontière pour être orthogonale à cet hyperplan. Ici, cela ne fonctionnera probablement pas parce que les grappes ont une grande variance dans la même direction.

Un perceptron, d'autre part, peut avoir une meilleure chance de trouver un bon hyperplan de séparation.

Dans le cas des classes qui ont une distribution gaussienne, cependant, le LDA va probablement faire mieux, puisque le perceptron ne trouve qu'un hyperplan séparateur qui est compatible avec les données, sans donner des garanties au sujet qui hyperplan son choix (il pourrait y avoir un nombre infini d'hyperplans cohérents). Cependant, des versions plus sophistiquées du perceptron peuvent choisir un hyperplan avec des propriétés optimales, telles que maximiser la marge entre les classes (c'est essentiellement ce que font les machines à vecteurs de support).

Notez également que LDA et perceptron peuvent être étendus aux frontières de décision non linéaires via l' astuce du noyau .

Au niveau du bit
la source
1

L'une des plus grandes différences entre LDA et les autres méthodes est qu'il s'agit simplement d'une technique d'apprentissage automatique pour les données qui sont supposées être normalement distribuées. Cela peut être excellent dans le cas de données manquantes ou de troncature où vous pouvez utiliser l'algorithme EM pour maximiser les probabilités dans des circonstances très étranges et / ou intéressantes. Mettez en garde l' émpteur parce que les spécifications erronées du modèle, telles que les données multimodales, peuvent conduire à des prédictions peu performantes où le clustering K-means aurait mieux fait. Les données multimodales peuvent également être prises en compte avec EM pour détecter les variables latentes ou le regroupement dans LDA.

Par exemple, supposons que vous cherchiez à mesurer la probabilité de développer un diagnostic positif du SIDA dans 5 ans sur la base du nombre de CD4. Supposons en outre que vous ne connaissiez pas la valeur d'un biomarqueur spécifique qui a un impact important sur le nombre de CD4 et est associé à une immunosuppression supplémentaire. Les comptes de CD4 inférieurs à 400 sont inférieurs à la limite inférieure de détection sur la plupart des tests abordables. L'algorithme EM nous permet de calculer de manière itérative l'affectation des LDA et des biomarqueurs ainsi que les moyennes et la covariance pour CD4 pour le DF non tronqué.

AdamO
la source
Merci Adam, bien que je sois plus confus maintenant. :-) Comment le LDA est-il meilleur / pire que le Perceptron ou une autre technique d'apprentissage supervisé? En ce qui concerne l'algo EM, vous l'utilisez dans le but de dire que vous pouvez résoudre pour le LDA, en utilisant un algo EM, n'est-ce pas?
Creatron
1
@AdamO, je voudrais ajouter pour plus de clarté que LDA en tant que technique de réduction des données ne repose pas sur la normalité, tout comme PCA ne le fait pas. La normalité au sein de la LDA est une hypothèse pour 1) les tests statistiques (test M de Box, etc.), 2) la classification.
ttnphns
@ttnphns en supposant que la normalité signifie que LDA est une technique ML. ML est une bonne chose. Les mises en garde spécifiques dans l'exemple que j'ai mentionné utilisent ML pour résoudre des problèmes difficiles. Ces solutions ne seraient possibles qu'avec une simulation sophistiquée et / ou des BUGS.
AdamO
@TheGrapeBeyond LDA maximise la distance de Mahal entre deux groupes. SLP (monocouche perceptron, ou nnet) dessine l'hyperplan dans l'espace d'entité qui crée la précision de classification maximale ... Je pense. Un bon point de départ est la lecture du livre Tibs / Hastie. Je vais peut-être avoir besoin de réviser celui-là moi-même.
AdamO