Quels classificateurs d'apprentissage automatique sont les plus parallélisables?

10

Quels classificateurs d'apprentissage automatique sont les plus parallélisables? Si vous aviez un problème de classification difficile, un temps limité, mais un réseau local décent d'ordinateurs avec lesquels travailler, quels classificateurs essayeriez-vous?

D'un côté, il me semble que certains classificateurs standard que je connais se cumulent comme suit, mais je peux me tromper totalement:

Forêts aléatoires - Très parallélisable tant que chaque machine peut contenir toutes les données (c'est-à-dire ne peut pas diviser les données d'entraînement en soi, mais sinon parallélisable).

Stimuler -?

Support Vector Machine - Pas très parallélisable.

Arbres de décision - Peut être divisé en partie, mais pas très efficacement.

John Robertson
la source
Ce message a besoin d'une mise à jour. Actuellement, les DNN sont les algorithmes qui bénéficient le plus du calcul parallèle. et le boosting sont difficilement parallélisables.
TNM

Réponses:

11

Des efforts ont été faits pour paralléliser la plupart des classificateurs bien connus, notamment pour renforcer [ un document ], SVM [ un document ] et même des arbres de décision [ un document ]. Bien sûr, en admettant le parallélisme, vous perdez parfois sur d'autres aspects, que ce soit l'implémentabilité de l'algorithme, la complexité des échantillons ou d'autres suspects habituels.

Du point de vue de la théorie, la question est plus difficile car lorsque vous parlez d'apprentissage, vous devez penser à la fonction cible. Par exemple, nous ne savons même pas que les arbres de décision peuvent être appris par PAC, donc si la cible (ainsi que la méthode) est un arbre de décision, nous ne pouvons même pas (encore) l'apprendre sans introduire des facettes supplémentaires dans le problème. Le renforcement contourne cela en supposant une condition d'apprentissage faible, une marge SVM, etc. Je pense que ces hypothèses sont transférées dans le cas parallèle pour vous donner un apprentissage PAC.

Mais comme toujours, il y a un grand écart entre les frontières (et donc les préoccupations) de la théorie et de la pratique. Par exemple, dans la pratique, il importe que le parallélisme soit sur des cœurs ou des clusters. Un algorithme développé spécialement pour une utilisation pratique dans des paramètres de données volumineuses est VW , et il commence à prendre en charge le parallélisme. Vous pourriez être intéressé par les articles de l' atelier NIPS 2010 sur l'apprentissage parallèle pratique.

Lev Reyzin
la source