Science des données

15
K-means vs K-means en ligne

K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être

15
R: apprentissage automatique sur GPU

Existe-t-il des packages d'apprentissage automatique pour R qui peuvent utiliser le GPU pour améliorer la vitesse de formation (quelque chose comme theeano du monde python)? Je vois qu'il existe un paquet appelé gputools qui permet l'exécution de code sur le GPU, mais je cherche une bibliothèque...

15
Prédiction de similarité de phrase

Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a new...

15
Outils de science des données utilisant Scala

Je sais que Spark est entièrement intégré à Scala. Son cas d'utilisation est spécifiquement pour les grands ensembles de données. Quels autres outils ont un bon support Scala? Scala est-il le mieux adapté aux ensembles de données plus volumineux? Ou est-il également adapté aux petits ensembles de...

15
Similitude entre deux mots

Je recherche une bibliothèque Python qui m'aide à identifier la similitude entre deux mots ou phrases. Je ferai une conversion audio en texte qui se traduira par un dictionnaire anglais ou des mots non-dictionnaire (cela pourrait être un nom de personne ou d'entreprise) Après cela, je dois le...

15
Arbre de décision vs KNN

Dans quels cas est-il préférable d'utiliser un arbre de décision et dans d'autres cas un KNN? Pourquoi en utiliser un dans certains cas? Et l'autre dans des cas différents? (En regardant sa fonctionnalité, pas l'algorithme) Quelqu'un a-t-il des explications ou des références à ce...