Science des données

9
quelles techniques machine / deep learning / nlp sont utilisées pour classer un mot donné comme nom, numéro de mobile, adresse, email, état, comté, ville, etc.

J'essaie de générer un modèle intelligent qui peut analyser un ensemble de mots ou de chaînes et les classer en tant que noms, numéros mobiles, adresses, villes, États, pays et autres entités à l'aide de l'apprentissage automatique ou de l'apprentissage profond. J'avais cherché des approches, mais...

8
Erreur en cascade dans Apache Storm

En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le...

8
Tutoriel d'apprentissage automatique en ligne

Quelqu'un connaît-il de bons tutoriels sur les techniques d'apprentissage automatique en ligne? C'est-à-dire comment il peut être utilisé dans des environnements en temps réel, quelles sont les principales différences par rapport aux méthodes normales d'apprentissage automatique, etc. UPD: Merci à...

8
Score de similitude des chaînes de matrice

J'ai une charge de documents, qui ont une charge de paires de valeurs clés en eux. La clé peut ne pas être unique, il peut donc y avoir plusieurs clés du même type avec des valeurs différentes. Je veux comparer la similitude des clés entre 2 documents. Plus précisément la similitude des chaînes de...

8
Pourquoi la régression de renforcement du gradient prévoit-elle des valeurs négatives lorsqu'il n'y a pas de valeurs y négatives dans mon ensemble d'entraînement?

À mesure que j'augmente le nombre d'arbres dans scikit learn 's GradientBoostingRegressor, j'obtiens de plus en plus de prédictions négatives, même s'il n'y a pas de valeurs négatives dans mon ensemble d'entraînement ou de test. J'ai environ 10 fonctionnalités, dont la plupart sont binaires....

8
Erreur R lors de l'utilisation du package tm (text-mining)

J'essaie d'utiliser le paquet tm pour convertir un vecteur de chaînes de texte en élément corpus. Mon code ressemble à ceci Corpus(d1$Yes) où d1$Yesest un facteur avec 124 niveaux, chacun contenant une chaîne de texte. Par exemple, d1$Yes[246] = "So we can get the boat out!" Je reçois l'erreur...