Science des données

9

quelles techniques machine / deep learning / nlp sont utilisées pour classer un mot donné comme nom, numéro de mobile, adresse, email, état, comté, ville, etc.

J'essaie de générer un modèle intelligent qui peut analyser un ensemble de mots ou de chaînes et les classer en tant que noms, numéros mobiles, adresses, villes, États, pays et autres entités à l'aide de l'apprentissage automatique ou de l'apprentissage profond. J'avais cherché des approches, mais...

9

L'apprentissage par renforcement peut-il être appliqué pour la prévision de séries chronologiques?

time-series reinforcement-learning forecasting

9

La normalisation par lots signifie-t-elle que les sigmoids fonctionnent mieux que les ReLU?

La normalisation des lots et les ReLU sont tous deux des solutions au problème du gradient de fuite. Si nous utilisons la normalisation par lots, devrions-nous alors utiliser des sigmoïdes? Ou existe-t-il des fonctionnalités des ReLU qui en valent la peine, même lorsque vous utilisez batchnorm? Je...

deep-learning batch-normalization

9

Pourquoi mon modèle Keras apprend-il à reconnaître l'arrière-plan?

J'essaie de former cette implémentation Keras de Deeplabv3 + sur Pascal VOC2012, en utilisant le modèle pré-formé (qui a également été formé sur cet ensemble de données). J'ai obtenu des résultats étranges avec une précision convergeant rapidement vers 1.0: 5/5 [==============================] -...

python deep-learning keras tensorflow

9

Comment calculer la probabilité de prédiction d'une classe dans Java Weka Api?

Je développe un modèle de prédiction en utilisant l'API Java Weka. Je peux prédire la classe de la nouvelle instance en utilisant le code suivant: double predictClass = classifer.classifyInstance(instance) Cependant, j'ai besoin d'une probabilité de classe au lieu d'une valeur de classe. Merci...

classification java weka

9

Qu'entend-on par distribué pour une bibliothèque de renforcement de dégradé?

Je vérifie la documentation XGBoost et il est indiqué que XGBoost est une bibliothèque optimisée de renforcement de gradient distribué . Qu'entend-on par distribué? Bonne

xgboost distributed boosting

9

SGDClassifier: apprentissage en ligne / partial_fit avec une étiquette inconnue auparavant

Mon ensemble de formation contient environ 50k entrées avec lesquelles je fais un apprentissage initial. Sur une base hebdomadaire, environ 5 000 entrées sont ajoutées; mais la même quantité "disparaît" (car ce sont les données utilisateur qui doivent être supprimées après un certain temps). Par...

multiclass-classification online-learning

9

Un doctorat en mathématiques (programmation non linéaire) passe à la science des données?

Je suis docteur en mathématiques. étudiant qui souhaite aller dans l'industrie en tant que Data Scientist après l'obtention du diplôme. Je donnerai brièvement quelques informations sur ma formation avant de poser ma question, afin qu'elle soit mieux comprise: Cours de mathématiques: Cela a été...

machine-learning deep-learning data-cleaning data-analysis reference-request

8

Réseau de neurones à propagation inverse multicouche pour la classification

Quelqu'un peut-il m'expliquer comment classer des données comme MNIST avec le réseau MLBP-Neural si je fais plusieurs sorties (par exemple 8), je veux dire que si je n'utilise qu'une seule sortie, je peux facilement classer les données, mais si j'utilise plus de un, quelle sortie dois-je...

neural-network

8

Quels sont les cas d'utilisation des applications de science des données les plus populaires pour les entreprises Web grand public

Le cas d'utilisation le plus populaire semble être des systèmes de recommandation de différents types (tels que la recommandation d'articles d'achat, les utilisateurs des réseaux sociaux, etc.). Mais quelles sont les autres applications typiques de la science des données, qui peuvent être utilisées...

usecase consumerweb

8

Erreur en cascade dans Apache Storm

En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le...

bigdata apache-hadoop

8

Comment obtenir une matrice de confusion agrégée à partir de n classifications différentes

Je veux tester l'exactitude d'une méthodologie. Je l'ai couru environ 400 fois et j'ai obtenu un classement différent pour chaque course. J'ai aussi la vérité sur le terrain, c'est-à-dire la véritable classification à tester. Pour chaque classification, j'ai calculé une matrice de confusion....

classification confusion-matrix accuracy

8

Sélection de fonctionnalités pour suivre l'activité des utilisateurs dans une application

Je développe un système qui vise à capturer le "contexte" de l'activité des utilisateurs dans une application; il s'agit d'un cadre que les applications Web peuvent utiliser pour baliser l'activité des utilisateurs en fonction des demandes adressées au système. On espère que ces données pourront...

feature-selection

8

Tutoriel d'apprentissage automatique en ligne

Quelqu'un connaît-il de bons tutoriels sur les techniques d'apprentissage automatique en ligne? C'est-à-dire comment il peut être utilisé dans des environnements en temps réel, quelles sont les principales différences par rapport aux méthodes normales d'apprentissage automatique, etc. UPD: Merci à...

machine-learning education beginner

8

Score de similitude des chaînes de matrice

J'ai une charge de documents, qui ont une charge de paires de valeurs clés en eux. La clé peut ne pas être unique, il peut donc y avoir plusieurs clés du même type avec des valeurs différentes. Je veux comparer la similitude des clés entre 2 documents. Plus précisément la similitude des chaînes de...

algorithms similarity

8

Pourquoi la régression de renforcement du gradient prévoit-elle des valeurs négatives lorsqu'il n'y a pas de valeurs y négatives dans mon ensemble d'entraînement?

À mesure que j'augmente le nombre d'arbres dans scikit learn 's GradientBoostingRegressor, j'obtiens de plus en plus de prédictions négatives, même s'il n'y a pas de valeurs négatives dans mon ensemble d'entraînement ou de test. J'ai environ 10 fonctionnalités, dont la plupart sont binaires....

machine-learning python algorithms scikit-learn kaggle

8

Augmentation linéaire des données avec réinitialisation manuelle

J'ai un ensemble de données de série temporelle à augmentation linéaire d'un capteur, avec des plages de valeurs comprises entre 50 et 150. J'ai implémenté un algorithme de régression linéaire simple pour ajuster une ligne de régression sur ces données, et je prédis la date à laquelle la série...

machine-learning statistics time-series

8

Quelles sont les méthodes standard de calcul de la distance entre les requêtes de recherche individuelles?

J'ai posé une question similaire concernant la distance entre les "documents" (articles Wikipedia, actualités, etc.). J'ai fait de cette question une question distincte car les requêtes de recherche sont considérablement plus petites que les documents et sont considérablement plus bruyantes. Je ne...

machine-learning nlp search

8

Science des données et modèle de programmation MapReduce de Hadoop

Quelles sont les différentes classes de problèmes de science des données qui peuvent être résolus en utilisant le modèle de programmation

apache-hadoop map-reduce

8

Erreur R lors de l'utilisation du package tm (text-mining)

J'essaie d'utiliser le paquet tm pour convertir un vecteur de chaînes de texte en élément corpus. Mon code ressemble à ceci Corpus(d1$Yes) où d1$Yesest un facteur avec 124 niveaux, chacun contenant une chaîne de texte. Par exemple, d1$Yes[246] = "So we can get the boat out!" Je reçois l'erreur...

r text-mining