Science des données

31

Papier: Quelle est la différence entre la normalisation des calques, la normalisation des lots récurrents (2016) et le RNN normalisé par lots (2015)?

Donc, récemment, il y a un papier de normalisation des calques . Il existe également une implémentation de celui-ci sur Keras. Mais je me souviens qu'il y a des articles intitulés Recurrent Batch Normalization (Cooijmans, 2016) et Batch Normalized Recurrent Neural Networks (Laurent, 2015). Quelle...

31

Convertir une liste de listes en un cadre de données Pandas

J'essaie de convertir une liste de listes qui ressemble à la suivante en un cadre de données Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'],...

pandas

30

Qu'est-ce que la fonction Q et quelle est la fonction V dans l'apprentissage par renforcement?

Il me semble que la fonction VVV peut être facilement exprimée par la fonction QQQ et donc la fonction VVV me semble superflue. Cependant, je suis nouveau dans l'apprentissage par renforcement, donc je suppose que je me suis trompé. Définitions L'apprentissage Q et V s'inscrit dans le contexte des...

machine-learning reinforcement-learning

30

Quel est le meilleur modèle Keras pour la classification multi-classes?

Je travaille sur la recherche, là où le besoin de classer l' un des trois cas GAGNANT = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mon modèle actuel est: def...

python neural-network classification clustering keras

30

Pourquoi les données doivent-elles être mélangées pour les tâches d'apprentissage automatique

Dans les tâches d'apprentissage automatique, il est courant de mélanger les données et de les normaliser. Le but de la normalisation est clair (pour avoir la même plage de valeurs de caractéristiques). Mais, après beaucoup de difficultés, je n'ai trouvé aucune raison valable de mélanger les...

machine-learning neural-network deep-learning

30

Quels sont les cas d'utilisation pour Apache Spark vs Hadoop

Avec Hadoop 2.0 et YARN, Hadoop ne serait plus lié uniquement aux solutions de réduction de carte. Avec cet avancement, quels sont les cas d'utilisation d'Apache Spark vs Hadoop considérant que les deux se trouvent au sommet de HDFS? J'ai lu la documentation d'introduction de Spark, mais je suis...

apache-hadoop distributed knowledge-base

30

Deep Learning vs boosting de gradient: quand utiliser quoi?

J'ai un gros problème de données avec un grand ensemble de données (prenez par exemple 50 millions de lignes et 200 colonnes). L'ensemble de données comprend environ 100 colonnes numériques et 100 colonnes catégorielles et une colonne de réponse qui représente un problème de classe binaire. La...

machine-learning classification deep-learning

30

Quelle est la vérité fondamentale

Dans le contexte du Machine Learning , j'ai vu le terme Ground Truth beaucoup utilisé. J'ai beaucoup cherché et trouvé la définition suivante dans Wikipedia : Dans l'apprentissage automatique, le terme «vérité terrain» fait référence à l'exactitude de la classification de l'ensemble d'apprentissage...

machine-learning neural-network deep-learning

30

Dans le classificateur softmax, pourquoi utiliser la fonction exp pour effectuer la normalisation?

Pourquoi utiliser softmax par opposition à la normalisation standard? Dans la zone de commentaire de la première réponse à cette question, @Kilian Batzner a soulevé 2 questions qui me déroutent également beaucoup. Il semble que personne ne donne d'explication à l'exception des avantages numériques....

machine-learning deep-learning

29

Guide rapide sur la formation d'ensembles de données très déséquilibrés

J'ai un problème de classification avec environ 1000 échantillons positifs et 10000 négatifs dans l'ensemble de formation. Cet ensemble de données est donc assez déséquilibré. La forêt aléatoire simple tente simplement de marquer tous les échantillons de test comme une classe majoritaire. Voici...

machine-learning classification dataset unbalanced-classes

29

Comment faire SVD et PCA avec des mégadonnées?

J'ai un grand ensemble de données (environ 8 Go). J'aimerais utiliser l'apprentissage automatique pour l'analyser. Donc, je pense que je devrais utiliser SVD puis PCA pour réduire la dimensionnalité des données pour plus d'efficacité. Cependant, MATLAB et Octave ne peuvent pas charger un ensemble...

bigdata data-mining dimensionality-reduction

29

Choisir entre CPU et GPU pour former un réseau de neurones

J'ai vu des discussions sur la «surcharge» d'un GPU, et que pour les «petits» réseaux, il peut en fait être plus rapide de s'entraîner sur un CPU (ou réseau de CPU) qu'un GPU. Qu'entend-on par «petit»? Par exemple, un MLP monocouche avec 100 unités cachées serait-il «petit»? Notre définition de...

neural-network deep-learning gpu

29

Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

29

Comment fonctionnent les couches de convolution suivantes?

Cette question se résume à "comment fonctionnent exactement les couches de convolution . Supposons que j'ai une image en niveaux de gris . L'image a donc un canal. Dans la première couche, j'applique une convolution avec des filtres et un remplissage. Ensuite, j'ai une autre couche de convolution...

neural-network convnet

29

Existe-t-il des outils pour l'ingénierie des fonctionnalités?

Plus précisément, ce que je recherche, ce sont des outils avec des fonctionnalités spécifiques à l'ingénierie des fonctionnalités. Je voudrais pouvoir facilement lisser, visualiser, combler les lacunes, etc. Quelque chose de similaire à MS Excel, mais qui a R comme langue sous-jacente au lieu de...

feature-selection feature-extraction feature-construction

28

Quand utiliser Random Forest sur SVM et vice versa?

Quand utiliserait-on Random Forestplus SVMet vice versa? Je comprends cela cross-validationet la comparaison de modèles est un aspect important du choix d'un modèle, mais ici j'aimerais en savoir plus sur les règles de base et l'heuristique des deux méthodes. Quelqu'un peut-il expliquer les...

machine-learning classification random-forest svm

28

Format de données hiérarchique. Quels sont les avantages par rapport aux formats alternatifs?

Quels sont les principaux avantages du stockage de données dans HDF? Et quelles sont les principales tâches de science des données où HDF est vraiment adapté et

data-formats hierarchical-data-format

28

Neural Network parse string data?

Donc, je commence tout juste à apprendre comment un réseau de neurones peut fonctionner pour reconnaître les modèles et classer les entrées, et j'ai vu comment un réseau de neurones artificiel peut analyser les données d'image et catégoriser les images ( démo avec convnetjs ), et la clé là-bas...

neural-network

28

Quelle est la différence entre les hyperparamètres du modèle et les paramètres du modèle?

J'ai remarqué que des termes tels que hyperparamètre de modèle et paramètre de modèle ont été utilisés de manière interchangeable sur le Web sans clarification préalable. Je pense que c'est incorrect et a besoin d'explications. Considérez un modèle d'apprentissage automatique, un classificateur ou...

machine-learning parameter hyperparameter language-model

28

Quels algorithmes dois-je utiliser pour effectuer la classification des emplois en fonction des données de CV?

Notez que je fais tout en R. Le problème est le suivant: Fondamentalement, j'ai une liste de CV (CV). Certains candidats auront une expérience de travail avant et d'autres non. Le but ici est de: sur la base du texte de leur CV, je souhaite les classer dans différents secteurs d'emploi. Je suis...

machine-learning classification nlp text-mining