Science des données

16

Comment obtenir des prédictions avec Predict_Generator sur la diffusion en continu de données de test dans Keras?

Dans le blog Keras sur la formation des convnets à partir de zéro , le code affiche uniquement le réseau fonctionnant sur les données de formation et de validation. Qu'en est-il des données de test? Les données de validation sont-elles les mêmes que les données de test (je pense que non). S'il y...

16

Sélection des fonctionnalités vs extraction des fonctionnalités. Lequel utiliser quand?

L'extraction et la sélection d'entités réduisent essentiellement la dimensionnalité des données, mais l'extraction d'entités rend également les données plus séparables, si j'ai raison. Quelle technique serait préférée à l'autre et quand? Je pensais, puisque la sélection des fonctionnalités ne...

feature-selection feature-extraction dimensionality-reduction

15

Comment un point de division est-il choisi pour les variables continues dans les arbres de décision?

J'ai deux questions liées aux arbres de décision: Si nous avons un attribut continu, comment choisissons-nous la valeur de fractionnement? Exemple: Âge = (20,29,50,40 ....) Imaginons que nous ayons un attribut continu qui ont des valeurs dans . Comment puis-je écrire un algorithme qui trouve le...

classification data decision-trees

15

Intuition derrière la machine Boltzmann restreinte (RBM)

J'ai suivi le cours sur les réseaux neuronaux de Geoff Hinton sur Coursera et également l' introduction aux machines Boltzmann restreintes , mais je ne comprenais toujours pas l'intuition derrière les RBM. Pourquoi devons-nous calculer l'énergie dans cette machine? Et à quoi sert la probabilité...

unsupervised-learning rbm

15

K-means vs K-means en ligne

K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être

clustering algorithms k-means

15

R: apprentissage automatique sur GPU

Existe-t-il des packages d'apprentissage automatique pour R qui peuvent utiliser le GPU pour améliorer la vitesse de formation (quelque chose comme theeano du monde python)? Je vois qu'il existe un paquet appelé gputools qui permet l'exécution de code sur le GPU, mais je cherche une bibliothèque...

machine-learning r gpu

15

Pourquoi les fonctions d'activation doivent-elles être monotones?

Je prépare actuellement un examen sur les réseaux de neurones. Dans plusieurs protocoles d'examens précédents, j'ai lu que les fonctions d'activation des neurones (dans les perceptrons multicouches) doivent être monotones. Je comprends que les fonctions d'activation doivent être différenciables,...

machine-learning neural-network

15

supprimer des chaînes après un certain caractère dans un texte donné

J'ai un ensemble de données comme celui ci-dessous. Je souhaite supprimer tous les caractères après le caractère ©. Comment puis-je faire cela dans R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <-...

r data-cleaning

15

Pourquoi convertissons-nous des données asymétriques en une distribution normale

Je passais par une solution de la concurrence des prix du logement sur Kaggle ( noyau analogique humain sur les prix des logements : techniques de régression avancées ) et suis tombé sur cette partie: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features...

regression feature-extraction feature-engineering kaggle feature-scaling

15

Pourquoi les variables des données de train et de test sont-elles définies en utilisant la lettre majuscule (en Python)?

J'espère que cette question est la plus appropriée sur ce site ... En Python, le nom de classe est généralement défini en utilisant la majuscule comme premier caractère, par exemple class Vehicle: ... Cependant, dans le domaine de l'apprentissage automatique, les données d'entraînement et de test...

python dataset

15

Prédiction de similarité de phrase

Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a new...

python nlp scikit-learn similarity text

15

Différence des fonctions d'activation dans les réseaux de neurones en général

J'ai étudié les types de fonctions d'activation pour les réseaux de neurones. Les fonctions elles-mêmes sont assez simples, mais la différence d'application n'est pas entièrement claire. Il est raisonnable de différencier les fonctions de type logique et linéaire, en fonction de la sortie binaire /...

neural-network activation-function

15

La science des données sans connaissance d'un sujet spécifique, vaut-il la peine de poursuivre une carrière? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 5 ans . J'ai eu une conversation avec quelqu'un récemment et j'ai...

education beginner career

15

Différence entre les recommandations basées sur les articles et les utilisateurs dans Mahout

Je voudrais savoir en quoi les recommandations basées sur les utilisateurs de mahout et sur les articles diffèrent les unes des autres. Il définit que Basé sur l'utilisateur : recommandez des articles en trouvant des utilisateurs similaires. Ceci est souvent plus difficile à mettre à l'échelle en...

machine-learning data-mining algorithms recommender-system

15

Régression de paramétrage de l'angle de rotation

Disons que j'ai une image descendante d'une flèche et que je veux prédire l'angle de cette flèche. Ce serait entre et degrés, ou entre et . Le problème est que cette cible est circulaire, et degrés sont exactement les mêmes, ce qui est une invariance que j'aimerais incorporer dans ma cible, ce qui...

neural-network deep-learning loss-function parameter-estimation

15

Outils de science des données utilisant Scala

Je sais que Spark est entièrement intégré à Scala. Son cas d'utilisation est spécifiquement pour les grands ensembles de données. Quels autres outils ont un bon support Scala? Scala est-il le mieux adapté aux ensembles de données plus volumineux? Ou est-il également adapté aux petits ensembles de...

scalability scala

15

Comment ajouter une nouvelle catégorie à un modèle d'apprentissage en profondeur?

Supposons que j'ai effectué un transfert d'apprentissage sur un réseau pré-formé pour reconnaître 10 objets. Comment ajouter un 11ème élément que le réseau peut classer sans perdre les 10 catégories que j'ai déjà formées ni les informations du modèle pré-formé d'origine? Un ami m'a dit que des...

neural-network deep-learning

15

Similitude entre deux mots

Je recherche une bibliothèque Python qui m'aide à identifier la similitude entre deux mots ou phrases. Je ferai une conversion audio en texte qui se traduira par un dictionnaire anglais ou des mots non-dictionnaire (cela pourrait être un nom de personne ou d'entreprise) Après cela, je dois le...

nlp nltk

15

Comment mettre à l'échelle un tableau d'entiers signés de 0 à 1?

J'utilise Brain pour former un réseau neuronal sur un ensemble de fonctionnalités qui comprend des valeurs positives et négatives. Mais Brain nécessite des valeurs d'entrée comprises entre 0 et 1. Quelle est la meilleure façon de normaliser mes

machine-learning neural-network feature-scaling normalization javascript

15

Arbre de décision vs KNN

Dans quels cas est-il préférable d'utiliser un arbre de décision et dans d'autres cas un KNN? Pourquoi en utiliser un dans certains cas? Et l'autre dans des cas différents? (En regardant sa fonctionnalité, pas l'algorithme) Quelqu'un a-t-il des explications ou des références à ce...

machine-learning data-mining decision-trees