Science des données

15
propagation de retour dans CNN

J'ai le CNN suivant: Je commence par une image d'entrée de taille 5x5 Ensuite, j'applique la convolution en utilisant un noyau 2x2 et stride = 1, ce qui produit une carte de caractéristiques de taille 4x4. Ensuite, j'applique un pool max 2x2 avec stride = 2, ce qui réduit la carte des entités à la...

15
Outils de science des données utilisant Scala

Je sais que Spark est entièrement intégré à Scala. Son cas d'utilisation est spécifiquement pour les grands ensembles de données. Quels autres outils ont un bon support Scala? Scala est-il le mieux adapté aux ensembles de données plus volumineux? Ou est-il également adapté aux petits ensembles de...

15
Arbre de décision vs KNN

Dans quels cas est-il préférable d'utiliser un arbre de décision et dans d'autres cas un KNN? Pourquoi en utiliser un dans certains cas? Et l'autre dans des cas différents? (En regardant sa fonctionnalité, pas l'algorithme) Quelqu'un a-t-il des explications ou des références à ce...

15
R: apprentissage automatique sur GPU

Existe-t-il des packages d'apprentissage automatique pour R qui peuvent utiliser le GPU pour améliorer la vitesse de formation (quelque chose comme theeano du monde python)? Je vois qu'il existe un paquet appelé gputools qui permet l'exécution de code sur le GPU, mais je cherche une bibliothèque...

15
Comment fonctionne SelectKBest?

Je regarde ce tutoriel: https://www.dataquest.io/mission/75/improving-your-submission À la section 8, trouver les meilleures fonctionnalités, il montre le code suivant. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp",...

14
Quand les valeurs p sont-elles trompeuses?

Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette

14
RNN utilisant plusieurs séries chronologiques

J'essaie de créer un réseau neuronal en utilisant des séries temporelles en entrée, afin de le former en fonction du type de chaque série. J'ai lu qu'en utilisant des RNN, vous pouvez diviser l'entrée en lots et utiliser chaque point de la série temporelle en neurones individuels et éventuellement...

14
K-means rapide comme algorithme pour 10 ^ 10 points?

Je cherche à regrouper k-means sur un ensemble de points à 10 dimensions. Le hic: il y a 10 ^ 10 points . Je recherche juste le centre et la taille des plus grands clusters (disons 10 à 100 clusters); Je me fiche du cluster dans lequel se trouve chaque point. L'utilisation de k-means en particulier...

14
Distribution de jeux de tests et de formations différents

Je travaille sur un concours de science des données pour lequel la distribution de mon set de test est différente de la set de formation. Je veux sous-échantillonner les observations de l'ensemble d'apprentissage qui ressemble étroitement à l'ensemble de test. Comment puis-je faire...