Science des données

10
Données multi-classes asymétriques

J'ai un ensemble de données qui contient environ 100 000 échantillons de 50 classes. J'utilise SVM avec un noyau RBF pour former et prédire de nouvelles données. Le problème est que l'ensemble de données est biaisé vers différentes classes. Par exemple, Classe 1 - 30 (~ 3% chacune), Classe 31 - 45...

10
NASDAQ Trade Data

J'essaie de trouver des données boursières pour m'entraîner, existe-t-il une bonne ressource pour cela? J'ai trouvé ceci: ftp://emi.nasdaq.com/ITCH/ mais il n'a que l'année en cours. J'ai déjà un moyen d'analyser le protocole, mais j'aimerais avoir plus de données avec lesquelles comparer. Il ne...

10
Amplifier un hachage sensible à la localité

J'essaie de créer un hachage sensible aux localités cosinus afin de pouvoir trouver des paires d'articles similaires candidates sans avoir à comparer toutes les paires possibles. Je l'ai essentiellement, mais la plupart des paires de mes données semblent avoir une similitude cosinus dans la plage...

10
Spark, divisant de manière optimale un seul RDD en deux

J'ai un grand ensemble de données que je dois diviser en groupes selon des paramètres spécifiques. Je veux que le travail soit traité aussi efficacement que possible. Je peux imaginer deux façons de le faire Option 1 - Créer une carte à partir du RDD et du filtre d'origine def customMapper(record):...