Science des données

10

Données multi-classes asymétriques

J'ai un ensemble de données qui contient environ 100 000 échantillons de 50 classes. J'utilise SVM avec un noyau RBF pour former et prédire de nouvelles données. Le problème est que l'ensemble de données est biaisé vers différentes classes. Par exemple, Classe 1 - 30 (~ 3% chacune), Classe 31 - 45...

classification svm

10

NASDAQ Trade Data

J'essaie de trouver des données boursières pour m'entraîner, existe-t-il une bonne ressource pour cela? J'ai trouvé ceci: ftp://emi.nasdaq.com/ITCH/ mais il n'a que l'année en cours. J'ai déjà un moyen d'analyser le protocole, mais j'aimerais avoir plus de données avec lesquelles comparer. Il ne...

data-mining dataset

10

Statistiques + Informatique = Science des données? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 5 ans . je veux devenir un scientifique des données . J'ai étudié les...

machine-learning statistics career

10

Comment les différentes techniques statistiques (régression, ACP, etc.) évoluent-elles avec la taille et la dimension de l'échantillon?

Existe-t-il un tableau général connu des techniques statistiques expliquant comment elles évoluent avec la taille et la dimension de l'échantillon? Par exemple, un de mes amis m'a dit l'autre jour que le temps de calcul d'un simple tri rapide des données unidimensionnelles de taille n correspond à...

bigdata statistics efficiency scalability

10

Pourquoi plusieurs types de modèles pourraient-ils donner des résultats presque identiques?

J'ai analysé un ensemble de données d'environ 400k enregistrements et 9 variables La variable dépendante est binaire. J'ai ajusté une régression logistique, un arbre de régression, une forêt aléatoire et un arbre boosté par gradient. Tous donnent des valeurs d'ajustement virtuellement identiques...

data-mining classification binary

10

Quelles étapes initiales dois-je utiliser pour comprendre les grands ensembles de données et quels outils dois-je utiliser?

Avertissement: je suis un débutant complet en matière d'apprentissage automatique, mais désireux d'apprendre. J'ai un grand ensemble de données et j'essaie de trouver un modèle. Il peut / peut ne pas y avoir de corrélation entre les données, soit avec des variables connues, soit avec des variables...

machine-learning data-mining tools beginner

10

Extraire la chaîne canonique d'une liste de chaînes bruyantes

J'ai des milliers de listes de chaînes et chaque liste contient environ 10 chaînes. La plupart des chaînes d'une liste donnée sont très similaires, bien que certaines chaînes soient (rarement) complètement sans rapport avec les autres et que certaines chaînes contiennent des mots non pertinents....

nlp similarity information-retrieval

10

la mise en œuvre de la différence temporelle aux échecs

J'ai développé un programme d'échecs qui utilise un algorithme d'élagage alpha-bêta et une fonction d'évaluation qui évalue les positions en utilisant les caractéristiques suivantes à savoir le matériel, la sécurité du roi, la mobilité, la structure du pion et les pièces piégées, etc. ... Ma...

machine-learning algorithms reinforcement-learning

10

Bibliothèques pour (algorithmes de propagation d'étiquettes / exploration fréquente de sous-graphiques) pour les graphiques en R

Description générale du problème J'ai un graphique où certains sommets sont étiquetés avec un type avec 3 ou 4 valeurs possibles. Pour les autres sommets, le type est inconnu. Mon objectif est d'utiliser le graphique pour prédire le type des sommets qui ne sont pas étiquetés. Cadre possible Je...

classification r graphs

10

Bibliothèques pour l'apprentissage automatique en ligne

Je recherche des packages (en python, R ou un package autonome) pour effectuer un apprentissage en ligne afin de prédire les données de stock. J'ai trouvé et lu sur Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), ce qui semble être très prometteur mais je me demande s'il y a...

machine-learning online-learning

10

Combien de temps les classificateurs scikit prennent-ils pour classer?

Je prévois d'utiliser le classificateur scikit linear support vector machine (SVM) pour la classification de texte sur un corpus comprenant 1 million de documents étiquetés. Ce que je prévois de faire, c'est lorsqu'un utilisateur saisit un mot clé, le classificateur le classera d'abord dans une...

machine-learning classification python scikit-learn

10

Comment puis-je classer le texte en tenant compte de l'ordre des mots, au lieu d'utiliser simplement une approche par sac de mots?

J'ai créé un classificateur Naive Bayes qui utilise la technique du sac de mots pour classer les messages de spam sur un babillard. Cela fonctionne, mais je pense que je pourrais obtenir de bien meilleurs résultats si mes modèles tenaient compte des ordonnances et des phrases. (ex: «filles» et «en...

classification

10

Descente de gradient stochastique basée sur des opérations vectorielles?

supposons que je veux former un algorithme de régression de descente de gradient stochastique en utilisant un ensemble de données qui a N échantillons. Puisque la taille de l'ensemble de données est fixe, je vais réutiliser les données T fois. À chaque itération ou "époque", j'utilise chaque...

python gradient-descent regression

10

Détection évolutive des valeurs aberrantes / des anomalies

J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka,...

data-mining bigdata algorithms outlier

10

Analyse du fichier journal: extraction de la partie information de la partie valeur

J'essaie de créer un ensemble de données sur plusieurs fichiers journaux de l'un de nos produits. Les différents fichiers journaux ont leur propre mise en page et leur propre contenu; Je les ai regroupés avec succès, il ne reste qu'une étape ... En effet, les "messages" du journal sont les...

text-mining clustering

10

Plusieurs étiquettes dans l'algorithme d'apprentissage supervisé

J'ai un corpus de texte avec un sujet correspondant. Par exemple "A rapper Tupac was shot in LA", il a été étiqueté comme ["celebrity", "murder"]. Donc, fondamentalement, chaque vecteur d'entités peut avoir plusieurs étiquettes (pas la même quantité. Le premier vecteur d'entités peut avoir 3...

machine-learning text-mining

10

Amplifier un hachage sensible à la localité

J'essaie de créer un hachage sensible aux localités cosinus afin de pouvoir trouver des paires d'articles similaires candidates sans avoir à comparer toutes les paires possibles. Je l'ai essentiellement, mais la plupart des paires de mes données semblent avoir une similitude cosinus dans la plage...

machine-learning

10

Devez-vous normaliser les données lors de la création d'arbres de décision à l'aide de R?

Ainsi, notre ensemble de données cette semaine a 14 attributs et chaque colonne a des valeurs très différentes. Une colonne a des valeurs inférieures à 1 tandis qu'une autre colonne a des valeurs qui vont de trois à quatre chiffres entiers. Nous avons appris la normalisation la semaine dernière et...

r beginner

10

Comment gratter la page Web imdb?

J'essaie d'apprendre le grattage Web en utilisant Python par moi-même dans le cadre d'un effort pour apprendre l'analyse des données. J'essaie de gratter la page Web imdb dont l'URL est la suivante:

data-mining python scraping

10

Spark, divisant de manière optimale un seul RDD en deux

J'ai un grand ensemble de données que je dois diviser en groupes selon des paramètres spécifiques. Je veux que le travail soit traité aussi efficacement que possible. Je peux imaginer deux façons de le faire Option 1 - Créer une carte à partir du RDD et du filtre d'origine def customMapper(record):...

apache-spark pyspark