Science des données

11

Tenue de livres des essais et des résultats

Je suis un chercheur pratique et j'aime tester des solutions viables, j'ai donc tendance à faire beaucoup d'expériences. Par exemple, si je calcule un score de similitude entre les documents, je pourrais vouloir essayer de nombreuses mesures. En fait, pour chaque mesure, je devrais peut-être...

tools experiments

11

Machines de factorisation conscientes du terrain

Quelqu'un peut-il expliquer comment les machines de factorisation conscientes du terrain (FFM) se comparent aux machines de factorisation standard (FM)? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware":

machine-learning recommender-system

11

Relation entre KS, AUROC et Gini

Les statistiques de validation de modèle communes comme le test de Kolmogorov – Smirnov (KS), l' AUROC et le coefficient de Gini sont tous fonctionnellement liés. Cependant, ma question concerne la preuve de la manière dont ces éléments sont tous liés. Je suis curieux de savoir si quelqu'un peut...

data-mining statistics predictive-modeling accuracy

11

Utilisation du clustering dans le traitement de texte

Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les...

text-mining clustering

11

Quelle régression utiliser pour calculer le résultat d'une élection dans un système multipartite?

Je veux faire une prédiction du résultat des élections législatives. Ma sortie sera le% que chaque partie reçoit. Il y a plus de 2 partis, la régression logistique n'est donc pas une option viable. Je pourrais faire une régression distincte pour chaque parti mais dans ce cas, les résultats seraient...

classification r python regression predictive-modeling

11

Conséquence de la mise à l'échelle des fonctionnalités

J'utilise actuellement SVM et j'adapte mes fonctionnalités d'entraînement à la plage de [0,1]. J'ai d'abord ajusté / transformé mon ensemble d'entraînement, puis j'applique la même transformation à mon ensemble de test. Par exemple: ### Configure transformation and apply to training set...

machine-learning svm feature-scaling

11

Comment fusionner des données mensuelles, quotidiennes et hebdomadaires?

Google Trends renvoie des données hebdomadaires, je dois donc trouver un moyen de les fusionner avec mes données quotidiennes / mensuelles. Ce que j'ai fait jusqu'à présent, c'est de décomposer chaque série en données quotidiennes, par exemple: de: 2013-03-03 - 2013-03-09 37 à: 2013-03-03 37...

time-series

11

Que se passe-t-il lorsque nous formons un SVM linéaire sur des données non linéairement séparables?

Que se passe-t-il lorsque nous formons une machine à vecteurs de support de base (noyau linéaire et pas de marge souple) sur des données non linéairement séparables? Le problème d'optimisation n'est pas possible, alors que renvoie l'algorithme de

machine-learning svm

11

Intuition pour le paramètre de régularisation dans SVM

Comment la variation du paramètre de régularisation dans un SVM change-t-elle la frontière de décision pour un ensemble de données non séparables? Une réponse visuelle et / ou un commentaire sur les comportements limitants (pour les grandes et petites régularisations) serait très...

svm

11

Grattage web LinkedIn

J'ai récemment découvert un nouveau package R pour la connexion à l'API LinkedIn. Malheureusement, l'API LinkedIn semble assez limitée pour commencer; par exemple, vous ne pouvez obtenir que des données de base sur les entreprises, ce qui est séparé des données sur les individus. Je souhaite...

data-mining social-network-analysis crawling scraping

11

Comment convertir des données catégorielles en données numériques dans Pyspark

J'utilise le bloc-notes Ipython pour travailler avec des applications pyspark. J'ai un fichier CSV avec beaucoup de colonnes catégorielles pour déterminer si le revenu tombe sous ou au-dessus de la plage 50k. Je voudrais effectuer un algorithme de classification prenant toutes les entrées pour...

python apache-spark categorical-data pyspark

11

Comment éviter le sur-ajustement dans une forêt aléatoire?

Je veux éviter le sur-ajustement dans une forêt aléatoire. À cet égard, j'ai l'intention d'utiliser mtry, nodesize et maxnodes etc. Pourriez-vous s'il vous plaît m'aider à choisir des valeurs pour ces paramètres? J'utilise R. Aussi, si possible, dites-moi comment je peux utiliser la validation...

machine-learning data-mining r predictive-modeling random-forest

11

Problème avec IPython / Jupyter sur Spark (alias non reconnu)

Je travaille à la mise en place d'un ensemble de machines virtuelles pour expérimenter avec Spark avant de dépenser et de dépenser de l'argent pour construire un cluster avec du matériel. Note rapide: je suis un universitaire avec une formation en apprentissage automatique appliqué et je travaille...

python apache-spark pyspark ipython

11

Classes déséquilibrées - Comment minimiser les faux négatifs?

J'ai un ensemble de données qui a un attribut de classe binaire. Il y a 623 instances de classe +1 (cancer positif) et 101 671 instances de classe -1 (cancer négatif). J'ai essayé divers algorithmes (Naive Bayes, Random Forest, AODE, C4.5) et tous ont des taux de faux négatifs inacceptables. Random...

classification random-forest decision-trees unbalanced-classes

11

Les arbres de régression peuvent-ils prédire en continu?

Supposons que j'ai une fonction lisse comme . J'ai un ensemble d'entraînement D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} et, bien sûr, je ne connais pas f bien que je puisse évaluer f où je veux.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) =

predictive-modeling regression decision-trees

11

Comment word2vec peut être utilisé pour identifier les mots invisibles et les relier à des données déjà formées

Je travaillais sur le modèle word2vec gensim et je l'ai trouvé très intéressant. Je suis intéressé à trouver comment un mot inconnu / invisible lorsqu'il est vérifié avec le modèle pourra obtenir des termes similaires du modèle formé. Est-ce possible? Word2vec peut-il être modifié pour cela? Ou le...

nlp deep-learning word-embeddings unsupervised-learning

11

application de word2vec sur de petits fichiers texte

Je suis totalement nouveau sur word2vec, alors veuillez le porter avec moi. J'ai un ensemble de fichiers texte contenant chacun un ensemble de tweets, entre 1000-3000. J'ai choisi un mot clé commun ("kw1") et souhaite trouver des termes sémantiquement pertinents pour "kw1" en utilisant word2vec....

machine-learning nlp text-mining

11

Sur-ajustement / sous-ajustement avec la taille de l'ensemble de données

Dans le graphique ci-dessous, axe x => Taille de l'ensemble de données axe y => Score de validation croisée La ligne rouge est pour les données de formation La ligne verte est pour les données de test Dans un tutoriel auquel je fais référence, l'auteur dit que le point où la ligne rouge et la...

machine-learning cross-validation

11

Quelle est la différence entre xgboost binary: logistic et reg: logistic

Quelle est la différence de R dans xgboost entre binaire: logistique et reg: logistique? Est-ce uniquement dans la mesure d'évaluation? Si oui, comment RMSE sur la classification binaire se compare-t-il au taux d'erreur? La relation entre les métriques est-elle plus ou moins monotone, la sortie du...

r logistic-regression xgboost

11

Lequel en premier: analyse comparative des algorithmes, sélection des fonctionnalités, réglage des paramètres?

En essayant de faire par exemple une classification, mon approche est actuellement de essayez d'abord différents algorithmes et comparez-les effectuer la sélection des fonctionnalités sur le meilleur algorithme parmi 1 régler les paramètres en utilisant les fonctionnalités et l'algorithme...

feature-selection parameter-estimation