Science des données

11
Tenue de livres des essais et des résultats

Je suis un chercheur pratique et j'aime tester des solutions viables, j'ai donc tendance à faire beaucoup d'expériences. Par exemple, si je calcule un score de similitude entre les documents, je pourrais vouloir essayer de nombreuses mesures. En fait, pour chaque mesure, je devrais peut-être...

11
Utilisation du clustering dans le traitement de texte

Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les...

11
Intuition pour le paramètre de régularisation dans SVM

Comment la variation du paramètre de régularisation dans un SVM change-t-elle la frontière de décision pour un ensemble de données non séparables? Une réponse visuelle et / ou un commentaire sur les comportements limitants (pour les grandes et petites régularisations) serait très...

11
Grattage web LinkedIn

J'ai récemment découvert un nouveau package R pour la connexion à l'API LinkedIn. Malheureusement, l'API LinkedIn semble assez limitée pour commencer; par exemple, vous ne pouvez obtenir que des données de base sur les entreprises, ce qui est séparé des données sur les individus. Je souhaite...