Science des données

13
Échelle éthique et rentable Scrapes de données

Peu de choses dans la vie me font plaisir comme gratter des données structurées et non structurées d'Internet et les utiliser dans mes modèles. Par exemple, le Data Science Toolkit (ou RDSTKpour les programmeurs R) me permet d'extraire de nombreuses bonnes données géolocalisées en utilisant des...

13
Neo4j vs OrientDB vs Titan

Je travaille sur un projet de science des données lié à l'exploration des relations sociales et j'ai besoin de stocker des données dans certaines bases de données graphiques. Au départ, j'ai choisi Neo4j comme base de données. Mais il semble que Neo4j ne soit pas à l'échelle. L'alternative que j'ai...

13
Dimensionnalité et collecteur

Une phrase couramment entendue dans le Machine Learning non supervisé est Les entrées de grande dimension vivent généralement sur ou à proximité d'un collecteur de faible dimension Qu'est-ce qu'une dimension? Qu'est-ce qu'un collecteur? Quelle est la différence? Pouvez-vous donner un exemple pour...