Questions marquées «large-data»

Les `` données volumineuses '' font référence à des situations où le nombre d'observations (points de données) est si important qu'il nécessite des changements dans la façon dont l'analyste des données pense ou conduit l'analyse. (À ne pas confondre avec «haute dimensionnalité».)

56
Défis industrie vs Kaggle. Est-ce que collecter plus d'observations et avoir accès à plus de variables est plus important que la modélisation de fantaisie?

J'espère que le titre est explicite. Dans Kaggle, la plupart des gagnants utilisent l’empilement avec parfois des centaines de modèles de base pour réduire au minimum quelques points de pourcentage de MSE, de précision ... En général, selon votre expérience, l’importance de la modélisation...

44
Qu'est-ce que le Big Data?

On m'a posé à plusieurs reprises la question: Qu'est-ce que le Big Data? À la fois par les étudiants et mes parents qui attirent l'attention sur les statistiques et ML. J'ai trouvé ce CV-post . Et je sens que je suis d’accord avec la seule réponse possible. La page Wikipedia contient également...

21
Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon...

18
Options d'analyse de données hors cœur

J'utilise SAS professionnellement depuis près de 5 ans maintenant. Je l'ai installé sur mon ordinateur portable et je dois fréquemment analyser des ensembles de données avec 1 000 à 2 000 variables et des centaines de milliers d'observations. Je cherchais des alternatives à SAS qui me permettent de...