Statistiques et Big Data

11
Comment commander ou classer un ensemble d'experts?

J'ai une base de données contenant un grand nombre d'experts dans un domaine. Pour chacun de ces experts, j'ai une variété d'attributs / points de données comme: nombre d'années d'expérience. licences nombre d'avis contenu textuel de ces avis Les 5 étoiles sur chacun de ces avis, pour un certain...

11
Bibliothèque de statistiques avec contrainte de sac à dos

Supposons que vous disposiez de 200 $ US pour construire une (très) petite bibliothèque de livres de statistiques. Quels seraient vos choix? Vous pouvez assumer la livraison gratuite d'Amazon, et tous les textes librement disponibles sur Internet sont équitables, mais supposez une charge de 5 cents...

11
Trouver le point GPS moyen

J'ai besoin d'écrire un programme pour trouver le point GPS moyen à partir d'une population de points. En pratique, les événements suivants se produisent: Chaque mois, une personne enregistre un point GPS du même actif statique. En raison de la nature du GPS, ces points diffèrent légèrement chaque...

11
Probabilité que quelqu'un aime l'image

J'ai le problème suivant: - Nous avons défini N personnes - Nous avons défini K images - Chaque personne évalue un certain nombre d'images. Une personne peut aimer ou ne pas aimer une image (ce sont les deux seules possibilités). - Le problème est de savoir comment calculer la probabilité qu'une...

11
Comment effectuer un test t avec des échantillons énormes?

J'ai deux populations, l'une avec N = 38 704 (nombre d'observations) et l'autre avec N = 1 313 662. Ces ensembles de données ont environ 25 variables, toutes continues. J'ai pris la moyenne de chacun dans chaque ensemble de données et calculé la statistique de test en utilisant la formule t =...

11
Interprétation de la sortie d'étape dans R

Dans R, la stepcommande est censée vous aider à sélectionner les variables d'entrée de votre modèle, non? Ce qui suit provient de example(step)#-> swiss& step(lm1) > step(lm1) Start: AIC=190.69 Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq...

11
Produire automatiquement un résumé par variable de facteur dans R

J'ai une trame de données comme celle-ci: case simulation temp plank oxygen 1 1 1 8 7 11 2 2 1 16 10 15 ... 17 17 2 26 12 17 18 18 2 15 8 12 19 19 2 28 11 21 20 20 2 24 6 14 J'aimerais obtenir des résumés divisés par les niveaux de la variable de simulation. Par exemple, j'aimerais la moyenne de...

11
Comment testez-vous une implémentation de k-means?

Avertissement: j'ai posté cette question sur Stackoverflow, mais je pensais que c'était peut-être mieux adapté à cette plate-forme. Comment testez-vous votre propre implémentation de k-means pour des ensembles de données multidimensionnels? Je pensais exécuter une implémentation déjà existante...