Statistiques et Big Data

28
Comment réduire la dimensionnalité dans R

J'ai une matrice où a (i, j) me dit combien de fois j'ai consulté individuellement la page j. Il y a 27 000 personnes et 95 000 pages. J'aimerais avoir une poignée de "dimensions" ou "aspects" dans l'espace des pages qui correspondraient à des ensembles de pages qui sont souvent vues ensemble. Mon...

28
Devenir sérieux avec les séries chronologiques avec R

Si vous pensez en arrière, à quand avez-vous commencé l'analyse des séries chronologiques. Quels outils, packages R et ressources Internet souhaiteriez-vous connaître? Ce que j'essaie de demander, c'est par où commencer? Plus précisément, existe-t-il des ressources pour R qui se résument vraiment à...

28
Qu'est-ce qui se cache derrière l'API Google Prediction?

L'API Google Prediction est un service cloud où l'utilisateur peut soumettre des données de formation pour former un classificateur mystérieux et lui demander plus tard de classer les données entrantes, par exemple pour mettre en œuvre des filtres anti-spam ou prédire les préférences de...

28
Une adaptation de la distance Kullback-Leibler?

Regarde cette image: Si nous tirons un échantillon de la densité rouge, alors certaines valeurs devraient être inférieures à 0,25 alors qu'il est impossible de générer un tel échantillon à partir de la distribution bleue. Par conséquent, la distance de Kullback-Leibler de la densité rouge à la...

28
Problèmes avec les camemberts

Il semble y avoir une discussion croissante sur les camemberts. Les principaux arguments contre cela semblent être: La zone est perçue avec moins de puissance que la longueur. Les graphiques circulaires ont un rapport point-à-pixel de données très faible Cependant, je pense qu'ils peuvent être...

28
Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit)...