Statistiques et Big Data

80
Calculer le nombre optimal de bacs dans un histogramme

Je suis intéressé à trouver une méthode optimale pour déterminer le nombre de casiers à utiliser dans un histogramme. Mes données devraient aller de 30 à 350 objets au maximum, et en particulier j'essaie d'appliquer un seuillage (comme la méthode d'Otsu) où les "bons" objets, pour lesquels je...

78
Clustering sur la sortie de t-SNE

J'ai une application où il serait pratique de regrouper un ensemble de données bruyant avant de rechercher des effets de sous-groupe dans les clusters. J'ai d'abord examiné PCA, mais il faut environ 30 composants pour obtenir 90% de la variabilité. Par conséquent, le regroupement sur seulement...

78
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires

Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99,...

78
Quand R carré est-il négatif?

D'après ce que je comprends, ne peut pas être négatif car c'est le carré de R. Cependant, j'ai exécuté une régression linéaire simple dans SPSS avec une seule variable indépendante et une variable dépendante. Ma sortie SPSS me donne une valeur négative pour . Si je devais calculer cela manuellement...