Questions marquées «descriptive-statistics»

Les statistiques descriptives résument les caractéristiques d'un échantillon, telles que la moyenne et les écarts-types, la médiane et les quartiles, le maximum et le minimum. Avec plusieurs variables, peut inclure des corrélations et des tableaux croisés. Peut inclure des affichages visuels - boîtes à moustaches, histogrammes, diagrammes de dispersion, etc.

78
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires

Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99,...

68
Comment "additionner" un écart type?

J'ai une moyenne mensuelle pour une valeur et un écart-type correspondant à cette moyenne. Je calcule maintenant la moyenne annuelle comme étant la somme des moyennes mensuelles. Comment puis-je représenter l'écart type de la moyenne cumulée? Par exemple, en considérant la production d'un parc...

34
Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la...

29
Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

21
Ensembles de données de type Anscombe avec le même tracé de boîte et de moustaches (moyenne / std / médiane / MAD / min / max)

EDIT: Comme cette question a été gonflée, un résumé: trouver différents ensembles de données significatifs et interprétables avec les mêmes statistiques mixtes (moyenne, médiane, milieu de gamme et leurs dispersions associées, et régression). Le quatuor Anscombe (voir Objectif de visualiser des...