Statistiques et Big Data

12
Score au carré du renseignement et détermination du gagnant

Il existe un podcast NPR appelé Intelligence Squared. Chaque épisode est la diffusion d'un débat en direct sur une déclaration litigieuse telle que "Le 2e amendement n'est plus pertinent" ou "L'action positive sur les campus universitaires fait plus de mal que de bien". Quatre représentants...

12
Le modèle Lmer ne parvient pas à converger

Mes données sont décrites ici. Qu'est-ce qui peut provoquer une "erreur () est une erreur singulière" dans aov lors de l'ajustement d'un ANOVA à mesures répétées? J'essaie de voir l'effet d'une interaction en utilisant lmerdonc mon cas de base est: my_null.model <- lmer(value ~...

12
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1,...

12
Est-il possible d'évaluer GLM en Python / scikit-learn en utilisant les distributions de Poisson, Gamma ou Tweedie comme famille pour la distribution d'erreur?

J'essaie d'apprendre un peu Python et Sklearn, mais pour mon travail, j'ai besoin d'exécuter des régressions qui utilisent des distributions d'erreur des familles Poisson, Gamma et surtout Tweedie. Je ne vois rien dans la documentation à leur sujet, mais ils se trouvent dans plusieurs parties de la...

12
Limite supérieure exponentielle

Supposons que nous ayons des variables aléatoires IIDX1,…,XnX1,…,XnX_1,\dots,X_n avec la distribution Ber(θ)Ber(θ)\mathrm{Ber}(\theta) . Nous allons observer un échantillon du XiXiX_i 's de la manière suivante: Soit Y1,…,YnY1,…,YnY_1,\dots,Y_n être indépendant Ber(1/2)Ber(1/2)\mathrm{Ber}(1/2)...

12
L'idée de rendre les données ont une moyenne nulle

Je vois souvent des gens qui font d'une dimension / caractéristique d'un ensemble de données une moyenne nulle en supprimant la moyenne de tous les éléments. Mais je n'ai jamais compris pourquoi le faire? Quel effet cela fait-il en tant qu'étape de prétraitement? Améliore-t-il les performances de...