Statistiques et Big Data

12

Paquets Python pour travailler avec des modèles de mélange gaussiens (GMM)

Il semble y avoir plusieurs options disponibles pour travailler avec des modèles de mélange gaussiens (GMM) en Python. À première vue, il existe au moins: PyMix - http://www.pymix.org/pymix/index.php Outils pour la modélisation des mélanges PyEM -

normal-distribution python mixture

12

Test statistique pour une valeur nettement plus éloignée de la moyenne de la population: s'agit-il d'un test Z ou d'un test T?

Quelle est l'importance d'une valeur par rapport à une liste de valeurs? Dans la plupart des cas, les tests statistiques consistent à comparer un ensemble d'échantillons à une population. Dans mon cas, l'échantillon est constitué d'une valeur et nous le comparons à la population. Je suis un...

hypothesis-testing statistical-significance

12

Régression des moindres carrés partiels dans R: pourquoi le PLS sur des données standardisées n'est-il pas équivalent à maximiser la corrélation?

Je suis très nouveau dans les moindres carrés partiels (PLS) et j'essaie de comprendre la sortie de la fonction R plsr()dans le plspackage. Simulons les données et exécutons le PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2...

r regression partial-least-squares

12

Interprétation des résultats ur.df de R (test de racine unitaire Dickey-Fuller)

J'exécute le test de racine unitaire suivant (Dickey-Fuller) sur une série chronologique en utilisant la ur.df()fonction dans le urcapackage. La commande est: summary(ur.df(d.Aus, type = "drift", 6)) La sortie est: ############################################### # Augmented Dickey-Fuller Test Unit...

r time-series hypothesis-testing unit-root

12

Comment rééchantillonner en R sans répéter les permutations?

Dans R, si je mets set.seed (), puis utilise l'exemple de fonction pour randomiser une liste, puis-je garantir que je ne générerai pas la même permutation? c'est à dire... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex)...

r sampling combinatorics resampling

12

Analyse des coefficients de régression logistique

Voici une liste de coefficients de régression logistique (le premier est une interception) -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 Je trouve bizarre à quel point l'ordonnée à...

regression logistic

12

Distribution de l'erreur de somme des carrés pour la régression linéaire?

Je sais que la distribution de la variance de l'échantillon C'est du fait que peut être exprimée sous forme de matrice, (où A: symétrique), et elle pourrait être à nouveau exprimée en: (où Q: orthonormé, D: matrice diagonale). ∑(Xi−X¯)2σ2∼χ2(n−1)∑(Xi−X¯)2σ2∼χ(n−1)2...

regression mathematical-statistics degrees-of-freedom sums-of-squares

12

Modèle bayésien hiérarchique (?)

Veuillez m'excuser d'avoir massacré le jargon statistique :) J'ai trouvé ici quelques questions concernant la publicité et les taux de clics. Mais aucun d'eux ne m'a beaucoup aidé dans ma compréhension de ma situation hiérarchique. Il y a une question connexe. Ces représentations équivalentes du...

bayesian binomial multilevel-analysis

12

Identité des fonctions génératrices de moments

Y a-t-il des distributions non identiques qui ont la même fonction de génération de

distributions moments mgf

12

Quand utiliser le bootstrap vs la technique bayésienne?

J'ai un problème d'analyse décisionnelle assez compliqué impliquant des tests de fiabilité et l'approche logique (pour moi) semble impliquer l'utilisation de MCMC pour soutenir une analyse bayésienne. Cependant, il a été suggéré qu'il serait plus approprié d'utiliser une approche d'amorçage....

bayesian bootstrap

12

Quelles sont les distributions sur le quadrant positif de dimension k avec une matrice de covariance paramétrable?

Suite à la question de zzk sur son problème avec les simulations négatives, je me demande quelles sont les familles de distributions paramétrées sur le quadrant positif k, R k + pour lesquelles la matrice de covariance Σ peut être établie.Rk+R+k\mathbb{R}_+^kΣΣ\Sigma Comme discuté avec ZZK , à...

distributions multivariate-analysis covariance

12

Estimation de la distribution à partir des données

J'ai un échantillon de données générées Rpar rnorm(50,0,1), donc les données prennent évidemment une distribution normale. Cependant, Rne "connaît" pas ces informations de distribution sur les données. Existe-t-il une méthode Rpermettant d'estimer le type de distribution dont provient mon...

r distributions

12

Valeur attendue de la corrélation parasite

Nous tirons échantillons, chacun de taille , indépendamment d'une distribution normale .n ( μ , σ 2 )NNNnnn(μ,σ2)(μ,σ2)(\mu,\sigma^2) À partir des échantillons, nous choisissons ensuite les 2 échantillons qui ont la corrélation de Pearson la plus élevée (absolue).NNN Quelle est la valeur attendue...

correlation normal-distribution expected-value maximum

12

Preuve que si un moment supérieur existe alors un moment inférieur existe également

Le rrr ème moment d'une variable aléatoire XXX est fini si E(|Xr|)<∞E(|Xr|)<∞ \mathbb E(|X^r|)< \infty J'essaie de montrer que pour tout entier positif

self-study moments function

12

Bootstrap, Monte Carlo

On m'a posé la question suivante dans le cadre des devoirs: Concevoir et mettre en œuvre une étude de simulation pour examiner les performances du bootstrap pour obtenir des intervalles de confiance à 95% sur la moyenne d'un échantillon univarié de données. Votre implémentation peut être en R ou...

r self-study bootstrap monte-carlo

12

Corrélation de la série temporelle des volumes

Considérez le graphique suivant: La ligne rouge (axe de gauche) décrit le volume d'échange d'une certaine action. La ligne bleue (axe droit) décrit le volume de messages Twitter pour ce stock. Par exemple, le 9 mai (05-09), environ 1.100 millions de transactions et 4.000 tweets ont été effectués....

time-series correlation lags

12

Qu'est-ce que cela indique lorsque la corrélation de Spearman est nettement inférieure à Pearson?

J'ai un tas d'ensembles de données connexes. Les corrélations Pearson entre des paires d'entre elles sont généralement nettement plus importantes que les corrélations du lancier. Cela suggère que toute corrélation est linéaire, mais on pourrait s'attendre à ce que même si le Pearson et le lancier...

correlation spearman-rho pearson-r

12

Comment ajuster un modèle d'effets mixtes non linéaires pour les données de mesures répétées à l'aide de nlmer ()?

J'essaie d'analyser les données de mesures répétées et j'ai du mal à les faire fonctionner R. Mes données sont essentiellement les suivantes, j'ai deux groupes de traitement. Chaque sujet de chaque groupe est testé tous les jours et obtient un score (le pourcentage correct sur un test). Les données...

r mixed-model repeated-measures lme4-nlme

12

Comment communiquer au mieux l'incertitude?

Un problème majeur dans la communication des résultats des calculs statistiques aux médias et au public est la façon dont nous communiquons l'incertitude. Certes, la plupart des médias de masse semblent aimer un nombre dur et rapide, même si, sauf dans un nombre relativement restreint de cas, les...

uncertainty communication

12

Comment sélectionnez-vous les variables dans un modèle de régression?

L'approche traditionnelle de la sélection des variables consiste à trouver les variables qui contribuent le plus à prédire une nouvelle réponse. Récemment, j'ai appris une alternative à cela. Dans la modélisation des variables qui déterminent l'effet d'un traitement - comme par exemple dans un...

regression feature-selection