Statistiques et Big Data

8

Qu'est-ce que l'Alpha de Cronbach intuitivement?

J'essaie de comprendre l'Alpha de Cronbach de manière intuitive. Quelle est l'idée générale derrière cette construction? Quelles propriétés essayaient-ils de

8

Quelle matrice doit être interprétée dans l'analyse factorielle: matrice de modèle ou matrice de structure?

Lorsque vous effectuez une analyse factorielle (par factorisation de l'axe principal, par exemple) ou une analyse des composants principaux en tant qu'analyse factorielle, et après avoir effectué une rotation oblique des chargements, - quelle matrice utilisez-vous ensuite afin de comprendre quels...

pca interpretation factor-analysis rotation

8

Méta-régression multivariée multiniveau

Contexte: je voudrais effectuer une méta-régression en utilisant des études qui ont (1) plusieurs résultats / constructions (= multivariées) et (2) plusieurs tailles d'effet pour chacun de ces résultats en raison de différentes mesures. Voici un schéma qui, je l'espère, l'explique le mieux: Étude...

multivariate-analysis multilevel-analysis meta-analysis meta-regression

8

Pourquoi l'ajout de la pénalité L1 à l'optim de R ralentit-il tant les choses (par rapport à l'absence de pénalité ou à L2)?

J'exécute quelques optimisations avec l'implémentation optim de BFGS. La fonction objectif est en fait un algorithme de calcul, pas seulement des mathématiques. J'ai trouvé que lorsque j'ajoute une pénalité en L1, les choses ralentissent un peu. Pourquoi est-ce possible? Y a-t-il quelque chose dans...

r optimization lasso

8

Quelle est la condition nécessaire pour qu'un estimateur sans biais soit UMVUE?

Selon le théorème de Rao-Blackwell , si la statistique est suffisante et complète pour , et , alors est un estimateur sans biais à variance minimale uniforme (UMVUE).TTTθθ\thetaE(T)=θE(T)=θE(T)=\thetaTTT Je me demande comment justifier qu'un estimateur non biaisé soit une UMVUE: si n'est pas...

mathematical-statistics umvue rao-blackwell

8

Log vs lien racine carrée pour les données de Poisson dans R

Je travaille actuellement à modéliser les décès dus au sida au fil du temps à l'aide d'un GLM dans R. Je sais qu'il existe deux options possibles pour la fonction de lien pour les données de Poisson, le logarithme et la racine carrée. Je sais que la racine carrée atténuerait les problèmes de...

regression generalized-linear-model poisson-distribution link-function

8

Classement des variables catégorielles dans la régression logistique

Je fais des recherches en utilisant la régression logistique. 10 variables influencent la variable dépendante. L'un des éléments susmentionnés est catégorique (par exemple, livraison express, livraison standard, etc.). Maintenant, je veux classer ces catégories en fonction de la «force» de leur...

regression logistic categorical-data effect-size ranking

8

Modèle statistique pour prédire le prochain déplacement sur le réseau uniquement en utilisant l'historique des mouvements

Est-il possible de construire un modèle statistique qui prédit le prochain mouvement dans un graphique uniquement basé sur les mouvements passés et la structure du graphique? J'ai fait un exemple pour illustrer le problème: Le temps est discret . À chaque tour, vous restez à votre nœud / sommet...

predictive-models spatial hidden-markov-model graph-theory

8

T-test utilisant uniquement des données récapitulatives dans un diagramme en boîte

J'ai le résumé à 5 chiffres (min, Q1, médiane, Q3, max) de deux boxplots et je voulais tester si oui ou non les moyennes des groupes dans les deux boxplots étaient significativement différentes. Je voudrais le faire en utilisant un test t mais je n'ai pas les données à ma disposition (juste le...

t-test boxplot

8

OLS en termes de moyens et de taille d'échantillon

Étant donné un modèle: y=β0+β1⋅ f+ uy=β0+β1⋅F+u y = \beta_0 + \beta_1 \cdot f + u Où est factice si femelle et sinon, y est hauteur en cm. La taille de l'échantillon est au total. Plus loin et . Calculez les estimations des paramètres.FFf= 1=1=1000nFe m a l e=nm a l e= 100 →...

self-study least-squares

8

Pourquoi certaines estimations de régression diffèrent-elles par un changement de signe, mais d'autres non, lorsque je change de niveau de référence?

Supposons que j'ai un résultat continu yet deux prédicteurs factoriels, chacun avec deux niveaux. L'un de mes prédicteurs catégoriques drug, peut avoir deux niveaux ("A" ou "B"), l'autre l'est smokeYes. Lorsque j'exécute un modèle de régression, je peux choisir la ligne de base ou le niveau de...

regression anova multiple-regression contrasts

8

Finesse de la grille et sur-ajustement lors du réglage en LASSO, crête, filet élastique

Je me demande la finesse optimale de la grille et quelle est la relation entre la finesse de la grille et le sur-ajustement dans les méthodes de régularisation telles que LASSO, régression de crête ou filet élastique. Supposons que je veuille adapter un modèle de régression utilisant LASSO à un...

lasso regularization ridge-regression overfitting elastic-net

8

Comment imputer une variable prédictive catégorielle manquante pour un modèle de forêt aléatoire?

J'ai un ensemble de données x, y que j'utilise pour construire une forêt aléatoire. Les données x sont un vecteur de valeurs qui inclut certaines NA. J'utilise donc rfImputepour gérer les données manquantes et créer une forêt aléatoire. Maintenant, j'ai une nouvelle observation invisible x (avec un...

r random-forest missing-data

8

Quand utiliser LDA sur GMM pour le clustering?

J'ai un ensemble de données contenant l'activité de l'utilisateur avec 168 dimensions, où je veux extraire des clusters en utilisant un apprentissage non supervisé. Il n'est pas évident pour moi d'utiliser une approche de modélisation de sujet dans l'allocation de Dirichlet latent (LDA) ou les...

clustering gaussian-mixture unsupervised-learning topic-models

8

Pouvez-vous utiliser le test de Kolmogorov-Smirnov pour tester directement l'équivalence de deux distributions?

Il y a eu des discussions sur d'autres questions sur la façon dont on pourrait utiliser l'approche des deux tests unilatéraux (TOST) pour le test de Kolmogorov-Smirnov (KS), mais je me demandais s'il était possible d'utiliser directement la statistique de test pour montrer que deux les...

distributions kolmogorov-smirnov equivalence tost

8

Asymétrie, kurtosis et combien de valeurs d'écarts-types par rapport à la moyenne

Comme cela est bien connu pour la distribution normale, 68% de la masse de probabilité se situe dans un écart-type de la moyenne, 95% dans deux écarts-types et 99,7% dans 3 écarts-types. Cependant, j'ai quelques distributions empiriques qui sont leptokurtiques et biaisées négativement. Dans de...

normal-distribution skewness kurtosis

8

Pourquoi les GLM prédisent la moyenne et non le mode?

Pourquoi un GLM prédit-il la moyenne et non le mode d'un signal? Cela ne contredit-il pas le fondement même du GLM, c'est-à-dire le maximum de vraisemblance? Les équations à résoudre pour les paramètres du modèle dans un GLM sont basées sur la maximisation de la vraisemblance comme décrit par la...

generalized-linear-model maximum-likelihood mean mode

8

Puis-je obtenir les paramètres d'une distribution log-normale à partir de la moyenne et de la médiane de l'échantillon?

J'ai les valeurs moyennes et médianes d'un échantillon tiré d'une distribution log-normale. Notez que ce n'est pas la moyenne et la médiane des journaux de la variable, bien que je puisse bien sûr calculer les journaux de la moyenne et de la médiane. Existe-t-il une solution sous forme fermée pour...

estimation mean lognormal median parameterization

8

Les termes fonction de densité de probabilité et distribution de probabilité (ou simplement «distribution») sont-ils interchangeables?

Comme le dit le titre, les termes fonction de densité de probabilité et distribution de probabilité (ou simplement "distribution") sont-ils interchangeables? Sinon, quelle est la

terminology

8

Intervalles de prédiction avec hétéroscédasticité

J'utilise R pour effectuer une régression linéaire. J'ai vu des moyens de calculer les intervalles de prédiction, mais ceux-ci dépendent de données homoscédastiques. Existe-t-il un moyen de calculer les intervalles de prédiction avec des données

r regression least-squares heteroscedasticity prediction-interval