Statistiques et Big Data

10

Que signifie ss total et entre ss dans le clustering k-means?

Je suis très nouveau dans l'analyse de cluster. J'utilise R pour le clustering k-means et je me demande quelles sont ces choses. Et quoi de mieux si leur ratio est plus petit ou plus

clustering

10

Quelle est la différence fondamentale entre ces deux modèles de régression?

Supposons que j'ai une réponse bivariée avec une corrélation significative. J'essaie de comparer les deux façons de modéliser ces résultats. Une façon consiste à modéliser la différence entre les deux résultats: Une autre façon consiste à les utiliser ou à les modéliser:...

r regression model-selection

10

Comment obtenir les valeurs de p des coefficients à partir de la régression bootstrap?

Du Quick-R de Robert Kabacoff, j'ai # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } #...

r regression p-value bootstrap

10

Probabilité d'intersection à partir d'un échantillonnage multiple de la même population

Voici un exemple de cas: J'ai une population de 10 000 articles. Chaque élément a un identifiant unique. Je choisis au hasard 100 articles et enregistre les identifiants J'ai remis les 100 articles dans la population Je choisis à nouveau au hasard 100 articles, enregistre les identifiants et les...

probability hypergeometric

10

Dans un test t à un échantillon, que se passe-t-il si dans l'estimateur de variance la moyenne de l'échantillon est remplacée par

Supposons un test t à un échantillon, où l'hypothèse nulle est . La statistique est alors utilisant l'écart type d'échantillon . Pour estimer , on compare les observations à la moyenne de l'échantillon : t = ¯ x - μ 0μ = μ0μ=μ0\mu=\mu_0 ss¯xt = x¯¯¯- μ0s /

mathematical-statistics variance t-test

10

Les degrés de liberté dans lmerTest :: anova sont-ils corrects? Ils sont très différents de RM-ANOVA

J'analyse les résultats d'une expérience de temps de réaction chez R. J'ai effectué une ANOVA à mesures répétées (1 facteur intra-sujet avec 2 niveaux et 1 facteur inter-sujet avec 2 niveaux). J'ai exécuté un modèle mixte linéaire similaire et je voulais résumer les résultats de lmer sous la forme...

anova mixed-model repeated-measures lme4-nlme degrees-of-freedom

10

Ajuster la distribution aux données spatiales

Cross poster ma question de mathoverflow pour trouver une aide spécifique aux statistiques. J'étudie un processus physique générant des données qui se projettent bien en deux dimensions avec des valeurs non négatives. Chaque processus a une piste (projetée) de points - - voir l'image...

distributions modeling predictive-models fitting curve-fitting

10

Pourquoi utiliser le graphique des facteurs pour l'inférence bayésienne?

Je ne comprends pas pourquoi la conversion d'un réseau bayésien en un graphique factoriel est bonne pour l'inférence bayésienne? Mes questions sont: Quel est l'avantage d'utiliser le graphe factoriel dans le raisonnement bayésien? Que se passerait-il si nous ne l'utilisions pas? Tout exemple...

bayesian graphical-model bayesian-network

10

Le concept de «prouvé statistiquement»

Lorsque les informations parlent de choses «prouvées statistiquement», utilisent-elles correctement un concept bien défini de statistiques, l'utilisent-elles mal ou utilisent-elles simplement un oxymore? J'imagine qu'une «preuve statistique» n'est pas en fait quelque chose qui est effectué pour...

inference proof

10

Le calcul de la «probabilité de couverture réelle» est-il la même chose que le calcul d'un «intervalle crédible»?

Je lisais un manuel de statistiques d'entrée de gamme. Dans le chapitre sur l'estimation du maximum de vraisemblance de la proportion de succès dans les données à distribution binomiale, il a donné une formule pour calculer un intervalle de confiance, puis mentionné nonchalamment Considérez sa...

confidence-interval terminology coverage-probability

10

Quel est le meilleur, stl ou décomposer?

Je fais une analyse des séries chronologiques en utilisant R. Je dois décomposer mes données en composantes de tendance, saisonnières et aléatoires. J'ai des données hebdomadaires depuis 3 ans. J'ai trouvé deux fonctions dans R - stl()et decompose(). J'ai lu que ce stl()n'est pas bon pour la...

r time-series

10

Quelle est une bonne analogie pour illustrer les points forts des modèles bayésiens hiérarchiques?

Je suis relativement nouveau dans les statistiques bayésiennes et j'ai récemment utilisé JAGS pour construire des modèles hiérarchiques bayésiens sur différents ensembles de données. Bien que je sois très satisfait des résultats (par rapport aux modèles GLM standard), je dois expliquer aux...

bayesian hierarchical-bayesian

10

Pourquoi ( est censuré)

Dans un ensemble de problèmes, j'ai prouvé ce «lemme», dont le résultat n'est pas intuitif pour moi. est une distribution normale standard dans un modèle censuré.ZZZ Formellement, et . Ensuite, Il existe donc une sorte de connexion entre la formule d'attente sur un domaine tronqué et la densité au...

normal-distribution pdf intuition

10

Pourquoi utiliser Bonferroni sur Holm-Bonferroni?

Je peux voir pourquoi vous ne pouvez pas utiliser une méthode plus puissante, telle que la méthode Hochberg, sur la correction de Bonferroni, car ils peuvent avoir des hypothèses supplémentaires, telles que l'indépendance des hypothèses dans ce cas, mais je ne comprends pas pourquoi vous le feriez...

hypothesis-testing bonferroni

10

Structure de variance-covariance pour les effets aléatoires dans lme4

Quelle est la structure de variance-covariance par défaut pour les effets aléatoires dans glmerou lmerdans le lme4package? Comment spécifier une autre structure variance-covariance pour les effets aléatoires dans le code? Je n'ai trouvé aucune information à ce sujet dans la

mixed-model lme4-nlme covariance-matrix

10

Comment signalez-vous un test de Mann – Whitney?

Je fais ma thèse, et je fais un certain nombre de tests. Après avoir utilisé un test de Kruskal – Wallis, je rapporte généralement le résultat comme ceci: Il y a une différence significative entre les moyennes de ...(χ2(2)=7.448,p=.024)(χ(2)2=7.448,p=.024)(\chi^2_{(2)}=7.448, p=.024) Mais...

wilcoxon-mann-whitney reporting

10

Mise à l'échelle de la variable arrière dans HMM Baum-Welch

J'essaie simplement de mettre en œuvre l'algorithme Baum-Welch mis à l'échelle et j'ai rencontré un problème où mes variables en arrière, après la mise à l'échelle, dépassent la valeur 1. Est-ce normal? Après tout, les probabilités ne devraient pas dépasser 1. J'utilise le facteur d'échelle que...

machine-learning hidden-markov-model beta-distribution

10

Évaluer les performances d'un modèle de régression en utilisant des ensembles de formation et de test?

J'entends souvent parler de l'évaluation des performances d'un modèle de classification en présentant l'ensemble de test et en entraînant un modèle sur l'ensemble de formation. Puis création de 2 vecteurs, un pour les valeurs prédites et un pour les vraies valeurs. Évidemment, faire une comparaison...

regression machine-learning model-evaluation

10

Comment un test t peut-il être statistiquement significatif si la différence moyenne est proche de 0?

J'essaie de comparer les données de 2 populations pour savoir si la différence entre les traitements est statistiquement significative. Les ensembles de données semblent être normalement distribués avec très peu de différence entre les deux ensembles. La différence moyenne est de 0,00017. J'ai...

statistical-significance t-test paired-data

10

Approches bayésiennes et de Fisher de l'analyse discriminante linéaire

Je connais 2 approches pour faire du LDA, l' approche bayésienne et l' approche de Fisher . Supposons que nous ayons les données , où est le prédicteur à dimensions et est la variable dépendante des classes(x,y)(x,y)(x,y)xxxpppyyyKKK Par approche bayésienne , nous calculons le postérieur , et comme...

discriminant-analysis