Statistiques et Big Data

19

Comment définir le nombre de clusters dans le clustering K-means?

Existe-t-il un moyen de déterminer le numéro de cluster optimal ou dois-je simplement essayer différentes valeurs et vérifier les taux d'erreur pour décider de la meilleure

clustering unsupervised-learning

19

Quels sont les inconvénients de la probabilité de profil?

Considérons un vecteur de paramètres , avec θ 1 le paramètre d'intérêt et θ 2 un paramètre de nuisance.( θ1, θ2)(θ1,θ2)(\theta_1, \theta_2)θ1θ1\theta_1θ2θ2\theta_2 Si est la probabilité construite à partir des données x , la probabilité de profil pour θ 1 est définie comme L P ( θ 1 ; x ) = L ( θ 1...

maximum-likelihood likelihood profile-likelihood

19

Quelle est la distribution de la différence des distributions à deux t

... et pourquoi ? En supposant que , sont des variables aléatoires indépendantes avec respectivement la moyenne et la variance . Mon livre de statistiques de base me dit que la distribution du a les propriétés suivantes:X 2 μ 1 , μ 2 σ 2 1 , σ 2 2 X 1 - X 2X1X1X_1X2X2X_2μ1, μ2μ1,μ2\mu_1,\mu_2σ21,...

distributions degrees-of-freedom t-distribution

19

Comment calculer l'intervalle de confiance de la moyenne des moyennes?

Imaginez que vous répétiez une expérience trois fois. Dans chaque expérience, vous collectez des mesures en triple. Les triplicats ont tendance à être assez proches les uns des autres, par rapport aux différences entre les trois moyens expérimentaux. Le calcul de la moyenne est assez facile. Mais...

confidence-interval multilevel-analysis

19

Existe-t-il un équivalent au test unidirectionnel de Kruskal Wallis pour un modèle bidirectionnel?

Si le modèle ne satisfait pas aux hypothèses ANOVA (normalité notamment), s'il est unidirectionnel, le test non paramétrique de Kruskal-Wallis est recommandé. Mais que faire si vous avez plusieurs

anova nonparametric kruskal-wallis

19

Nombre maximal de variables indépendantes pouvant être entrées dans une équation de régression multiple

Quelle est la limite du nombre de variables indépendantes que l'on peut entrer dans une équation de régression multiple? J'ai 10 prédicteurs que j'aimerais examiner en termes de leur contribution relative à la variable de résultat. Dois-je utiliser une correction bonferroni pour ajuster pour...

regression predictor importance bonferroni

19

Erreur de gradient singulier en nls avec des valeurs de départ correctes

J'essaie d'adapter une ligne + une courbe exponentielle à certaines données. Pour commencer, j'ai essayé de le faire sur certaines données artificielles. La fonction est: Il s'agit en fait d'une courbe exponentielle avec une section linéaire, ainsi que d'un paramètre de décalage horizontal...

r nonlinear-regression nls

19

Analogue 2D d'écart type?

Considérez l'expérience suivante: un groupe de personnes reçoit une liste de villes et est invité à marquer les emplacements correspondants sur une carte du monde (autrement non étiquetée). Pour chaque ville, vous obtiendrez une dispersion de points grossièrement centrés sur la ville respective....

standard-deviation spatial

19

Les analyses de médiation sont-elles intrinsèquement causales?

Je souhaite tester un modèle de médiation simple avec un IV, un DV et un médiateur. L'effet indirect est significatif, comme testé par la macro Preacher et Hayes SPSS, ce qui suggère que le médiateur sert de médiateur statistique à la relation. En lisant sur la médiation, j'ai lu des choses telles...

causality mediation

19

Comment échantillonner à partir de ?

Je veux échantillonner selon une densité où et sont strictement positifs. (Motivation: cela pourrait être utile pour l'échantillonnage de Gibbs lorsque le paramètre de forme d'une densité gamma a une priorité uniforme.)F( A ) α cuneréa - 1Γ ( a )1( 1 , ∞ )( A )F(une)∝cuneréune-1Γ(une)1(1,∞)(une)...

distributions sampling gamma-distribution

19

Quelle est la difference entre lm () et rlm ()?

Je viens de trouver la fonction "Robust Fitting of Linear Models" rlm() dans la MASSbibliothèque . Je voudrais connaître la différence entre cette fonction et la fonction de régression linéaire standard, lm(). Quelqu'un pourrait-il me donner une courte

r regression

19

ANOVA à mesures répétées avec lme / lmer dans R pour deux facteurs intra-sujets

J'essaie d'utiliser à lmepartir du nlmepackage pour répliquer les résultats des aovANOVA à mesures répétées. Je l'ai fait pour une expérience de mesures répétées à un facteur et pour une expérience à deux facteurs avec un facteur inter-sujets et un facteur intra-sujets, mais j'ai du mal à le faire...

r anova mixed-model repeated-measures lme4-nlme

19

Comment tester les différences entre deux moyennes de groupe lorsque les données ne sont pas normalement distribuées?

Je vais éliminer tous les détails biologiques et les expériences et citer juste le problème et ce que j'ai fait statistiquement. Je voudrais savoir si c'est son droit, et sinon, comment procéder. Si les données (ou mon explication) ne sont pas assez claires, je vais essayer de mieux expliquer en...

hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem

19

Mesurer l'efficacité d'un joueur individuel à 2 joueurs par sport d'équipe

J'ai une feuille de calcul de certains scores d'équipe. La première équipe à 10 points gagne. Il y a 2 joueurs dans chaque équipe. Les joueurs jouent avec des coéquipiers différents tout le temps, bien qu'ils ne soient pas choisis au hasard parfaitement. Aucun score individuel n'est conservé. Donc,...

ranking games bradley-terry-model

19

Comment prédire quand le prochain événement se produit, en fonction des heures des événements précédents?

Je suis un lycéen et je travaille sur un projet de programmation informatique, mais je n'ai pas beaucoup d'expérience en statistique et en modélisation de données au-delà d'un cours de statistique au lycée donc je suis un peu confus. Fondamentalement, j'ai une liste raisonnablement longue...

probability modeling data-mining predictive-models

19

Comment puis-je calculer l'intervalle de confiance d'une moyenne dans un échantillon non distribué normalement?

Comment puis-je calculer l'intervalle de confiance d'une moyenne dans un échantillon non distribué normalement? Je comprends que les méthodes d'amorçage sont couramment utilisées ici, mais je suis ouvert à d'autres options. Pendant que je recherche une option non paramétrique, si quelqu'un peut me...

confidence-interval nonparametric bootstrap descriptive-statistics skewness

19

Apprentissage semi-supervisé, apprentissage actif et apprentissage profond pour la classification

Édition finale avec toutes les ressources mises à jour: Pour un projet, j'applique des algorithmes d'apprentissage automatique pour la classification. Défi: données étiquetées assez limitées et beaucoup plus de données non étiquetées. Buts: Appliquer la classification semi-supervisée Appliquer un...

machine-learning classification software svm text-mining

19

Quelles sont les règles essentielles pour concevoir et produire des parcelles?

Contexte: Auparavant sur Cross Validated, nous avons eu des questions sur: Quelle est la meilleure pratique lors de la préparation des tracés? Quels sont les bons conseils disponibles en ligne pour tracer deux variables numériques? @David a suggéré dans les commentaires de cette question que nous...

data-visualization

19

Test d'hypothèse et signification pour les séries chronologiques

Un test de signification habituel lors de l'examen de deux populations est le test t, le test t apparié si possible. Cela suppose que la distribution est normale. Existe-t-il des hypothèses simplificatrices similaires qui produisent un test de signification pour une série chronologique? Plus...

time-series hypothesis-testing statistical-significance

19

En pratique, comment la matrice de covariance des effets aléatoires est-elle calculée dans un modèle à effets mixtes?

Fondamentalement, je me demande comment les différentes structures de covariance sont appliquées et comment les valeurs à l'intérieur de ces matrices sont calculées. Des fonctions comme lme () nous permettent de choisir quelle structure nous aimerions, mais j'aimerais savoir comment elles sont...

mixed-model random-effects-model covariance covariance-matrix