Statistiques et Big Data

10

Quels avantages les «résidus étudiés en interne» offrent-ils par rapport aux résidus estimés bruts en termes de diagnostic de points de données potentiellement influents?

La raison pour laquelle je pose cette question est qu'il semble que les résidus étudiés en interne semblent avoir le même schéma que les résidus estimés bruts. Ce serait formidable si quelqu'un pouvait offrir une

residuals

10

Choix du nombre de composants principaux à conserver

Une méthode qui m'a été suggérée est de regarder un tracé d'éboulis et de vérifier le «coude» pour déterminer le nombre correct de PC à utiliser. Mais si l'intrigue n'est pas claire, R a-t-il un calcul pour déterminer le nombre? fit <- princomp(mydata,

r pca

10

Modèle de Dirichlet multinomial avec distribution hyperprior sur les paramètres de concentration

Je vais essayer de décrire le problème en question aussi général que possible. Je modélise les observations comme une distribution catégorielle avec un vecteur de probabilité de paramètre thêta. Ensuite, je suppose que le vecteur paramètre thêta suit une distribution a priori de Dirichlet avec les...

categorical-data multinomial dirichlet-distribution hierarchical-bayesian dirichlet-process

10

Distribution à long terme des événements temporels

Supposons que vous ayez les journaux d'un serveur Web. Dans ces journaux, vous avez des tuples de ce type: user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... Ces horodatages représentent par exemple les clics des utilisateurs. Maintenant, user1vous...

distributions estimation mixture

10

Existe-t-il une version multivariée de la distribution Weibull?

J'espère que celui-ci est explicite, mais faites-moi savoir si quelque chose n'est pas clair: Existe-t-il une version multivariée de la distribution

distributions multivariate-analysis copula weibull

10

Est-il acceptable d'avoir seulement deux (ou moins) éléments (variables) chargés par un facteur dans l'analyse factorielle?

J'ai un ensemble de 20 variables que j'ai soumises à l'analyse factorielle dans SPSS. Aux fins de la recherche, j'ai besoin de développer 6 facteurs. SPSS a montré que 8 variables (sur 20) ont été chargées avec des poids faibles ou ont été chargées également par plusieurs facteurs, donc je les ai...

spss factor-analysis references assumptions

10

Somme des variables aléatoires binomiales et de Poisson

Si nous avons deux variables aléatoires indépendantes et , quelle est la fonction de masse de probabilité de ?X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p)X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NB Ce n'est pas des devoirs pour

distributions self-study binomial poisson-distribution

10

Graphiques dans le plan de discontinuité de régression dans «Stata» ou «R»

Lee et Lemieux (p. 31, 2009) suggèrent au chercheur de présenter les graphiques lors de l'analyse de conception de discontinuité de régression (RDD). Ils suggèrent la procédure suivante: "... pour une certaine largeur de bande , et pour un certain nombre de casiers et à gauche et à droite de la...

r regression data-visualization stata regression-discontinuity

10

Interpréter la saisonnalité avec ACF et PACF

J'ai un ensemble de données où l'intuition empirique dit que je devrais m'attendre à une saisonnalité hebdomadaire (c'est-à-dire que le comportement le samedi et le dimanche est différent du reste de la semaine). Si cette prémisse est vraie, un graphique d'autocorrélation ne devrait-il pas me...

time-series autocorrelation forecasting

10

Les faibles largeurs de silhouette signifient-elles que les données ont peu de structure sous-jacente?

Je suis nouveau dans l'analyse de séquence et je me demandais comment vous réagiriez si les largeurs de silhouette moyennes (ASW) des analyses de grappes de matrices de dissimilarité basées sur la correspondance optimale sont faibles (environ 25). Serait-il approprié de conclure qu'il existe peu de...

clustering traminer

10

Valeur attendue d'une variable aléatoire gaussienne transformée avec une fonction logistique

La fonction logistique et l'écart type sont généralement notés . J'utiliserai et pour l'écart-type.σ ( x ) = 1 / ( 1 + exp ( - x ) ) sσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss J'ai un neurone logistique avec une entrée aléatoire dont la moyenne et écart - type je...

distributions normal-distribution neural-networks mathematical-statistics expected-value

10

Comment visualisez-vous les résultats binaires par rapport à un prédicteur continu?

J'ai quelques données à visualiser et je ne sais pas comment le faire. J'ai un ensemble d'éléments de base avec les fréquences respectives et les résultats . Maintenant, je dois déterminer dans quelle mesure ma méthode "trouve" (c'est-à-dire un résultat à 1) les éléments de basse fréquence. Au...

data-visualization

10

Échantillons de petite taille et déséquilibrés pour deux groupes - que faire?

J'ai des données pour deux groupes (c'est-à-dire des échantillons) que je souhaite comparer mais la taille totale de l'échantillon est petite (n = 29) et fortement déséquilibrée (n = 22 vs n = 7). Ces données sont logistiquement difficiles et coûteuses à collecter, donc bien que «collecter plus de...

t-test sample-size

10

Modèle d'ajustement pour deux distributions normales dans PyMC

Étant donné que je suis un ingénieur logiciel essayant d'apprendre plus de statistiques, vous devrez me pardonner avant même de commencer, c'est un nouveau territoire sérieux ... J'ai appris PyMC et travaillé à travers des exemples vraiment (vraiment) simples. Un problème pour lequel je ne peux pas...

modeling python pymc

10

Comment calculer les informations mutuelles?

Je suis un peu confus. Quelqu'un peut-il m'expliquer comment calculer des informations mutuelles entre deux termes en se basant sur une matrice terme-document avec une occurrence de terme binaire comme poids?

python information-theory mutual-information numpy pandas

10

Résiduel influent vs valeur aberrante

Tout d'abord, je dois dire que j'ai cherché sur ce site la réponse. Soit je n'ai pas trouvé de question qui répondait à ma question, soit mon niveau de connaissances est si bas que je ne savais pas que j'avais déjà lu la réponse. J'étudie pour l'examen statistique AP. Je dois apprendre la...

regression outliers residuals

10

Algorithme d'apprentissage automatique pour le classement

J'ai un ensemble d'éléments que je peux décrire selon caractéristiques. Donc:XXXnnn Xje: { cje 1, cje 2, … , Cje n} ∣ xje∈ XXje:{cje1,cje2,…,cjen}∣Xje∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X où est l'évaluation (numérique) de l'élément selon les caractéristiques . Ainsi, mes...

machine-learning algorithms ranking feature-construction

10

Des données ordinales ou d'intervalle sont-elles requises pour le test de classement signé de Wilcoxon?

Après avoir regardé plusieurs sources en ligne, je n'arrive pas à obtenir une réponse claire. Quelqu'un pourrait-il préciser pour moi si les données ordinales sont suffisantes pour être utilisées pour le WSRT et sinon, le test de signe est-il une alternative appropriée? Enfin, c'est pour mon projet...

nonparametric assumptions wilcoxon-signed-rank

10

Techniques d'exploration de données dans la campagne d'Obama

Je suis tombé sur cet article sur l'équipe d'exploration de données dans la campagne de réélection d'Obama. Malheureusement, l'article est très flou sur le mécanisme réel des algorithmes statistiques. Cependant, il semblait que les techniques générales soient connues en sciences sociales et...

data-mining social-network social-science

10

Comment afficher les grandes séries chronologiques de manière interactive?

Je traite souvent une quantité raisonnable de données de séries chronologiques, 50 à 200 millions de doublons avec des horodatages associés et je voudrais les visualiser dynamiquement. Existe-t-il un logiciel pour le faire efficacement? Qu'en est-il des bibliothèques et des formats de données?...

time-series data-visualization large-data interactive-visualization