Statistiques et Big Data

42

Quelle est la différence entre GARCH et ARMA?

Je suis confus. Je ne comprends pas la différence entre un procédé ARMA et un processus GARCH. Pour moi, il en va de même. Voici le processus (G) ARCH (p, q)

arima garch finance

42

Réseaux de neurones: impulsion de changement de poids et perte de poids

Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction...

neural-networks optimization regularization gradient-descent

42

Pourquoi, en moyenne, chaque échantillon bootstrap contient-il environ les deux tiers des observations?

Je courir à travers l'affirmation selon laquelle chaque échantillon de bootstrap (ou un arbre mis en sac) contiennent en moyenne environ 2/32/32/3 des observations. Je comprends que la chance de ne pas être sélectionné dans l' un des nnn tire de nnn échantillons avec le remplacement est...

bootstrap

42

Pourquoi Random Forest ne gère-t-il pas les valeurs manquantes dans les prédicteurs?

Quelles sont les raisons théoriques de ne pas gérer les valeurs manquantes? Machines à gradient progressif, les arbres de régression gèrent les valeurs manquantes. Pourquoi Random Forest ne fait-il pas

random-forest missing-data gbm

42

Corrélations entre variables continues et catégorielles (nominales)

J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce...

correlation categorical-data descriptive-statistics biostatistics spearman-rho

42

Est-il utile de calculer la corrélation de Pearson ou de Spearman entre deux vecteurs booléens?

Il existe deux vecteurs booléens, qui contiennent uniquement 0 et 1. Si je calcule la corrélation de Pearson ou de Spearman, sont-elles significatives ou

correlation binary-data pearson-r spearman-rho

42

Lorsque vous enseignez les statistiques, utilisez «normal» ou «gaussien»?

J'utilise principalement "distribution gaussienne" dans mon livre, mais quelqu'un vient de suggérer que je passe à "distribution normale". Un consensus sur quel terme utiliser pour les débutants? Bien sûr, les deux termes sont des synonymes , il ne s'agit donc pas d'une question de fond, mais...

normal-distribution terminology

42

Pourquoi sous-échantillonner?

Supposons que je veuille apprendre un classificateur qui prédit si un courrier électronique est un spam. Et supposons que seulement 1% des emails sont du spam. La chose la plus simple à faire serait d'apprendre le classificateur trivial qui dit qu'aucun des courriels n'est du spam. Ce...

machine-learning classification

42

Qu'est-ce que maxout dans un réseau de neurones?

Quelqu'un peut-il expliquer ce que font les unités maxout d'un réseau de neurones? Comment fonctionnent-ils et en quoi diffèrent-ils des unités conventionnelles? J'ai essayé de lire le document "Maxout Network" de Goodfellow et al. (du groupe du professeur Yoshua Bengio), mais je ne comprends pas...

machine-learning neural-networks

42

Méthode du maximum de vraisemblance vs méthode des moindres carrés

Quelle est la principale différence entre l'estimation du maximum de vraisemblance (EVM) et l'estimation par la méthode des moindres carrés (EVC)? Pourquoi ne pouvons-nous pas utiliser MLE pour prédire les valeurs dans la régression linéaire et inversement?yyy Toute aide sur ce sujet sera...

regression estimation maximum-likelihood least-squares

42

Méthodes de régularisation pour la régression logistique

La régularisation à l'aide de méthodes telles que Ridge, Lasso, ElasticNet est assez courante pour la régression linéaire. Je voulais savoir ce qui suit: Ces méthodes sont-elles applicables à la régression logistique? Si tel est le cas, existe-t-il des différences dans la manière dont ils doivent...

regression logistic regularization

41

Comment puis-je tester si des échantillons donnés proviennent d'une distribution de Poisson?

Je connais des tests de normalité, mais comment puis-je tester "Poisson-ness"? J'ai un échantillon d'environ 1 000 entiers non négatifs, dont je soupçonne qu'ils sont tirés d'une distribution de Poisson, et j'aimerais le

hypothesis-testing distributions poisson-distribution goodness-of-fit

41

Pourquoi l’âge médian est-il meilleur que l’âge moyen?

Si vous regardez Wolfram Alpha Ou cette page Wikipedia Liste des pays par âge médian Clairement, la médiane semble être la statistique de choix en ce qui concerne les âges. Je ne suis pas capable de m'expliquer pourquoi la moyenne arithmétique serait une statistique pire. Pourquoi est-ce?...

mean median

41

Quelqu'un peut-il expliquer le concept de «capacité d'échange»?

Je vois le concept d '«échangeable» utilisé dans différents contextes (par exemple, les modèles bayésiens) mais je n'ai jamais très bien compris le terme. Que signifie ce concept? Dans quelles circonstances ce concept est-il invoqué et pourquoi?

bayesian intuition exchangeability

41

Régression: Transformer les variables

Lorsque vous transformez des variables, devez-vous utiliser la même transformation? Par exemple, puis-je choisir et choisir des variables transformées différemment, comme dans: Soit, l'âge, la durée de l'emploi, la durée de résidence et le revenu.X1, x2, x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) +...

r regression logistic data-transformation

41

En quoi les scores de propension sont-ils différents de l’addition de covariables dans une régression et quand sont-ils préférés à cette dernière?

J'admets que je suis relativement nouveau dans les scores de propension et l'analyse causale. Une chose qui ne me semble pas évident en tant que nouveau venu est de savoir en quoi l’équilibrage à l’aide des scores de propension est mathématiquement différent de ce qui se produit lorsque nous...

regression multivariate-analysis causality propensity-scores

41

Régression logistique en R (rapport de cotes)

J'essaie d'entreprendre une analyse de régression logistique en format R. J'ai suivi des cours sur ce matériel avec STATA. Je trouve très difficile de reproduire la fonctionnalité dans R. Est-il mature dans ce domaine? Il semble y avoir peu de documentation ou de conseils disponibles. La production...

r logistic odds-ratio

41

OpenBugs contre JAGS

Je suis sur le point d'essayer un environnement de type BUGS pour estimer les modèles bayésiens. Y at-il des avantages importants à considérer dans le choix entre OpenBugs ou JAGS? L'un est-il susceptible de remplacer l'autre dans un avenir prévisible? Je vais utiliser le sampler choisi avec Gibbs...

r software bugs jags gibbs

41

Existe-t-il de bons films sur les mathématiques ou les probabilités?

Pouvez-vous suggérer de bons films qui impliquent des maths, des probabilités, etc.? Un exemple est 21 . Je serais également intéressé par les films qui impliquent des algorithmes (par exemple, le déchiffrement de texte). En général, des films "geek" avec des théories scientifiques célèbres, mais...

probability references

41

Comment le centrage des données supprime-t-il l'interception dans la régression et la PCA?

Je continue à lire sur les cas où nous centrons les données (par exemple, avec régularisation ou PCA) afin de supprimer l'interception (comme mentionné dans cette question ). Je sais que c'est simple, mais j'ai du mal à comprendre cela intuitivement. Quelqu'un pourrait-il fournir l'intuition ou une...

regression pca centering