Statistiques et Big Data

13

Quel est l'avantage de la distribution normale tronquée dans l'initialisation des poids dans un réseau neuronal?

Lors de l'initialisation des poids de connexion dans un réseau de neurones à action directe, il est important de les initialiser de manière aléatoire pour éviter toute symétrie que l'algorithme d'apprentissage ne serait pas en mesure de briser. La recommandation que j'ai vue à divers endroits (par...

13

Package GBM vs Caret utilisant GBM

J'ai ajusté le modèle à l'aide caret, mais j'ai ensuite réexécuté le modèle à l'aide du gbmpackage. Je crois comprendre que le caretpackage utilise gbmet que la sortie doit être la même. Cependant, un simple test rapide utilisant data(iris)montre une différence dans le modèle d'environ 5% en...

r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

13

Pourquoi ecdf utilise-t-il une fonction pas à pas et non une interpolation linéaire?

Les fonctions CDF empiriques sont généralement estimées par une fonction de pas. Y a-t-il une raison pour laquelle cela se fait de cette manière et non en utilisant une interpolation linéaire? La fonction pas a-t-elle des propriétés théoriques intéressantes qui nous font la préférer? Voici un...

r distributions ecdf

13

Pourquoi étudier la régression linéaire?

Étant donné deux variables aléatoires et nous pouvons calculer leur "coefficient de corrélation" et former la ligne de meilleur ajustement entre ces deux variables aléatoires. Ma question est pourquoi?ξξ\xiηη\etaccc 1) Il existe des variables aléatoires, et qui dépendent de la pire façon possible,...

regression

13

Quels domaines des statistiques mathématiques sont hautement employables?

Je suis sur le point de terminer mes honneurs en statistique, et je veux vraiment faire un doctorat parce que je trouve les statistiques mathématiques extrêmement intéressantes. Les domaines de recherche dans lesquels je souhaite le plus faire un doctorat sont les processus stochastiques et les...

mathematical-statistics careers phd

13

Comment comparer les modèles sur la base de l'AIC?

Nous avons deux modèles qui utilisent la même méthode pour calculer la vraisemblance logarithmique et l'AIC pour l'un est inférieur à l'autre. Cependant, celui avec l'AIC inférieur est beaucoup plus difficile à interpréter. Nous avons du mal à décider si cela vaut la peine d'introduire la...

model-selection aic

13

Les données d'entrée corrélées entraînent-elles un sur-ajustement avec les réseaux de neurones?

À mon avis, les données d'entrée corrélées doivent conduire à un sur-ajustement dans les réseaux de neurones car le réseau apprend la corrélation, par exemple le bruit dans les données. Est-ce

correlation neural-networks overfitting

13

Pourquoi existe-t-il de grands coefficients pour les polynômes d'ordre supérieur

Dans le livre de Bishop sur l'apprentissage automatique, il traite du problème de l'ajustement d'une courbe d'une fonction polynomiale à un ensemble de points de données. Soit M l'ordre du polynôme ajusté. Il déclare que Nous voyons qu'à mesure que M augmente, l'amplitude des coefficients augmente...

regression least-squares curve-fitting polynomial

13

En général, est-il plus difficile de faire de l'inférence que de faire des prédictions?

Ma question vient du fait suivant. J'ai lu des articles, des blogs, des conférences ainsi que des livres sur l'apprentissage automatique. Mon impression est que les praticiens de l'apprentissage automatique semblent être indifférents à beaucoup de choses qui intéressent les statisticiens et...

machine-learning self-study inference

13

Faire MCMC: utiliser jags / stan ou l'implémenter moi-même

Je suis nouveau dans la recherche sur les statistiques bayésiennes. J'ai entendu des chercheurs dire que les chercheurs bayésiens mettaient mieux en œuvre MCMC par eux-mêmes plutôt que d'utiliser des outils comme JAGS / Stan. Puis-je demander quel est l'avantage d'implémenter l'algorithme MCMC par...

bayesian mcmc

13

Pourquoi , mais ?

Sur cette page centrale AP Variables aléatoires vs Variables algébriques , l'auteur, Peter Flanagan-Hyde établit une distinction entre les variables algébriques et aléatoires. Il dit en partie x+x=2xx+x=2xx + x = 2x , mais X+X≠2XX+X≠2XX + X \neq 2X - en fait c'est le sous-titre de l'article. Quelle...

probability random-variable

13

Pouvez-vous donner une explication simple et intuitive de la méthode IRLS pour trouver le MLE d'un GLM?

Contexte: J'essaie de suivre l'examen de Princeton de l'estimation MLE pour GLM . Je comprends les bases de l' estimation MLE: likelihood, score, observée et attendue Fisher informationet la Fisher scoringtechnique. Et je sais comment justifier une régression linéaire simple avec une estimation MLE...

regression generalized-linear-model maximum-likelihood link-function irls

13

Quelle est l'origine des réseaux de neurones auto-encodeurs?

J'ai recherché sur Google, Wikipedia, Google scholar, et plus, mais je n'ai pas pu trouver l'origine des Autoencoders. C'est peut-être l'un de ces concepts qui a évolué très progressivement, et il est impossible de retracer un point de départ clair, mais je voudrais quand même trouver une sorte de...

neural-networks autoencoders history

13

Quelle est la différence entre une variable aléatoire et un échantillon aléatoire?

Ces deux expressions m'ont beaucoup dérouté lorsque j'apprenais les statistiques. Il me semble que ce sont des choses totalement différentes. Un échantillon aléatoire consiste à prélever au hasard un échantillon dans une population, tandis qu'une variable aléatoire est comme une fonction qui mappe...

mathematical-statistics random-variable terminology sample

13

Comment trouver un intervalle crédible à 95%?

J'essaie de calculer l'intervalle crédible à 95% de la distribution postérieure suivante. Je n'ai pas pu trouver la fonction dans R pour cela mais l'approche ci-dessous est-elle correcte? x <- seq(0.4,12,0.4) px <- c(0,0, 0, 0, 0, 0, 0.0002, 0.0037, 0.018, 0.06, 0.22 ,0.43, 0.64,0.7579,...

bayesian descriptive-statistics credible-interval

13

Pourquoi les réseaux de neurones sont-ils facilement trompés?

J'ai lu des articles sur la création manuelle d'images pour "tromper" un réseau de neurones (voir ci-dessous). Est-ce parce que les réseaux ne modélisent que la probabilité conditionnelle ? Si un réseau peut modéliser la probabilité conjointe p ( y , x ) , de tels cas se produiront-ils toujours?p (...

machine-learning neural-networks deep-learning

13

Pourquoi est-il mal d'arrêter un test A / B avant que la taille d'échantillon optimale soit atteinte?

Je suis en charge de présenter les résultats des tests A / B (exécutés sur les variantes du site) dans mon entreprise. Nous exécutons le test pendant un mois, puis vérifions les valeurs de p à intervalles réguliers jusqu'à ce que nous atteignions la signification (ou abandonnons si la signification...

hypothesis-testing statistical-significance bias ab-test optimal-stopping

13

Solution de forme fermée au problème du lasso lorsque la matrice de données est diagonale

\newcommand{\diag}{\operatorname{diag}} Nous avons le problème: en supposant que: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).n Σ i=1xix T i =diag(σ 2 1 ,...,Σ 2 d

mathematical-statistics lasso computational-statistics regularization

13

Choix des hyperparamètres à l'aide de T-SNE pour la classification

En tant que problème spécifique avec lequel je travaille (une compétition), j'ai le réglage suivant: 21 fonctionnalités (numériques sur [0,1]) et une sortie binaire. J'ai environ 100 K rangées. Le cadre semble être très bruyant. Moi et d'autres participants appliquons la génération de...

machine-learning dimensionality-reduction unsupervised-learning tsne

13

D'un point de vue statistique: transformée de Fourier vs régression avec base de Fourier

J'essaie de comprendre si la transformée de Fourier discrète donne la même représentation d'une courbe qu'une régression utilisant la base de Fourier. Par exemple, library(fda) Y=daily$tempav[,1] ## my data length(Y) ## =365 ## create Fourier basis and estimate the coefficients...

fourier-transform functional-data-analysis