Statistiques et Big Data

69

Quels sont quelques projets open source d’analyses statistiques précieux?

Quels sont quelques projets open source d’analyses statistiques valables disponibles actuellement? Edit: comme le souligne Sharpie, être utile peut vouloir dire vous aider à accomplir vos tâches plus rapidement ou à moindre

software open-source

69

Qu'entend-on par «variable aléatoire»?

Que veulent-ils dire quand ils parlent de "variable aléatoire"?

mathematical-statistics random-variable intuition definition

69

Forme de l'intervalle de confiance pour les valeurs prédites dans la régression linéaire

J'ai remarqué que l'intervalle de confiance pour les valeurs prédites dans une régression linéaire tend à être étroit autour de la moyenne du prédicteur et de la graisse autour des valeurs minimale et maximale du prédicteur. Ceci peut être vu dans les graphiques de ces 4 régressions linéaires: Je...

regression confidence-interval linear-model standard-error prediction-interval

69

Pourquoi les chercheurs en réseaux de neurones se soucient-ils des époques?

Une époque en descente de gradient stochastique est définie comme un passage unique dans les données. Pour chaque minibatch SGD, échantillons sont extraits, le gradient calculé et les paramètres mis à jour. Dans le réglage d'époque, les échantillons sont prélevés sans remplacement.kkk Mais cela...

neural-networks deep-learning gradient-descent

69

Comment accorder les hyperparamètres des arbres xgboost?

J'ai une classe de données déséquilibrées et je veux régler les hyperparamètres du tress renforcé à l'aide de xgboost. Des questions Existe-t-il un équivalent de gridsearchcv ou randomsearchcv pour xgboost? Si non, quelle est l'approche recommandée pour ajuster les paramètres de xgboost?...

machine-learning cross-validation xgboost boosting

69

Comment le coefficient de corrélation diffère-t-il de la pente de régression?

Je me serais attendu à ce que le coefficient de corrélation soit identique à une pente de régression (bêta). Cependant, juste après avoir comparé les deux, ils sont différents. En quoi diffèrent-ils - quelles informations

regression correlation

69

Kendall Tau ou le rho de Spearman?

Dans quels cas doit-on préférer l'un à l'autre? J'ai trouvé quelqu'un qui revendique un avantage pour Kendall, pour des raisons pédagogiques , y a-t-il d'autres

correlation nonparametric spearman-rho kendall-tau

68

Régression multiple multivariée dans R

J'ai 2 variables dépendantes (DV) dont chacune des notes peut être influencée par l'ensemble des 7 variables indépendantes (IV). Les DV sont continus, alors que l'ensemble des IV consiste en un mélange de variables codées continues et binaires. (Dans le code ci-dessous, les variables continues sont...

r multivariate-analysis manova multiple-regression multivariate-regression

68

La sélection de variables pour la modélisation prédictive est-elle vraiment nécessaire en 2016?

Cette question a été posée sur CV il y a quelques années. Cela semble mériter d'être republié compte tenu des technologies informatiques les plus performantes (par exemple, calcul parallèle, calcul haute performance, etc.) et de nouvelles techniques, par exemple [3]. Tout d'abord, un peu de...

machine-learning modeling feature-selection model-selection prediction

68

Comment "additionner" un écart type?

J'ai une moyenne mensuelle pour une valeur et un écart-type correspondant à cette moyenne. Je calcule maintenant la moyenne annuelle comme étant la somme des moyennes mensuelles. Comment puis-je représenter l'écart type de la moyenne cumulée? Par exemple, en considérant la production d'un parc...

standard-deviation descriptive-statistics

68

Pourquoi devrais-je être bayésien quand mon modèle est faux?

Modifications: j'ai ajouté un exemple simple: l'inférence de la moyenne du . J'ai également légèrement expliqué pourquoi les intervalles crédibles ne correspondant pas aux intervalles de confiance sont mauvais.XiXiX_i Je suis un Bayésien passionné, je suis en pleine crise de foi. Mon problème est...

bayesian modeling philosophical misspecification

68

Tous les termes d'interaction ont-ils besoin de leurs termes individuels dans un modèle de régression?

En fait, je suis en train de passer en revue un manuscrit où les auteurs comparent 5 à 6 modèles de régression logit et AIC. Cependant, certains modèles comportent des termes d'interaction sans inclure les termes de covariable individuels. Cela a-t-il un sens de faire cela? Par exemple (non...

regression modeling interaction aic

68

Comment générer des points uniformément répartis sur la surface de la sphère unité 3-d?

Je me demande comment générer des points uniformément répartis sur la surface de la sphère d'unité 3D? Aussi, après avoir généré ces points, quel est le meilleur moyen de visualiser et de vérifier s’ils sont vraiment uniformes sur la surface

random-generation

68

Quel est le problème avec l'extrapolation?

Je me souviens d'avoir assisté à des cours de statistiques en tant qu'étudiant de premier cycle sur pourquoi l'extrapolation était une mauvaise idée. En outre, de nombreuses sources en ligne commentent ce sujet. Il y a aussi une mention de cela ici . Quelqu'un peut-il m'aider à comprendre pourquoi...

regression time-series forecasting

68

Quels sont les bons poids initiaux dans un réseau de neurones?

Je viens d’entendre que c’est une bonne idée de choisir les poids initiaux d’un réseau de neurones dans la plage , où est le nombre d'entrées dans un neurone donné. On suppose que les ensembles sont normalisés - moyenne 0, variance 1 (je ne sais pas si cela

neural-networks normalization

67

Quelles sont les bonnes statistiques de base à utiliser pour les données ordinales?

J'ai quelques données ordinales obtenues à partir de questions d'enquête. Dans mon cas, ce sont des réponses de type Likert (fortement en désaccord - en désaccord - neutre - en accord - en parfait accord). Dans mes données, ils sont codés 1-5. Je ne pense pas que les moyens signifient beaucoup ici,...

descriptive-statistics likert ordinal-data

67

Quand utiliser un décalage dans une régression de Poisson?

Quelqu'un sait-il pourquoi la compensation est utilisée dans une régression de Poisson? Que faites-vous par

poisson-regression offset

67

Qu'est-ce qui rend le noyau gaussien si magique pour la PCA et aussi en général?

Je lisais des informations sur la PCA dans le noyau ( 1 , 2 , 3 ) avec les noyaux gaussiens et polynomiaux. Comment le noyau gaussien sépare-t-il apparemment toute sorte de données non linéaires exceptionnellement bien? S'il vous plaît donner une analyse intuitive, ainsi que mathématiquement...

machine-learning pca svm kernel-trick

67

Comment exactement les statisticiens ont-ils accepté d'utiliser (n-1) comme estimateur sans biais pour la variance de population sans simulation?

La formule de calcul de la variance a au dénominateur:( n - 1 )(n−1)(n-1) s2= ΣNi = 1( xje- x¯)2n - 1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} Je me suis toujours demandé pourquoi. Cependant, lire et regarder quelques bonnes vidéos sur le "pourquoi", il semble que soit un...

variance unbiased-estimator proof history

67

Convergence de probabilité vs convergence presque sûre

Je n'ai jamais vraiment fait la différence entre ces deux mesures de convergence. (Ou, en fait, n'importe lequel des différents types de convergence, mais je les mentionne en particulier en raison des lois faibles et fortes des grands nombres.) Bien sûr, je peux citer la définition de chacun et...

probability random-variable