Statistiques et Big Data

37

Interprétation bayésienne vs fréquentiste de la probabilité

Quelqu'un peut-il donner un bon aperçu des différences entre l'approche bayésienne et l'approche fréquentiste de la probabilité? D'après ce que j'ai compris: Le point de vue fréquentiste est que les données sont un échantillon aléatoire répétable (variable aléatoire) avec une fréquence /...

probability bayesian frequentist

37

SVM, Overfitting, malédiction de la dimensionnalité

Mon jeu de données est petit (120 échantillons), mais le nombre d’entités est important varie de (1000 à 200 000). Bien que je sois en train de sélectionner des fonctionnalités pour choisir un sous-ensemble de fonctionnalités, cela peut tout de même être excessif. Ma première question est la...

classification svm

37

Comment tester une association non linéaire?

Pour le tracé 1, je peux tester l'association entre x et y en effectuant une simple corrélation. Pour le tracé 2, où la relation est non linéaire mais où il existe une relation claire entre x et y, comment puis-je tester l'association et nommer sa nature?

nonlinear-regression non-independent association-measure

37

Quelles sont les mesures de qualité d'ajustement faciles à interpréter pour les modèles linéaires à effets mixtes?

J'utilise actuellement le package R lme4 . J'utilise des modèles à effets mixtes linéaires à effets aléatoires: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3...

r regression mixed-model random-effects-model

37

Une solide formation en mathématiques est-elle une condition préalable à la maîtrise du blanchiment?

Je commence à vouloir développer mes propres compétences et j'ai toujours été fasciné par l'apprentissage automatique. Cependant, il y a six ans, au lieu de poursuivre dans cette voie, j'ai décidé de passer à un autre niveau en informatique. Je développe des logiciels et des applications depuis...

machine-learning references mathematical-statistics

37

Comment trouver un bon ajustement pour un modèle semi-sinusoïdal en R?

Je veux supposer que la température de surface de la mer Baltique est la même année après année, puis la décrire avec un modèle fonction / linéaire. L'idée que j'avais était de simplement entrer l'année sous forme de nombre décimal (ou num_months / 12) et de déterminer la température à ce...

r regression time-series lm

37

Différence entre prévision et prédiction?

Je me demandais quelle différence et quel rapport existe entre prévision et prédiction? Surtout dans les séries chronologiques et la régression? Par exemple, ai-je raison de dire que: Dans les séries chronologiques, la prévision semble vouloir dire estimer une valeur future à partir des valeurs...

regression time-series forecasting terminology

37

Pourquoi le test de Mantel est-il préféré à celui de Moran?

Le test de Mantel est largement utilisé dans les études biologiques pour examiner la corrélation entre la distribution spatiale des animaux (position dans l'espace) et, par exemple, leur relation génétique, leur taux d'agression ou un autre attribut. Beaucoup de bons journaux l'utilisent ( PNAS,...

r correlation spatial pattern-recognition

37

Est-ce que le signe de scores ou de charges dans PCA ou FA a un sens? Puis-je inverser le signe?

J'ai effectué une analyse en composantes principales (ACP) avec R en utilisant deux fonctions différentes ( prcompet princomp) et j'ai observé que les scores de l'ACP différaient par leur signe. Comment cela peut-il être? Considère ceci: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2...

r pca factor-analysis

37

Aidez-moi à calculer le nombre de personnes qui assisteront à mon mariage! Puis-je attribuer un pourcentage à chaque personne et les ajouter?

Je prépare mon mariage. Je souhaite estimer combien de personnes viendront à mon mariage. J'ai créé une liste de personnes et la possibilité qu'elles assistent en pourcentage. Par exemple Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% J'ai une liste d'environ 230 personnes avec des...

probability

37

Comment l'analyse factorielle explique-t-elle la covariance alors que l'ACP explique la variance?

Voici une citation du livre Bishop's "Pattern Recognition and Machine Learning", section 12.2.4 "Analyse factorielle": Selon la partie mis en évidence, l' analyse factorielle capture la covariance entre les variables dans la matriceWWW . Je me demande comment ? Voici comment je le comprends....

pca factor-analysis geometry

37

Améliorer la classification avec de nombreuses variables catégorielles

Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez...

machine-learning classification categorical-data random-forest many-categories

37

Comparaison SVM et régression logistique

Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants: SVM: essayez de...

regression logistic svm optimization

37

Pourquoi glmer n'atteint-il pas le maximum de vraisemblance (comme le prouve l'application d'une optimisation générique supplémentaire)?

Dériver numériquement les MLE de GLMM est difficile et, dans la pratique, je sais que nous ne devrions pas utiliser l'optimisation de la force brute (par exemple, en utilisant optimune méthode simple). Mais pour mon propre but éducatif, je veux l'essayer pour m'assurer de bien comprendre le modèle...

r maximum-likelihood optimization lme4-nlme

37

Teste si deux distributions binomiales sont statistiquement différentes l'une de l'autre

J'ai trois groupes de données, chacun avec une distribution binomiale (c'est-à-dire que chaque groupe a des éléments qui réussissent ou échouent). Je n'ai pas de probabilité de réussite prévue, mais je ne peux me fier qu'au taux de réussite de chacun comme approximation du taux de réussite réel....

statistical-significance binomial bernoulli-distribution

37

Quand le t-SNE est-il trompeur?

Citant l'un des auteurs: L'intégration de voisins stochastiques t-distribués (t-SNE) est une technique ( primée ) de réduction de dimensionnalité particulièrement bien adaptée à la visualisation de jeux de données de grande dimension. Cela semble donc très bien, mais c'est l'auteur qui parle. Une...

data-visualization dimensionality-reduction tsne

37

Pourquoi mes valeurs p diffèrent-elles entre la sortie de la régression logistique, le test du khi-carré et l'intervalle de confiance du OU?

J'ai construit une régression logistique dans laquelle la variable de résultat est en train de guérir après le traitement ( Curevs No Cure). Tous les patients de cette étude ont reçu un traitement. Je voudrais savoir si le diabète est associé à ce résultat. Dans R ma sortie de régression logistique...

r hypothesis-testing logistic generalized-linear-model odds-ratio

37

Intervalle de prédiction pour le modèle à effets mixtes lmer () dans R

Je veux obtenir un intervalle de prédiction autour d'une prédiction à partir d'un modèle lmer (). J'ai trouvé des discussions à ce sujet: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq mais ils semblent ne pas tenir compte de...

r mixed-model prediction prediction-interval lme4-nlme

37

Différence entre «noyau» et «filtre» dans CNN

Quelle est la différence entre les termes "noyau" et "filtre" dans le contexte des réseaux de neurones à

neural-networks terminology deep-learning conv-neural-network

37

Le fait que mon fils italien aille à l'école primaire modifiera-t-il le nombre d'enfants italiens attendus dans sa classe?

C’est une question qui découle d’une situation réelle, à propos de laquelle je suis vraiment perplexe quant à sa réponse. Mon fils doit commencer l'école primaire à Londres. Comme nous sommes italiens, j'étais curieuse de savoir combien d'enfants italiens fréquentaient déjà l'école. J'ai posé la...

probability self-study average