Statistiques et Big Data

10

Méthodes d'initialisation du clustering K-means

Je m'intéresse à l'état actuel de la technique pour sélectionner les semences initiales (centres de grappe) pour K-means. La recherche sur Google mène à deux choix populaires: sélection aléatoire des graines initiales, et, en utilisant la technique de sélection KMeans ++: Arthur & Vassilvitskii...

clustering k-means

10

Pourquoi un estimateur est-il considéré comme une variable aléatoire?

Ma compréhension de ce qu'est un estimateur et une estimation: Estimateur: Une règle pour calculer une estimation Estimation: La valeur calculée à partir d'un ensemble de données basé sur l'estimateur Entre ces deux termes, si on me demande de souligner la variable aléatoire, je dirais que...

mathematical-statistics inference random-variable estimators

10

Les hyperplans classent de manière optimale les données lorsque les entrées sont indépendantes conditionnellement - Pourquoi?

Dans l'article intitulé Deep Learning and the Information Bottleneck Principle, les auteurs déclarent dans la section II A) ce qui suit: Les neurones simples ne classent que les entrées séparables linéairement, car ils ne peuvent implémenter que des hyperplans dans leur espace d'entrée . Les...

bayesian neural-networks information-theory

10

Perte KL avec une unité gaussienne

J'ai implémenté une VAE et j'ai remarqué deux implémentations différentes en ligne de la divergence gaussienne KL univariée simplifiée. La divergence d' origine que par ici est Si nous supposons que notre a priori est une unité gaussienne, c'est-à-dire et , cela se simplifie jusqu'à Et voici où...

inference kullback-leibler autoencoders variational-bayes

10

Si la somme des probabilités des événements est égale à la probabilité de leur union, cela implique-t-il que les événements sont disjoints?

Axiomatiquement, la probabilité est une fonction qui attribue un nombre réel à chaque événement A s'il satisfait aux trois hypothèses fondamentales (hypothèses de Kolmogorov):P ( A ) APPPP( A )P(A)P(A)UNEAA P( A ) ≥ 0 pour chaque AP(A)≥0 for everyAP(A) \geq 0 \ \text{for every} A P( Ω ) =...

probability kolmogorov-axioms

10

Relation LASSO entre et

Ma compréhension de la régression LASSO est que les coefficients de régression sont sélectionnés pour résoudre le problème de minimisation: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t En pratique, cela se fait en utilisant un...

optimization lasso regularization lagrange-multipliers

10

Quand ne pas utiliser la validation croisée?

En lisant le site, la plupart des réponses suggèrent que la validation croisée devrait être effectuée dans les algorithmes d'apprentissage automatique. Cependant, alors que je lisais le livre "Understanding Machine Learning", j'ai vu qu'il y avait un exercice selon lequel il vaut parfois mieux ne...

machine-learning self-study cross-validation

10

L'hypothèse de linéarité dans la régression linéaire n'est-elle qu'une définition de

Je révise la régression linéaire. Le manuel de Greene déclare: Maintenant, bien sûr, il y aura d'autres hypothèses sur le modèle de régression linéaire, telles que E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0 . Cette hypothèse combinée à l'hypothèse de linéarité (qui définit en fait ϵϵ\epsilon ), structure le...

econometrics linear-model assumptions causality definition

10

Comment puis-je tirer une valeur au hasard à partir d'une estimation de la densité du noyau?

J'ai quelques observations, et je veux imiter l'échantillonnage basé sur ces observations. Ici, je considère un modèle non paramétrique, en particulier, j'utilise le lissage du noyau pour estimer un CDF à partir des observations limitées.Puis je tire des valeurs au hasard à partir du CDF obtenu.Le...

sampling matlab kernel-smoothing density-estimation

10

Les probabilités conditionnelles - sont-elles propres au bayésianisme?

Je me demande si les probabilités conditionnelles sont propres au bayésianisme, ou si elles sont davantage un concept général partagé par plusieurs écoles de pensée parmi les statisticiens / probabilités. Je suppose que c'est le cas, parce que je suppose que personne ne peut est un peu logique,...

bayesian conditional-probability

10

But du bruit de Dirichlet dans le papier AlphaZero

Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search: Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités...

machine-learning neural-networks dirichlet-distribution

10

Exemples simples du monde réel pour l'enseignement des statistiques bayésiennes?

Je voudrais trouver des "exemples du monde réel" pour l'enseignement des statistiques bayésiennes. Les statistiques bayésiennes permettent d'incorporer formellement les connaissances antérieures dans une analyse. Je voudrais donner aux étudiants quelques exemples simples du monde réel de chercheurs...

bayesian teaching

10

Pourquoi les tests d'hypothèses sur les jeux de données rééchantillonnés rejettent-ils trop souvent le null?

tl; dr: En commençant par un ensemble de données généré sous la valeur nulle, j'ai rééchantillonné les cas avec remplacement et effectué un test d'hypothèse sur chaque ensemble de données rééchantillonné. Ces tests d'hypothèse rejettent le nul plus de 5% du temps. Dans la simulation ci-dessous,...

r bootstrap simulation resampling

10

Justifications d'un modèle à effets fixes vs à effets aléatoires en méta-analyse

J'ai lu plusieurs publications tentant de justifier l'utilisation d'un modèle à effets fixes avec des affirmations du type "le modèle à effets fixes a été choisi parce que l'hétérogénéité était faible". Cependant, je crains qu'il ne s'agisse toujours d'une approche inappropriée de l'analyse des...

references meta-analysis meta-analysis-fixed-effects meta-analysis-random-effects

10

Comment mesurer la dispersion des données de fréquence des mots?

Comment puis-je quantifier la quantité de dispersion dans un vecteur de décompte de mots? Je recherche une statistique qui sera élevée pour le document A, car elle contient de nombreux mots différents qui se produisent rarement, et faible pour le document B, car elle contient un mot (ou quelques...

variance natural-language gini dispersion bag-of-words

10

Échantillonnage exact à partir de mélanges incorrects

Supposons que je veuille échantillonner à partir d'une distribution continue p(x)p(x)p(x) . Si j'ai une expression de ppp sous la forme p(x)=∑i=1∞aifi(x)p(x)=∑i=1∞aifi(x)p(x) = \sum_{i=1}^\infty a_i f_i(x) ai⩾0,∑iai=1ai⩾0,∑iai=1a_i \geqslant 0, \sum_i a_i= 1 pfifif_ippp Échantillonnage d'une...

simulation monte-carlo mixture accept-reject

10

régression du processus gaussien pour les grands ensembles de données

J'ai appris la régression du processus gaussien à partir de vidéos en ligne et de notes de cours, si je comprends bien, si nous avons un ensemble de données avec points, nous supposons que les données sont échantillonnées à partir d'un gaussien multivarié à dimensions. Donc ma question est dans le...

machine-learning probability inference gaussian-process multivariate-regression

10

Quelle est la raison d'être de la famille exponentielle des distributions?

Du cours de probabilité élémentaire, les distributions de probabilité telles que gaussienne, Poisson ou exponentielle ont toutes une bonne motivation. Après avoir regardé la formule des distributions exponentielles de la famille pendant longtemps, je n'ai toujours aucune intuition....

exponential-family

10

La sensibilité ou la spécificité est-elle fonction de la prévalence?

L'enseignement standard dit que la sensibilité et la spécificité sont des propriétés du test et sont indépendantes de la prévalence. Mais n'est-ce pas juste une supposition? Les principes de la médecine interne de Harrison, 19e éd., Disent Il a longtemps été affirmé que la sensibilité et la...

bayesian epidemiology diagnostic sensitivity-specificity

10

Quelle est la différence entre fonction_décision, fonction_prédire et fonction de prédiction pour un problème de régression logistique?

J'ai parcouru la documentation sklearn mais je ne suis pas en mesure de comprendre le but de ces fonctions dans le contexte de la régression logistique. Car decision_functionil dit que c'est la distance entre l'hyperplan et l'instance de test. comment cette information particulière est-elle utile?...

regression logistic prediction scikit-learn decision