Statistiques et Big Data

10

Quelle est la signification des barres doubles et 2 en bas dans les moindres carrés ordinaires?

J'ai vu cette notation pour les moindres carrés ordinaires ici . minw∥Xw−y∥22minw‖Xw−y‖22 \min_w \left\| Xw - y \right\|^2_2 Je n'ai jamais vu les doubles barres et les 2 en bas. Que signifient ces symboles? Ont-ils une terminologie spécifique pour

10

Filtrage collaboratif article par article vs analyse du panier de consommation

Quelle est la différence fondamentale entre le filtrage collaboratif basé sur les articles et l'analyse basée sur le marché? Ce dernier est-il un cas spécialisé du

machine-learning recommender-system

10

Qu'est-ce qui justifie ce calcul de la dérivée d'une fonction matricielle?

Dans le cours d'apprentissage automatique d'Andrew Ng, il utilise cette formule: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T et il fait une preuve rapide qui est montrée ci-dessous:

machine-learning matrix derivative

10

Comment Tensorflow `tf.train.Optimizer` calcule-t-il les gradients?

Je suis le tutoriel mnist Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Le didacticiel utilise tf.train.Optimizer.minimize(spécifiquement tf.train.GradientDescentOptimizer). Je ne vois aucun argument transmis nulle part...

python optimization tensorflow

10

Block bootstrap pour un novice

Pour mettre ma question en contexte, je suis physicien mais avec une exposition limitée aux statistiques et ce que j'ai appris à ce sujet remonte à plus de 30 ans. J'essaie d'en savoir plus sur l'amorçage de blocs car cette technique peut être appropriée pour résoudre un problème sur lequel je...

time-series bootstrap

10

Comparaison de 0/10 à 0/20

En discutant des taux de réalisation des tâches, existe-t-il un moyen de montrer que 0 tentative sur 20 est "pire" que 0 tentative sur

probability sampling

10

Quelle est la différence entre un test exact de Fisher et une régression logistique pour

Pour un 2 × 22×22 \times 2 table, deux façons de faire l'inférence sur la table est à travers le test exact de Fisher et aussi une régression logistique. On m'a dit qu'en utilisant un test exact de Fisher, nous ne sommes intéressés que par la présence d'association. Mais qu'avec une régression...

regression logistic inference contingency-tables fishers-exact

10

Aux modèles normal et binomial, la variance postérieure est-elle toujours inférieure à la variance précédente?

Ou quelles conditions le garantissent? En général (et pas seulement les modèles normaux et binomiaux), je suppose que la principale raison qui a brisé cette affirmation est qu'il y a incohérence entre le modèle d'échantillonnage et le précédent, mais quoi d'autre? Je commence par ce sujet, donc...

bayesian variance information-theory

10

Index Rand ajusté vs informations mutuelles ajustées

J'essaie d'évaluer les performances de clustering. Je lisais la documentation skiscit-learn sur les métriques . Je ne comprends pas la différence entre ARI et AMI. Il me semble qu'ils font la même chose de deux manières différentes. Citant de la documentation: Compte tenu de la connaissance des...

clustering python scikit-learn

10

Fonction de perte pour la segmentation sémantique

S'excuse pour l'utilisation abusive des termes techniques. Je travaille sur un projet de segmentation sémantique via des réseaux de neurones convolutifs (CNN); essayer d'implémenter une architecture de type Encodeur-Décodeur, donc la sortie est de la même taille que l'entrée. Comment concevez-vous...

conv-neural-network image-processing segmentation

10

Pourquoi la dynamique hamiltonienne est meilleure que la proposition de marche aléatoire dans MCMC dans certains cas?

La dynamique hamiltonienne surpasse toujours la marche aléatoire dans l'algorithme de Metropolis dans certains cas. Quelqu'un pourrait-il expliquer la raison avec des mots simples sans trop de

mcmc

10

K-signifie: combien d'itérations dans des situations pratiques?

Je n'ai pas d'expérience dans l'industrie de l'exploration de données ou des mégadonnées, donc j'aimerais vous entendre partager votre expérience. Les gens exécutent-ils réellement k-means, PAM, CLARA, etc. sur un très grand ensemble de données? Ou bien ils en choisissent simplement un échantillon...

clustering data-mining k-means convergence large-data

10

Pourquoi prévoir à partir d'un modèle à effets mixtes sans inclure d'effets aléatoires pour la prédiction?

C'est plus une question conceptuelle, mais comme je l'utilise, Rje ferai référence aux packages de R. Si l'objectif est d'adapter un modèle linéaire à des fins de prédiction, puis de faire des prédictions là où les effets aléatoires pourraient ne pas être disponibles, y a-t-il un avantage à...

r multiple-regression mixed-model lme4-nlme

10

Régression forestière aléatoire pour la prédiction de séries chronologiques

J'essaie d'utiliser la régression RF pour faire des prédictions sur les performances d'une papeterie. J'ai des données minute par minute pour les intrants (taux et quantité de pâte de bois entrant dans etc ...) ainsi que pour les performances de la machine (papier produit, puissance tirée par la...

time-series forecasting cross-validation random-forest autoregressive

10

Comment les SVM = correspondance de modèles?

J'ai lu sur les SVM et j'ai appris qu'ils résolvaient un problème d'optimisation et l'idée de marge maximale était très raisonnable. Maintenant, en utilisant des noyaux, ils peuvent même trouver des limites de séparation non linéaires, ce qui était génial. Jusqu'à présent, je n'ai vraiment aucune...

machine-learning neural-networks svm deep-learning kernel-trick

10

Quand la normalité asymptotique de la postérieure bayésienne (Bernstein-von Mises) échoue-t-elle?

Considérons la fonction de densité postérieure donnée (comme d'habitude) par avec la densité antérieure et la distribution du observations , conditionnelles à la valeur du paramètre .π(θ)∏i=1nf(xi;θ),π(θ)∏i=1nf(xi;θ), \pi(\theta) \prod_{i=1}^n

bayesian asymptotics

10

Ancrage plus rapide du RCNN

Dans le document Faster RCNN, lorsque l'on parle d'ancrage, que signifient-ils en utilisant des «pyramides de boîtes de référence» et comment cela se fait-il? Cela signifie-t-il simplement qu'à chacun des points d'ancrage W * H * k, une boîte englobante est générée? Où W = largeur, H = hauteur et k...

deep-learning computer-vision

10

Dans l'analyse factorielle (ou dans l'ACP), que signifie une charge factorielle supérieure à 1?

Je viens de lancer un FA en utilisant une rotation oblique (promax) et un élément a produit un facteur de chargement de 1,041 sur un facteur (et des chargements de facteur de -.131, -.119 et .065 sur les autres facteurs en utilisant la matrice de modèle ) . Et je ne suis pas sûr de ce que cela...

pca factor-analysis factor-rotation

10

Le processus gaussien (régression) a-t-il la propriété d'approximation universelle?

Une fonction continue sur [a, b], où a et b sont des nombres réels, peut-elle être approximée ou arbitrairement proche de la fonction (dans une certaine norme) par des processus gaussiens (régression)?

gaussian-process approximation

10

Avons-nous besoin de définir un ensemble de formation et un ensemble de tests pour le clustering?

Lorsque nous procédons à la classification et à la régression, nous définissons généralement des ensembles de tests et de formation pour nous aider à créer et à améliorer des modèles. Cependant, lorsque nous faisons du clustering, devons-nous également définir des ensembles de tests et de...

machine-learning clustering unsupervised-learning