J'ai vu cette notation pour les moindres carrés ordinaires ici . minw∥Xw−y∥22minw‖Xw−y‖22 \min_w \left\| Xw - y \right\|^2_2 Je n'ai jamais vu les doubles barres et les 2 en bas. Que signifient ces symboles? Ont-ils une terminologie spécifique pour
J'ai vu cette notation pour les moindres carrés ordinaires ici . minw∥Xw−y∥22minw‖Xw−y‖22 \min_w \left\| Xw - y \right\|^2_2 Je n'ai jamais vu les doubles barres et les 2 en bas. Que signifient ces symboles? Ont-ils une terminologie spécifique pour
Quelle est la différence fondamentale entre le filtrage collaboratif basé sur les articles et l'analyse basée sur le marché? Ce dernier est-il un cas spécialisé du
Dans le cours d'apprentissage automatique d'Andrew Ng, il utilise cette formule: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T et il fait une preuve rapide qui est montrée ci-dessous:
Je suis le tutoriel mnist Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Le didacticiel utilise tf.train.Optimizer.minimize(spécifiquement tf.train.GradientDescentOptimizer). Je ne vois aucun argument transmis nulle part...
Pour mettre ma question en contexte, je suis physicien mais avec une exposition limitée aux statistiques et ce que j'ai appris à ce sujet remonte à plus de 30 ans. J'essaie d'en savoir plus sur l'amorçage de blocs car cette technique peut être appropriée pour résoudre un problème sur lequel je...
En discutant des taux de réalisation des tâches, existe-t-il un moyen de montrer que 0 tentative sur 20 est "pire" que 0 tentative sur
Pour un 2 × 22×22 \times 2 table, deux façons de faire l'inférence sur la table est à travers le test exact de Fisher et aussi une régression logistique. On m'a dit qu'en utilisant un test exact de Fisher, nous ne sommes intéressés que par la présence d'association. Mais qu'avec une régression...
Ou quelles conditions le garantissent? En général (et pas seulement les modèles normaux et binomiaux), je suppose que la principale raison qui a brisé cette affirmation est qu'il y a incohérence entre le modèle d'échantillonnage et le précédent, mais quoi d'autre? Je commence par ce sujet, donc...
J'essaie d'évaluer les performances de clustering. Je lisais la documentation skiscit-learn sur les métriques . Je ne comprends pas la différence entre ARI et AMI. Il me semble qu'ils font la même chose de deux manières différentes. Citant de la documentation: Compte tenu de la connaissance des...
S'excuse pour l'utilisation abusive des termes techniques. Je travaille sur un projet de segmentation sémantique via des réseaux de neurones convolutifs (CNN); essayer d'implémenter une architecture de type Encodeur-Décodeur, donc la sortie est de la même taille que l'entrée. Comment concevez-vous...
La dynamique hamiltonienne surpasse toujours la marche aléatoire dans l'algorithme de Metropolis dans certains cas. Quelqu'un pourrait-il expliquer la raison avec des mots simples sans trop de
Je n'ai pas d'expérience dans l'industrie de l'exploration de données ou des mégadonnées, donc j'aimerais vous entendre partager votre expérience. Les gens exécutent-ils réellement k-means, PAM, CLARA, etc. sur un très grand ensemble de données? Ou bien ils en choisissent simplement un échantillon...
C'est plus une question conceptuelle, mais comme je l'utilise, Rje ferai référence aux packages de R. Si l'objectif est d'adapter un modèle linéaire à des fins de prédiction, puis de faire des prédictions là où les effets aléatoires pourraient ne pas être disponibles, y a-t-il un avantage à...
J'essaie d'utiliser la régression RF pour faire des prédictions sur les performances d'une papeterie. J'ai des données minute par minute pour les intrants (taux et quantité de pâte de bois entrant dans etc ...) ainsi que pour les performances de la machine (papier produit, puissance tirée par la...
J'ai lu sur les SVM et j'ai appris qu'ils résolvaient un problème d'optimisation et l'idée de marge maximale était très raisonnable. Maintenant, en utilisant des noyaux, ils peuvent même trouver des limites de séparation non linéaires, ce qui était génial. Jusqu'à présent, je n'ai vraiment aucune...
Considérons la fonction de densité postérieure donnée (comme d'habitude) par avec la densité antérieure et la distribution du observations , conditionnelles à la valeur du paramètre .π(θ)∏i=1nf(xi;θ),π(θ)∏i=1nf(xi;θ), \pi(\theta) \prod_{i=1}^n
Dans le document Faster RCNN, lorsque l'on parle d'ancrage, que signifient-ils en utilisant des «pyramides de boîtes de référence» et comment cela se fait-il? Cela signifie-t-il simplement qu'à chacun des points d'ancrage W * H * k, une boîte englobante est générée? Où W = largeur, H = hauteur et k...
Je viens de lancer un FA en utilisant une rotation oblique (promax) et un élément a produit un facteur de chargement de 1,041 sur un facteur (et des chargements de facteur de -.131, -.119 et .065 sur les autres facteurs en utilisant la matrice de modèle ) . Et je ne suis pas sûr de ce que cela...
Une fonction continue sur [a, b], où a et b sont des nombres réels, peut-elle être approximée ou arbitrairement proche de la fonction (dans une certaine norme) par des processus gaussiens (régression)?
Lorsque nous procédons à la classification et à la régression, nous définissons généralement des ensembles de tests et de formation pour nous aider à créer et à améliorer des modèles. Cependant, lorsque nous faisons du clustering, devons-nous également définir des ensembles de tests et de...