Selon ce tutoriel sur l'apprentissage en profondeur , la décroissance du poids (régularisation) n'est généralement pas appliquée aux termes de biais b pourquoi? Quelle est la signification (l'intuition) derrière
Selon ce tutoriel sur l'apprentissage en profondeur , la décroissance du poids (régularisation) n'est généralement pas appliquée aux termes de biais b pourquoi? Quelle est la signification (l'intuition) derrière
Je suis le cours d'apprentissage automatique d'Andrew Ng et je n'ai pas pu obtenir la réponse à cette question après plusieurs tentatives. Veuillez aider à résoudre ce problème, même si j'ai traversé le niveau. Supposons que étudiants aient suivi un cours et que la classe ait passé un examen à...
Question: est-il possible de former un NN pour distinguer entre les nombres pairs et impairs en utilisant uniquement comme entrée les nombres eux-mêmes? J'ai le jeu de données suivant: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 J'ai formé un NN avec deux neurones d'entrée (l'un étant...
Je fais la classification d'images en utilisant l'apprentissage automatique. Supposons que j'ai des données d'entraînement (images) et que je vais diviser les données en ensembles d'apprentissage et de validation. Et je veux aussi augmenter les données (produire de nouvelles images à partir des...
Tous les exemples que j'ai trouvés en utilisant des réseaux de neurones de croyance profonde ou convolutionnels les utilisent pour la classification d'images, la détection de chatacter ou la reconnaissance vocale. Les réseaux de neurones profonds sont-ils également utiles pour les tâches de...
Je cherche à implémenter un modèle dynamique pour recommander un film à un utilisateur. La recommandation doit être mise à jour chaque fois que l'utilisateur regarde un film ou le note. Pour faire simple, je pense à prendre en compte deux facteurs: les notes antérieures d'autres films par...
Je n'arrive pas à comprendre Thompson Sampling et comment cela fonctionne. Je lisais sur Multi Arm Bandit et après avoir lu l'algorithme de limite de confiance supérieure, de nombreux textes suggéraient que l'échantillonnage de Thompson était plus performant que l'UCB. Qu'est-ce que Thompson...
Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to...
Je lisais sur l'optimisation d'un problème mal posé en vision par ordinateur et suis tombé sur l'explication ci-dessous à propos de l'optimisation sur Wikipedia. Ce que je ne comprends pas, c'est pourquoi appellent-ils cette optimisation " minimisation d'énergie " dans la vision par ordinateur? Un...
Y a-t-il eu des études à grande échelle des méthodes MCMC qui comparent les performances de plusieurs algorithmes différents sur une suite de densités de test? Je pense à quelque chose d'équivalent à l'article de Rios et Sahinidis (2013), qui est une comparaison approfondie d'un grand nombre...
Traditionnellement, nous utilisons un modèle mixte pour modéliser des données longitudinales, c'est-à-dire des données comme: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 nous pouvons supposer une interception ou une pente aléatoire pour...
Je veux savoir si le processus décrit ci-dessous est valide / acceptable et toute justification disponible. L'idée: les algorithmes d'apprentissage supervisé ne supposent pas de structures / distributions sous-jacentes sur les données. À la fin de la journée, ils produisent des estimations...
À ma connaissance (très basique), Naive Bayes estime les probabilités en fonction des fréquences de classe de chaque caractéristique des données d'entraînement. Mais comment calcule-t-il la fréquence des variables continues? Et lors de la prédiction, comment classe-t-elle une nouvelle observation...
La structure de cette question est la suivante: dans un premier temps, je donne le concept d' apprentissage d'ensemble , ensuite je donne une liste de tâches de reconnaissance de formes , puis je donne des exemples d'algorithmes d'apprentissage d'ensemble et, enfin, j'introduis ma question. Ceux...
J'ai suivi un cours d'apprentissage automatique à mon collège. Dans l'un des questionnaires, cette question a été posée. Modèle 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon Modèle 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon Lequel des modèles ci-dessus correspondrait mieux aux données?...
Je suis frappé par un problème apparemment facile, mais je n'ai pas trouvé de solution appropriée depuis plusieurs semaines maintenant. J'ai beaucoup de données de sondages / enquêtes (des dizaines de milliers de répondants, disons 50 000 par ensemble de données), provenant de quelque chose que...
Je suis confus avec la définition du modèle non paramétrique après avoir lu ce lien Modèles paramétriques vs modèles non paramétriques et répondre aux commentaires de ma autre question . À l'origine, je pensais que "paramétrique vs non paramétrique" signifie si nous avons des hypothèses de...
Dans les réseaux de neurones convolutifs (CNN), la matrice de poids à chaque étape obtient ses lignes et colonnes inversées pour obtenir la matrice du noyau, avant de procéder à la convolution. Ceci est expliqué sur une série de vidéos de Hugo Larochelle ici : Calculer les cartes cachées...
Ceci est en référence à l'article Localisation efficace des objets utilisant des réseaux convolutionnels , et d'après ce que je comprends, le décrochage est implémenté en 2D. Après avoir lu le code de Keras sur la façon dont le décrochage 2D spatial est implémenté, un masque binaire aléatoire de...
Il semble y avoir beaucoup de confusion dans la comparaison de l'utilisation à l' glmnetintérieur caretpour rechercher un lambda optimal et à utiliser cv.glmnetpour faire la même tâche. De nombreuses questions ont été posées, par exemple: Modèle de classification train.glmnet vs cv.glmnet? Quelle...