Existe-t-il une méthode standard pour déterminer un point de fonctionnement "optimal" sur une courbe de rappel de précision ? (c.-à-d. déterminer le point de la courbe qui offre un bon compromis entre précision et rappel)
Existe-t-il une méthode standard pour déterminer un point de fonctionnement "optimal" sur une courbe de rappel de précision ? (c.-à-d. déterminer le point de la courbe qui offre un bon compromis entre précision et rappel)
Disons que j'ai un modèle de classification prédictif basé sur une forêt aléatoire (en utilisant le package randomForest dans R). Je voudrais le configurer pour que les utilisateurs finaux puissent spécifier un élément pour lequel générer une prédiction, et cela produira une probabilité de...
Quels sont les avantages de donner certaines valeurs initiales aux probabilités de transition dans un modèle de Markov caché? Finalement, le système les apprendra, alors quel est l'intérêt de donner des valeurs autres que aléatoires? L'algorithme sous-jacent fait-il une différence comme Baum –...
Je travaille avec de grands ensembles de données en utilisant le paquet gbm dans R. Ma matrice de prédicteur et mon vecteur de réponse sont assez clairsemés (c'est-à-dire que la plupart des entrées sont nulles). J'espérais construire des arbres de décision en utilisant un algorithme qui tire parti...
Cela me vient à l'esprit depuis au moins quelques heures. J'essayais de trouver un k optimal pour la sortie de l'algorithme k-means (avec une métrique de similitude cosinus ), donc j'ai fini par tracer la distorsion en fonction du nombre de grappes. Mon ensemble de données est une collection de 800...
Cet article sur Adaboost donne quelques suggestions et code (page 17) pour étendre les modèles à 2 classes aux problèmes de classe K. Je voudrais généraliser ce code, de sorte que je puisse facilement brancher différents modèles à 2 classes et comparer les résultats. Étant donné que la plupart des...
J'utilise le neuralnet en R pour construire un NN avec 14 entrées et une sortie. Je construis / forme le réseau plusieurs fois en utilisant les mêmes données de formation d'entrée et la même architecture / paramètres de réseau. Une fois que chaque réseau est produit, je l'utilise sur un ensemble...
Au milieu des années 1960, les chercheurs ont surnommé les échecs la " Drosophile de l'IA": comme la mouche des fruits, le jeu d'échecs était un problème accessible et relativement simple à expérimenter, qui a pourtant produit d'importantes connaissances plus complexes. Maintenant, les gens...
Si j'ai une topologie fixe non récurrente (DAG) (ensemble fixe de nœuds et de bords, mais l'algorithme d'apprentissage peut faire varier le poids sur les bords) de neurones sigmoïdes avec neurones d'entrée qui ne peuvent prendre que des chaînes dans en entrée et conduit à une sortie (qui génère une...
Quels sont les applications ou les avantages des techniques de régression par réduction de dimension (DRR) ou de réduction de dimensionnalité supervisée (SDR) par rapport aux techniques de régression traditionnelles (sans réduction de dimensionnalité)? Ces classes de techniques trouvent une...
Je voudrais comparer 2 classificateurs différents pour un problème de classification de texte multiclasse qui utilise de grands ensembles de données d'apprentissage. Je doute que je devrais utiliser des courbes ROC ou des courbes d'apprentissage pour comparer les 2 classificateurs. D'une part, les...
Quelqu'un peut-il m'expliquer le concept de distance de Mahalanobis? Par exemple, quelle est la distance de Mahalanobis entre deux points x et y, et surtout, comment est-elle interprétée pour la reconnaissance des
Un exemple d'une bonne mesure de la séparabilité des classes chez les apprenants discriminants linéaires est le rapport discriminant linéaire de Fisher. Existe-t-il d'autres mesures utiles pour déterminer si les ensembles de fonctionnalités offrent une bonne séparation des classes entre les...
Je suis probablement confronté à un problème qui a probablement été résolu une centaine de fois auparavant, mais je ne sais pas où trouver la réponse. Lorsque j'utilise la régression logistique, étant donné de nombreuses fonctionnalités et que j'essaie de prédire une valeur binaire catégorielle ,...
J'entraîne un processus gaussien avec un noyau ARD avec beaucoup de paramètres en maximisant la lisibilité marginale des données, au lieu de la validation croisée. Je soupçonne que c'est trop adapté. Comment puis-je tester cette suspicion dans un contexte
Je lis ce document sur les processus Wishart généralisés (GWP). L'article calcule les covariances entre différentes variables aléatoires (suivant le processus gaussien ) en utilisant la fonction de covariance exponentielle au carré, c'est-à-dire . Il indique ensuite que cette matrice de covariance...
On m'a récemment dit que le processus que j'avais suivi (composante d'une thèse de maîtrise) pouvait être considéré comme trop adapté. Je cherche à mieux comprendre cela et à voir si d'autres sont d'accord. L'objectif de cette partie du document est de Comparez les performances des arbres de...
J'ai un problème de classification binaire et j'expérimente différents classificateurs dessus: je veux comparer les classificateurs. lequel est une meilleure mesure de l'ASC ou de la précision? Et pourquoi? Raondom Forest: AUC: 0.828 Accuracy: 79.6667 % SVM: AUC: 0.542 Accuracy: 85.6667 %...
Quelqu'un peut-il aider à donner une explication conceptuelle de la façon dont les prédictions sont faites pour les nouvelles données lors de l'utilisation de lissages / splines pour un modèle prédictif? Par exemple, étant donné un modèle créé à l'aide gamboostdu mboostpackage dans R, avec des...
Je ne sais pas si cela convient à ce site, mais je commence mon MSE en informatique (BS en mathématiques appliquées) et je veux obtenir une solide formation en apprentissage automatique (je vais très probablement poursuivre un doctorat). Un de mes sous-intérêts est les réseaux de neurones. Quel est...