Cherché haut et bas et n'ont pas été en mesure de savoir ce que AUC, en ce qui concerne la prédiction, signifie ou
La classification statistique est le problème de l'identification de la sous-population à laquelle appartiennent de nouvelles observations, où l'identité de la sous-population est inconnue, sur la base d'un ensemble d'apprentissage de données contenant des observations dont la sous-population est connue. Ces classifications montreront donc un comportement variable qui peut être étudié par des statistiques.
Cherché haut et bas et n'ont pas été en mesure de savoir ce que AUC, en ce qui concerne la prédiction, signifie ou
Je me sers de la quelques fois la validation croisée de d'évaluer la performance de certains algorithmes d'apprentissage, mais je l' ai toujours été perplexe quant à la façon dont je choisir la valeur de .KKKKKK J'ai souvent vu et utilisé une valeur de , mais cela me semble totalement arbitraire et...
Je lis un livre de data mining qui mentionnait la statistique Kappa comme moyen d’évaluer les performances de prévision des classificateurs. Cependant, je ne peux tout simplement pas comprendre cela. J'ai aussi vérifié Wikipedia mais cela n'a pas aidé aussi:
C'est une question générale qui a été posée indirectement à plusieurs reprises ici, mais il manque une seule réponse faisant autorité. Il serait bon d'avoir une réponse détaillée à cette question pour la référence. L’exactitude , la proportion de classifications correctes parmi toutes les...
Je me demande comment calculer la précision et se rappeler en utilisant une matrice de confusion pour un problème de classification multi-classes. Plus précisément, une observation ne peut être affectée qu'à sa classe / étiquette la plus probable. Je voudrais calculer: Précision = TP / (TP + FP)...
Je suis intéressé par le calcul de l'aire sous la courbe (AUC), ou la statistique C, à la main pour un modèle de régression logistique binaire. Par exemple, dans le jeu de données de validation, j'ai la valeur vraie pour la variable dépendante, rétention (1 = retenue; 0 = non conservée), ainsi...
J'utilise R pour faire du clustering K-means. J'utilise 14 variables pour exécuter K-means Quelle est une jolie façon de tracer les résultats de K-means? Y a-t-il des implémentations existantes? Avoir 14 variables complique-t-il la représentation graphique des résultats? J'ai trouvé quelque chose...
Je comprends les principes de base de l'objectif d'un support vectoriel en termes de classification d'un jeu d'entrées dans plusieurs classes différentes, mais ce que je ne comprends pas, ce sont certains détails de base. Pour commencer, l'utilisation des variables Slack me laisse un peu perplexe....
Je suis un peu confus au sujet de la sélection des fonctionnalités et de l'apprentissage automatique, et je me demandais si vous pouviez m'aider. J'ai un jeu de données de micropuces qui est classé en deux groupes et qui comporte des milliers de fonctionnalités. Mon objectif est d'obtenir un petit...
Étant donné que la régression logistique est un statistique modèle de classification prises avec des variables dépendantes, pourquoi pas appelé Classification logistique ? Le nom "Régression" ne devrait-il pas être réservé aux modèles traitant des variables dépendantes...
J'utilise l'algorithme de forêt aléatoire en tant que classificateur robuste de deux groupes dans une étude de microréseau comportant des milliers d'éléments. Quelle est la meilleure façon de présenter la forêt aléatoire de manière à ce qu'il y ait suffisamment d'informations pour la rendre...
Au cours des dernières années, les réseaux de neurones convolutionnels (ou peut-être les réseaux de neurones profonds en général) sont devenus de plus en plus profonds, avec des réseaux à la pointe de la technologie allant de 7 couches ( AlexNet ) à 1 000 couches ( réseaux résiduels) en 4 années....
Je me demande comment calculer les mesures de précision et de rappel pour la classification multiclass à étiquettes multiples, c'est-à-dire une classification dans laquelle il existe plus de deux étiquettes et où chaque instance peut avoir plusieurs
En d’autres termes, au lieu d’avoir un problème à deux classes, j’ai plutôt affaire à quatre classes et j’aimerais toujours évaluer les performances en utilisant
Qu'est-ce qui détermine le choix de la fonction (Softmax vs Sigmoid) dans un classificateur logistique? Supposons qu'il existe 4 classes de sortie. Chacune des fonctions ci-dessus donne les probabilités que chaque classe soit la sortie correcte. Alors lequel choisir pour un
Supposons que quelqu'un construise un modèle prédictif, mais que quelqu'un ne connaisse pas nécessairement les principes appropriés des statistiques ou de l'apprentissage automatique. Peut-être aidons-nous cette personne dans son apprentissage, ou peut-être utilise-t-elle une sorte de progiciel...
Je voudrais autant d’algorithmes effectuant la même tâche que la régression logistique. Ce sont des algorithmes / modèles qui peuvent donner une prédiction à une réponse binaire (Y) avec une variable explicative (X). Je serais heureux si, après avoir nommé l'algorithme, vous montriez également...
Nous avions déjà plusieurs questions sur les données déséquilibrées lors de l'utilisation de la régression logistique , de la SVM , des arbres de décision , de la mise en sac et de plusieurs autres questions similaires, ce qui en fait un sujet très populaire! Malheureusement, chacune des questions...
J'ai un ensemble de données sous la forme de (fonctionnalités, sortie binaire 0 ou 1), mais 1 arrive assez rarement, donc juste en prédisant toujours 0, j'obtiens une précision comprise entre 70% et 90% (en fonction des données que je regarde) ). Les méthodes ML me donnent à peu près la même...
Quelle est la différence entre un problème multiclass et un problème