Questions marquées «classification»

43
Hypothèses de forêt aléatoires

Comme je suis un peu nouveau dans la forêt aléatoire, je suis toujours aux prises avec certains concepts de base. En régression linéaire, on suppose des observations indépendantes, une variance constante… Quelles sont les hypothèses de base que nous faisons lorsque nous utilisons une forêt...

42
Pourquoi sous-échantillonner?

Supposons que je veuille apprendre un classificateur qui prédit si un courrier électronique est un spam. Et supposons que seulement 1% des emails sont du spam. La chose la plus simple à faire serait d'apprendre le classificateur trivial qui dit qu'aucun des courriels n'est du spam. Ce...

41
Comment interpréter les valeurs de mesure F?

J'aimerais savoir comment interpréter une différence de valeurs de f-mesures. Je sais que la f-mesure est une moyenne équilibrée entre précision et rappel, mais je m'interroge sur la signification pratique d'une différence entre les F-mesures. Par exemple, si un classificateur C1 a une précision de...

37
SVM, Overfitting, malédiction de la dimensionnalité

Mon jeu de données est petit (120 échantillons), mais le nombre d’entités est important varie de (1000 à 200 000). Bien que je sois en train de sélectionner des fonctionnalités pour choisir un sous-ensemble de fonctionnalités, cela peut tout de même être excessif. Ma première question est la...

35
PCA et train / test split

J'ai un jeu de données pour lequel j'ai plusieurs jeux d'étiquettes binaires. Pour chaque ensemble d'étiquettes, je forme un classificateur, en l'évaluant par validation croisée. Je souhaite réduire la dimensionnalité à l'aide de l'analyse en composantes principales (ACP). Ma question est: Est-il...

34
Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la...