Statistiques et Big Data

37
SVM, Overfitting, malédiction de la dimensionnalité

Mon jeu de données est petit (120 échantillons), mais le nombre d’entités est important varie de (1000 à 200 000). Bien que je sois en train de sélectionner des fonctionnalités pour choisir un sous-ensemble de fonctionnalités, cela peut tout de même être excessif. Ma première question est la...

37
Comparaison SVM et régression logistique

Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants: SVM: essayez de...

37
Quand le t-SNE est-il trompeur?

Citant l'un des auteurs: L'intégration de voisins stochastiques t-distribués (t-SNE) est une technique ( primée ) de réduction de dimensionnalité particulièrement bien adaptée à la visualisation de jeux de données de grande dimension. Cela semble donc très bien, mais c'est l'auteur qui parle. Une...

37
Pourquoi mes valeurs p diffèrent-elles entre la sortie de la régression logistique, le test du khi-carré et l'intervalle de confiance du OU?

J'ai construit une régression logistique dans laquelle la variable de résultat est en train de guérir après le traitement ( Curevs No Cure). Tous les patients de cette étude ont reçu un traitement. Je voudrais savoir si le diabète est associé à ce résultat. Dans R ma sortie de régression logistique...