Statistiques et Big Data

10
Méthodes d'initialisation du clustering K-means

Je m'intéresse à l'état actuel de la technique pour sélectionner les semences initiales (centres de grappe) pour K-means. La recherche sur Google mène à deux choix populaires: sélection aléatoire des graines initiales, et, en utilisant la technique de sélection KMeans ++: Arthur & Vassilvitskii...

10
Relation LASSO entre et

Ma compréhension de la régression LASSO est que les coefficients de régression sont sélectionnés pour résoudre le problème de minimisation: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t En pratique, cela se fait en utilisant un...

10
Quelle est la différence entre fonction_décision, fonction_prédire et fonction de prédiction pour un problème de régression logistique?

J'ai parcouru la documentation sklearn mais je ne suis pas en mesure de comprendre le but de ces fonctions dans le contexte de la régression logistique. Car decision_functionil dit que c'est la distance entre l'hyperplan et l'instance de test. comment cette information particulière est-elle utile?...