Je sais que k-means n'est pas supervisé et qu'il est utilisé pour la mise en cluster, etc., et que k-NN est supervisé. Mais je voulais connaître des différences concrètes entre les
Classificateurs k-Nearest-Neighbour Ces classificateurs sont basés sur la mémoire et ne nécessitent aucun modèle pour être ajustés. Étant donné un point de requête x0, nous trouvons les k points d'entraînement x (r), r = 1, ..., k les plus proches en distance de x0, puis classons en utilisant le vote majoritaire parmi les k voisins.
Je sais que k-means n'est pas supervisé et qu'il est utilisé pour la mise en cluster, etc., et que k-NN est supervisé. Mais je voulais connaître des différences concrètes entre les
Je veux générer l'intrigue décrite dans le livre ElemStatLearn "The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition" de Trevor Hastie & Robert Tibshirani & Jerome Friedman. L'intrigue est: Je me demande comment je peux produire ce graphique exact...
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit)...
D'après ce que je comprends, nous ne pouvons construire qu'une fonction de régression qui se situe dans l'intervalle des données d'entraînement. Par exemple (un seul des panneaux est nécessaire): Comment pourrais-je prédire l'avenir en utilisant un régresseur KNN? Encore une fois, il semble ne se...
Je suis un peu nouveau dans le datamining / machine learning / etc. et j'ai lu quelques façons de combiner plusieurs modèles et exécutions du même modèle pour améliorer les prévisions. Mon impression de la lecture de quelques articles (qui sont souvent intéressants et excellents sur la théorie et...
En 1999, Beyer et al. a demandé: Quand le "plus proche voisin" a-t-il un sens? Existe-t-il de meilleures façons d'analyser et de visualiser l'effet de la planéité des distances sur la recherche NN depuis 1999? Un ensemble de données [donné] fournit-il des réponses significatives au problème 1-NN?...
Quelle est la complexité temporelle de l' algorithme k -NN avec une approche de recherche naïve (pas d'arbre kd ou similaire)? Je suis intéressé par sa complexité temporelle compte tenu également de l'hyperparamètre k . J'ai trouvé des réponses contradictoires: O (nd + kn), où n est la cardinalité...
Il semble que KNN soit un algorithme d'apprentissage discriminant, mais je n'arrive pas à trouver de sources en ligne le confirmant. KNN est-il un algorithme d'apprentissage
Les endroits que j'ai lus sur la malédiction de la dimensionnalité l'expliquent conjointement avec kNN principalement et les modèles linéaires en général. Je vois régulièrement les meilleurs classeurs de Kaggle utiliser des milliers d'entités sur un ensemble de données qui ne contient pratiquement...
J'ai effectué un CV 5 fois pour sélectionner le K optimal pour KNN. Et il semble que plus le K est grand, plus l'erreur est petite ... Désolé je n'avais pas de légende, mais les différentes couleurs représentent différents essais. Il y en a 5 au total et il semble qu'il y ait peu de variation entre...
Quelqu'un pourrait-il m'expliquer pourquoi vous devez normaliser les données lors de l'utilisation de K voisins les plus proches. J'ai essayé de chercher ça, mais je n'arrive toujours pas à le comprendre. J'ai trouvé le lien suivant:
Je recherche un package d'imputation KNN. J'ai regardé le paquet d'imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) mais pour une raison quelconque, la fonction d'imputation KNN (même en suivant l'exemple de la description) semble seulement pour imputer des valeurs...
Je programme un algorithme kNN et j'aimerais savoir ce qui suit: Tie-breaks: Que se passe-t-il s'il n'y a pas de gagnant clair dans le vote majoritaire? Par exemple, tous les k voisins les plus proches sont de classes différentes, ou pour k = 4, il y a 2 voisins de classe A et 2 voisins de classe...
Je comprends le raisonnement derrière la normalisation des colonnes, car il entraîne une pondération égale des entités, même si elles ne sont pas mesurées sur la même échelle - cependant, souvent dans la littérature du voisin le plus proche, les colonnes et les lignes sont normalisées. Quelle est...
Je suis nouveau dans les noyaux et j'ai rencontré un problème en essayant de noyauer kNN. Préliminaires J'utilise un noyau polynomiale: K(x,y)=(1+⟨x,y⟩)dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d Votre kNN euclidien typique utilise la métrique de...
Quelqu'un peut-il rendre compte de son expérience avec un estimateur adaptatif de densité de noyau? (Il existe de nombreux synonymes: adaptatif | variable | largeur variable, KDE | histogramme | interpolateur ...) Une estimation de densité de noyau variable dit "nous faisons varier la largeur du...
Selon certains articles que je lis, la distance de Jeffries et Matusita est couramment utilisée. Mais je n'ai pas trouvé beaucoup d'informations à ce sujet, sauf pour la formule ci-dessous JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Elle est...
Dans Elements of Statistical Learning , un problème est introduit pour mettre en évidence les problèmes de k-nn dans les espaces de grande dimension. Il y a NNN points de données qui sont uniformément distribués dans une boule d'unité ppp dimensionnelle. La distance médiane de l'origine au point de...
Je lis le livre de Kevin Murphy: Machine Learning-A probabilistic Perspective. Dans le premier chapitre, l'auteur explique la malédiction de la dimensionnalité et il y a une partie que je ne comprends pas. À titre d'exemple, l'auteur déclare: Considérez que les entrées sont uniformément réparties...
Si j'ai bien compris, k-NN est un algorithme d'apprentissage paresseux et il n'a pas besoin d'une phase de formation. Alors, pourquoi devons-nous utiliser .fit()avec sklearn et que se passe-t-il lorsque nous