Quelle est la différence entre PCA et MDS classique? Qu'en est-il des MDS par rapport aux MDS non métriques? Y a-t-il un moment où vous préféreriez l'un plutôt que l'autre? Comment les interprétations
Technique qui traduit les (dis) similitudes observées ou calculées entre les objets en distances dans un espace de faible dimension (généralement euclidien). Il construit ainsi des dimensions pour les données; les objets peuvent être tracés et conceptualisés dans ces dimensions
Quelle est la différence entre PCA et MDS classique? Qu'en est-il des MDS par rapport aux MDS non métriques? Y a-t-il un moment où vous préféreriez l'un plutôt que l'autre? Comment les interprétations
Une bonne pratique courante en Machine Learning est de normaliser les caractéristiques ou de normaliser les données des variables prédites, centrer les données soustrayant la moyenne et les normaliser en les divisant par la variance (ou l’écart type). Pour nous maîtriser et pour autant que je...
J'essaie de prédire le résultat d'un système complexe en utilisant des réseaux de neurones (ANN). Les résultats (dépendants) vont de 0 à 10 000. Les différentes variables d'entrée ont des plages différentes. Toutes les variables ont des distributions à peu près normales. Je considère différentes...
Pour le LASSO (et d'autres procédures de sélection de modèle), il est crucial de redimensionner les prédicteurs. La recommandation générale que je suis consiste simplement à utiliser une normalisation de 0 moyenne, 1 écart-type pour les variables continues. Mais que faire avec les nuls? Par...
J'ai lu récemment des questions sur t-SNE ( t-Distributed Stochastic Neighbour Embedding ) et j'ai également visité quelques questions sur MDS ( Multidimensional Scaling ). Ils sont souvent utilisés de manière analogue, il semblait donc judicieux de poser cette question, car il y a de nombreuses...
Ma compréhension du t-SNE et de l'approximation de Barnes-Hut est que tous les points de données sont nécessaires pour que toutes les interactions de force puissent être calculées en même temps et chaque point peut être ajusté dans la carte 2D (ou dimensionnelle inférieure). Existe-t-il des...
J'ai récemment rencontré une mise à l'échelle multidimensionnelle. J'essaie de mieux comprendre cet outil et son rôle dans les statistiques modernes. Voici donc quelques questions directrices: À quelles questions répond-il? Quels chercheurs sont souvent intéressés à l'utiliser? Existe-t-il d'autres...
J'ai utilisé randomForest pour classer 6 comportements d'animaux (par exemple, debout, marcher, nager, etc.) en fonction de 8 variables (différentes postures corporelles et mouvements). Le MDSplot dans le package randomForest me donne cette sortie et j'ai des problèmes pour interpréter le résultat....
Je veux regrouper un ensemble de données massif pour lequel je n'ai que les distances par paire. J'ai implémenté un algorithme k-medoids, mais cela prend trop de temps à exécuter, donc je voudrais commencer par réduire la dimension de mon problème en appliquant PCA. Cependant, la seule façon que je...
J'utilise l'indexation sémantique latente pour trouver des similitudes entre les documents ( merci JMS! ) Après la réduction des dimensions, j'ai essayé le clustering k-means pour regrouper les documents en clusters, ce qui fonctionne très bien. Mais j'aimerais aller un peu plus loin et visualiser...
J'ai un ensemble de points de données dans un espace à N dimensions. De plus, j'ai également un centroïde dans ce même espace à N dimensions. Existe-t-il des approches qui peuvent me permettre de projeter ces points de données dans un espace à deux dimensions tout en conservant leurs informations...
Selon "Efficient Backprop" de LeCun et al (1998), il est de bonne pratique de normaliser toutes les entrées afin qu'elles soient centrées autour de 0 et se situent dans la plage de la dérivée seconde maximale. Ainsi, par exemple, nous utiliserions [-0,5,0,5] pour la fonction "Tanh". C'est pour...
Compte tenu du nombre constant de caractéristiques, Barnes-Hut t-SNE a une complexité de , les projections aléatoires et l'ACP ont une complexité de O ( n ), ce qui les rend "abordables" pour de très grands ensembles de données.O ( n logn )O(nlogn)O(n\log n)O ( n )O(n)O(n) En revanche, les...