Je joue avec l'ensemble de données sur le cancer du sein et j'ai créé un nuage de points de tous les attributs pour avoir une idée de ceux qui ont le plus d'effet sur la prédiction de la classe malignant
(bleu) de benign
(rouge).
Je comprends que la ligne représente l'axe des x et la colonne représente l'axe des y mais je ne peux pas voir quelles observations je peux faire sur les données ou les attributs de ce nuage de points.
Je cherche de l'aide pour interpréter / faire des observations sur les données de ce nuage de points ou si je devrais utiliser une autre visualisation pour visualiser ces données.
Code R que j'ai utilisé
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
Réponses:
Je ne sais pas si cela peut vous être utile, mais pour l'EDA primaire, j'aime vraiment le
tabplot
package. Vous donne une bonne idée des corrélations possibles qui peuvent exister dans vos données.la source
Il existe un certain nombre de problèmes qui rendent difficile, voire impossible, l'extraction d'informations utilisables à partir de votre matrice de nuage de points.
Vous avez trop de variables affichées ensemble. Lorsque vous avez beaucoup de variables dans une matrice de nuage de points, chaque tracé devient trop petit pour être utile. La chose à noter est que de nombreux tracés sont dupliqués, ce qui gaspille de l'espace. De plus, bien que vous souhaitiez voir toutes les combinaisons, vous n'avez pas besoin de les représenter toutes ensemble. Notez que vous pouvez diviser une matrice de nuage de points en blocs plus petits de quatre ou cinq (un nombre qui est utilement visualisable). Il vous suffit de créer plusieurs tracés, un pour chaque bloc.
Puisque vous avez beaucoup de données à des points discrets de l'espace , elles finissent par s'empiler les unes sur les autres. Ainsi, vous ne pouvez pas voir le nombre de points à chaque emplacement. Il existe plusieurs astuces pour vous aider à y faire face.
En utilisant ces stratégies, voici un exemple de code R et les tracés réalisés:
la source
Il est difficile de visualiser plus de 3 à 4 dimensions dans une même parcelle. Une option consisterait à utiliser l'analyse des composants principaux (ACP) pour compresser les données, puis les visualiser dans les dimensions principales. Il existe plusieurs packages différents dans R (ainsi que la
prcomp
fonction de base ) qui facilitent la syntaxe ( voir CRAN ); interpréter les tracés, les chargements, est une autre histoire, mais je pense que c'est plus facile qu'une matrice de nuages de points ordinaux à 10 variables.la source