Concernant l'analyse du panier, je pense que l'objectif principal est d'individualiser les combinaisons de produits les plus fréquemment achetées par les clients. Ils association rules
représentent ici la méthodologie la plus naturelle (en fait, ils ont été développés à cet effet). L'analyse des combinaisons de produits achetés par les clients et du nombre de répétitions de ces combinaisons conduit à une règle du type «si condition, puis résultat» avec une mesure d'intérêt correspondante. Vous pouvez également envisager Log-linear models
afin d'étudier les associations entre les variables considérées.
Maintenant, en ce qui concerne le clustering, voici quelques informations qui peuvent être utiles:
Considérons d'abord Variable clustering
. Le regroupement de variables est utilisé pour évaluer la colinéarité, la redondance et pour séparer les variables en grappes qui peuvent être notées comme une seule variable, entraînant ainsi une réduction des données. Recherchez la varclus
fonction (package Hmisc en R)
Évaluation de la stabilité en cluster: fonction clusterboot
{R package fpc}
Statistiques basées sur la distance pour la validation de cluster: fonction cluster.stats
{R package fpc}
Comme l'a mentionné mbq, utilisez les largeurs de silhouette pour évaluer le meilleur nombre de grappes. Regardez ça . Concernant les largeurs de silhouette, voir aussi la fonction optsil .
Estimer le nombre de grappes dans un ensemble de données via la statistique de l' écart
Pour calculer les indices de dissimilarité et les mesures de distance, voir dsvdis et vegdist
L'algorithme de clustering EM peut décider du nombre de clusters à créer par validation croisée (si vous ne pouvez pas spécifier a priori le nombre de clusters à générer). Bien que l'algorithme EM soit garanti de converger vers un maximum, il s'agit d'un maximum local et peut ne pas nécessairement être le même que le maximum global. Pour une meilleure chance d'obtenir le maximum global, toute la procédure doit être répétée plusieurs fois, avec des suppositions initiales différentes pour les valeurs des paramètres. Le chiffre global de vraisemblance logarithmique peut être utilisé pour comparer les différentes configurations finales obtenues: il suffit de choisir le plus grand des maxima locaux . Vous pouvez trouver une implémentation du clustering EM dans le projet open-source WEKA
C'est aussi un lien intéressant.
Recherche également ici pourFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Enfin, vous pouvez explorer les résultats du clustering en utilisant clusterfly