Je ne l'ai jamais utilisé directement, je ne peux donc partager que quelques articles que j'ai eu et des réflexions générales sur cette technique (qui répondent principalement à vos questions 1 et 3).
Ma compréhension générale du biclustering provient principalement des études génétiques (2-6) où nous cherchons à prendre en compte les clusters de gènes et le regroupement d'individus: en bref, nous recherchons des groupes d'échantillons partageant ensemble un profil similaire d'expression génique (cela pourrait être lié à l'état pathologique, par exemple) et les gènes qui contribuent à ce modèle de profilage génétique. Une étude de l'état de l'art des ensembles de données biologiques "massives" est disponible dans les diapositives de Pardalos, Biclustering . Notez qu'il existe un package R, biclust , avec des applications pour les données de microréseau.
En fait, mon idée initiale était d'appliquer cette méthodologie au diagnostic clinique, car elle permet de mettre des caractéristiques ou des variables dans plus d'un cluster, ce qui est intéressant d'un point de vue séméologique car les symptômes qui se regroupent permettent de définir le syndrome , mais certains symptômes peuvent chevauchement dans différentes maladies. Une bonne discussion peut être trouvée dans Cramer et al., Comorbidity: A network perspective (Behavioral and Brain Sciences 2010, 33, 137-193).
Une technique quelque peu apparentée est le filtrage collaboratif . Une bonne revue a été mise à disposition par Su et Khoshgoftaar ( Advances in Artificial Intelligence , 2009): A Survey of Collaborative Filtering Techniques . D'autres références sont répertoriées à la fin. Peut-être que l'analyse d' un ensemble d'articles fréquents , comme illustré dans le problème du panier de marché , y est également liée, mais je n'ai jamais enquêté sur cela. Un autre exemple de co-clustering est lorsque nous voulons regrouper simultanément des mots et des documents, comme dans l'exploration de texte, par exemple Dhillon (2001). Co-regroupement de documents et de mots à l'aide du partitionnement de graphe spectral bipartite . Proc. KDD , p. 269-274.
À propos de quelques références générales, voici une liste peu exhaustive que j'espère que vous trouverez utile:
- Jain, AK (2010). Groupement de données: 50 ans au-delà de K-means . Lettres de reconnaissance de formes , 31 , 651–666
- Carmona-Saez et al. (2006). Biclustering des données d'expression génique par factorisation matricielle non lisse non négative . BMC Bioinformatics , 7 , 78.
- Prelic et al. (2006). Une comparaison et une évaluation systématiques des méthodes de biclustering pour les données d'expression génique . Bioinformatics , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio et al. (2008). Biclustering via un réordonnancement optimal des matrices de données en biologie des systèmes: méthodes rigoureuses et études comparatives . BMC Bioinformatics , 9 , 458.
- Santamaria et al. (2008). BicOverlapper: Un outil pour la visualisation bicluster . Bioinformatics , 24 (9) , 1212-1213.
- Madeira, SC et Oliveira, AL (2004) Algorithmes Bicluster pour l'analyse des données biologiques: une enquête . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
- Badea, L. (2009). Clustergrams généralisés pour les biclusters qui se chevauchent . IJCAI
- Symeonidis, P. (2006). Filtrage collaboratif des biclusters les plus proches . WEBKDD
Voici un bon sondage / examen:
Stanislav Busygin, Oleg Prokopyev et Panos M. Pardalos. Biclustering dans l'exploration de données . Ordinateurs et recherche opérationnelle, 35 (9): 2964-2987, septembre 2008.
la source