Je fais une étude sur la polytoxicomanie. J'ai un ensemble de données de 400 toxicomanes, qui ont chacun déclaré les drogues qu'ils abusent. Il existe plus de 10 médicaments et donc de grandes combinaisons possibles. J'ai recodé la plupart des drogues qu'ils consomment en variables binaires (c'est-à-dire que l'héroïne est 1 si un toxicomane abuse de l'héroïne sinon 0). Je voudrais trouver les combinaisons populaires ou courantes de 2 ou 3 médicaments. Existe-t-il des méthodes statistiques que je peux utiliser?
La modélisation des classes latentes serait une approche d'apprentissage supervisé pour trouver des partitions ou des groupes sous-jacents ou «cachés» de drogues et d'usagers de drogues. LC est une méthode très flexible avec deux grandes approches: réplications basées sur des mesures répétées pour un seul sujet vs réplications basées sur la classification croisée d'un ensemble de variables catégorielles. Vos données correspondraient au deuxième type.
La flexibilité des CL est fonction de sa capacité à absorber des «mélanges» de variables avec des échelles différentes (par exemple, catégoriques ou continues). Étant donné que l'approche trouve des partitions, des segments ou des clusters cachés dans les données, elle peut également être considérée comme une technique de réduction de dimension.
Tous les modèles LC ont 2 étapes: à l'étape 1, une variable dépendante ou cible est identifiée et un modèle de régression est construit. À l'étape 2, le résidu (un seul vecteur "latent") du modèle de l'étape 1 est analysé et des partitions sont créées capturant la variabilité (ou l'hétérogénéité) - les "classes latentes" - dans ce vecteur.
Freeware est disponible pour le téléchargement qui fonctionnerait probablement assez bien pour vous. L'un d'eux est un module R appelé polCA disponible ici:
http://www.jstatsoft.org/article/view/v042i10
Si vous avez environ 1000 $ à dépenser pour un produit commercial, Latent Gold est disponible sur www.statisticalinnovations.com Après avoir utilisé Latent Gold pendant des années, je suis un grand fan de ce produit pour sa puissance analytique et sa gamme de solutions. Par exemple, polCA n'est utile que pour les modèles LC avec des informations catégoriques alors que LG fonctionne dans tous les domaines ... de plus, leurs développeurs ajoutent toujours de nouveaux modules. L'ajout le plus récent construit des modèles LC à l'aide de chaînes de Markov cachées. Mais gardez à l'esprit que LG n'est pas une plate-forme de données «de bout en bout», c'est-à-dire qu'elle n'est pas bonne pour la manipulation ou le levage de données lourdes.
Sinon, il existe des tonnes d'autres approches pour analyser les informations catégoriques qui sont largement prises en charge par les logiciels statistiques tels que R, SPSS, SAS, Python, etc. Celles-ci incluent l'analyse des tableaux de contingence, les modèles log-linéaires, les modèles à mélange fini, la régression du tenseur bayésien, etc. La littérature dans ce domaine est vaste et a commencé avec Bishop, et al., Discrete Multivariate Analysis en 1975, s'étend à travers les modèles RC de Leo Goodman basés sur son travail effectué depuis les années 80, l' analyse de données catégoriques d'Agresti , les livres de Stephen Fienberg et inclut Thomas Wickens 'excellent livre Multiway Contingency Tables Analysis for the Social Sciences publié en 1989. Bayesian Tensor Regression est le titre d'un article de David Dunson chez Duke et est en quelque sorte le "dernier cri" en étant une méthode très récente de modélisation de tables de contingence massivement multi-voies.
la source
Qu'est-ce qui vous vient à l'esprit intuitivement? Vous voulez compter les combinaisons, pourquoi ne pas simplement trouver toutes les combinaisons possibles et simplement compter? Je vous suggère de vous pencher sur l'extraction fréquente d'ensembles d'objets.
Wikipédia - Apriori
Voici quelques implémentations de la même:
Exploration de modèle de fréquence
la source