Quelles sont les méthodes statistiques que je peux utiliser pour trouver des combinaisons populaires ou courantes de variables catégorielles?

10

Je fais une étude sur la polytoxicomanie. J'ai un ensemble de données de 400 toxicomanes, qui ont chacun déclaré les drogues qu'ils abusent. Il existe plus de 10 médicaments et donc de grandes combinaisons possibles. J'ai recodé la plupart des drogues qu'ils consomment en variables binaires (c'est-à-dire que l'héroïne est 1 si un toxicomane abuse de l'héroïne sinon 0). Je voudrais trouver les combinaisons populaires ou courantes de 2 ou 3 médicaments. Existe-t-il des méthodes statistiques que je peux utiliser?

hypothesis-testing clustering combinatorics association-measure association-rules tatami
la source

6

Il n'y a que 1024 combinaisons possibles de médicaments à utiliser ensemble (s'il n'y avait que 10 médicaments) en supposant que chaque utilisateur a utilisé au moins 1 médicament. Vous pouvez simplement convertir vos variables 0/1 en chaîne et les concaténer et exécuter des analyses de fréquence sur la chaîne pour voir quelles combinaisons apparaissent le plus fréquemment. Prenons un exemple de jouet, disons que seulement 3 médicaments, A, B et C, étaient dans votre étude. Si un participant a utilisé les médicaments A et C, alors la variable alldrugspourrait être codée 101. Un participant qui utilise uniquement le médicament B serait codé 010. Exécutez des fréquences sur ces derniers pour trouver celui sélectionné le plus souvent. La plupart des logiciels devraient pouvoir traiter cela en quelques secondes.

StatsStudent
la source

1

D'accord. Il n'y a que 400 toxicomanes, donc ces 1024 ne peuvent pas tous se produire.

Nick Cox

Oui. Cela devrait être un morceau de gâteau.

StatsStudent

5

La modélisation des classes latentes serait une approche d'apprentissage supervisé pour trouver des partitions ou des groupes sous-jacents ou «cachés» de drogues et d'usagers de drogues. LC est une méthode très flexible avec deux grandes approches: réplications basées sur des mesures répétées pour un seul sujet vs réplications basées sur la classification croisée d'un ensemble de variables catégorielles. Vos données correspondraient au deuxième type.

La flexibilité des CL est fonction de sa capacité à absorber des «mélanges» de variables avec des échelles différentes (par exemple, catégoriques ou continues). Étant donné que l'approche trouve des partitions, des segments ou des clusters cachés dans les données, elle peut également être considérée comme une technique de réduction de dimension.

Tous les modèles LC ont 2 étapes: à l'étape 1, une variable dépendante ou cible est identifiée et un modèle de régression est construit. À l'étape 2, le résidu (un seul vecteur "latent") du modèle de l'étape 1 est analysé et des partitions sont créées capturant la variabilité (ou l'hétérogénéité) - les "classes latentes" - dans ce vecteur.

Freeware est disponible pour le téléchargement qui fonctionnerait probablement assez bien pour vous. L'un d'eux est un module R appelé polCA disponible ici:

http://www.jstatsoft.org/article/view/v042i10

Si vous avez environ 1000 $ à dépenser pour un produit commercial, Latent Gold est disponible sur www.statisticalinnovations.com Après avoir utilisé Latent Gold pendant des années, je suis un grand fan de ce produit pour sa puissance analytique et sa gamme de solutions. Par exemple, polCA n'est utile que pour les modèles LC avec des informations catégoriques alors que LG fonctionne dans tous les domaines ... de plus, leurs développeurs ajoutent toujours de nouveaux modules. L'ajout le plus récent construit des modèles LC à l'aide de chaînes de Markov cachées. Mais gardez à l'esprit que LG n'est pas une plate-forme de données «de bout en bout», c'est-à-dire qu'elle n'est pas bonne pour la manipulation ou le levage de données lourdes.

Sinon, il existe des tonnes d'autres approches pour analyser les informations catégoriques qui sont largement prises en charge par les logiciels statistiques tels que R, SPSS, SAS, Python, etc. Celles-ci incluent l'analyse des tableaux de contingence, les modèles log-linéaires, les modèles à mélange fini, la régression du tenseur bayésien, etc. La littérature dans ce domaine est vaste et a commencé avec Bishop, et al., Discrete Multivariate Analysis en 1975, s'étend à travers les modèles RC de Leo Goodman basés sur son travail effectué depuis les années 80, l' analyse de données catégoriques d'Agresti , les livres de Stephen Fienberg et inclut Thomas Wickens 'excellent livre Multiway Contingency Tables Analysis for the Social Sciences publié en 1989. Bayesian Tensor Regression est le titre d'un article de David Dunson chez Duke et est en quelque sorte le "dernier cri" en étant une méthode très récente de modélisation de tables de contingence massivement multi-voies.

Mike Hunter
la source

j'adore la liste des références!

Chris

3

Qu'est-ce qui vous vient à l'esprit intuitivement? Vous voulez compter les combinaisons, pourquoi ne pas simplement trouver toutes les combinaisons possibles et simplement compter? Je vous suggère de vous pencher sur l'extraction fréquente d'ensembles d'objets.

Wikipédia - Apriori

Voici quelques implémentations de la même:

Exploration de modèle de fréquence

Harsh Nisar
la source

Quelles sont les méthodes statistiques que je peux utiliser pour trouver des combinaisons populaires ou courantes de variables catégorielles?

Réponses: