J'ai des données équivalentes à:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Je voudrais faire une analyse de cet ensemble de données pour obtenir une matrice de corrélation qui aurait une implication similaire à: si vous avez acheté x, vous êtes susceptible d'acheter y.
En utilisant python (ou peut-être autre chose que MATLAB), comment puis-je m'y prendre? Quelques lignes directrices de base ou des pointeurs vers où je devrais regarder aideraient.
Merci,
Edit - Ce que j'ai appris:
Ces types de problèmes sont connus sous le nom de découverte de règles d'association. Wikipédia a un bon article couvrant certains des algorithmes courants pour le faire. L'algorithme classique pour le faire semble être Apriori, dû à Agrawal et. Al.
Cela m'a amené à l' orange , un package d'exploration de données interfacé python. Pour Linux, la meilleure façon de l'installer semble provenir de la source en utilisant le setup.py fourni
Orange lit par défaut les entrées des fichiers, formatées de plusieurs manières prises en charge.
Enfin, un simple apprentissage des règles d'association Apriori est simple en orange.
la source
arules
cela vaut le coup d'œil. "Règles d'association" est peut-être un bon terme de rechercheRéponses:
En plus des liens qui ont été donnés dans les commentaires, voici quelques conseils supplémentaires:
À propos de Python, je suppose que vous avez maintenant une idée de ce que vous devriez rechercher, mais le package d'exploration de données Orange propose un package sur les règles d'association et les ensembles d'éléments (bien que pour ce dernier, je ne trouve aucune référence sur le site Web).
Éditer:
Je suis récemment tombé sur pysuggest qui est
la source