Quelle est la différence pratique entre les règles d'association et les arbres de décision dans l'exploration de données?

19

Existe-t-il une description très simple des différences pratiques entre ces deux techniques?

Les deux semblent être utilisés pour l'apprentissage supervisé (bien que les règles d'association puissent également gérer sans supervision).
Les deux peuvent être utilisés pour la prédiction

Le plus proche que j'ai trouvé à une «bonne» description est du manuel Statsoft . Ils disent que les règles d'association sont utilisées pour:

... détecter des relations ou des associations entre des valeurs spécifiques de variables catégorielles dans de grands ensembles de données.

Alors que les classificateurs Decision Tree sont décrits comme étant utilisés pour:

... prédire l'appartenance de cas ou d'objets aux classes d'une variable dépendante catégorielle à partir de leurs mesures sur une ou plusieurs variables prédictives.

Cependant, chez R Data Mining, ils donnent un exemple de règles d'association utilisées avec un champ cible .

Donc, les deux peuvent être utilisés pour prédire l'appartenance à un groupe, est-ce la principale différence que les arbres de décision peuvent gérer les données d'entrée non catégoriques alors que les règles d'association ne le peuvent pas? Ou y a-t-il quelque chose de plus fondamental? Un site ( sqlserverdatamining.com ) dit que la principale différence est:

Les règles des arbres de décision sont basées sur le gain d'informations tandis que les règles d'association sont basées sur la popularité et / ou la confiance.

Donc (peut-être pour répondre à ma propre question) cela signifie-t-il que les règles d'association sont évaluées uniquement sur la fréquence à laquelle elles apparaissent dans l'ensemble de données (et à quelle fréquence elles sont «vraies») tandis que les arbres de décision tentent en fait de minimiser la variance?

Si quelqu'un connaît une bonne description, il serait prêt à me diriger vers ce qui serait formidable.

data-mining association-rules Délabré
la source

14

$\mathcal{F} = {F_1 , \dots, F_m }$ $C$ $\mathcal{F}$ $C$ $F$

t_{1} = {{je}_{1}, {je}_{2}} t_{2} = {{je}_{1}, {je}_{3}, {je}_{4}, {je}_{5}} t_{3} = {{je}_{2}, {je}_{3}, {je}_{4}, {je}_{5}} ⋮ t_{n} = {{je}_{2}, {je}_{3}, {je}_{4}, {je}_{5}}

$t_1 = \{i_1,i_2 \} \\ t_2 = \{i_1, i_3, i_4, i_5 \} \\ t_3 = \{i_2, i_3, i_4, i_5 \} \\ \vdots \\ t_n = \{ i_2, i_3, i_4, i_5 \}$

{{je}_{3}, {je}_{5}} \to {{je}_{4}}

$\{ i_3, i_5 \} \rightarrow \{ i_4 \}$

Il s'avère que vous pouvez utiliser l'analyse d'association pour certaines tâches de classification spécifiques, par exemple lorsque toutes vos fonctionnalités sont catégorielles. Il suffit de voir les éléments comme des fonctionnalités, mais ce n'est pas pour cela que l'analyse d'association est née.

Simone
la source

3

"Les règles d'association visent à trouver toutes les règles au-dessus des seuils donnés impliquant des sous-ensembles d'enregistrements qui se chevauchent, tandis que les arbres de décision trouvent des régions dans l'espace où la plupart des enregistrements appartiennent à la même classe. D'autre part, les arbres de décision peuvent manquer de nombreuses règles prédictives trouvées par les règles d'association car ils se divisent successivement en sous-ensembles plus petits. Lorsqu'une règle trouvée par un arbre de décision n'est pas trouvée par des règles d'association, c'est soit parce qu'une contrainte a élagué l'espace de recherche, soit parce que le support ou la confiance étaient trop élevés. "
"Les algorithmes de règles d'association peuvent être lents, malgré les nombreuses optimisations proposées dans la littérature car ils fonctionnent sur un espace combinatoire, tandis que les arbres de décision peuvent être comparativement beaucoup plus rapides car chaque division obtient des sous-ensembles d'enregistrements successivement plus petits."
Un autre problème est que les arbres de décision peuvent répéter le même attribut plusieurs fois pour la même règle car cet attribut est un bon discriminateur. Ce n'est pas un gros problème car les règles sont des conjonctions et donc la règle peut être simplifiée à un intervalle pour l'attribut, mais cet intervalle sera généralement petit et la règle trop spécifique. "

Extraits de:

Ordonez, C. et Zhao, K. (2011). Évaluation des règles d'association et des arbres de décision pour prédire plusieurs attributs cibles. Intelligent Data Analysis, 15 (2), 173–192.

Un bel article couvrant ce sujet, qui mérite vraiment d'être lu.

Roy van der Valk
la source

2

Nous pouvons faire valoir que les règles d'association et les arbres de décision suggèrent un ensemble de règles à l'utilisateur et, par conséquent, les deux sont similaires, mais nous devons comprendre la différence théorique entre les arbres de décision et les règles d'association, et en outre comment les règles suggérées par les deux sont différentes dans leur signification ou utilisé.

Premièrement, l' arbre de décision est une approche supervisée où l'algorithme tente de prédire un «résultat». Un exemple typique d'un «résultat» dans des situations réelles pourrait être, par exemple, le taux de désabonnement, la fraude, la réponse à une campagne, etc. Ainsi, les règles de l'arbre de décision sont utilisées pour prédire un résultat.

L'apprentissage des règles d'association est une approche non supervisée où l'algorithme essaie de trouver des associations entre les éléments, souvent dans de grandes bases de données commerciales. Un exemple typique d'une grande base de données commerciale est celle contenant les transactions des détaillants, telles que l'historique des achats des clients sur un site Web de commerce électronique. Les articles peuvent être des produits achetés dans des magasins ou des films visionnés sur une plateforme de streaming en ligne. L'apprentissage des règles d'association concerne la manière dont l'achat d'un produit induit l'achat d'un autre produit.

Deuxièmement, les arbres de décision sont construits sur la base de certaines mesures d'impureté / incertitude, par exemple le gain d'informations, le coefficient de Gini ou l'entropie, tandis que les règles d'association sont dérivées en fonction du support, de la confiance et de la portance.

Troisièmement, comme l'arbre de décision est une approche «supervisée», sa précision est mesurable, tandis que l'apprentissage des règles d'association est une approche «non supervisée», et donc sa précision est subjective.

Jyotsna
la source

Quelle est la différence pratique entre les règles d'association et les arbres de décision dans l'exploration de données?

Réponses: