Qu'est-ce que le mélange de données?

15

Ce terme apparaît fréquemment dans les threads liés à la méthode .

Le mélange est-il une méthode spécifique dans l'exploration de données et l'apprentissage statistique? Je ne parviens pas à obtenir un résultat pertinent de Google.

Il semble que le mélange mélange les résultats de nombreux modèles et donne un meilleur résultat. Y a-t-il une ressource qui m'aide à en savoir plus à ce sujet?

TomHall
la source

Réponses:

10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Quelques articles pour vous aider à mieux comprendre ce qu'est le mélange. Je pense que vous pouvez également google pour la sélection / l'apprentissage d'ensemble et l'empilement.

Votre compréhension générale de «mélanger les résultats de nombreux modèles et d'obtenir un meilleur résultat» est cependant correcte.

Roi
la source
Ce lien a également été pris quelque part dans le forum kaggle. Je n'ai enregistré que le lien du pdf mais pas la discussion ...
King
12

Le boosting (comme mentionné dans la discussion liée) est une méthode qui combine un ensemble d'algorithmes pour obtenir un résultat meilleur que ce que vous pouvez obtenir à partir d'un seul algorithme. Par exemple, les forêts aléatoires sont une méthode pour combiner divers arbres de classification pour un algorithme de classification. Cette approche est officiellement appelée moyenne d'ensemble (bien que l'algoithme applique généralement la règle de la majorité). Le mélange semble être un mot que certaines personnes utilisent pour décrire une approche stimulante de la classification.

Michael R. Chernick
la source
Alors, cela peut-il être appelé mélange, si je remplace les arbres de classification dans un modèle adaboost normal par un autre ensemble d'algorithmes?
TomHall
Salut, Michael.Votre réponse est vraiment utile mais, honte à moi, je suis nouveau dans les statistiques et je n'ai pas encore assez de réputation pour voter votre réponse.
TomHall
1
Eh bien, n'oubliez pas de le faire après avoir obtenu quelques points de répétition.
Michael R. Chernick
0

Dans l'industrie, le mélange de données ne concerne pas les modèles mais le prétraitement : c'est lorsque les données sont fusionnées qui proviennent de différentes sources, comme celle d'une base de données et d'autres données de fichiers CSV.

Make42
la source