Certaines techniques de modélisation prédictive sont plus conçues pour gérer des prédicteurs continus, tandis que d'autres sont meilleures pour gérer des variables catégorielles ou discrètes. Il existe bien sûr des techniques pour transformer un type en un autre (discrétisation, variables muettes, etc.). Cependant, existe-t-il des techniques de modélisation prédictive conçues pour gérer les deux types d'entrée en même temps sans simplement transformer le type des entités? Dans l'affirmative, ces techniques de modélisation ont-elles tendance à mieux fonctionner sur des données pour lesquelles elles sont plus adaptées?
La chose la plus proche que je connais serait que les arbres de décision généralement manipuler des données discrètes bien et ils gèrent des données continues sans nécessiter l' avant discrétisation. Cependant, ce n'est pas tout à fait ce que je cherchais car, en réalité, les divisions sur les caractéristiques continues ne sont qu'une forme de discrétisation dynamique.
Pour référence, voici quelques questions connexes non dupliquées:
- Comment les fractionnements d'arbre de décision devraient-ils être mis en œuvre lors de la prévision des variables continues?
- Puis-je utiliser la régression multiple lorsque j'ai des prédicteurs catégoriels et continus mixtes?
- Est-il jamais judicieux de traiter les données catégoriques comme continues?
- Analyse continue et catégorielle des données variables
la source
Réponses:
Pour autant que je sache, et j'ai étudié ce problème en profondeur dans le passé, il n'y a pas de techniques de modélisation prédictive (à part les arbres, XgBoost, etc.) qui sont conçues pour gérer les deux types d'entrée en même temps sans simplement transformer le type des fonctionnalités.
Notez que des algorithmes comme Random Forest et XGBoost acceptent une entrée de fonctionnalités mixtes, mais ils appliquent une certaine logique pour les gérer lors de la division d'un nœud. Assurez-vous que vous comprenez la logique "sous le capot" et que vous êtes d'accord avec tout ce qui se passe dans la boîte noire.
Quelques fonctions de distance connues pour les caractéristiques catégorielles:
Distance Levenshtien (ou toute forme de "distance d'édition")
Plus longue métrique de sous-séquence commune
la source
Je sais que cela fait un moment que cette question n'a pas été publiée, mais si vous êtes toujours à la recherche de ce problème (ou de problèmes similaires), vous voudrez peut-être envisager d'utiliser des modèles additifs généralisés (GAM). Je ne suis pas un expert, mais ces modèles vous permettent de combiner différents modèles pour créer une seule prédiction. Le processus utilisé pour trouver des coefficients pour les modèles que vous mettez en place résout pour tous à la fois, afin que vous puissiez envoyer un modèle additif généralisé votre modèle préféré pour les prédicteurs catégoriques et votre modèle préféré pour les prédicteurs continus et obtenir un modèle unique qui minimise RSS ou tout autre critère d'erreur que vous souhaitez utiliser.
Du haut de ma tête, le seul progiciel que je connaisse a une implémentation de GAM est le langage R, mais je suis sûr qu'il y en a d'autres.
la source
Alors que la discrétisation transforme les données continues en données discrètes, on peut difficilement dire que les variables fictives transforment les données catégoriques en données continues. En effet, puisque les algorithmes peuvent être exécutés sur des ordinateurs, il ne peut guère y avoir d'algorithme de classification qui ne transforme PAS les données catégorielles en variables factices.
Dans le même sens, un classifieur transforme finalement ses prédicteurs en une variable discrète indiquant l'appartenance à une classe (même s'il génère une probabilité de classe, vous choisissez finalement un seuil). De facto, de nombreux classificateurs comme la régression logistique, la forêt aléatoire, les arbres de décision et le SVM fonctionnent tous bien avec les deux types de données.
Je soupçonne qu'il serait difficile de trouver un algorithme qui fonctionne avec des données continues mais ne peut pas du tout gérer les données catégoriques. Habituellement, j'ai tendance à trouver que cela fait plus de différence sur le type de données que vous avez sur le côté gauche de votre modèle.
la source
Il s'agit d'une question philosophique profonde qui est couramment abordée du point de vue statistique et de l'apprentissage automatique. Certains disent que la catégorisation est préférable pour un indicateur discret à catégorique, de sorte que les packages peuvent facilement digérer les entrées du modèle. D'autres disent que le regroupement peut entraîner une perte d'informations, mais cependant les variables catégorielles peuvent / doivent être converties en {1,0} variables indicatrices en laissant de côté la dernière classe pour les résidus du modèle.
Le livre - Régression linéaire appliquée (Kutner et al.) Mentionne la logique de l'introduction des variables indicatrices dans le modèle dans les premiers chapitres. Il peut également y avoir un autre texte similaire.
Mon point de vue peut-être un peu trop tiré par les cheveux: si nous imaginons les variables catégorielles comme des blocs dans un plan expérimental, la variable indicatrice est une extension naturelle de l'analyse de données non basée sur l'expérience. En ce qui concerne les algorithmes d'exploration de données (familles d'arbres de décision), la catégorisation est inévitable (soit manuellement, soit par regroupement automatique) qui doit être introduite dans le modèle.
Par conséquent, il peut ne pas y avoir de modèle spécialisé pour les variables numériques et catégorielles de la même manière (sans regroupement numérique ou utilisation d'indicateurs catégoriels).
la source