L'apprentissage automatique (ML) utilise fortement les techniques de régression linéaire et logistique. Elle repose également sur des techniques d'ingénierie (fonction feature transform
, kernel
etc.).
Pourquoi rien au sujet variable transformation
(par exemple power transformation
) mentionné dans ML? (Par exemple, je n'ai jamais entendu parler de la prise de racine ou du journal des fonctionnalités, ils utilisent généralement des polynômes ou des RBF.) De même, pourquoi les experts ML ne se soucient-ils pas des transformations de fonctionnalités pour la variable dépendante? (Par exemple, je n'entends jamais parler de la transformation logarithmique de y; ils ne transforment tout simplement pas y.)
Modifications: Peut-être que la question n'est pas définitivement, ma vraie question est "la transformation de puissance en variables n'est-elle pas importante en ML?"
la source
Réponses:
Le livre Applied Predictive Modeling de Kuhn et Johnson est un livre d'apprentissage machine pratique très apprécié avec une grande section sur la transformation variable, y compris Box-Cox. Les auteurs affirment que de nombreux algorithmes d'apprentissage automatique fonctionnent mieux si les fonctionnalités ont des distributions symétriques et unimodales. La transformation des fonctionnalités comme celle-ci est une partie importante de "l'ingénierie des fonctionnalités".
la source
Eh bien, selon mon propre point de vue, je m'intéresse assez souvent à la distribution prédictive de la variable de réponse, plutôt qu'à la moyenne conditionnelle, et dans ce cas, il vaut mieux utiliser une probabilité qui représente plus correctement la distribution cible. Par exemple, j'aime utiliser des modèles linéaires noyés plutôt que (disons) prendre en charge la régression vectorielle, car je peux utiliser une vraisemblance de Poisson si je le souhaite. Comme beaucoup de gens qui apprennent par machine sont des Bayésiens, je soupçonne que l'utilisation d'une probabilité différente semblera plus élégante que les transformations (choisir une probabilité appropriée est généralement la première étape).
la source
Voici mes pensées après.
Je pense que c'est parce que ML est largement lié à la classification, et la classification n'est pas nécessaire pour transformer y (y est catégorique). ML traite généralement de grandes variables indépendantes (par exemple des milliers en PNL) et la régression logistique ne nécessite pas de normalité; Je pense que c'est pourquoi ils n'utilisent pas la transformation de puissance Box-Cox en raison de la vitesse. (note: je ne suis pas familier avec la transformation de puissance.)
la source