Pourquoi les transformations de puissance ou de journaux ne sont-elles pas beaucoup enseignées dans l'apprentissage automatique?

24

L'apprentissage automatique (ML) utilise fortement les techniques de régression linéaire et logistique. Elle repose également sur des techniques d'ingénierie (fonction feature transform, kerneletc.).

Pourquoi rien au sujet variable transformation(par exemple power transformation) mentionné dans ML? (Par exemple, je n'ai jamais entendu parler de la prise de racine ou du journal des fonctionnalités, ils utilisent généralement des polynômes ou des RBF.) De même, pourquoi les experts ML ne se soucient-ils pas des transformations de fonctionnalités pour la variable dépendante? (Par exemple, je n'entends jamais parler de la transformation logarithmique de y; ils ne transforment tout simplement pas y.)

Modifications: Peut-être que la question n'est pas définitivement, ma vraie question est "la transformation de puissance en variables n'est-elle pas importante en ML?"

WeiChing Lin
la source
4
Je voudrais savoir pourquoi cela a été rejeté; c'est en fait une question intéressante.
shadowtalker
1
Je pense que la plupart des gens auraient suivi un cours de régression linéaire avant leur premier cours de ML. Assurément, le cours de stock LR contiendrait un chapitre sur ces choses (transformations). Btw, je n'ai pas downvote la question.
user603

Réponses:

12

Le livre Applied Predictive Modeling de Kuhn et Johnson est un livre d'apprentissage machine pratique très apprécié avec une grande section sur la transformation variable, y compris Box-Cox. Les auteurs affirment que de nombreux algorithmes d'apprentissage automatique fonctionnent mieux si les fonctionnalités ont des distributions symétriques et unimodales. La transformation des fonctionnalités comme celle-ci est une partie importante de "l'ingénierie des fonctionnalités".

Flet
la source
8

Eh bien, selon mon propre point de vue, je m'intéresse assez souvent à la distribution prédictive de la variable de réponse, plutôt qu'à la moyenne conditionnelle, et dans ce cas, il vaut mieux utiliser une probabilité qui représente plus correctement la distribution cible. Par exemple, j'aime utiliser des modèles linéaires noyés plutôt que (disons) prendre en charge la régression vectorielle, car je peux utiliser une vraisemblance de Poisson si je le souhaite. Comme beaucoup de gens qui apprennent par machine sont des Bayésiens, je soupçonne que l'utilisation d'une probabilité différente semblera plus élégante que les transformations (choisir une probabilité appropriée est généralement la première étape).

Dikran Marsupial
la source
0

Voici mes pensées après.

Je pense que c'est parce que ML est largement lié à la classification, et la classification n'est pas nécessaire pour transformer y (y est catégorique). ML traite généralement de grandes variables indépendantes (par exemple des milliers en PNL) et la régression logistique ne nécessite pas de normalité; Je pense que c'est pourquoi ils n'utilisent pas la transformation de puissance Box-Cox en raison de la vitesse. (note: je ne suis pas familier avec la transformation de puissance.)

WeiChing Lin
la source