Je lisais la solution à ce défi OTTO Kaggle et la première solution semble utiliser plusieurs transformations pour les données d'entrée X, par exemple Log (X + 1), sqrt (X + 3/8), etc. des directives générales sur le moment d'appliquer quelles transformations types à divers classificateurs?
Je comprends les concepts de normalisation moyenne-var et min-max. Cependant, pour les transformations ci-dessus, je suppose que Log et Sqrt sont utilisés pour compresser la plage dynamique des données. Et le décalage de l'axe des x est juste pour recentrer les données. Cependant, l'auteur choisit d'utiliser différentes méthodes de normalisation pour la même entrée X lors de l'alimentation dans différents classificateurs. Des idées?
machine-learning
feature-extraction
feature-scaling
terenceflow
la source
la source
Réponses:
Nous aimons la forme normale
Dans la plupart des cas, nous essayons de les faire agir comme d'habitude. Ce n'est pas le point de vue des classificateurs mais sa vue d'extraction des fonctionnalités!
Quelle transformation ?
Le critère principal dans le choix d'une transformation est: qu'est-ce qui fonctionne avec les données? Comme l'indiquent les exemples ci-dessus, il est important de considérer également deux questions.
Qu'est-ce qui a du sens sur le plan physique (biologique, économique, peu importe), par exemple en termes de limitation du comportement, car les valeurs deviennent très petites ou très grandes? Cette question conduit souvent à l'utilisation de logarithmes.
Pouvons-nous garder les dimensions et les unités simples et pratiques? Si possible, nous préférons des échelles de mesure faciles à penser.
La racine cubique d'un volume et la racine carrée d'une zone ont toutes deux des dimensions de longueur, loin de compliquer les choses, de telles transformations peuvent les simplifier. Les réciproques ont généralement des unités simples, comme mentionné précédemment. Souvent, cependant, des unités quelque peu compliquées sont un sacrifice qui doit être fait.
Quand utiliser quoi ?
Les transformations les plus utiles dans l'analyse de données d'introduction sont l'inverse, le logarithme, la racine cubique, la racine carrée et le carré. Dans ce qui suit, même si cela n'est pas souligné, il est supposé que les transformations ne sont utilisées que sur des plages sur lesquelles elles donnent comme résultats des nombres réels (finis).
(En pratique, nous pourrions vouloir multiplier ou diviser les résultats de la prise de l'inverse par une constante, comme 1000 ou 10000, pour obtenir des nombres faciles à gérer, mais cela en soi n'a aucun effet sur l'asymétrie ou la linéarité.)
L'inverse inverse l'ordre entre les valeurs du même signe: le plus grand devient le plus petit, etc. L'inverse inverse préserve l'ordre entre les valeurs du même signe.
Logarithme : Le logarithme, x log 10 x, ou x log ex ou ln x, ou x log 2 x, est une transformation forte avec un effet majeur sur la forme de la distribution. Il est couramment utilisé pour réduire l'asymétrie droite et convient souvent aux variables mesurées. Il ne peut pas être appliqué à des valeurs nulles ou négatives. Une unité sur une échelle logarithmique signifie une multiplication par la base des logarithmes utilisés. Croissance ou déclin exponentiel.
est rendu linéaire par - sorte que la variable de réponse y doit être enregistrée. (Ici exp () signifie élever à la puissance e, environ 2,71828, qui est la base des logarithmes naturels). Un côté sur cette équation exponentielle de croissance ou de déclin: , et telle sorte que a soit le montant ou le nombre lorsque x = 0. Si a et b> 0, alors y croît plus rapidement et un taux plus rapide (par exemple, intérêt composé ou croissance démographique incontrôlée), alors que si a> 0 et b <0, y diminue à un rythme de plus en plus lent (par exemple, désintégration radioactive).l n y= l n a + b x x = 0 y= a e x p ( 0 ) = a
type de fonction de puissance est une forme qui convient
assez bien à de nombreux ensembles de données .
Voici des exemples:
Alors y est quelque part entre 0 et l'infini, ou dans le dernier cas, entre 1 et l'infini. Si p = q, alors y = 1. De telles définitions conduisent souvent à des données asymétriques, car il existe une limite inférieure claire et aucune limite supérieure claire. Le logarithme, cependant, à savoir
log y = log p / q = log p - log q est quelque part entre -infini et infini et p = q signifie que log y = 0. Par conséquent, le logarithme d'un tel rapport est susceptible d'être distribué de façon plus symétrique.
Racine du cube: la racine du cube, x 1/3 . Il s'agit d'une transformation assez forte avec un effet substantiel sur la forme de distribution: elle est plus faible que le logarithme. Il est également utilisé pour réduire l'asymétrie droite et a l'avantage de pouvoir être appliqué à des valeurs nulles et négatives. Notez que la racine cubique d'un volume a les unités d'une longueur. Il est couramment appliqué aux données pluviométriques.
L'applicabilité à des valeurs négatives nécessite une note spéciale. Considérons
(2) (2) (2) = 8 et (-2) (- 2) (- 2) = -8. Ces exemples montrent que la
racine cubique d'un nombre négatif a un signe négatif et la même
valeur absolue que la racine cubique du nombre positif équivalent. Une propriété similaire est possédée par toute autre racine dont la puissance est l'
inverse d'un entier positif impair (puissances 1/3, 1/5, 1/7, etc.)
Cette propriété est un peu délicate. Par exemple, changez la puissance juste un smidgen de 1/3, et nous ne pouvons plus définir le résultat comme un produit de précisément trois termes. Cependant, la propriété est là pour être exploitée si elle est utile.
relation dans la région de données. En dehors de cette région, ils peuvent
se comporter très mal, car ils prennent des valeurs arbitrairement grandes pour des valeurs extrêmes de x, et à moins que l'ordonnée à l'origine ne soit contrainte à 0, ils peuvent se comporter de manière irréaliste près de l'origine.
la source
Ces spécificités pourraient être de la pure heuristique. Pour les images, c'est assez standard: changez RVB en BGR et soustrayez la moyenne de chaque pixel. Ceci est utilisé dans tous les concours / jeux de données comme Imagenet, Pascal VOC, MS COCO. La raison en est que le réseau est présenté avec un ensemble de données standardisé, car toutes les images peuvent être très différentes.
la source
Même chose ici - aucune idée, je n'ai jamais vu ça auparavant. Je suppose qu'ils ont essayé différentes transformations et choisi celle qui fonctionnait le mieux. Étant donné que dans le rapport, ils disent que d'autres transformations conviendraient également.
la source