Transformation des fonctionnalités sur les données d'entrée

22

Je lisais la solution à ce défi OTTO Kaggle et la première solution semble utiliser plusieurs transformations pour les données d'entrée X, par exemple Log (X + 1), sqrt (X + 3/8), etc. des directives générales sur le moment d'appliquer quelles transformations types à divers classificateurs?

Je comprends les concepts de normalisation moyenne-var et min-max. Cependant, pour les transformations ci-dessus, je suppose que Log et Sqrt sont utilisés pour compresser la plage dynamique des données. Et le décalage de l'axe des x est juste pour recentrer les données. Cependant, l'auteur choisit d'utiliser différentes méthodes de normalisation pour la même entrée X lors de l'alimentation dans différents classificateurs. Des idées?

terenceflow
la source
1
Aucune idée de ce qui pourrait suggérer ce type de formules, mais vous voudrez peut-être examiner les transformations box-cox, qui suggèrent des exposants pour les variables.
anymous.asker

Réponses:

19

Nous aimons la forme normale

Dans la plupart des cas, nous essayons de les faire agir comme d'habitude. Ce n'est pas le point de vue des classificateurs mais sa vue d'extraction des fonctionnalités!

Quelle transformation ?

Le critère principal dans le choix d'une transformation est: qu'est-ce qui fonctionne avec les données? Comme l'indiquent les exemples ci-dessus, il est important de considérer également deux questions.

Qu'est-ce qui a du sens sur le plan physique (biologique, économique, peu importe), par exemple en termes de limitation du comportement, car les valeurs deviennent très petites ou très grandes? Cette question conduit souvent à l'utilisation de logarithmes.

Pouvons-nous garder les dimensions et les unités simples et pratiques? Si possible, nous préférons des échelles de mesure faciles à penser.

La racine cubique d'un volume et la racine carrée d'une zone ont toutes deux des dimensions de longueur, loin de compliquer les choses, de telles transformations peuvent les simplifier. Les réciproques ont généralement des unités simples, comme mentionné précédemment. Souvent, cependant, des unités quelque peu compliquées sont un sacrifice qui doit être fait.

Quand utiliser quoi ?

Les transformations les plus utiles dans l'analyse de données d'introduction sont l'inverse, le logarithme, la racine cubique, la racine carrée et le carré. Dans ce qui suit, même si cela n'est pas souligné, il est supposé que les transformations ne sont utilisées que sur des plages sur lesquelles elles donnent comme résultats des nombres réels (finis).

  • Réciproque : la réciproque, x à 1 / x, avec son frère la réciproque négative, x à -1 / x, est une transformation très forte avec un effet drastique sur la forme de la distribution. Il ne peut pas être appliqué à des valeurs nulles. Bien qu'il puisse être appliqué à des valeurs négatives, il n'est utile que si toutes les valeurs sont positives. L'inverse d'un rapport peut souvent être interprété aussi facilement que le rapport lui-même: Exemple:
    • la densité de population (personnes par unité de surface) devient surface par personne
    • personnes par médecin devient médecins par personne
    • les taux d'érosion deviennent le temps d'éroder une profondeur unitaire

(En pratique, nous pourrions vouloir multiplier ou diviser les résultats de la prise de l'inverse par une constante, comme 1000 ou 10000, pour obtenir des nombres faciles à gérer, mais cela en soi n'a aucun effet sur l'asymétrie ou la linéarité.)

L'inverse inverse l'ordre entre les valeurs du même signe: le plus grand devient le plus petit, etc. L'inverse inverse préserve l'ordre entre les valeurs du même signe.


  • Logarithme : Le logarithme, x log 10 x, ou x log ex ou ln x, ou x log 2 x, est une transformation forte avec un effet majeur sur la forme de la distribution. Il est couramment utilisé pour réduire l'asymétrie droite et convient souvent aux variables mesurées. Il ne peut pas être appliqué à des valeurs nulles ou négatives. Une unité sur une échelle logarithmique signifie une multiplication par la base des logarithmes utilisés. Croissance ou déclin exponentiel.

    • y=uneeXp(bX)

est rendu linéaire par - sorte que la variable de réponse y doit être enregistrée. (Ici exp () signifie élever à la puissance e, environ 2,71828, qui est la base des logarithmes naturels). Un côté sur cette équation exponentielle de croissance ou de déclin: , et telle sorte que a soit le montant ou le nombre lorsque x = 0. Si a et b> 0, alors y croît plus rapidement et un taux plus rapide (par exemple, intérêt composé ou croissance démographique incontrôlée), alors que si a> 0 et b <0, y diminue à un rythme de plus en plus lent (par exemple, désintégration radioactive).lny=lnune+bXX=0y=uneeXp(0)=une


  • Fonctions de puissance :
  • y=uneXb sont rendus linéaires par sorte que les variables y et x doivent être enregistrées. Un côté sur ces fonctions de puissance : mettez , et pour ,logy=logune+blogX
    X=0b>0

  • y=uneXb=0 donc la fonction de puissance pour b positif passe par l'origine, ce qui a souvent un sens physique, biologique ou économique. Pensez: zéro pour x implique-t-il zéro pour y? Ce
    type de fonction de puissance est une forme qui convient
    assez bien à de nombreux ensembles de données .

    • Considérons les rapports y = p / q où p et q sont tous deux positifs dans la pratique.
  • Voici des exemples:

    • Hommes / femmes
    • Personnes à charge / travailleurs
    • Longueur en aval / Longueur en aval
  • Alors y est quelque part entre 0 et l'infini, ou dans le dernier cas, entre 1 et l'infini. Si p = q, alors y = 1. De telles définitions conduisent souvent à des données asymétriques, car il existe une limite inférieure claire et aucune limite supérieure claire. Le logarithme, cependant, à savoir

  • log y = log p / q = log p - log q est quelque part entre -infini et infini et p = q signifie que log y = 0. Par conséquent, le logarithme d'un tel rapport est susceptible d'être distribué de façon plus symétrique.


  • Racine du cube: la racine du cube, x 1/3 . Il s'agit d'une transformation assez forte avec un effet substantiel sur la forme de distribution: elle est plus faible que le logarithme. Il est également utilisé pour réduire l'asymétrie droite et a l'avantage de pouvoir être appliqué à des valeurs nulles et négatives. Notez que la racine cubique d'un volume a les unités d'une longueur. Il est couramment appliqué aux données pluviométriques.

    • L'applicabilité à des valeurs négatives nécessite une note spéciale. Considérons
      (2) (2) (2) = 8 et (-2) (- 2) (- 2) = -8. Ces exemples montrent que la
      racine cubique d'un nombre négatif a un signe négatif et la même
      valeur absolue que la racine cubique du nombre positif équivalent. Une propriété similaire est possédée par toute autre racine dont la puissance est l'
      inverse d'un entier positif impair (puissances 1/3, 1/5, 1/7, etc.)

    • Cette propriété est un peu délicate. Par exemple, changez la puissance juste un smidgen de 1/3, et nous ne pouvons plus définir le résultat comme un produit de précisément trois termes. Cependant, la propriété est là pour être exploitée si elle est utile.


  • Racine carrée : La racine carrée, x à = sqrt (x), est une transformation ayant un effet modéré sur la forme de distribution: elle est plus faible que le logarithme et la racine cubique. Il est également utilisé pour réduire l'asymétrie droite et présente également l'avantage de pouvoir être appliqué à des valeurs nulles. Notez que la racine carrée d'une zone a les unités d'une longueur. Il est couramment appliqué aux données comptées, surtout si les valeurs sont généralement plutôt petites.X(1/2)

  • Carré : Le carré, x à , a un effet modéré sur la forme de distribution et il pourrait être utilisé pour réduire l'asymétrie gauche. En pratique, la raison principale de son utilisation est d'ajuster une réponse par une fonction quadratique . Les quadratiques ont un point tournant , soit un maximum soit un minimum, bien que le point tournant dans une fonction ajustée aux données puisse être bien au-delà des limites des observations. La distance d'un corps à une origine est quadratique si ce corps se déplace sous une accélération constante, ce qui donne une justification physique très claire pour l'utilisation d'un quadratique. Sinon, les quadratiques sont généralement utilisés uniquement parce qu'ils peuvent imiter unX2

    y=une+bX+cX2




    relation dans la région de données. En dehors de cette région, ils peuvent
    se comporter très mal, car ils prennent des valeurs arbitrairement grandes pour des valeurs extrêmes de x, et à moins que l'ordonnée à l'origine ne soit contrainte à 0, ils peuvent se comporter de manière irréaliste près de l'origine.
    • La mise au carré n'a généralement de sens que si la variable concernée est nulle ou positive, étant donné que et sont identiques.(-X)2X2

hadi gharibi
la source
Merci pour le post. très utile. pouvez-vous peut-être le compléter avec des exemples et des figures décrivant comment il transforme les données originales en données séparables?
Mvkt
1
@svk: Je viens de formater d'une manière compréhensible, je pense que c'est hadi qui a écrit la réponse. Si ma supposition est juste, il a peut-être copié un livre. Voyons voir s'il répond / suggère quelque chose. Sinon, j'écrirais une réponse
Toros91
2
comme @ Toros91 l'a dit, c'est la combinaison de différentes sources, je recommande fortement de voir Comment gagner un concours de science des données: apprendre des meilleurs Kagglers et aussi des docs stata
hadi gharibi
alrite. bien que l'un d'entre vous puisse publier un exemple de code en python ou matlab sur la façon de transformer les axes x en racine racine carré ou cube. matlab a le tracé de journal de bord pour l'échelle de journal. mais pour d'autres échelles, il sera utile d'avoir une intrigue avec ces axes transformés
Mvkt
1

Ces spécificités pourraient être de la pure heuristique. Pour les images, c'est assez standard: changez RVB en BGR et soustrayez la moyenne de chaque pixel. Ceci est utilisé dans tous les concours / jeux de données comme Imagenet, Pascal VOC, MS COCO. La raison en est que le réseau est présenté avec un ensemble de données standardisé, car toutes les images peuvent être très différentes.

Alex
la source
0

Même chose ici - aucune idée, je n'ai jamais vu ça auparavant. Je suppose qu'ils ont essayé différentes transformations et choisi celle qui fonctionnait le mieux. Étant donné que dans le rapport, ils disent que d'autres transformations conviendraient également.

Tobi
la source