Pourquoi convertissons-nous des données asymétriques en une distribution normale

15

Je passais par une solution de la concurrence des prix du logement sur Kaggle ( noyau analogique humain sur les prix des logements : techniques de régression avancées ) et suis tombé sur cette partie:

# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew

skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index

train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])

Je ne suis pas sûr de la nécessité de convertir une distribution asymétrique en une distribution normale. S'il vous plaît, quelqu'un peut-il expliquer en détail:

  1. Pourquoi cela se fait-il ici? ou En quoi est-ce utile?
  2. En quoi est-ce différent de la mise à l'échelle des fonctionnalités?
  3. Est-ce une étape nécessaire pour l'ingénierie des fonctionnalités? Que se passera-t-il si je saute cette étape?
Abhijay Ghildyal
la source
2
Les résidus sont donc gaussiens (et peuvent être annulés par moyennage), la variance est stable, et pour préconditionner l'optimiseur pour accélérer la convergence. en.wikipedia.org/wiki/Power_transform
Emre

Réponses:

12

Vous voudrez peut-être interpréter vos coefficients. Autrement dit, pour pouvoir dire des choses comme "si j'augmente ma variable de 1, alors, en moyenne et toutes choses étant égales par ailleurs, Y devrait augmenter de β 1 ".X1Ouiβ1

Pour que vos coefficients soient interprétables, la régression linéaire suppose un tas de choses.

L'une de ces choses n'est pas la multicolinéarité. Autrement dit, vos variables ne doivent pas être corrélées les unes par rapport aux autres.X

XXOui^OuiOui

Selon vos données, vous pourrez peut-être les rendre gaussiennes. Les transformations typiques prennent l'inverse, le logarithme ou les racines carrées. Il en existe bien sûr d'autres, tout dépend de vos données. Vous devez regarder vos données, puis faire un histogramme ou exécuter un test de normalité , tel que le test de Shapiro-Wilk.

Ce sont toutes des techniques pour construire un estimateur sans biais . Je ne pense pas que cela ait quoi que ce soit à voir avec la convergence comme d'autres l'ont dit (parfois, vous pouvez également vouloir normaliser vos données, mais c'est un sujet différent).

Le respect des hypothèses de régression linéaire est important si vous souhaitez soit interpréter les coefficients, soit utiliser des tests statistiques dans votre modèle. Sinon, oubliez ça.

y^-y2ynormalize

Ricardo Cruz
la source
3

Les données asymétriques ici sont normalisées en ajoutant un (un ajouté de sorte que les zéros soient transformés en un car le log de 0 n'est pas défini) et en prenant le log naturel. Les données peuvent être presque normalisées en utilisant des techniques de transformation comme la prise de racine carrée ou réciproque ou logarithme. Maintenant, pourquoi c'est nécessaire. En fait, de nombreux algorithmes dans les données supposent que la science des données est normale et calculent diverses statistiques en supposant cela. Donc, plus les données sont proches de la normale, plus elles correspondent à l'hypothèse.

ahmedrajput
la source
3
Les algorithmes ici sont le renforcement du gradient et la régression au lasso. Je pense que cette réponse serait plus utile si elle pouvait montrer en quoi elle est (ou n'est pas) pertinente pour ces deux algorithmes en particulier.
oW_
De mon point de vue, lorsqu'un modèle est formé, qu'il s'agisse de régression linéaire ou d'un arbre de décision (robuste à aberrant), les données de biais rendent un modèle difficile à trouver un modèle approprié dans les données est la raison pour laquelle nous devons faire des données de biais en normal ou gaussien.
Goldi Rana
1

Parce que la science des données n'est que des statistiques en fin de compte, et l'une des hypothèses clés des statistiques est le théorème de la limite centrale . Cette étape est donc en cours, car une étape ultérieure utilise des techniques de statistiques qui en dépendent.

Gaius
la source
1
Un théorème n'est pas une hypothèse. Le théorème central limite garantit en fait que la moyenne des variables aléatoires indépendantes est approximativement normalement distribuée même lorsque les variables aléatoires individuelles ne sont pas normalement distribuées.
Elias Strehle
1
Il s'agit d'une chaîne de raisonnement extrêmement imparfaite. C'est comme: "- J'ai vu des gens éplucher des pommes avant de les manger. Pourquoi? - Oh, c'est parce que les pommes sont des fruits et l'un des fruits clés est l'orange et que vous pelez toujours une orange!".
ayorgo