Supposons que j'ai une trame de données pandas df
:
Je veux calculer la moyenne par colonne d'un bloc de données.
C'est facile:
df.apply(average)
puis la plage par colonne max (col) - min (col). C'est encore facile:
df.apply(max) - df.apply(min)
Maintenant, pour chaque élément, je veux soustraire la moyenne de sa colonne et la diviser par la plage de sa colonne. Je ne sais pas comment faire ça
Toute aide / pointeur est très apprécié.
A
etB
font partie d'un facteur de regroupement plus large que vous souhaitez normaliser séparément deC
etD
.Si cela ne vous dérange pas d'importer la
sklearn
bibliothèque, je recommanderais la méthode décrite sur ce blog.la source
np_scaled = min_max_scaler.fit_transform(df.score.astype(float).values.reshape(-1, 1))
Vous pouvez utiliser
apply
pour cela, et c'est un peu plus soigné:En outre, cela fonctionne bien avec
groupby
, si vous sélectionnez les colonnes appropriées:la source
Légèrement modifié de: Python Pandas Dataframe: Normaliser les données entre 0,01 et 0,99? mais à partir de certains commentaires, il a pensé que c'était pertinent (désolé si considéré comme un republication cependant ...)
Je voulais une normalisation personnalisée dans ce percentile régulier de la donnée ou du score z n'était pas adéquate. Parfois, je savais quels étaient les max et min possibles de la population, et je voulais donc le définir autrement que mon échantillon, ou un point médian différent, ou autre! Cela peut souvent être utile pour redimensionner et normaliser les données pour les réseaux neuronaux où vous voudrez peut-être toutes les entrées entre 0 et 1, mais certaines de vos données devront peut-être être mises à l'échelle de manière plus personnalisée ... car les percentiles et stdevs supposent que votre échantillon couvre la population, mais parfois nous savons que ce n'est pas vrai. Cela m'a également été très utile lors de la visualisation de données dans des cartes thermiques. J'ai donc créé une fonction personnalisée (j'ai utilisé des étapes supplémentaires dans le code pour le rendre aussi lisible que possible):
Cela prendra dans une série de pandas, ou même juste une liste et la normalisera à vos points bas, centre et hauts spécifiés. il y a aussi un facteur de rétrécissement! pour vous permettre de réduire les données des points de terminaison 0 et 1 (j'ai dû le faire lors de la combinaison de cartes de couleurs dans matplotlib: Single pcolormesh avec plus d'une palette de couleurs en utilisant Matplotlib ) Vous pouvez donc probablement voir comment le code fonctionne, mais vous dites essentiellement ont des valeurs [-5,1,10] dans un échantillon, mais veulent normaliser sur la base d'une plage de -7 à 7 (donc tout ce qui est au-dessus de 7, notre "10" est traité comme un 7 effectivement) avec un point médian de 2, mais réduisez-le pour l'adapter à une palette de couleurs 256 RVB:
Cela peut aussi transformer vos données à l'envers ... cela peut sembler étrange, mais je l'ai trouvé utile pour la cartographie thermique. Supposons que vous souhaitiez une couleur plus foncée pour des valeurs plus proches de 0 que de hi / low. Vous pouvez utiliser une carte thermique basée sur des données normalisées où insideout = True:
Alors maintenant "2" qui est le plus proche du centre, défini comme "1" est la valeur la plus élevée.
Quoi qu'il en soit, je pensais que mon application était pertinente si vous cherchez à redimensionner les données d'une autre manière qui pourrait avoir des applications utiles pour vous.
la source
Voici comment procéder par colonne:
la source