Je travaille sur un défi Kaggle où certaines variables sont représentées par des lignes au lieu de colonnes (Telstra Network Disruption). Je suis actuellement à la recherche de l'équivalent de recueillir (), séparé () et réparti (), qui peut être trouvé dans l'outil R tidyr.
18
Réponses:
Je commencerais par la fonction melt () chez les pandas. J'ai écrit un article à ce sujet:
https://www.ibm.com/developerworks/community/blogs/jfp/entry/Tidy_Data_In_Python?lang=en
la source
Les R
gather()
vont essentiellement de large à long. Donc,pandas.wide_to_long()
,gather
fonction élégante en Python.la source
J'ai essayé d'imiter syntaxiquement le paquet tidyr en python dans un paquet appelé tidypython. Je l'ai rendu compatible avec le package dplython, qui inclut l'utilisation de l'opérateur >> pour chaîner les commandes.
Il n'a pas été entièrement testé, mais devrait fonctionner plutôt bien:
https://github.com/durrantmm/tidypython
Dites-moi si cela marche pour vous.
la source