Considérons une trame de données pyspark composée d'éléments «nuls» et d'éléments numériques. En général, les éléments numériques ont des valeurs différentes. Comment est-il possible de remplacer toutes les valeurs numériques de la trame de données par une valeur numérique constante (par exemple par la valeur 1)? Merci d'avance!
Exemple pour la trame de données pyspark:
Le résultat devrait être:
python
apache-spark
seulement nous
la source
la source
Réponses:
L'utilisation
lit
convertirait toutes les valeurs de la colonne en la valeur donnée.Pour le faire uniquement pour les valeurs non nulles de la trame de données, vous devez filtrer les valeurs non nulles de chaque colonne et remplacer votre valeur.
when
peut vous aider à y parvenir.Il en résulterait:
En outre, si vous souhaitez également remplacer ces valeurs nulles par une autre valeur, vous pouvez les utiliser
otherwise
en combinaison avecwhen
. Disons que vous voulez imputer0
là-bas:Il en résulterait:
la source
Selon votre problème, je pense qu'il pourrait être plus facile à utiliser éclairé . Essaye ça-
J'espère que cela aide!
la source
Ce serait plus facile si vous avez plusieurs colonnes:
la source