apache-spark
rdd
Aravind Yarram
la source
la source
En général, cela signifie que les données ont été extraites du cache et qu'il n'était pas nécessaire de réexécuter l'étape donnée. Il est cohérent avec votre DAG qui montre que la prochaine étape nécessite shuffling ( reduceByKey
). Chaque fois qu'un mélange est impliqué, Spark met automatiquement en cache les données générées :
Shuffle génère également un grand nombre de fichiers intermédiaires sur le disque. Depuis Spark 1.3, ces fichiers sont conservés jusqu'à ce que les RDD correspondants ne soient plus utilisés et soient récupérés. Ceci est fait pour que les fichiers de lecture aléatoire n'aient pas besoin d'être recréés si le lignage est recalculé.