Apache Spark: impact du repartitionnement, du tri et de la mise en cache sur une jointure

J'explore le comportement de Spark en joignant une table à elle-même. J'utilise Databricks. Mon scénario fictif est: Lire une table externe en tant que trame de données A (les fichiers sous-jacents sont au format delta) Définissez la trame de données B comme trame de données A avec seulement...