Questions marquées «apache-spark»

Apache Spark est un système informatique en cluster open source qui vise à rendre l'analyse des données rapide - à la fois rapide à exécuter et rapide à écrire, initialement développé dans l'AMPLab de l'UC Berkeley.

16
agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

10
Spark, divisant de manière optimale un seul RDD en deux

J'ai un grand ensemble de données que je dois diviser en groupes selon des paramètres spécifiques. Je veux que le travail soit traité aussi efficacement que possible. Je peux imaginer deux façons de le faire Option 1 - Créer une carte à partir du RDD et du filtre d'origine def customMapper(record):...

10
Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et j'ai du mal à décider...

10
Relation entre la convolution en mathématiques et CNN

J'ai lu l' explication de la convolution et je la comprends dans une certaine mesure. Quelqu'un peut-il m'aider à comprendre comment cette opération est liée à la convolution dans les réseaux neuronaux convolutionnels? Le filtre est-il une fonction gqui applique du