Gestion de grands ensembles de données dans R - tutoriels, meilleures pratiques, etc.

11

Je suis un R noob qui est tenu de faire divers types d'analyses sur de grands ensembles de données dans R. Donc, en regardant autour de ce site et ailleurs, il m'a semblé qu'il y avait beaucoup de problèmes ésotériques et moins connus impliqués ici - comme quel package utiliser quand, quelles transformations appliquer (ne pas) appliquer aux données, etc.

Je me demande simplement s'il existe un livre / tutoriel / guide qui démystifie tout cela et présente les informations de manière systématique? Je préfère faire cela au lieu de regarder autour de moi et de rassembler des informations provenant de différentes sources en ligne.

Merci d'avance.

TeachMeR
la source
2
Cela pourrait être un début: cran.r-project.org/web/views/HighPerformanceComputing.html
Roman Luštrik
1
Il peut être utile de partager quelques exemples du type d'analyse que vous souhaitez effectuer et de l'apparence de vos données. Des statistiques simples comme des moyennes ou des régressions complexes? 200 variables sur un millier de lignes, ou 4 variables et 20 millions de lignes?
PaulHurleyuk
1
Si vous avez des ensembles de données vraiment "volumineux", vous devriez peut-être jeter un œil aux bases de données relationnelles. Un point de départ pour cela peut être le manuel «R Data Import / Export» fourni avec RNB. Le manuel est également disponible via la section «Manuals» du site Web R.
1
Première question importante: que voulez - vous dire en gros et que voulez-vous faire?
Fomite

Réponses: