Des livres sur la «science» en science des données? [fermé]

26

Quels sont les livres sur la science et les mathématiques derrière la science des données? Il semble que tant de livres sur la "science des données" soient des didacticiels de programmation et ne touchent pas à des choses comme les processus de génération de données et l'inférence statistique. Je peux déjà coder, ce sur quoi je suis faible, ce sont les mathématiques / statistiques / théorie derrière ce que je fais.

Si je suis prêt à brûler 1000 $ sur des livres (donc environ 10 livres ... soupir), que pourrais-je acheter?

Exemples: analyse des données catégorielles d'Agresti , modèles mixtes linéaires pour les données longitudinales , etc ... etc ...

Anton
la source
Poser des questions sur les «bons» livres attirera des réponses basées sur l'opinion et c'est donc hors sujet. Signalé.
Spacedman
3
Je l'ai changé donc je cherche juste des livres. Rien d'opinion.
Anton
C'est orthographié Statistiques :) Stick avec quelque chose de pragmatique qui se concentre sur la prédiction plutôt que l'inférence. Les deux éléments de l'apprentissage statistique et une introduction à l'apprentissage statistique figurent sur la liste de la plupart des gens.
Dirk Eddelbuettel
Je ne peux pas encore ajouter de commentaire, mais FYI ESL est disponible gratuitement en ligne sous forme de pdf
idclark
1
Je pense que cette question devrait être marquée comme wiki communautaire.
Shagun Sodhani

Réponses:

21

Introduction:

Creuser plus profond:

Quelques exemples d'intérêt particulier:

Une référence plus large fonctionne sur l'apprentissage automatique (pas vraiment ce que vous avez demandé, mais pour être complet):

Papier bonus:

Def_Os
la source
2
+1 pour le papier bonus. Grande lecture
Santiago Cepas
13

Si je pouvais seulement vous en recommander un, ce serait: The Elements of Statistical Learning and Prediction par Hastie, Tibshirani et Friedman. Il fournit les mathématiques / statistiques derrière de nombreuses techniques couramment utilisées en science des données.

Pour les techniques bayésiennes, l'analyse des données bayésiennes par Gelman, Carlin, Stern, Dunson, Vehtari et Rubin est excellente.

Inférence statistique de Casella et Berger est un bon manuel de deuxième cycle sur les fondements théoriques de la statistique. Ce livre nécessite un niveau assez élevé de confort avec les mathématiques (la théorie des probabilités est basée sur la théorie des mesures, ce qui n'est pas trivial à comprendre).

En ce qui concerne les processus de génération de données, je n'ai pas de recommandation pour un livre. Ce que je peux dire, c'est qu'une bonne compréhension des hypothèses des techniques utilisées et la garantie que les données ont été collectées ou générées d'une manière qui ne viole pas ces hypothèses va très loin vers une bonne analyse.

Christopher Louden
la source
7

D'autres réponses recommandaient un bon ensemble de livres sur les mathématiques derrière la science des données. Mais comme vous l'avez mentionné, ce ne sont pas seulement les mathématiques et les activités telles que la collecte de données et l'inférence à partir de données qui ont leurs propres règles et théories, même si elles ne sont pas (aussi) rigoureuses que les connaissances mathématiques.

Pour ces parties, je suggère le livre Beautiful Data: Les histoires derrière les solutions de données élégantes qui contient vingt chapitres d'étude de cas, écrits par des personnes vraiment engagées dans des problèmes réels d'analyse de données. Il ne contient aucune mathématique, mais explore des domaines tels que la collecte de données, la recherche de moyens pratiques d'utiliser les données dans les analyses, la mise à l'échelle et la sélection des meilleures solutions.

Un autre livre vraiment intéressant est Thinking with Data: How to Turn Information into Insights , qui n'est pas non plus technique (= tutoriel de programmation), mais couvre des sujets importants sur la façon d'utiliser vraiment le pouvoir de la science des données dans la prise de décision et les problèmes du monde réel.

Amir Ali Akbari
la source
7

J'aime les suggestions d'Amir Ali Akbari, et j'en ajouterai quelques-unes, en me concentrant sur des sujets et des compétences qui ne sont pas suffisamment couverts dans la plupart des livres d'apprentissage automatique et d'analyse de données qui se concentrent sur les mathématiques et / ou la programmation.

Nettoyage des données:

Analyse des données bayésiennes (alternative au test de signification de l'hypothèse nulle de style Fisher):

Inférence face à l'incertitude, à l'incomplétude, aux contradictions, à l'ambiguïté, à l'imprécision, à l'ignorance, etc.:

Expériences:

Simulation:

Élicitation d'experts, estimation probabiliste:

MrMeritology
la source