Demande de référence: statistiques classiques pour les scientifiques travaillant sur les données

10

Je suis un scientifique des données travaillant avec une solide expérience en régression, en autres algorithmes de type d'apprentissage automatique et en programmation (à la fois pour l'analyse de données et le développement de logiciels en général). La majeure partie de ma vie professionnelle s'est concentrée sur la création de modèles pour une précision prédictive (travaillant sous diverses contraintes commerciales) et sur la création de pipelines de données pour prendre en charge mon propre travail (et celui des autres).

Je n'ai aucune formation formelle en statistique, ma formation universitaire s'est concentrée sur les mathématiques pures. En tant que tels, ils ont manqué l'apprentissage de nombreux sujets classiques, en particulier les divers tests d'hypothèses populaires et les techniques inférentielles.

Y a-t-il des références pour ces sujets qui seraient appropriées pour quelqu'un avec mes antécédents et mon niveau d'expérience? Je peux gérer (et apprécier) la rigueur mathématique et aussi apprécier les perspectives algorithmiques. J'ai tendance à aimer les références qui offrent au lecteur des exercices guidés, avec à la fois (ou les deux) un accent mathématique et (ou) sur la programmation.

Matthew Drury
la source
2
En tant qu'autre Matt issu d'une formation en mathématiques, avec une connaissance des statistiques remplie de lacunes, je peux comprendre! Y a-t-il des domaines / applications particuliers qui vous intéressent? Une chose à surveiller avec les statistiques classiques est de savoir quelles hypothèses sont utilisées.
GeoMatt22
5
Il y a quelques bonnes références ici: mathoverflow.net/questions/31655/statistics-for-mathematicians
Alex R.

Réponses:

3

Larry Wasserman's All of Statistics est un bon livre pour faire un tour d'horizon des statistiques mathématiques. C'était le premier livre sur les statistiques mathématiques que j'ai utilisé moi-même. Il comprend des classiques comme les tests d'hypothèse et l'estimation du maximum de vraisemblance, mais il couvre également de nombreux sujets plus récents mais tout aussi importants comme le bootstrap. Wasserman a toujours un pied dans les statistiques et l'autre pied dans l'apprentissage automatique, ce que je pense que tous les analystes de données contemporains devraient faire; si vous ne connaissez qu'un domaine des deux, vous allez manquer beaucoup. En outre, le livre contient de nombreux bons exercices.

Si vous avez une formation en analyse réelle et que vous voulez les éléments bruts et non coupés, par lesquels je veux dire un traitement théorique des probabilités et des statistiques, essayez la théorie des statistiques de Mark J. Schervish . Schervish est la moitié de DeGroot et Schervish, dont le livre moins technique Probability and Statistics est peut-être le livre le plus populaire sur les statistiques mathématiques aujourd'hui. Theory of Statistics est un livre utile pour un sujet généralement réservé aux étudiants diplômés qui sont censés faire tout le travail eux-mêmes. Pour être tout à fait honnête, j'ai trouvé ce livre très difficile (bien que pas aussi difficile que les statistiques mathématiques de Jun Shao) et a fini par ressentir l'immense effort nécessaire pour maîtriser ce n'était pas une bonne utilisation de mon temps en tant qu'analyste de données appliquées. Mais j'ai encore beaucoup appris et je suis reparti avec une bonne compréhension de ce qu'est la théorie de la mesure et comment elle peut être utilisée pour nettoyer les difficultés théoriques velues qui surviennent dans l'approche traditionnelle plus naïve de la théorie des probabilités. J'en suis aussi venu à mieux apprécier les similitudes et les différences d'échangeabilité et d'indépendance.

Kodiologue
la source
2

En dehors des très bonnes suggestions de Kodiologist (+1), je recommanderais également d'examiner le sujet des études observationnelles . Je pense que c'est un domaine très peu apprécié entre les data-scientistes malgré le fait que dans de nombreux cas les données analysées sont de nature observationnelle. Je pense que c'est parce que la majeure partie de la bibliographie (en particulier en biostatistique) suppose qu'au moins une conception quasi expérimentale est déjà en place. Les livres de Paul Rosenbaum, Observational Studies et Design of Observational Studies, figurent parmi les références les plus utilisées.

usεr11852
la source