Par où commencer avec les statistiques pour un développeur expérimenté

47

Au cours du premier semestre de 2015, j'ai suivi le cours coursera de Machine Learning (par Andrew Ng, cours GREAT). Et appris les bases de l'apprentissage automatique (régression linéaire, régression logistique, SVM, réseaux neuronaux ...)

De plus, je suis développeur depuis 10 ans, donc apprendre un nouveau langage de programmation ne serait pas un problème.

Dernièrement, j'ai commencé à apprendre R afin de mettre en œuvre des algorithmes d'apprentissage automatique.

Cependant, j'ai réalisé que si je voulais continuer à apprendre, il me faudrait une connaissance plus formelle de la statistique. Actuellement, j'en ai une connaissance non formelle, mais si limitée que, par exemple, je ne pouvais pas déterminer correctement lequel de plusieurs modèles linéaires. serait mieux (normalement j'ai tendance à utiliser R-carré pour cela, mais apparemment ce n'est pas une très bonne idée).

Il me semble donc assez évident que je dois apprendre les bases de la statistique (j’ai étudié cela à l’université mais que j’en ai oublié la majeure partie). Où devrais-je apprendre? Notez que je n’ai pas vraiment besoin d’un cours complet, Cela me permet d’en savoir assez au bout d’un mois pour que je puisse obtenir plus d’empressement et en apprendre davantage :).

Jusqu'à présent, j'ai lu sur " Statistiques sans larmes ", une autre suggestion?

Juan Antonio Gomez Moriano
la source
2
Pour Statistics: Casella, G. et RL Berger (2002): Statistical Inference, Duxbury. Pour Econometrics: Hayashi, F. (2000): Econometrics, Princeton University Press. Pour un autre point de vue: stats.stackexchange.com/questions/91863/…
Guilherme Salomé
J'ai ajouté le referencestag. Vous voudrez peut-être parcourir la première page de résultats sur ce sujet.
Glen_b
3
Je ne vois pas que cela devrait être fermé. Je vois cependant un argument en faveur de la création de la CW.
gung - Rétablir Monica
2
De mon point de vue, la connaissance sera biaisée si vous commencez à apprendre les statistiques sans connaître les théories de probabilité.
Metariat
2
Je voudrais ajouter un mot d'avertissement. Je suis sûr que vous comprenez déjà cela dans une certaine mesure, mais je veux juste le dire. Je suis étudiant en MD / PhD. Avec mon diplôme de docteur en médecine, je prévois pratiquer la médecine interne. Pour mon doctorat, j'étudie la biostatistique. Je veux que vous sachiez que vous ne pouvez pas plus maîtriser les statistiques en un mois que vous ne pouvez maîtriser la médecine en un mois. Je ne cherche nullement à vous dissuader d’apprendre des statistiques. Bien au contraire, j'espère que vous comprenez magnifiquement. Mais comprenez simplement qu’il n’est pas moins impliqué que de vouloir être un développeur, par exemple.
Vincent Laufer

Réponses:

26

Je vous suggérerais une carte routière de base sur la façon de s'y prendre:

Prime:

Metacademy est un site merveilleux pour de telles cartes routières , que je certifierais personnellement comme l'une des meilleures ressources de Data Science sur le Web.

Gitxiv est un autre site magnifique, qui relie les articles de recherche Arxiv sur Data Science aux implémentations / bibliothèques open source pertinentes.

Dawny33
la source
2
OP a déjà suivi le cours de Ng, c'est ce qui l'a poussé à poser la question en premier lieu.
Aksakal
4
@Aksakal je l'ai remarqué. Mais, inclus dans la carte routière. Cela ne ferait pas vraiment une différence, alors j'ai pensé que l'inclusion de cette option aiderait les autres lecteurs de ce post.
Dawny33
12

Avez-vous déjà vérifié Think Stats ou Think Bayes? Ce sont des livres de statistiques (gratuits) destinés aux programmeurs et contenant beaucoup de code Python.

En outre, si vous êtes intéressé à apprendre R puis CRAN a beaucoup de (gratuit) pdfs que vous pourriez vouloir vérifier, comme Introduction aux probabilités et statistiques à l' aide R . Il existe également un cours Coursera qui utilise R et que beaucoup de gens adorent (ils utilisent ce manuel , que vous voudrez peut-être consulter également, et qui ont des laboratoires sur DataCamp , je crois).

En outre, si vous souhaitez approfondir quelques sujets relatifs aux statistiques, vous pouvez toujours regarder quelques vidéos de Khan Academy .

Steve S
la source
J'aime Think Stats et Think Bayes, mais ils évitent délibérément une grande partie de la théorie statistique formelle en faveur de la réalisation de tâches avec du code. Idéal pour saisir intuitivement le sujet, mais moins si votre objectif est de comprendre la théorie sous-jacente.
Marius
@ Marius: Je sais ce que tu veux dire. Je pensais cependant que, parce qu’il était déjà programmeur et aussi parce qu’il semblait vouloir "quelque chose de petit, simple et rapide", il pourrait s’agir davantage de ce qu’il recherche.
Steve S
8

Si jamais vous étiez capable, même dans un passé lointain, de résoudre des problèmes de cette liste , vous devriez alors essayer d'étudier les statistiques appliquées "correctement". Je vais vous donner un algorithme simple en deux étapes.

Premièrement, familiarisez-vous avec la théorie des probabilités. Il y a beaucoup de bons livres. Mon préféré est le livre classique de Feller. Cela s’appelle "Introduction" mais ne vous fiez pas à son titre, c’est aussi profond que vous le souhaitez, tout en étant très bien écrit et simple si vous souhaitez simplement survoler la surface.

La deuxième étape est la statistique. Encore une fois, il y a une tonne de bons livres. Je vais vous en donner un que j'ai utilisé, un texte d'introduction décent de Gujarati "Basic Econometrics", quatrième édition. L'économétrie est une statistique appliquée à l'économie. Pour information, Hal Varian, un économiste de Berkeley, a déclaré que tout le monde pensait que l'informaticien serait le plus sexy des dix prochaines années. Beaucoup de choses d'apprentissage automatique sont basées sur des statistiques de base, des régressions, etc. Tout ce qui est couvert dans ce livre, et vous n'avez pas besoin de tout lire, c'est écrit de manière à ce que vous puissiez choisir les chapitres dans votre propre ordre.

Vous serez surpris de voir le nombre de lacunes laissées après que la classe de Ng se soit vite complétée pendant la lecture de ces textes.

En tant que praticien, vous n'avez pas besoin de trop de théorie après ces deux étapes. Vous pouvez continuer à apprendre les techniques de ML en lisant spécifiquement les livres de ce domaine. Il est important de ne pas entrer trop au début dans les probabilités et les statistiques. Commencez par lire votre code pour ML et comblez les lacunes au fur et à mesure.

Aksakal
la source
4

Tout le monde recommande Casella & Berger, qui est presque universellement utilisé dans les programmes de statistiques pour diplômés. Ce n'est pas un mauvais ouvrage de référence, mais je ne suis pas sûr que je ferais plus que de parcourir les 4-5 premiers chapitres. Je ne pense pas que vous ayez besoin de la théorie sur la façon de construire un test de type Neyman-Pearson avant de plonger dans les "statistiques", c'est-à-dire l'analyse de données.

Au lieu de cela, je me concentrerais sur des méthodes d'apprentissage. Mon programme d'études supérieures utilisait Méthodes statistiques linéaires appliquées pour les tests fréquentistes. Il s'agit d'une référence complète et décente, mais ce n'est peut-être pas le livre le plus accessible qui soit, du point de vue de l'auto-apprentissage. Un ou deux cours du MIT ou de coursera pourraient être un meilleur moyen de commencer, car vous obtiendrez un aperçu plus général avec plus d'exemples que vous ne le feriez en lisant un livre.

Pour Bayes, le livre que j'ai vu le plus souvent utilisé est Doing Bayesian Data Analysis , qui vient avec des images de chiot (clairement, cela le rend supérieur aux autres manuels d'introduction bayésiens). Je n'ai jamais utilisé le livre moi-même, mais je l'ai feuilleté et il semble assez décent - bien meilleur que le livre de Gelman, que j'ai trouvé un peu incompréhensible APRÈS deux cours de statistiques bayésiennes - les explications sont terribles.

srvanderplas
la source
1
Les 5 premiers chapitres de C & B ne sont en réalité pas des statistiques, mais plutôt du contexte… La notion de statistique est abordée au début du chapitre 6! Plus précisément, les méthodes d'apprentissage ne seront probablement pas utiles à cette personne. cela l'aiderait à appliquer des statistiques et non à la comprendre, ce dont il a besoin. s'il a une formation avancée en mathématiques, il peut probablement l'ignorer dans une certaine mesure, mais sa réponse suggère qu'il est actuellement incapable de comprendre les fondements de ML ... ce qui suggère fortement que ses calculs sont limitants (du moins pour moi). C & B n'est peut-être pas un mauvais endroit pour commencer.
Vincent Laufer
1
Il ne s’agit peut-être pas de statistiques, mais le contexte des distributions de probabilités est essentiel pour toute modélisation; vous devez savoir ce qu’est une distribution de bernoulli et quelles sont ses propriétés avant de pouvoir comprendre la régression logistique, par exemple. Je fais toujours référence à C & B de temps en temps, mais je ne pense pas avoir jamais utilisé autre chose que le chapitre 6 en dehors de la classe où j'ai utilisé ce livre.
srvanderplas
1
Je suis tout à fait d'accord avec ce que vous avez dit, mais cela concerne la digression plutôt que le point principal - qui est de ma faute si j'ai ajouté la digression en premier lieu. Quoi qu'il en soit, l'essentiel est que, comme l'ont suggéré plusieurs autres personnes, l'OP doit en réalité mieux comprendre les mathématiques et les statistiques théoriques. il n'y a aucune indication dans le message indiquant qu'il n'a besoin d'aide pour appliquer davantage de tests statistiques. il peut faire ça. il souhaite les comprendre plus profondément. pour cela, C & B vaut mieux que d’apprendre davantage sur la préparation orientée application.
Vincent Laufer
3

Cela ne veut pas être une réponse complète, c'est juste une suggestion. Si vous voulez en savoir plus sur les statistiques (la fondation), vous pouvez lire:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

C'est un livre assez standard pour les statisticiens et il a beaucoup de résultats intéressants. Vous n'avez pas besoin de passer en revue toutes les preuves des théorèmes, mais vous voudrez peut-être faire quelques exercices afin de vous sentir plus en sécurité avec les résultats.

Si vous voulez en savoir plus sur l'économétrie (modèles de données), vous pouvez consulter:

Hayashi, F. (2000): Econometrics, Princeton University Press

Quelqu'un d'autre a demandé quelque chose de similaire à ce que vous avez demandé et a obtenu une bonne réponse: que faire après «Casella & Berger» .

De plus, si vous avez vraiment l'intention de lire ces livres, ce programme de cours d'économétrie peut vous donner une bonne idée de ce qu'il faut lire (CB & Hayashi) et du moment opportun pour le lire.

Guilherme Salomé
la source
Merci pour la suggestion, mais le premier livre que vous mentionnez fait environ 660 pages ... J'ai lu des livres plus gros, mais y a-t-il quelque chose de petit, simple et rapide pour que je puisse en obtenir une compréhension de base?
Juan Antonio Gomez Moriano
3
Casella et Berger vous donneront un aperçu de la théorie statistique, mais vous en apprendrez très peu sur l'analyse de données.
Glen_b
1
@JuanAntonioGomezMoriano à quel point étiez-vous petit? J'ai toujours été fan de Comment mentir avec les statistiques comme point de départ.
icc97
(-1) Celles-ci semblent être un choix parfait pour quelqu'un qui préfère une approche mathématique ou théorique de la statistique, ce qui est à l'opposé de ce que demandait le PO.
Gala
1
Il a dit qu'il avait besoin de connaissances plus "officielles" et de connaissances de base en statistiques.
Guilherme Salomé
2

Je suggérerais un nouveau livre paru depuis la question initiale: Repenser la statistique: un cours bayésien avec des exemples en R et Stan par Richard McElreath, CRC Press.

C'est très bien écrit et utilise une approche bayésienne. C'est très interactif, et vous voudrez résoudre les problèmes ou vous risquez de vous retrouver à mi-chemin et de commencer à vous perdre.

Cela commence très basique et aboutit à des modèles à plusieurs niveaux, et s'adresse à des scientifiques assez avancés possédant des connaissances statistiques mais ne se sentant pas à l'aise avec les statistiques telles qu'elles leur ont été enseignées. Donc, je ne peux pas vraiment dire que c’est un livre pour débutant, mais cela commence très simplement et il a un arc et un style merveilleux.

La partie "Stan" du titre est un outil d'échantillonnage bayésien polyvalent. Il s’agit essentiellement d’un langage de programmation compilé automatiquement en C ++, puis compilé en un exécutable. (L'inférence bayésienne est générale, contrairement aux alternatives, vous pouvez donc avoir un outil généralisé.)

Wayne
la source
1

Je pensais que je mettrais cette réponse pour la postérité, même s'il est probablement trop tard pour vous être utile. All Of Statistics de Larry Wasserman a été conçu comme un cours destiné aux personnes ayant une formation en apprentissage automatique, dans d'autres disciplines de la sc-science de la composition ou en mathématiques et n'ayant aucune formation en statistique - c'est-à-dire des personnes se trouvant exactement dans votre situation actuelle. Ayant un manque similaire de statistiques officielles, quelques amis et moi avons formé un groupe d’auto-apprentissage pour le passer à l’école des cycles supérieurs. Je pense que j'ai vraiment profité de cette expérience.

Les sujets supplémentaires que Wasserman aborde au-delà du matériel de cours typique sur la "probabilité et l'inférence statistique", tels que les modèles graphiques et l'initialisation, sont particulièrement pertinents pour une personne travaillant dans l'apprentissage automatique. Je devrais dire que le livre peut être assez sommaire comparé à quelque chose comme Casella & Berger, donc si vous voulez plus de détails ou de motivation pour certaines parties (en particulier les preuves), vous devrez peut-être le compléter avec d'autres documents à lire. Cela dit, j’ai également trouvé que le livre était rédigé clairement et comportait un bon nombre de problèmes d’entraînement, ce qui en fait une excellente référence rapide.

Un mois, ce n'est pas beaucoup de temps. Cependant, si vous fixez un rythme très agressif, je pense que vous pouvez certainement tirer beaucoup de ce texte en un semestre: nous avons constitué notre groupe d’auto-apprentissage pendant l’été, par exemple. Cela est particulièrement vrai si vous êtes principalement intéressé par la modélisation linéaire, que Ch. Ch. 13-14.

Patrick B.
la source