Au cours du premier semestre de 2015, j'ai suivi le cours coursera de Machine Learning (par Andrew Ng, cours GREAT). Et appris les bases de l'apprentissage automatique (régression linéaire, régression logistique, SVM, réseaux neuronaux ...)
De plus, je suis développeur depuis 10 ans, donc apprendre un nouveau langage de programmation ne serait pas un problème.
Dernièrement, j'ai commencé à apprendre R afin de mettre en œuvre des algorithmes d'apprentissage automatique.
Cependant, j'ai réalisé que si je voulais continuer à apprendre, il me faudrait une connaissance plus formelle de la statistique. Actuellement, j'en ai une connaissance non formelle, mais si limitée que, par exemple, je ne pouvais pas déterminer correctement lequel de plusieurs modèles linéaires. serait mieux (normalement j'ai tendance à utiliser R-carré pour cela, mais apparemment ce n'est pas une très bonne idée).
Il me semble donc assez évident que je dois apprendre les bases de la statistique (j’ai étudié cela à l’université mais que j’en ai oublié la majeure partie). Où devrais-je apprendre? Notez que je n’ai pas vraiment besoin d’un cours complet, Cela me permet d’en savoir assez au bout d’un mois pour que je puisse obtenir plus d’empressement et en apprendre davantage :).
Jusqu'à présent, j'ai lu sur " Statistiques sans larmes ", une autre suggestion?
la source
references
tag. Vous voudrez peut-être parcourir la première page de résultats sur ce sujet.Réponses:
Je vous suggérerais une carte routière de base sur la façon de s'y prendre:
Prime:
Metacademy est un site merveilleux pour de telles cartes routières , que je certifierais personnellement comme l'une des meilleures ressources de Data Science sur le Web.
Gitxiv est un autre site magnifique, qui relie les articles de recherche Arxiv sur Data Science aux implémentations / bibliothèques open source pertinentes.
la source
Avez-vous déjà vérifié Think Stats ou Think Bayes? Ce sont des livres de statistiques (gratuits) destinés aux programmeurs et contenant beaucoup de code Python.
En outre, si vous êtes intéressé à apprendre R puis CRAN a beaucoup de (gratuit) pdfs que vous pourriez vouloir vérifier, comme Introduction aux probabilités et statistiques à l' aide R . Il existe également un cours Coursera qui utilise R et que beaucoup de gens adorent (ils utilisent ce manuel , que vous voudrez peut-être consulter également, et qui ont des laboratoires sur DataCamp , je crois).
En outre, si vous souhaitez approfondir quelques sujets relatifs aux statistiques, vous pouvez toujours regarder quelques vidéos de Khan Academy .
la source
Si jamais vous étiez capable, même dans un passé lointain, de résoudre des problèmes de cette liste , vous devriez alors essayer d'étudier les statistiques appliquées "correctement". Je vais vous donner un algorithme simple en deux étapes.
Premièrement, familiarisez-vous avec la théorie des probabilités. Il y a beaucoup de bons livres. Mon préféré est le livre classique de Feller. Cela s’appelle "Introduction" mais ne vous fiez pas à son titre, c’est aussi profond que vous le souhaitez, tout en étant très bien écrit et simple si vous souhaitez simplement survoler la surface.
La deuxième étape est la statistique. Encore une fois, il y a une tonne de bons livres. Je vais vous en donner un que j'ai utilisé, un texte d'introduction décent de Gujarati "Basic Econometrics", quatrième édition. L'économétrie est une statistique appliquée à l'économie. Pour information, Hal Varian, un économiste de Berkeley, a déclaré que tout le monde pensait que l'informaticien serait le plus sexy des dix prochaines années. Beaucoup de choses d'apprentissage automatique sont basées sur des statistiques de base, des régressions, etc. Tout ce qui est couvert dans ce livre, et vous n'avez pas besoin de tout lire, c'est écrit de manière à ce que vous puissiez choisir les chapitres dans votre propre ordre.
Vous serez surpris de voir le nombre de lacunes laissées après que la classe de Ng se soit vite complétée pendant la lecture de ces textes.
En tant que praticien, vous n'avez pas besoin de trop de théorie après ces deux étapes. Vous pouvez continuer à apprendre les techniques de ML en lisant spécifiquement les livres de ce domaine. Il est important de ne pas entrer trop au début dans les probabilités et les statistiques. Commencez par lire votre code pour ML et comblez les lacunes au fur et à mesure.
la source
Tout le monde recommande Casella & Berger, qui est presque universellement utilisé dans les programmes de statistiques pour diplômés. Ce n'est pas un mauvais ouvrage de référence, mais je ne suis pas sûr que je ferais plus que de parcourir les 4-5 premiers chapitres. Je ne pense pas que vous ayez besoin de la théorie sur la façon de construire un test de type Neyman-Pearson avant de plonger dans les "statistiques", c'est-à-dire l'analyse de données.
Au lieu de cela, je me concentrerais sur des méthodes d'apprentissage. Mon programme d'études supérieures utilisait Méthodes statistiques linéaires appliquées pour les tests fréquentistes. Il s'agit d'une référence complète et décente, mais ce n'est peut-être pas le livre le plus accessible qui soit, du point de vue de l'auto-apprentissage. Un ou deux cours du MIT ou de coursera pourraient être un meilleur moyen de commencer, car vous obtiendrez un aperçu plus général avec plus d'exemples que vous ne le feriez en lisant un livre.
Pour Bayes, le livre que j'ai vu le plus souvent utilisé est Doing Bayesian Data Analysis , qui vient avec des images de chiot (clairement, cela le rend supérieur aux autres manuels d'introduction bayésiens). Je n'ai jamais utilisé le livre moi-même, mais je l'ai feuilleté et il semble assez décent - bien meilleur que le livre de Gelman, que j'ai trouvé un peu incompréhensible APRÈS deux cours de statistiques bayésiennes - les explications sont terribles.
la source
Cela ne veut pas être une réponse complète, c'est juste une suggestion. Si vous voulez en savoir plus sur les statistiques (la fondation), vous pouvez lire:
Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury
C'est un livre assez standard pour les statisticiens et il a beaucoup de résultats intéressants. Vous n'avez pas besoin de passer en revue toutes les preuves des théorèmes, mais vous voudrez peut-être faire quelques exercices afin de vous sentir plus en sécurité avec les résultats.
Si vous voulez en savoir plus sur l'économétrie (modèles de données), vous pouvez consulter:
Hayashi, F. (2000): Econometrics, Princeton University Press
Quelqu'un d'autre a demandé quelque chose de similaire à ce que vous avez demandé et a obtenu une bonne réponse: que faire après «Casella & Berger» .
De plus, si vous avez vraiment l'intention de lire ces livres, ce programme de cours d'économétrie peut vous donner une bonne idée de ce qu'il faut lire (CB & Hayashi) et du moment opportun pour le lire.
la source
Je suggérerais un nouveau livre paru depuis la question initiale: Repenser la statistique: un cours bayésien avec des exemples en R et Stan par Richard McElreath, CRC Press.
C'est très bien écrit et utilise une approche bayésienne. C'est très interactif, et vous voudrez résoudre les problèmes ou vous risquez de vous retrouver à mi-chemin et de commencer à vous perdre.
Cela commence très basique et aboutit à des modèles à plusieurs niveaux, et s'adresse à des scientifiques assez avancés possédant des connaissances statistiques mais ne se sentant pas à l'aise avec les statistiques telles qu'elles leur ont été enseignées. Donc, je ne peux pas vraiment dire que c’est un livre pour débutant, mais cela commence très simplement et il a un arc et un style merveilleux.
La partie "Stan" du titre est un outil d'échantillonnage bayésien polyvalent. Il s’agit essentiellement d’un langage de programmation compilé automatiquement en C ++, puis compilé en un exécutable. (L'inférence bayésienne est générale, contrairement aux alternatives, vous pouvez donc avoir un outil généralisé.)
la source
Je pensais que je mettrais cette réponse pour la postérité, même s'il est probablement trop tard pour vous être utile. All Of Statistics de Larry Wasserman a été conçu comme un cours destiné aux personnes ayant une formation en apprentissage automatique, dans d'autres disciplines de la sc-science de la composition ou en mathématiques et n'ayant aucune formation en statistique - c'est-à-dire des personnes se trouvant exactement dans votre situation actuelle. Ayant un manque similaire de statistiques officielles, quelques amis et moi avons formé un groupe d’auto-apprentissage pour le passer à l’école des cycles supérieurs. Je pense que j'ai vraiment profité de cette expérience.
Les sujets supplémentaires que Wasserman aborde au-delà du matériel de cours typique sur la "probabilité et l'inférence statistique", tels que les modèles graphiques et l'initialisation, sont particulièrement pertinents pour une personne travaillant dans l'apprentissage automatique. Je devrais dire que le livre peut être assez sommaire comparé à quelque chose comme Casella & Berger, donc si vous voulez plus de détails ou de motivation pour certaines parties (en particulier les preuves), vous devrez peut-être le compléter avec d'autres documents à lire. Cela dit, j’ai également trouvé que le livre était rédigé clairement et comportait un bon nombre de problèmes d’entraînement, ce qui en fait une excellente référence rapide.
Un mois, ce n'est pas beaucoup de temps. Cependant, si vous fixez un rythme très agressif, je pense que vous pouvez certainement tirer beaucoup de ce texte en un semestre: nous avons constitué notre groupe d’auto-apprentissage pendant l’été, par exemple. Cela est particulièrement vrai si vous êtes principalement intéressé par la modélisation linéaire, que Ch. Ch. 13-14.
la source