Je voudrais en savoir plus sur la théorie des probabilités, la théorie des mesures et enfin l'apprentissage automatique. Où est-ce que je commence? [fermé]

9

Je voudrais en savoir plus sur la théorie des probabilités, la théorie des mesures et enfin l'apprentissage automatique. Mon objectif ultime est d'utiliser l'apprentissage automatique dans un logiciel.

J'ai étudié le calcul et la probabilité très basique à l'université mais c'est à peu près tout. Connaissez-vous des cours ou des livres en ligne que je pourrais utiliser pour en savoir plus sur ces sujets. J'ai trouvé de nombreuses ressources sur le Web, mais elles semblent toutes destinées à un public expert. Je sais que cela va prendre un certain temps, mais par où commencer si je souhaite apprendre depuis le début?

Max
la source
2
Ces trois questions semblent assez bien couvertes par les doublons répertoriés par @General.
whuber

Réponses:

13

Je pense qu'il existe deux références très bonnes et populaires pour vous (j'ai commencé par celles-ci également avec une formation de master en actuariat):

  1. Une introduction à l'apprentissage statistique (avec application en R) par Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Il est disponible gratuitement sur le site, assez complet et facile à comprendre avec des exemples pratiques. Vous pouvez commencer à apprendre beaucoup de choses même sans arrière-plan statistique très solide, cette référence est bonne pour divers profils et comprend un nombre adéquat d'algorithmes populaires ainsi que sa mise en œuvre dans R sans entrer dans les détails mathématiques.

  2. Les éléments de l'apprentissage statistique par Trevor Hastie, Robert Tibshirani, Jerome Friedman . Par rapport au premier, ce livre approfondit les aspects mathématiques si vous souhaitez approfondir les algorithmes particuliers que vous trouvez utiles pour vous. (est également gratuit )

Et bien sûr, Cross Validated est l'une des meilleures sources où vous pouvez apprendre beaucoup de choses, pour moi: les meilleures pratiques, les malentendus statistiques et les abus, et bien d'autres. Après plusieurs années d'apprentissage dans les écoles / universités ainsi que l'apprentissage individuel, j'ai trouvé que mes connaissances étaient trop limitées lorsque je suis allé pour la première fois à la validation croisée. Je continue à y aller tous les jours depuis la première visite et j'apprends tellement.

Metariat
la source
3
Si vous aimez ces références, assurez-vous de garder un œil sur les cours en ligne de Stanford. T. Hastie et R. Tibshirani donnent fréquemment des cours liés au Machine Learning.
Marcel10
J'ai lu environ 20% d'une introduction à l'apprentissage statistique avec application dans R. C'est exactement ce que je cherchais. Grand livre et assez facile à comprendre. Merci beaucoup! :)
Max
6

Voici quelques cours en ligne gratuits dont j'ai entendu parler sont fortement recommandés:

  • http://projects.iq.harvard.edu/stat110/home (Selon votre confort actuel avec la théorie des probabilités. Le cours du Dr Blitzstein est devenu très populaire à Harvard même pour ceux qui n'étaient pas dans les statistiques / probabilités. J'ai regardé quelques-unes des conférences pour ma propre critique et les ont trouvées très utiles.)
  • https://www.coursera.org/learn/machine-learning (Il s'agit de la version actuelle de l'un des premiers cours en ligne massifs de Stanford par Andrew Ng, qui a fini par co-fonder Coursera. J'avais l'intention de suivre ce cours , mais je n'ai pas eu le temps.)
coup
la source
5

vous n'avez pas besoin de théorie de la mesure. La théorie de la mesure est utilisée par les mathématiciens pour justifier d'autres procédures mathématiques, par exemple en prenant des limites d'approximations intégrales. La plupart des ingénieurs n'auraient pas étudié la théorie des mesures, ils utiliseraient simplement les résultats. Les connaissances mathématiques requises pour le ML se caractérisent en gros par la capacité à intégrer un gaussien multivarié.

Je recommanderais Think Stats d'Allen Downey - qui vise à enseigner les probabilités / statistiques aux programmeurs. L'idée est de tirer parti de l'expertise en programmation pour faire des simulations et donc comprendre la théorie des probabilités / méthodes statistiques. blog allen downey (il en a écrit d'autres) Think stats (gratuit) pdf )

seanv507
la source
4
La théorie de la mesure est utile dans les processus stochastiques à temps continu. En fait, chaque article en finance à temps continu (tarification des actifs) commence par la prière suivante(F,Ω,P)
Aksakal
@Aksakal non seulement des processus continus à mon avis!
Metariat
5

Puisque vous êtes intéressé par l'apprentissage automatique, je sauterais la probabilité et la mesure, et sauterais directement dans le ML. Le cours e d' Andrew Ng est un excellent point de départ. Vous pouvez littéralement le terminer en deux semaines.

Jouez avec ce que vous avez appris pendant quelques semaines, puis retournez aux sources et étudiez quelques probabilités. Si vous êtes ingénieur, je suis perplexe quant à la façon dont vous avez réussi à vous inscrire au collège. C'était le cours d'ingénierie requis. Quoi qu'il en soit, vous pouvez vous rattraper en suivant le cours MIT OCW ici .

Je ne pense pas que vous ayez besoin d'une théorie de la mesure. Personne n'a besoin de théorie de la mesure. Ceux qui le font, ils ne viendront pas ici pour demander, car leur conseiller leur dira quel cours suivre. Si vous n'avez pas de conseiller, vous n'en avez certainement pas besoin. Tautologie, mais vrai.

Le truc avec une théorie de la mesure, c'est que vous ne pouvez pas l'apprendre par "lecture facile". Vous devez faire les exercices et les problèmes, en gros, à la dure. À mon avis, c'est pratiquement impossible en dehors de la salle de classe. La meilleure option ici est de prendre un cours au collège local, s'ils en proposent. Parfois, le cours de probabilités au niveau du doctorat fera la mesure et les probabilités dans une classe, ce qui est probablement la meilleure offre. Je ne recommanderais pas de prendre un cours de théorie de la mesure pure au département de mathématiques, à moins que vous ne vouliez vraiment vous torturer, même si à la fin vous seriez très satisfait.

Aksakal
la source
2

Pour l'apprentissage automatique, je pense que l' apprentissage automatique: l'art et la science des algorithmes qui donnent un sens aux données par Peter Flach peut être une bonne ressource pour commencer. Il donne une introduction générale à l'apprentissage automatique avec des exemples intuitifs et convient aux débutants. J'aime ce livre en particulier à cause du dernier chapitre, qui traite des expériences d'apprentissage automatique. Tout en apprenant sur l'apprentissage automatique, il ne suffit pas de se familiariser avec différents modèles et il faut pouvoir comparer différents algorithmes d'apprentissage automatique. Je pense que ce livre a permis de comprendre plus facilement comment comparer ces algorithmes. Les diapositives de la conférence peuvent être trouvées ici .

user1219801
la source
2

Pour ajouter aux excellentes suggestions ci-dessus, je dirais que si vous souhaitez obtenir une compréhension solide des concepts plus élémentaires de probabilité et de statistiques, "Des algorithmes aux scores Z: calcul probabiliste dans les statistiques" est une excellente introduction à l'utilisation des ordinateurs pour comprendre certains des concepts débutants / intermédiaires les plus importants de la théorie des probabilités et des processus stochastiques. Je seconderai également «Une introduction à l'apprentissage statistique» ou «Éléments d'apprentissage statistique» (ESL) comme introduction à l'apprentissage automatique (ML). Je pense que l'ESL en particulier est incroyable, mais il faut un regard beaucoup plus mathématique sur les concepts ML, donc si vous ne vous considérez "bien" que dans les statistiques, vous voudrez peut-être le lire une fois que vous en aurez plus expérience avec ML.

Si vous êtes intéressé par l'apprentissage automatique dans le but d'être employé ou de résoudre des problèmes, acquérir une expérience pratique est la clé. Prenez une introduction aux cours de science des données / d'apprentissage automatique. Andrew Ng fait une introduction étonnante à l'apprentissage automatique dans son cours à Coursera ici . Je vous suggère également de télécharger certains ensembles de données et de commencer à jouer avec eux. Si vous ne l'avez pas déjà fait, téléchargez R et RStudio (à mon avis, plus convivial pour les débutants que Python ou Matlab), et inscrivez-vous sur kaggle et faites certains de leurs problèmes pour débutants. Ils ont d'excellentes procédures pas à pas qui peuvent vous aider à utiliser ML sans pratiquement aucune idée de ce qui se passe réellement, mais cela vous donne une idée du type d'étapes que vous devriez prendre pour implémenter réellement une solution ML.

J'encouragerais personnellement une combinaison de commencer à utiliser des outils ML sans vraiment savoir ce qu'ils font (en utilisant des ensembles de données Kaggle ou similaires); et apprendre des concepts fondamentaux tels que la validation croisée, le sur-ajustement, l'utilisation de matrices de confusion, différentes mesures de la qualité d'un modèle, etc. Pour moi, il est beaucoup plus important de savoir comment utiliser les algorithmes et de savoir comment identifier quand les choses fonctionnent / ne fonctionnent pas, que de comprendre comment fonctionnent les algorithmes.

Blue_vision
la source