Comment auto-apprendre la science des données? [fermé]

16

Je suis un développeur web autodidacte et je souhaite m'enseigner la science des données, mais je ne sais pas par où commencer. En particulier, je me demande:

  1. Quels sont les domaines de la science des données? (p. ex. intelligence artificielle, apprentissage automatique, analyse de données, etc.)
  2. Y a-t-il des cours en ligne que les gens peuvent recommander?
  3. Existe-t-il des projets sur lesquels je peux m'exercer (par exemple, des ensembles de données ouverts).
  4. Existe-t-il des certifications que je peux demander ou remplir?
Martin
la source

Réponses:

15

Bienvenue sur le site, Martin! C'est une question assez large, donc vous allez probablement obtenir une variété de réponses. Voici mon point de vue.

  1. La science des données est un domaine interdisciplinaire généralement pensé pour combiner les statistiques classiques, l'apprentissage automatique et l'informatique (encore une fois, cela dépend de qui vous demandez, mais d'autres pourraient inclure l'intelligence d'affaires ici, et la visualisation d'informations ou la découverte de connaissances possibles; par exemple, l'article de wikipedia sur la science des données ). Un bon scientifique des données est également compétent pour relever les caractéristiques spécifiques au domaine du domaine dans lequel il travaille également. Par exemple, un scientifique des données travaillant sur l'analyse des dossiers hospitaliers est beaucoup plus efficace s'il a une formation en informatique biomédicale.
  2. Il existe de nombreuses options ici, selon le type d'analyse qui vous intéresse. Le cours coursera d'Andrew Ng est la première ressource mentionnée par la plupart , et à juste titre. Si vous êtes intéressé par l'apprentissage automatique, c'est un excellent point de départ. Si vous voulez une exploration approfondie des mathématiques impliquées, Les éléments de l'apprentissage statistique de Tibshirani est un texte excellent, mais assez avancé. Il existe de nombreux cours en ligne disponibles sur coursera en plus de Ng, mais vous devez les sélectionner en fonction du type d'analyse sur lequel vous souhaitez vous concentrer et / ou du domaine dans lequel vous prévoyez de travailler.
  3. Kaggle . Commencez par kaggle, si vous souhaitez vous plonger dans certains problèmes d'analyse du monde réel. En fonction de votre niveau d'expertise, il peut être judicieux de commencer plus simplement, cependant. Le projet Euler est une excellente ressource pour les problèmes de pratique ponctuels que j'utilise toujours comme travail d'échauffement.
  4. Encore une fois, cela dépend probablement du domaine dans lequel vous souhaitez travailler. Cependant, je sais que Coursera offre un certificat en science des données, si vous suivez une série de cours liés à la science des données. C'est probablement un bon point de départ.

Bonne chance! Si vous avez d'autres questions spécifiques, n'hésitez pas à me les poser dans les commentaires, et je ferai de mon mieux pour vous aider!

Kyle.
la source
1
Pour en revenir à cela, le cours d'Andrew Ng est difficile . J'aurais dû mentionner que je ne suis pas fort en mathématiques. J'ai entendu dire que cet autre cours de Data Science est un peu plus facile pour apprendre les cordes. Qu'est-ce que tu penses?
Martin
5

Je suis un scientifique des données autodidacte et je ferais de mon mieux pour vous expliquer comment s'y prendre.


Quels sont les domaines de la science des données? (p. ex. intelligence artificielle, apprentissage automatique, analyse de données, etc.)

La science des données est un domaine très large. Il s'agit de la science des données. Ainsi, tout champ qui utilise des données pour prendre des décisions relève de ce domaine. Certains des domaines comprennent:

  • AI
  • Reconnaissance de formes et analyse
  • Bio-statistiques
  • Apprentissage statistique
  • Apprentissage automatique
  • Esthétique des données (ou visualisation des données)
  • Journalisme de données

Y a-t-il des cours en ligne que les gens peuvent recommander?

J'ai répondu à une question similaire . Je le cite donc ici:

Commencez par le cours d' apprentissage automatique de Coursera . Il fait un très bon travail en introduisant l'étudiant dans le domaine de l'apprentissage automatique et vous aide à jeter des bases solides dans les concepts.

Dans le cas où vous estimez que les mathématiques sont un peu abruties dans ce cours, vous pouvez suivre ce cours , enseigné par le même professeur et nécessitant beaucoup de mathématiques que le premier.

Maintenant, vous auriez une intuition claire sur les concepts de base du Machine Learning. Maintenant, prenez ce cours , qui peut être dit comme un suivi ou un complément au cours d'Andrew Ng.

Cette ressource de l'IAPR contient des notes détaillées sur de nombreux concepts de ML comme la validation croisée, la régularisation, etc.

Vous pouvez également consulter cette incroyable liste de ressources compilées dans un blog sur Quora.

Maintenant, pour plonger dans des concepts avancés de réseaux de neurones et d'apprentissage en profondeur, vous pouvez utiliser ce livre gratuit .

Enfin, le livre électronique gratuit: Elements of Statistical Learning est un merveilleux livre pour les débutants en ML ou en apprentissage statistique.

En plus de cela, consultez ce référentiel de références en science des données par Quora .


Existe-t-il des projets sur lesquels je peux m'exercer (par exemple, des ensembles de données ouverts).

J'ai commencé à faire des projets avec des ensembles de données ouverts de l'Inde. Cependant, je vous recommande de consulter cette discussion incroyable ici , et après avoir fait ces projets, vous pouvez commencer avec Kaggle.


Existe-t-il des certifications que je peux demander ou remplir?

À mon avis, il n'y a aucune certification en science des données . Oui, il existe de nombreuses certifications Big Data, mais je ne les voyais pas vraiment utiles pour un scientifique en herbe, je vous recommande donc de ne pas les chasser au moins jusqu'à ce que vous soyez suffisamment confiant avec vos compétences en ML et en données.

Dawny33
la source
1

Je recommande de partir des spécialisations Coursera en science des données. La spécialisation en science des données de Johns Hopkins est la plus ancienne spécialisation en cours d'exécution. Je ne recommande pas les livres et kaggle. Ils ne vous confondent qu'au début. Gardez à l'esprit que le codage est la partie la plus simple de la science des données et que vous devez apprendre beaucoup. Pour vous faire une idée du terrain, ce diagramme de Venn est un bon début.

Hamideh
la source