Contexte: Mon doctorat était en «science informatique». Ma thèse portait sur l'analyse des données de diffraction des rayons X et l'analyse des noyaux perturbés thermiquement dans l'analyse dynamique globale de la densité électronique moléculaire pour la physique du solide. Le plat à emporter? Il était très basé sur la science.
À mon avis, la science informatique est la poursuite de la science, "... une entreprise systématique qui construit et organise les connaissances sous la forme d'explications et de prédictions testables sur l'univers" ( wiki ), via des moyens informatiques.
Cependant, la plupart des postes de «science des données» ressemblent davantage à des types d'emplois «d'analyse de données». Autrement dit, des requêtes SQL lourdes, utilisant des modèles R et Python prédéfinis (régression linéaire, etc.) pour tirer des conclusions à partir de données structurées et non structurées.
La science informatique est-elle un surensemble de la science des données? Sont-ils interchangeables? La science des données est-elle une véritable «science»? La science informatique est-elle une véritable «science»?
la source
Réponses:
Ils ne sont pas interchangeables.
La science informatique a tendance à se référer davantage au HPC, aux techniques de simulation (équations différentielles, dynamique moléculaire, etc.), et est généralement appelée calcul scientifique.
La science des données a tendance à se référer à l'analyse de données à forte intensité de calcul, comme les "mégadonnées", la bioinformatique, l'apprentissage automatique (optimisation), les analyses bayésiennes utilisant MCMC, etc. Je pense que c'est la même chose que ce qu'on appelait auparavant les statistiques de calcul. C'était l'infusion de l'informatique avec des statistiques, mais bon nombre des techniques développées ont abandonné les rigoureux «tests statistiques» de Fisher (regroupement, techniques de validation croisée, visualisation des données) mais ont conservé la partie données.
L'explication la plus claire m'est venue lorsque j'enseignais un atelier sur Julia pour la science des données et le calcul scientifique. Les scientifiques des données voulaient apprendre Julia afin de faire une analyse rapide des «big data», c'est-à-dire des régressions et autres GLM sur de grandes données. Les informaticiens (informaticiens scientifiques?) Voulaient savoir comment écrire facilement du code pour résoudre de grands systèmes linéaires sur des HPC et des GPU.
Notez que ce sont deux façons de dire exactement les mêmes calculs, mais avec des significations très différentes. Donc, dans un certain sens, similaire, mais toujours distinct (et il existe un croisement entre les disciplines, comme l'utilisation de l'apprentissage automatique pour apprendre les paramètres des PDE à partir des données).
la source