La question générale, comme son titre l'indique, est la suivante:
- Quelle est la différence entre DS et OR / optimisation.
Sur le plan conceptuel, je comprends que DS essaie d' extraire des connaissances des données disponibles et utilise principalement des techniques de statistiques et d'apprentissage automatique. D'un autre côté, OR utilise les données afin de prendre des décisions basées sur les données, par exemple en optimisant une fonction objective (critère) sur les données (entrée).
Je me demande comment ces deux paradigmes se comparent.
- Est-ce qu'un sous-ensemble de l'autre?
- Considèrent-ils des domaines complémentaires?
- Existe-t-il des exemples où un champ complète l'autre ou qui sont utilisés en conjonction?
Je m'intéresse en particulier aux éléments suivants:
Existe-t-il un exemple où des techniques de RO sont utilisées pour résoudre une question / problème de Data Science?
optimization
data-mining
PsySp
la source
la source
Réponses:
Bien que la recherche opérationnelle et la science des données couvrent toutes deux un grand nombre de sujets et de domaines, je vais essayer de donner mon point de vue sur ce que je considère comme les parties les plus représentatives et les plus courantes de chacune.
Comme d'autres l'ont souligné, la majeure partie de la recherche opérationnelle porte principalement sur la prise de décisions . Bien qu'il existe de nombreuses façons différentes de déterminer comment prendre des décisions, les parties les plus courantes de la RO (à mon avis) se concentrent sur la modélisation des problèmes de décision dans un cadre de programmation mathématique. Dans ces types de frameworks, vous disposez généralement d'un ensemble de variables de décision, de contraintes sur ces variables et d'une fonction objective dépendante de vos variables de décision que vous essayez de minimiser ou de maximiser. Lorsque les variables de décision peuvent prendre des valeurs dans , les contraintes sont des inégalités linéaires sur vos variables de décision, et la fonction objectif est une fonction linéaire des variables de décision, alors vous avez un programme linéaireR - le cheval de bataille principal de la RO depuis soixante ans. Si vous avez d' autres types de fonctions ou de contraintes objectives, vous vous trouvez dans le domaine de la programmation entière , programmation quadratique , programmation semi-définie , etc ...
La science des données, d'autre part, se préoccupe principalement de faire des inférences. Ici, vous commencez généralement avec un gros tas de données et vous souhaitez déduire quelque chose sur des données que vous n'avez pas encore vues dans votre gros tas. Les types de choses typiques que vous voyez ici sont: 1) la grande pile de données représente les résultats passés de deux options différentes et vous souhaitez savoir quelle option donnera les meilleurs résultats, 2) la grande pile de données représente un temps série et vous aimeriez savoir comment cette série chronologique s’étendra dans le futur, 3) la grande pile de données représente un ensemble d’observations étiquetées et vous aimeriez déduire des étiquettes pour de nouvelles observations non étiquetées. Les deux premiers exemples entrent carrément dans les domaines statistiques classiques (tests d'hypothèses et prévisions chronologiques, respectivement) tandis que le troisième exemple, je pense, est plus étroitement associé aux sujets modernes d'apprentissage automatique (classification).
Donc, à mon avis, la recherche opérationnelle et la science des données sont principalement des disciplines orthogonales, bien qu'il y ait un certain chevauchement. En particulier, je pense que la prévision des séries chronologiques apparaît en quantité non négligeable dans OR; c'est l'une des parties de programmation OR les plus importantes et non mathématiques. La recherche opérationnelle est l'endroit où vous vous tournez si vous avez une relation connue entre les entrées et les sorties; La science des données est l'endroit où vous vous tournez si vous essayez de déterminer cette relation (pour une définition de l'entrée et de la sortie).
la source
Ce n'est pas une réponse complète, car mhum's est assez bon pour contraster les différents objectifs de OR vs DS.
Je veux plutôt répondre à votre commentaire:
La réponse est oui. L'exemple le plus clair qui me vient à l'esprit est celui des machines à vecteurs de support (SVM) .
Pour «ajuster» un modèle SVM à certaines données (ce qui doit être fait avant de pouvoir l'utiliser pour déduire des prédictions), le problème d'optimisation suivant doit être résolu:
Il s'agit d'un problème d'optimisation contraint, comme beaucoup dans le domaine de la RO, et il est résolu en utilisant des méthodes de programmation quadratiques ou des méthodes de points intérieurs. Ceux-ci sont généralement associés au domaine de l'OR plutôt que du DS, mais c'est un exemple de leur applicabilité plus large.
Plus généralement, l'optimisation est la clé de nombreux modèles statistiques et d'apprentissage automatique utilisés dans le domaine de la DS, car le processus de formation de ces modèles peut généralement être formulé comme un problème de minimisation impliquant une fonction de perte / regret - depuis l'humble siècle. modèle de régression linéaire vers le tout dernier réseau neuronal d'apprentissage en profondeur.
Bishop est une bonne référence sur les SVM .
la source
En tant que stratège, j'ai eu l'occasion de travailler avec les deux côtés de la discipline. En essayant d'expliquer ce que sont OR et DS à un cadre MBA qualitatif, mon introduction (trop) simpliste d'une ligne pour chaque
OU: économistes qui savent coder
DS: statisticiens qui savent coder.
En termes pratiques, comment les deux groupes se réunissent généralement: le côté OR développe le modèle de décision, et le côté DS détermine la mise en œuvre des données appropriée pour alimenter le modèle.
Chacun, à lui seul, s'appuiera sur les traditions théoriques de ses disciplines - ensemble, ils mènent des expérimentations pour structurer les données et affiner le modèle afin d'obtenir les véritables connaissances nécessaires pour des décisions optimales. À mesure que chacun apprend à se connaître, sa pensée et son langage convergent généralement.
la source
La science des données est un vaste domaine qui traite des données en général. Si cela semble vague, c'est normal parce que c'est vraiment le cas. C'est un mot à la mode depuis plusieurs années maintenant. Essentiellement, il essaie de trouver un moyen d'exploiter les données: que puis-je faire avec mes données (quelles informations puis-je en tirer?).
La recherche opérationnelle est la science de l'optimisation mathématique: vous modélisez un problème en «équations», résolvez ce modèle mathématique et retransformez les solutions dans votre configuration de problème initiale. C'est un outil d'aide à la décision: que dois-je faire pour obtenir ceci ou cela?
De nombreux problèmes commerciaux peuvent être considérés comme un problème d'optimisation. Étant donné que j'essaie de maximiser mes revenus, compte tenu des contraintes de ressources, comment pourrais-je exercer mes activités, quelles valeurs dois-je définir pour mes variables de décision. Des problèmes tels que la planification, la planification des installations, la gestion de la chaîne d'approvisionnement, etc.
L'optimisation de portefeuille est également un exemple classique où l'optimisation est utilisée. Supposons que je puisse investir dans plusieurs actifs différents de mon portefeuille, chacun avec des rendements non déterministes, comment dois-je équilibrer mon portefeuille afin de minimiser le risque de mon portefeuille global tout en maintenant un niveau de rendement monétaire. Dans ce contexte, la fonction objectif devient souvent le risque / la variance du portefeuille, et les contraintes sont le taux de rendement requis sur l'investissement, ainsi que le montant d'argent dont vous disposez.
la source
Si vous comptez le ML et l'IA pilotés par le ML dans le cadre de la science des données (ce que certaines personnes font et d'autres pas selon mon expérience, par exemple, le programme professionnel Microsoft en IA contient des aspects clés de la science des données + apprentissage automatique (avec DL et RL) ) alors que la Higher School of Economics présente pratiquement les mêmes parties avancées de Microsoft cuuriculum que Advanced Machine Learning), il existe de nombreuses similitudes en mathématiques utilisées dans les deux domaines. Par exemple: Programmation non linéaire (multiplicateurs de Lagrange, conditions KKT ...) -> utilisé pour la dérivation des machines à vecteurs de support ... L'économétrie qui est principalement basée sur les régressions ---> Les régressions sont un élément clé de Data Scinece en général et plus spécifiquement Supervised Learning ... Statistics (normalement trouvé dans OR Curriculum) ---> clé pour Data Science et Machine Learning ainsi ... Processus stochastiques ---> très important dans l'apprentissage par renforcement ... Programmation dynamique ---> à nouveau trouvé dans l'apprentissage par renforcement ... Donc, je dirais qu'il y a des similitudes avec la science des données en général et à peu près des similitudes avec ML. Bien sûr, les objectifs de ces disciplines sont différents, mais il y a beaucoup de similitudes dans les mathématiques qui sont utilisées dans ces disciplines.
la source