Science des données vs recherche opérationnelle

11

La question générale, comme son titre l'indique, est la suivante:

  • Quelle est la différence entre DS et OR / optimisation.

Sur le plan conceptuel, je comprends que DS essaie d' extraire des connaissances des données disponibles et utilise principalement des techniques de statistiques et d'apprentissage automatique. D'un autre côté, OR utilise les données afin de prendre des décisions basées sur les données, par exemple en optimisant une fonction objective (critère) sur les données (entrée).

Je me demande comment ces deux paradigmes se comparent.

  • Est-ce qu'un sous-ensemble de l'autre?
  • Considèrent-ils des domaines complémentaires?
  • Existe-t-il des exemples où un champ complète l'autre ou qui sont utilisés en conjonction?

Je m'intéresse en particulier aux éléments suivants:

Existe-t-il un exemple où des techniques de RO sont utilisées pour résoudre une question / problème de Data Science?

PsySp
la source
3
Je ne suis pas sûr que ce soit vraiment une question d'informatique mais je suppose que c'est assez proche. J'ai édité la partie sur ce que les gens d'un côté pensent de l'autre, car cela semble être entièrement une question d'opinion.
David Richerby
@DavidRicherby merci. Je suis d'accord avec vous que cela pourrait être une question d'opinion. Traditionnellement, les deux disciplines sont enseignées et ont émergé de la communauté CS donc, je suppose, c'est le bon endroit pour demander.
PsySp
@DW merci. J'ai lu les articles et pour être honnête, je ne vois aucune discussion sur le chevauchement et / ou les différences entre les deux champs mentionnés. En particulier, comment l'un complète l'autre.
PsySp
1
La science des données consiste principalement à rechercher des informations via les données. La recherche opérationnelle consiste principalement à travailler pour améliorer la prise de décision. Vous pouvez souvent voir OR comme utilisant des méthodes pour trouver une stratégie optimale à utiliser dans la prise de décision. Certaines méthodes utilisées en salle d'opération peuvent être classées comme méthodes d'apprentissage par renforcement dans la communauté CS, bien que tous les problèmes de salle d'opération ne soient pas de ce type.
spektr

Réponses:

9

Bien que la recherche opérationnelle et la science des données couvrent toutes deux un grand nombre de sujets et de domaines, je vais essayer de donner mon point de vue sur ce que je considère comme les parties les plus représentatives et les plus courantes de chacune.

Comme d'autres l'ont souligné, la majeure partie de la recherche opérationnelle porte principalement sur la prise de décisions . Bien qu'il existe de nombreuses façons différentes de déterminer comment prendre des décisions, les parties les plus courantes de la RO (à mon avis) se concentrent sur la modélisation des problèmes de décision dans un cadre de programmation mathématique. Dans ces types de frameworks, vous disposez généralement d'un ensemble de variables de décision, de contraintes sur ces variables et d'une fonction objective dépendante de vos variables de décision que vous essayez de minimiser ou de maximiser. Lorsque les variables de décision peuvent prendre des valeurs dans , les contraintes sont des inégalités linéaires sur vos variables de décision, et la fonction objectif est une fonction linéaire des variables de décision, alors vous avez un programme linéaireR- le cheval de bataille principal de la RO depuis soixante ans. Si vous avez d' autres types de fonctions ou de contraintes objectives, vous vous trouvez dans le domaine de la programmation entière , programmation quadratique , programmation semi-définie , etc ...

La science des données, d'autre part, se préoccupe principalement de faire des inférences. Ici, vous commencez généralement avec un gros tas de données et vous souhaitez déduire quelque chose sur des données que vous n'avez pas encore vues dans votre gros tas. Les types de choses typiques que vous voyez ici sont: 1) la grande pile de données représente les résultats passés de deux options différentes et vous souhaitez savoir quelle option donnera les meilleurs résultats, 2) la grande pile de données représente un temps série et vous aimeriez savoir comment cette série chronologique s’étendra dans le futur, 3) la grande pile de données représente un ensemble d’observations étiquetées et vous aimeriez déduire des étiquettes pour de nouvelles observations non étiquetées. Les deux premiers exemples entrent carrément dans les domaines statistiques classiques (tests d'hypothèses et prévisions chronologiques, respectivement) tandis que le troisième exemple, je pense, est plus étroitement associé aux sujets modernes d'apprentissage automatique (classification).

Donc, à mon avis, la recherche opérationnelle et la science des données sont principalement des disciplines orthogonales, bien qu'il y ait un certain chevauchement. En particulier, je pense que la prévision des séries chronologiques apparaît en quantité non négligeable dans OR; c'est l'une des parties de programmation OR les plus importantes et non mathématiques. La recherche opérationnelle est l'endroit où vous vous tournez si vous avez une relation connue entre les entrées et les sorties; La science des données est l'endroit où vous vous tournez si vous essayez de déterminer cette relation (pour une définition de l'entrée et de la sortie).

mhum
la source
Merci pour la réponse claire. Je me demandais si, par exemple, on pouvait utiliser des techniques OU pour résoudre des problèmes DS. Je serais intéressé par un tel exemple mais, d'après votre réponse, j'en doute.
PsySp
@Psysp Eh, peut-être? Je ne peux penser à rien du haut de ma tête, mais c'est loin d'être définitif.
mhum
1
Je ne pense pas que la division entre OR et DS soit stricte comme vous le pensez, mais cela pourrait être parce que je considère les sujets comme l'apprentissage automatique et le datamining comme faisant partie de DS au lieu de considérer DS comme synonyme de statistiques. (Malheureusement, comme DS est un mot à la mode, il n'a pas de définition largement acceptée, pour autant que je sache) Cependant, les tâches de décision et d' inférence n'ont pas besoin de s'exclure mutuellement. L'apprentissage automatique est précisément le domaine où les deux sont combinés: parfois des décisions intelligentes doivent être prises pour faire des inférences décentes, à d'autres moments, des inférences intelligentes sont utilisées pour de bonnes décisions.
Lézard discret
@Discretelizard Bien sûr, je suis d'accord dans une certaine mesure. Je présente une division plutôt austère (peut-être presque une caricature?) Et je me concentre sur les parties centrales de chaque domaine afin de mettre en évidence les différences dans les types de problèmes que chaque domaine est généralement réglé. Les bords des deux champs peuvent être assez flous (en particulier dans DS qui est beaucoup plus récent) et il y a probablement plus de chevauchement là-bas. De plus, je suis d'accord pour dire que la majorité du courant dominant de DS comprend des éléments ML, mais je ne savais pas exactement à quel point DS est divisée de ML.
mhum
4

Ce n'est pas une réponse complète, car mhum's est assez bon pour contraster les différents objectifs de OR vs DS.

Je veux plutôt répondre à votre commentaire:

Je me demandais si, par exemple, on pouvait utiliser des techniques OU pour résoudre des problèmes DS.

La réponse est oui. L'exemple le plus clair qui me vient à l'esprit est celui des machines à vecteurs de support (SVM) .

Pour «ajuster» un modèle SVM à certaines données (ce qui doit être fait avant de pouvoir l'utiliser pour déduire des prédictions), le problème d'optimisation suivant doit être résolu:

Maximisez le double,

g(a)=i=1mαi12i=1mj=1mαiαjyiyjxiTxj,

soumis aux contraintes

0αiC,i=1nyiαi=0

Il s'agit d'un problème d'optimisation contraint, comme beaucoup dans le domaine de la RO, et il est résolu en utilisant des méthodes de programmation quadratiques ou des méthodes de points intérieurs. Ceux-ci sont généralement associés au domaine de l'OR plutôt que du DS, mais c'est un exemple de leur applicabilité plus large.

Plus généralement, l'optimisation est la clé de nombreux modèles statistiques et d'apprentissage automatique utilisés dans le domaine de la DS, car le processus de formation de ces modèles peut généralement être formulé comme un problème de minimisation impliquant une fonction de perte / regret - depuis l'humble siècle. modèle de régression linéaire vers le tout dernier réseau neuronal d'apprentissage en profondeur.

Bishop est une bonne référence sur les SVM .

AG
la source
2

En tant que stratège, j'ai eu l'occasion de travailler avec les deux côtés de la discipline. En essayant d'expliquer ce que sont OR et DS à un cadre MBA qualitatif, mon introduction (trop) simpliste d'une ligne pour chaque

OU: économistes qui savent coder
DS: statisticiens qui savent coder.

En termes pratiques, comment les deux groupes se réunissent généralement: le côté OR développe le modèle de décision, et le côté DS détermine la mise en œuvre des données appropriée pour alimenter le modèle.

Chacun, à lui seul, s'appuiera sur les traditions théoriques de ses disciplines - ensemble, ils mènent des expérimentations pour structurer les données et affiner le modèle afin d'obtenir les véritables connaissances nécessaires pour des décisions optimales. À mesure que chacun apprend à se connaître, sa pensée et son langage convergent généralement.

user88056
la source
1
Je comprends la description pratique de DS comme «statisticiens qui codent», mais la description de OR me semble un peu étrange. OU comprend des problèmes de logistique et de routage associés. Pour moi, cela ne ressemble pas vraiment à un lieu naturel pour un économiste. Peut-être pourriez-vous expliquer pourquoi OR est pratiqué par les économistes dans la pratique?
Lézard discret
1
@Discretelizard Je ne doute pas que les économistes fassent la RO, mais il y a, comme vous le dites, beaucoup de RO qui n'ont rien à voir avec l'économie et qui sont effectués par des informaticiens, des mathématiciens et autres.
David Richerby
0

La science des données est un vaste domaine qui traite des données en général. Si cela semble vague, c'est normal parce que c'est vraiment le cas. C'est un mot à la mode depuis plusieurs années maintenant. Essentiellement, il essaie de trouver un moyen d'exploiter les données: que puis-je faire avec mes données (quelles informations puis-je en tirer?).

La recherche opérationnelle est la science de l'optimisation mathématique: vous modélisez un problème en «équations», résolvez ce modèle mathématique et retransformez les solutions dans votre configuration de problème initiale. C'est un outil d'aide à la décision: que dois-je faire pour obtenir ceci ou cela?

De nombreux problèmes commerciaux peuvent être considérés comme un problème d'optimisation. Étant donné que j'essaie de maximiser mes revenus, compte tenu des contraintes de ressources, comment pourrais-je exercer mes activités, quelles valeurs dois-je définir pour mes variables de décision. Des problèmes tels que la planification, la planification des installations, la gestion de la chaîne d'approvisionnement, etc.

L'optimisation de portefeuille est également un exemple classique où l'optimisation est utilisée. Supposons que je puisse investir dans plusieurs actifs différents de mon portefeuille, chacun avec des rendements non déterministes, comment dois-je équilibrer mon portefeuille afin de minimiser le risque de mon portefeuille global tout en maintenant un niveau de rendement monétaire. Dans ce contexte, la fonction objectif devient souvent le risque / la variance du portefeuille, et les contraintes sont le taux de rendement requis sur l'investissement, ainsi que le montant d'argent dont vous disposez.

Rameez
la source
3
Vous ne listez que de brefs résumés des deux champs. Cette réponse ne traite pas des différences et / ou similitudes entre DS et OR, pour lesquelles la question a été spécifiquement posée. Vous pouvez améliorer votre réponse en vous concentrant sur cette partie
Lézard discret
-1

Si vous comptez le ML et l'IA pilotés par le ML dans le cadre de la science des données (ce que certaines personnes font et d'autres pas selon mon expérience, par exemple, le programme professionnel Microsoft en IA contient des aspects clés de la science des données + apprentissage automatique (avec DL et RL) ) alors que la Higher School of Economics présente pratiquement les mêmes parties avancées de Microsoft cuuriculum que Advanced Machine Learning), il existe de nombreuses similitudes en mathématiques utilisées dans les deux domaines. Par exemple: Programmation non linéaire (multiplicateurs de Lagrange, conditions KKT ...) -> utilisé pour la dérivation des machines à vecteurs de support ... L'économétrie qui est principalement basée sur les régressions ---> Les régressions sont un élément clé de Data Scinece en général et plus spécifiquement Supervised Learning ... Statistics (normalement trouvé dans OR Curriculum) ---> clé pour Data Science et Machine Learning ainsi ... Processus stochastiques ---> très important dans l'apprentissage par renforcement ... Programmation dynamique ---> à nouveau trouvé dans l'apprentissage par renforcement ... Donc, je dirais qu'il y a des similitudes avec la science des données en général et à peu près des similitudes avec ML. Bien sûr, les objectifs de ces disciplines sont différents, mais il y a beaucoup de similitudes dans les mathématiques qui sont utilisées dans ces disciplines.

Goran Mabic
la source
Comment répond-il à la question?
Evil