La science des données sans connaissance d'un sujet spécifique, vaut-il la peine de poursuivre une carrière? [fermé]

15

J'ai eu une conversation avec quelqu'un récemment et j'ai mentionné mon intérêt pour l'analyse des données et qui j'avais l'intention d'acquérir les compétences et les outils nécessaires. Ils m'ont suggéré que bien qu'il soit formidable d'apprendre les outils et de développer les compétences, il est inutile de le faire à moins d'avoir des connaissances spécialisées dans un domaine spécifique.

Ils ont essentiellement résumé que je serais juste comme un constructeur avec une pile d'outils qui pourrait construire quelques boîtes en bois et peut-être construire de meilleures choses (cabines, armoires, etc.), mais sans connaissance dans un domaine spécifique, je n'aurais jamais être un constructeur auquel les gens viendraient pour un produit spécifique.

Quelqu'un a-t-il trouvé cela ou a-t-il une opinion sur ce qu'il faut en faire? Il semblerait que si c'était vrai, il faudrait apprendre les aspects de la science des données, puis apprendre un nouveau domaine juste pour se spécialiser.

user3754366
la source
Bien que votre question soit valide, ce n'est pas le bon endroit pour cela. Les questions liées à la carrière sont considérées hors sujet ici.
sheldonkreger
Ce que vous demandez n'est pas clair - est-il préférable d'apprendre des outils ou de recueillir des connaissances sur le domaine? probablement trop ouvert et basé sur les opinions pour StackExchange.
Sean Owen

Réponses:

43

Drew Conway a publié le diagramme de Data Science Venn , avec lequel je suis entièrement d'accord:

Diagramme de Venn de la science des données

D'une part, vous devriez vraiment lire son article. D'un autre côté, je peux offrir ma propre expérience: mon expertise en la matière (que j'aime mieux en tant que terme que "expertise substantielle", parce que vous devriez vraiment aussi avoir une "expertise substantielle" en mathématiques / statistiques et piratage) est dans le commerce de détail, mes mathématiques / statistiques sont des prévisions et des statistiques inférentielles, et mes compétences en piratage se trouvent dans R.

De ce point de vue, je peux parler et comprendre les détaillants, et quelqu'un qui n'a pas au moins une connaissance passagère de ce domaine devra faire face à une courbe d'apprentissage abrupte dans un projet avec des détaillants. En parallèle, je fais des statistiques en psychologie, et c'est exactement la même chose là-bas. Et même avec une certaine connaissance de la partie piratage / mathématiques / statistiques du diagramme, j'aurais du mal à me familiariser, disons, avec le pointage de crédit ou un autre nouveau domaine.

Une fois que vous avez une certaine quantité de mathématiques / statistiques et de compétences de piratage, il est beaucoup mieux d'acquérir une mise à la terre dans un ou plusieurs sujets que d'ajouter un autre langage de programmation à vos compétences de piratage, ou encoreun autre algorithme d'apprentissage automatique à votre portefeuille de mathématiques / statistiques. Après tout, une fois que vous avez une base solide en mathématiques / statistiques / piratage, vous pouvez, si besoin est, apprendre ces nouveaux outils sur le Web ou dans des manuels scolaires dans une période de temps relativement courte. Mais l'expertise en la matière, d'autre part, vous ne pourrez probablement pas apprendre à partir de zéro si vous partez de zéro. Et les clients préfèrent travailler avec un scientifique des données A qui comprend leur domaine spécifique qu'avec un autre scientifique des données B qui doit d'abord apprendre les bases - même si B est meilleur en mathématiques / statistiques / piratage.

Bien sûr, tout cela signifiera également que vous ne deviendrez jamais un expert dans l' un des trois domaines. Mais ça va, parce que vous êtes un data scientist, pas un programmeur ou un statisticien ou un expert en la matière. Il y aura toujours des gens dans les trois cercles distincts dont vous pourrez apprendre. Ce qui fait partie de ce que j'aime dans la science des données.


EDIT: Un peu de temps et quelques réflexions plus tard, je voudrais mettre à jour ce post avec une nouvelle version du diagramme. Je pense toujours que les compétences de piratage, les connaissances en mathématiques et statistiques et l'expertise substantielle (abrégé en "Programmation", "Statistiques" et "Affaires" pour plus de lisibilité) sont importantes ... mais je pense que le rôle de la communication est également important. Toutes les informations que vous tirez en tirant parti de votre piratage, de vos statistiques et de votre expertise commerciale ne feront aucune différence, à moins que vous ne puissiez les communiquer à des personnes qui ne possèdent peut-être pas ce mélange unique de connaissances. Vous devrez peut-être expliquer vos connaissances statistiques à un chef d'entreprise qui doit être convaincu de dépenser de l'argent ou de modifier les processus. Ou à un programmeur qui ne pense pas statistiquement.

Voici donc le nouveau diagramme de Venn de la science des données, qui inclut également la communication comme ingrédient indispensable. J'ai étiqueté les zones de manière à garantir un maximum de flammes, tout en étant facile à retenir.

Commentez loin.

nouveau diagramme de Venn pour la science des données

Code R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()
Stephan Kolassa
la source
1
J'ai été amené ici par un article de blog faisant référence à votre diagramme mis à jour. Je pense que c'est une grande amélioration par rapport à la version originale de Conway, bien que je ne puisse pas vraiment dépasser l'idée - impliquée par la taille du chevauchement - qu'un prof de statistique est quelqu'un avec des compétences égales en statistiques et en communication.
Robert de Graaf
1

Sûr que vous pouvez. Les entreprises réclament des scientifiques des données. Attention cependant, ils interprètent tous le terme différemment. Selon l'entreprise, vous pourriez être amené à faire quoi que ce soit, des statistiques à la rédaction du code de production. Soit l'un est un emploi à temps plein en soi et vous devez être préparé pour les deux, donc demander des connaissances spécialisées approfondies en plus de ce n'est pas raisonnable, à mon avis, et les entreprises avec lesquelles j'ai parlé ont insisté sur les deux autres domaines ( en particulier la programmation). Cependant, j'ai trouvé qu'il était utile de se familiariser avec les types de problèmes que vous pourriez rencontrer. Selon le secteur, cela pourrait être la détection d'anomalies, la recommandation / personnalisation, la prédiction, le couplage d'enregistrements, etc. Ce sont des choses que vous pouvez apprendre à titre d'exemples en même temps que les mathématiques et la programmation.

Emre
la source