Que font les statisticiens qui ne peuvent pas être automatisés?

26

Le logiciel rendra-t-il finalement les statisticiens obsolètes? Que fait-on qui ne peut pas être programmé dans un ordinateur?

Adam
la source
21
Ils pensent (c.-à-d. Qu'ils apportent des connaissances).
gung - Reinstate Monica
10
Interprétation des résultats ;-)
ocram
5
la même question peut alors être posée aux programmeurs en général;)
nb1
4
Nous concevons des études, et en particulier nous devons faire face à des problèmes réels où la conception statistiquement "la meilleure" ne peut pas être mise en œuvre. Nous nettoyons les données sales, apportant des connaissances du monde réel. Nous interprétons également les résultats en clair [insérer la langue de votre choix].
Michelle
13
boire de la bière! ; o)
Dikran Marsupial

Réponses:

28

@Adam, si vous pensez aux chercheurs en statistique de manière analogue à ceux d'autres domaines - des gens qui s'appuient sur la méthodologie et les connaissances existantes - alors il pourrait être plus clair que la réponse à votre première question est «non».

Les statisticiens qui gagnent leur vie en appliquant simplement des progiciels en conserve pourraient très probablement être remplacés par des ordinateurs à chaque étape, sauf en écrivant la section de discussion d'un document où les résultats doivent être interprétés. Donc, dans ce sens, oui - il pourrait être automatisé (même s'il devrait s'agir d'un logiciel compliqué doté d'un enfer d'un processeur de langage naturel).

Cependant, comme la plupart des chercheurs le découvrent finalement, les routines «en conserve» que les gens utilisent souvent sont assez limitées et doivent être modifiées (ou de nouvelles méthodes doivent être entièrement développées) pour répondre à des questions de recherche spécialisées - c'est là que l'aspect humain des statistiques est indispensable . Ou, un chercheur doit simplement se contenter d'une question de recherche quelque peu différente, mais connexe, à laquelle on peut répondre en utilisant des méthodes classiques.

La plupart des statisticiens que je connais travaillent dans des emplois de recherche (par exemple, professeurs, chercheurs) où leur rôle principal est de développer une nouvelle méthodologie. Si ce processus pouvait être automatisé, ce qui signifie qu'un ordinateur peut formuler et lancer de nouvelles méthodes utiles, alors je crains que les chercheurs dans tous les domaines ne soient obsolètes.

Macro
la source
2
Je pense que votre deuxième paragraphe manque un point: ce n'est pas seulement la fin du processus (interprétation des résultats) qui est difficile, c'est aussi le début - comprendre quelles méthodes appliquer aux données de quelles manières, ce qui dans le cas général nécessite de comprendre la nature des données et du système dont elles proviennent.
Cascabel
@Jefromi, comme je l'ai dit à quelqu'un ci-dessous, je pense que la compréhension vient d'un expert dans le domaine d'application, pas d'un statisticien.
Macro
Si la compréhension venait seulement "d'experts" dans le domaine de l'application, mon travail serait beaucoup plus facile (et beaucoup moins amusant). Il y a un problème de cadre: quelque chose que l'expert ne pense pas dire peut être important pour l'analyse statistique. Dans la pratique, les collaborations les plus fructueuses conduisent l'expert à apprendre une bonne quantité de statistiques et le statisticien à en apprendre assez sur le champ d'application.
Scortchi - Réintégrer Monica
33

Les ordinateurs ne rendront les statisticiens obsolètes que lorsque l'IA forte rendra les humains dans leur ensemble obsolètes.

La question me rappelle la question: "S'il existe toutes ces méthodes statistiques robustes, pourquoi les gens utilisent-ils encore d'autres méthodes?" Une partie de la réponse est l'habitude et la formation, mais la plupart est que la question est naïve: "robuste" ne signifie pas "vous n'avez pas à penser et à comprendre ce que vous faites", comme l'indique la question.

Je veux dire, vous pouvez télécharger le package de statistiques R aujourd'hui et faire n'importe quelle technique statistique de base à la tombée de la nuit. Vous pouvez ensuite télécharger quelques packages et commencer à utiliser des méthodes si ésotériques que la plupart d'entre nous n'en ont même pas entendu parler. La question est: obtiendriez-vous des réponses raisonnables? La réponse est probablement non.

Les algorithmes sont automatisés, mais vous devez toujours faire de nombreux appels de jugement tout au long du chemin d'investigation: du plan d'attaque au jugement final de savoir si les résultats ont réellement un sens. Pour en arriver là, vous parlez vraiment d'ordinateurs de type Star-Trek où vous pouvez dire: "Ordinateur, dis-moi ...", à ce moment-là, presque toutes les vocations humaines sont obsolètes.

Wayne
la source
4
+1 pour "Les ordinateurs ne rendront les statisticiens obsolètes que si une IA forte rend les humains dans leur ensemble obsolètes."
Macro
10

Que peut faire un statisticien qu'un ordinateur ne peut pas faire? Écrivez le programme d'origine par lequel ils sont remplacés.

Au-delà de cette réponse quelque peu idiote, la racine de la question est d'ignorer la science réelle de la statistique au profit de sa mécanique, et d'écarter entièrement le rôle du processus créatif dans l'analyse statistique. C'est, pour utiliser l'exemple de Peter Flom, comme dire que les voitures sont construites à l'aide de rivets et de soudures, donc il n'y a aucune raison pour que la nouvelle Mustang ne puisse pas être conçue par des robots de rivetage et de soudage.

Une grande partie du travail de statistique implique une expertise en la matière, des appels au jugement et de la créativité. Une analyse "en conserve" exécutée à partir d'un algorithme ne vous apportera souvent pas la meilleure réponse, et il existe une myriade d'exemples documentés où l'utilisation de méthodes automatisées vous donne en fait la mauvaise réponse - ou du moins pas la réponse que vous pensez obtenir. L'utilisation de procédures de sélection de variables basées sur des valeurs p par étapes et une analyse basée sur des quantiles purement définis numériquement sont deux que je connais le mieux, mais je suis sûr que vous pouvez en trouver beaucoup d'autres.

Même si tout cela était encore en quelque sorte automatisé, il reste à interpréter les résultats. Le travail du statisticien (ou du scientifique statistiquement incliné) ne se fait pas lorsque vous obtenez un coefficient de régression ou une valeur p. Qu'est-ce que cela signifie ? Quelles sont les mises en garde? Qu'est-ce que cela représente dans le contexte de ce qui a précédé?

Enfin, vous avez le développement de nouvelles méthodes. Les statistiques ne sont pas simplement quelque chose qui a été présenté il y a longtemps par des personnes dont nous reconnaissons les noms - Fisher, Cox, etc. C'est un domaine en évolution et vous ne pouvez pas programmer une nouvelle méthode dans un ordinateur tant qu'une personne n'a pas développé la méthode elle-même.

Fomite
la source
2
(+1) parce que "l'analyse en conserve exécutée à partir d'un algorithme ne vous donnera souvent pas la meilleure réponse" est très vrai. Cela ne signifie pas que les praticiens humains de la statistique ne le font pas tout le temps. (Remarque: la plupart des praticiens de la statistique ne sont PAS des statisticiens ... plus comme des gens qui utilisent des statistiques bien qu'ils ne sachent pas vraiment ce qu'ils font, ce qui entraîne souvent une mauvaise science)
Macro
10

Une autre façon d'interpréter cette question pourrait être: "l'augmentation rapide des techniques statistiques automatisées au cours des dernières années a-t-elle correspondu à une baisse de la demande d'emplois pour les statisticiens et les analystes de données dédiés?"

Nous pouvons répondre à cette question en regardant les données marché du travail pour les postes d'analyse de données
entrez la description de l'image ici

Données gracieuseté de Indeed.com & Revolutions Blog

cboettig
la source
+1 Même Indeed.com n'a pas rendu @cboettig obsolète.
Thomas Levine
4
Je ne suis pas convaincu que "la demande d'emplois pour des statisticiens et des analystes de données dédiés" soit fortement corrélée à l'utilisation des mots clés "data scientist" ou "big data" dans les offres d'emploi. <- se méfier des hypothèses est ce que l'humain apporte à la table ;-)
Darren Cook
@DarrenCook bien dit!
cboettig
7

Je ne suis pas entièrement d'accord avec la prémisse de la question, c'est-à-dire que je pense qu'il n'y a aucun moyen par lequel les ordinateurs pourraient jamais espérer remplacer les statisticiens, mais pour donner un exemple concret de la raison pour laquelle je pense que:

Le travail que les statisticiens font avec les scientifiques, en particulier dans la conception et l'interprétation des expériences, nécessite non seulement un esprit humain, mais même un penchant philosophique qu'il est inconcevable que les ordinateurs puissent jamais montrer.

À moins que nous ne nous retrouvions dans une sorte de situation de type Skynet, bien sûr, auquel cas je pense que tous les paris sont probablement désactivés en ce qui concerne l'avenir de toute l'humanité, sans parler des statisticiens, :-)

Chris Beeley
la source
1
Sauf que j'ai des suzerains félins à obéir. :)
Michelle
5

La question suggère une vision naïve d'un statisticien - qu'il s'agit de vérifier si ap <0,05 et de rapporter des nombres et des graphiques standard. Si c'est ce que vous entendez par statisticien, vous avez raison dans votre implication qu'une grande partie pourrait être entièrement automatisée. Mais ce n'est pas ce que veut dire un statisticien.

Cependant, définissez votre terme statisticien et vous obtiendrez peut-être de meilleures réponses.

John
la source
3

Charger un package de statistiques sur votre ordinateur ne fait pas non plus de vous un statisticien, car acheter une voiture vous permet de conduire.

Même si le statisticien applique simplement des routines «en conserve», il y a beaucoup de questions.

  1. Quelle routine? Quelle routine répondra aux questions du client?
  2. Avec quelles variables? et devraient-ils être transformés? Faut-il combiner certains niveaux? Lequel devrait être forcé dans un modèle?
  3. Avec quelles données? Les valeurs aberrantes devraient-elles être supprimées? Coupé? Peut-être une méthode robuste?

etc.

Mais le travail commence bien avant la mise sous tension de l'ordinateur et se termine longtemps après la désactivation du progiciel statistique.

Avant: que veut faire le client? C'est souvent beaucoup de travail! De quelles données dispose le client? Oy vey! Les variables sont étiquetées V1 à V828171 Quelles sont lesquelles? Quel est l'état de la littérature? Qu'attend le client? À quel point cela devrait-il être technique?

Après: que signifient les résultats ? (et pas seulement "cela signifie que la régression est significative") Comment expliquer les résultats au client? Quelles autres questions les résultats soulèvent-ils?

Je pense que cela prendra beaucoup de temps avant que les ordinateurs ne puissent le faire.

Peter Flom - Réintégrer Monica
la source
1
Pour que vous puissiez répondre aux questions énumérées en (1), (2) et (3), vous passez par un processus logique. Théoriquement, ce processus logique pourrait être codé dans un programme informatique. Si l'ordinateur avait un processeur de langage naturel parfait et que le logiciel contenait tous les logiciels "en conserve", et avait la logique mentionnée ci-dessus programmée, il serait capable de faire ces choses. Ou, dites-vous, ce n'est pas exactement un processus logique?
Macro
4
Pour moi, l'analogie est un peu plus proche de "l'achat d'une voiture ne fait pas de vous un mécanicien ou un concepteur automobile".
Cardinal
1
@Macro Parce que son processus logique ne signifie pas nécessairement qu'il peut être programmé dans un ordinateur. «Si certains niveaux doivent être combinés» n'est pas toujours une mesure numérique - il faut déterminer si ces niveaux combinés ont un sens dans le contexte de la variable elle-même, par exemple.
Fomite
1
Décider si cela a du sens dans le contexte de la demande n'est pas non plus une question pour un statisticien - c'est une question pour un expert quelle que soit l'application. Un statisticien peut vous dire s'il est justifié de combiner des niveaux selon qu'ils apparaissent ou non homogènes, ce qui pourrait certainement être enseigné à un ordinateur.
Macro
4
Je ne peux pas empêcher de souligner que Google a fait de grands progrès dans le sens où l' achat d' une voiture va vous faire capable de conduire - il le fera automatiquement!
whuber
2

Les études universitaires qui examinent la probabilité d'automatisation de différentes professions ou tâches ne pensent pas que les statisticiens seront bientôt remplacés par les ordinateurs. Voir par exemple l' étude controversée Frey & Osborne (2013) qui classe les professions en fonction de leur probabilité d'informatisation, les statisticiens sont classés en bas 213 sur 702 avec une probabilité de 22% (voir tableau en annexe). Si vous êtes intéressé, consultez également l' article Slate ici .

Arntz et al. (2016) ( ici un article de The Economist) se penchent sur les tâches plutôt que sur les professions pour l'Union européenne et arrivent à une conclusion similaire: Faire des "mathématiques ou des statistiques complexes" est statistiquement significativement négativement lié à l'automatisation du travail (voir tableau 3).

Mais une certaine prudence est de mise, les universitaires et / ou les économistes n'ont pas toujours été très bons pour prédire l'avenir (le lauréat du prix Nobel, Robert Lucas par exemple, a conclu en 2003, quelques années avant les crises financières, que le "problème central de la prévention de la dépression a été résolu, à toutes fins pratiques, et a en fait été résolu depuis de nombreuses décennies. " ). Les deux études semblent être des documents de travail, qui sont largement discutés mais n'ont pas été publiés dans des revues à comité de lecture standard.

En ce qui concerne le débat académique, ici vous pouvez trouver un article aperçu de l'état de la recherche sur l' automatisation.

Arne
la source
0

Je pense que l'IA ne fera que rendre les statisticiens plus intelligents et plus compétitifs. Pourquoi? Parce que telle est l'intention de l'intelligence artificielle depuis leur conception il y a plusieurs décennies ...

user22478
la source