Pourquoi les statistiques bayésiennes ne sont-elles pas plus populaires pour le contrôle statistique des processus?

18

Ma compréhension du débat bayésien vs fréquentiste est que les statistiques fréquentistes:

  • est (ou prétend être) objectif
  • ou du moins impartial
  • donc différents chercheurs, en utilisant des hypothèses différentes, peuvent toujours obtenir des résultats quantitativement comparables

tandis que les statistiques bayésiennes

  • prétend faire de "meilleures" prévisions (c.-à-d. une perte attendue plus faible), car il peut utiliser les connaissances antérieures (entre autres raisons)
  • nécessite moins de choix «ad hoc», en les remplaçant par des choix antérieurs / modèles qui (au moins en principe) ont une interprétation du monde réel.

Compte tenu de cela, je m'attendais à ce que les statistiques bayésiennes soient très populaires dans SPC: si j'étais propriétaire d'une usine essayant de contrôler la qualité de mon processus, je me soucierais principalement de la perte attendue; Si je pouvais réduire cela, parce que j'ai une connaissance préalable plus / meilleure que mes concurrents, encore mieux.

Mais pratiquement tout ce que j'ai lu sur la CPS semble être fermement fréquentiste (c.-à-d. Pas de distributions antérieures, estimations ponctuelles de tous les paramètres, de nombreux choix ad hoc sur la taille de l'échantillon, les valeurs de p, etc.)

Pourquoi donc? Je peux voir pourquoi les statistiques fréquentistes étaient un meilleur choix dans les années 1960, lorsque la CPS était réalisée à l'aide d'un stylo et du papier. Mais pourquoi personne n'a-t-il essayé différentes méthodes depuis lors?

nikie
la source
2
Je pense que les statistiques bayésiennes sont mon appareil photo numérique SLP tout en étant fréquentiste comme appareil photo iPhone. Je les ai achetés tous les deux mais j'utilise un reflex numérique moins 5% des photos tandis que le téléphone reste à 95%. Parce qu'il est facile, maniable et dans la poche et fournit souvent selon la qualité (basé sur mes compétences DSLR). Tout comme l'incorporation des priors et des chaînes de course dans les foins, j'ai besoin de trouver un équilibre optimal entre la durée d'ouverture de l'ouverture, la longueur et d'autres paramètres. Fin iPhone populaire.
Ram Sharma
@RamSharma, vous devriez poster cela comme réponse! Je l'aime mieux que mon analogie avec le couteau de chef.
shadowtalker

Réponses:

18

AVERTISSEMENT J'ai écrit cette réponse il y a longtemps avec très peu d'idée de quoi je parlais. Je ne peux pas le supprimer car il a été accepté, mais je ne peux pas supporter la plupart du contenu.


C'est une réponse très longue et j'espère que cela vous sera utile d'une manière ou d'une autre. La CPS n'est pas mon domaine, mais je pense que ces commentaires sont suffisamment généraux pour s'appliquer ici.

Je dirais que l'avantage le plus souvent cité - la capacité d'incorporer des croyances antérieures - est un faible avantage appliqué / empirique. C'est parce que vous devez quantifier vos antérieurs. Même si je peux dire «eh bien, le niveau z est définitivement invraisemblable», je ne peux pas pour la vie de moi vous dire ce qui devrait se passer en dessous de z. À moins que les auteurs commencent à publier leurs données brutes en masse, mes meilleures suppositions pour les prieurs sont des moments conditionnels tirés de travaux précédents qui peuvent ou non avoir été ajustés dans des conditions similaires à celles auxquelles vous êtes confronté.

Fondamentalement, les techniques bayésiennes (au moins sur le plan conceptuel) sont excellentes lorsque vous avez une hypothèse / idée / modèle solide et que vous souhaitez les appliquer aux données, puis voyez à quel point vous vous trompez ou non. Mais souvent, vous ne cherchez pas à savoir si vous avez raison sur un modèle particulier pour votre processus métier; plus probablement vous n'avez pasmodèle, et cherchent à voir ce que votre processus va faire. Vous ne voulez pas pousser vos conclusions, vous voulez que vos données poussent vos conclusions. Si vous avez suffisamment de données, c'est ce qui se passera de toute façon, mais dans ce cas, pourquoi s'embêter avec le précédent? C'est peut-être trop sceptique et peu enclin à prendre des risques, mais je n'ai jamais entendu parler d'un homme d'affaires optimiste qui a également réussi. Il n'y a aucun moyen de quantifier votre incertitude sur vos propres croyances, et vous préférez ne pas courir le risque d'être trop confiant dans la mauvaise chose. Vous définissez donc une priorité non informative et l'avantage disparaît.

C'est intéressant dans le cas du SPC, car contrairement au marketing numérique, par exemple, vos processus métier ne sont pas toujours dans un état de flux imprévisible. Mon impression est que les processus métier ont tendance à changer délibérément et progressivement. Autrement dit, vous avez beaucoup de temps pour construire de bons prieurs sûrs. Mais rappelez-vous que les priorités consistent à propager l'incertitude. Mis à part la subjectivité, le bayésianisme a l'avantage de propager objectivement l' incertitude à travers des processus de génération de données profondément imbriqués. Pour moi, c'est vraiment à cela que servent les statistiques bayésiennes. Et si vous recherchez la fiabilité de votre processus bien au-delà du seuil de «signification» de 1 sur 20, il semble que vous souhaitiez tenir compte du plus d'incertitude possible.

Où sont donc les modèles bayésiens? Tout d'abord, ils sont difficiles à mettre en œuvre. Pour le dire franchement, je peux enseigner l'OLS à un ingénieur en mécanique en 15 minutes et lui faire lancer des régressions et des tests t dans Matlab dans un autre 5. Pour utiliser Bayes, je dois d'abord décider quel type de modèle je suis en train de monter, puis voyez s'il existe une bibliothèque prête à l'emploi dans une langue que quelqu'un de mon entreprise connaît. Sinon, je dois utiliser BUGS ou Stan. Et puis je dois exécuter des simulations pour obtenir même une réponse de base, et cela prend environ 15 minutes sur une machine i7 à 8 cœurs. Voilà pour le prototypage rapide. Et deuxièmement, au moment où vous obtenez une réponse, vous avez passé deux heures à coder et à attendre, seulement pour obtenir le même résultat que vous pourriez avoir avec des effets aléatoires fréquentistes avec des erreurs standard groupées. Peut-être que tout cela est présomptueux et erroné et je ne comprends pas du tout la CPS.

Je compare le bayésianisme à un couteau de chef de très haute qualité, une marmite et une sauteuse ; le fréquentisme est comme une cuisine pleine d' outils comme à la télé comme des trancheuses à banane et des pots de pâtes avec des trous dans le couvercle pour un égouttage facile . Si vous êtes un cuisinier expérimenté avec beaucoup d'expérience dans la cuisine - en effet, dans votre propre cuisine de connaissances substantielles, propre et organisée et vous savez où tout se trouve - vous pouvez faire des choses incroyables avec votre petite sélection de outils élégants et de haute qualité. Ou, vous pouvez utiliser un tas de différents petits outils ad-hoc *, qui nécessitent aucune compétence à utiliser, pour faire un repas simple, vraiment pas à moitié mauvais, et qui a quelques saveurs de base qui font passer le message. Vous venez de rentrer des mines de données et vous avez faim de résultats; quel cuisinier êtes-vous?

* Bayes est tout aussi ponctuel, mais moins transparent . Combien de vin contient votre coq au vin? Aucune idée, vous le regardez parce que vous êtes un pro. Ou, vous ne pouvez pas faire la différence entre un Pinot Grigio et un Pinot Noir, mais la première recette sur Epicurious a dit d'utiliser 2 tasses de la rouge, c'est donc ce que vous allez faire. Lequel est le plus «ad hoc»?

shadowtalker
la source
1
+1, excellente réponse. Je suis curieux: pourriez-vous ajouter un paragraphe sur les échantillons de petite taille / adaptatifs? En SPC, des tailles d'échantillons de 3 à 5 semblent être courantes. Et si le logiciel SPC pouvait dire au technicien après 2 échantillons s'il avait vraiment besoin de 3 échantillons supplémentaires ou non, ce serait une excellente fonctionnalité. Avec un modèle bayésien, c'est presque une évidence: définissez un coût pour les mesures, les faux positifs et les négatives, puis estimez le coût attendu d'une autre mesure par rapport à l'arrêt. Dans les statistiques fréquentistes, vous auriez à gérer des effets de règle d'arrêt étranges (pouvez-vous les enseigner à un ME en 15 minutes?)
nikie
1
En ce qui concerne la taille de l'échantillon, le problème, et je l'aurais mentionné si j'avais su que les échantillons étaient si petits, c'est qu'avec très peu d'observations, vos estimations seront très sensibles à votre choix préalable. Vous ne pouvez pas obtenir le sang d'une pierre, c'est donc un compromis: soit vous suréquipez grossièrement d'un estimateur fréquentiste, mais faites-le avec peu d'hypothèses, soit vous incorporez vos propres connaissances (ou leur absence) dans un a priori suffisamment vague et correspondent essentiellement aux données que vous avez devant vous et aux "données" que vous avez dans votre tête. Vous êtes autorisé à avoir un uniforme avant dans votre tête.
shadowtalker
1
Fondamentalement, Bayes met plus de fardeau sur l'analyste pour utiliser son cerveau au départ. Personnellement, je pense qu'être opposé à l'idée de définir des prieurs est un signe que vous a) êtes trop paresseux ou b) ne comprenez pas vraiment comment les statistiques fonctionnent (il faut en connaître un, etc.). J'ai dit qu'il était difficile de quantifier les priorités dans ma réponse; En fait, je ne suis pas d'accord avec cela dans la pratique. Une chose que vous pouvez toujours faire est de dessiner une courbe en cloche sur une page et de vous demander "est-ce que je m'attendrais à ce que mes données ressemblent à ça?" Sinon, commencez à peaufiner la courbe. Et si vous ne pouvez pas décider où coller le mode, utilisez un hyperprior.
shadowtalker
2
Une question (pas censée être grossière): vous savez qu'il existe une littérature sur la sollicitation (quantitative) de croyances antérieures, non? Y compris les croyances publiées, les croyances expertes et non expertes interrogées et les croyances en soi. La raison pour laquelle je demande, c'est que j'ai déjà entendu cette plainte, mais les auteurs de ces plaintes pensaient que leur objection était la fin de la discussion, plutôt que le début d'une enquête.
Alexis
1
@CliffAB Intéressant ... Je n'ai pas lu cette littérature en profondeur (Bernardo, Kaas, Garthwaite ... depuis plusieurs décennies) ... mais c'est une science chargée de valeurs pour vous: différentes croyances antérieures indiquent si l'on préfère les méthodes fréquentistes ou bayésiennes. ;)
Alexis
5

À mon humble avis, les statistiques bayésiennes souffrent de certains inconvénients qui entrent en conflit avec leur utilisation répandue (en CPS mais également dans d'autres secteurs de recherche):

  1. Il est plus difficile d'obtenir des estimations par rapport à son homologue fréquentiste (la plus grande partie des cours de statistiques adoptent l'approche fréquentiste. Soit dit en passant, il serait intéressant de rechercher si c'est la cause ou l'effet de la popularité limitée des statistiques bayésiennes. ).

  2. Très souvent, les statistiques bayésiennes imposent des choix sur différentes manières de traiter le même problème (par exemple, quel est le meilleur avant?), Pas seulement le click-and-see (de toute façon, cette approche ne devrait pas non plus être encouragée dans le cadre fréquentiste).

  3. Les statistiques bayésiennes ont certains sujets qui sont difficiles à gérer par des statisticiens moins expérimentés (par exemple, des prieurs incorrects );

  4. Cela nécessite des analyses de sensibilité (généralement évitées dans le cadre fréquentiste), et des exceptions sont faites pour certains sujets, comme l'analyse des données manquantes.

  5. Il ne dispose que d'un seul logiciel (louable et téléchargeable gratuitement) pour le calcul.

  6. Il faut plus de temps pour être un chercheur autonome avec bayésien qu'avec des outils fréquentistes.

Carlo Lazzaro
la source
6
Bonne réponse mais je ne suis pas d'accord avec le point 5: je peux penser à de nombreux logiciels différents (gratuits) pour l'analyse bayésienne: WinBUGS, OpenBUGS, JAGS, Stan, PyMC ... et je suis sûr qu'il y en a plus. Ce que je dirais, c'est que tous ces logiciels ont une courbe d'apprentissage abrupte et nécessitent une quantité décente de connaissances en programmation et en statistiques.
COOLSerdash
COOLSerdash a raison et j'accueille favorablement les éclaircissements et les commentaires. Mon manque d'exhaustivité dans la liste des logiciels d'analyse bayésienne était probablement dû à ma familiarité (lâche) avec WinBugs uniquement.
Carlo Lazzaro
@CarloLazzaro Je suis également d'accord avec le point de COOLSerdash sur le point 5: à partir de la version 14, le package de statistiques privé sous licence mais classique Stata incorpore désormais des modèles bayésiens et une estimation dans le package vanilla. Je pense que la disponibilité informatique bayésienne ne fera qu'augmenter. Mais vos autres points sont importants et devraient contribuer à informer l'agenda des partisans bayésiens.
Alexis
@Alexis: étant un utilisateur de Stata, je suis satisfait de sa saveur bayésienne assez récente. De manière plus générale, je serais garant de l'apprentissage des approches fréquentistes et bayésiennes pendant les cours de statistique à l'université (les vraisemblables commencent probablement à grogner !!).
Carlo Lazzaro
3

L'une des raisons est que les statistiques bayésiennes ont été gelées hors du courant dominant jusqu'en 1990 environ. Lorsque j'étudiais les statistiques dans les années 1970, c'était presque une hérésie (pas partout, mais dans la plupart des programmes d'études supérieures). Cela n'aidait pas que la plupart des problèmes intéressants soient insolubles. En conséquence, presque tous ceux qui enseignent les statistiques aujourd'hui (et examinent des articles pour des revues et conçoivent des programmes) sont formés comme fréquentistes. Les choses ont commencé à changer vers 1990 avec la vulgarisation des méthodes Markov Chain Monte Carlo (MCMC) qui trouvent progressivement leur place dans des packages tels que SAS et Stata. Personnellement, je pense qu'ils seront beaucoup plus courants dans 10 ans, mais dans les applications spécialisées (SPC), ils peuvent ne pas avoir beaucoup d'avantages.

Un groupe qui se réveille rend l'analyse bayésienne plus largement disponible est le groupe qui développe le package STAN (mc-stan.org).

equinn1
la source
Bienvenue sur notre site! Juste une note que c'est "Stata" plutôt que "STATA" - J'ai été du mauvais côté des utilisateurs de Stata quand je l'ai capitalisé moi-même! (Je pensais que c'était comme SAS, SPSS, etc., mais apparemment pas ...)
Silverfish