Ma compréhension du débat bayésien vs fréquentiste est que les statistiques fréquentistes:
- est (ou prétend être) objectif
- ou du moins impartial
- donc différents chercheurs, en utilisant des hypothèses différentes, peuvent toujours obtenir des résultats quantitativement comparables
tandis que les statistiques bayésiennes
- prétend faire de "meilleures" prévisions (c.-à-d. une perte attendue plus faible), car il peut utiliser les connaissances antérieures (entre autres raisons)
- nécessite moins de choix «ad hoc», en les remplaçant par des choix antérieurs / modèles qui (au moins en principe) ont une interprétation du monde réel.
Compte tenu de cela, je m'attendais à ce que les statistiques bayésiennes soient très populaires dans SPC: si j'étais propriétaire d'une usine essayant de contrôler la qualité de mon processus, je me soucierais principalement de la perte attendue; Si je pouvais réduire cela, parce que j'ai une connaissance préalable plus / meilleure que mes concurrents, encore mieux.
Mais pratiquement tout ce que j'ai lu sur la CPS semble être fermement fréquentiste (c.-à-d. Pas de distributions antérieures, estimations ponctuelles de tous les paramètres, de nombreux choix ad hoc sur la taille de l'échantillon, les valeurs de p, etc.)
Pourquoi donc? Je peux voir pourquoi les statistiques fréquentistes étaient un meilleur choix dans les années 1960, lorsque la CPS était réalisée à l'aide d'un stylo et du papier. Mais pourquoi personne n'a-t-il essayé différentes méthodes depuis lors?
la source
Réponses:
AVERTISSEMENT J'ai écrit cette réponse il y a longtemps avec très peu d'idée de quoi je parlais. Je ne peux pas le supprimer car il a été accepté, mais je ne peux pas supporter la plupart du contenu.
C'est une réponse très longue et j'espère que cela vous sera utile d'une manière ou d'une autre. La CPS n'est pas mon domaine, mais je pense que ces commentaires sont suffisamment généraux pour s'appliquer ici.
Je dirais que l'avantage le plus souvent cité - la capacité d'incorporer des croyances antérieures - est un faible avantage appliqué / empirique. C'est parce que vous devez quantifier vos antérieurs. Même si je peux dire «eh bien, le niveau z est définitivement invraisemblable», je ne peux pas pour la vie de moi vous dire ce qui devrait se passer en dessous de z. À moins que les auteurs commencent à publier leurs données brutes en masse, mes meilleures suppositions pour les prieurs sont des moments conditionnels tirés de travaux précédents qui peuvent ou non avoir été ajustés dans des conditions similaires à celles auxquelles vous êtes confronté.
Fondamentalement, les techniques bayésiennes (au moins sur le plan conceptuel) sont excellentes lorsque vous avez une hypothèse / idée / modèle solide et que vous souhaitez les appliquer aux données, puis voyez à quel point vous vous trompez ou non. Mais souvent, vous ne cherchez pas à savoir si vous avez raison sur un modèle particulier pour votre processus métier; plus probablement vous n'avez pasmodèle, et cherchent à voir ce que votre processus va faire. Vous ne voulez pas pousser vos conclusions, vous voulez que vos données poussent vos conclusions. Si vous avez suffisamment de données, c'est ce qui se passera de toute façon, mais dans ce cas, pourquoi s'embêter avec le précédent? C'est peut-être trop sceptique et peu enclin à prendre des risques, mais je n'ai jamais entendu parler d'un homme d'affaires optimiste qui a également réussi. Il n'y a aucun moyen de quantifier votre incertitude sur vos propres croyances, et vous préférez ne pas courir le risque d'être trop confiant dans la mauvaise chose. Vous définissez donc une priorité non informative et l'avantage disparaît.
C'est intéressant dans le cas du SPC, car contrairement au marketing numérique, par exemple, vos processus métier ne sont pas toujours dans un état de flux imprévisible. Mon impression est que les processus métier ont tendance à changer délibérément et progressivement. Autrement dit, vous avez beaucoup de temps pour construire de bons prieurs sûrs. Mais rappelez-vous que les priorités consistent à propager l'incertitude. Mis à part la subjectivité, le bayésianisme a l'avantage de propager objectivement l' incertitude à travers des processus de génération de données profondément imbriqués. Pour moi, c'est vraiment à cela que servent les statistiques bayésiennes. Et si vous recherchez la fiabilité de votre processus bien au-delà du seuil de «signification» de 1 sur 20, il semble que vous souhaitiez tenir compte du plus d'incertitude possible.
Où sont donc les modèles bayésiens? Tout d'abord, ils sont difficiles à mettre en œuvre. Pour le dire franchement, je peux enseigner l'OLS à un ingénieur en mécanique en 15 minutes et lui faire lancer des régressions et des tests t dans Matlab dans un autre 5. Pour utiliser Bayes, je dois d'abord décider quel type de modèle je suis en train de monter, puis voyez s'il existe une bibliothèque prête à l'emploi dans une langue que quelqu'un de mon entreprise connaît. Sinon, je dois utiliser BUGS ou Stan. Et puis je dois exécuter des simulations pour obtenir même une réponse de base, et cela prend environ 15 minutes sur une machine i7 à 8 cœurs. Voilà pour le prototypage rapide. Et deuxièmement, au moment où vous obtenez une réponse, vous avez passé deux heures à coder et à attendre, seulement pour obtenir le même résultat que vous pourriez avoir avec des effets aléatoires fréquentistes avec des erreurs standard groupées. Peut-être que tout cela est présomptueux et erroné et je ne comprends pas du tout la CPS.
Je compare le bayésianisme à un couteau de chef de très haute qualité, une marmite et une sauteuse ; le fréquentisme est comme une cuisine pleine d' outils comme à la télé comme des trancheuses à banane et des pots de pâtes avec des trous dans le couvercle pour un égouttage facile . Si vous êtes un cuisinier expérimenté avec beaucoup d'expérience dans la cuisine - en effet, dans votre propre cuisine de connaissances substantielles, propre et organisée et vous savez où tout se trouve - vous pouvez faire des choses incroyables avec votre petite sélection de outils élégants et de haute qualité. Ou, vous pouvez utiliser un tas de différents petits outils ad-hoc *, qui nécessitent aucune compétence à utiliser, pour faire un repas simple, vraiment pas à moitié mauvais, et qui a quelques saveurs de base qui font passer le message. Vous venez de rentrer des mines de données et vous avez faim de résultats; quel cuisinier êtes-vous?
* Bayes est tout aussi ponctuel, mais moins transparent . Combien de vin contient votre coq au vin? Aucune idée, vous le regardez parce que vous êtes un pro. Ou, vous ne pouvez pas faire la différence entre un Pinot Grigio et un Pinot Noir, mais la première recette sur Epicurious a dit d'utiliser 2 tasses de la rouge, c'est donc ce que vous allez faire. Lequel est le plus «ad hoc»?
la source
À mon humble avis, les statistiques bayésiennes souffrent de certains inconvénients qui entrent en conflit avec leur utilisation répandue (en CPS mais également dans d'autres secteurs de recherche):
Il est plus difficile d'obtenir des estimations par rapport à son homologue fréquentiste (la plus grande partie des cours de statistiques adoptent l'approche fréquentiste. Soit dit en passant, il serait intéressant de rechercher si c'est la cause ou l'effet de la popularité limitée des statistiques bayésiennes. ).
Très souvent, les statistiques bayésiennes imposent des choix sur différentes manières de traiter le même problème (par exemple, quel est le meilleur avant?), Pas seulement le click-and-see (de toute façon, cette approche ne devrait pas non plus être encouragée dans le cadre fréquentiste).
Les statistiques bayésiennes ont certains sujets qui sont difficiles à gérer par des statisticiens moins expérimentés (par exemple, des prieurs incorrects );
Cela nécessite des analyses de sensibilité (généralement évitées dans le cadre fréquentiste), et des exceptions sont faites pour certains sujets, comme l'analyse des données manquantes.
Il ne dispose que d'un seul logiciel (louable et téléchargeable gratuitement) pour le calcul.
Il faut plus de temps pour être un chercheur autonome avec bayésien qu'avec des outils fréquentistes.
la source
L'une des raisons est que les statistiques bayésiennes ont été gelées hors du courant dominant jusqu'en 1990 environ. Lorsque j'étudiais les statistiques dans les années 1970, c'était presque une hérésie (pas partout, mais dans la plupart des programmes d'études supérieures). Cela n'aidait pas que la plupart des problèmes intéressants soient insolubles. En conséquence, presque tous ceux qui enseignent les statistiques aujourd'hui (et examinent des articles pour des revues et conçoivent des programmes) sont formés comme fréquentistes. Les choses ont commencé à changer vers 1990 avec la vulgarisation des méthodes Markov Chain Monte Carlo (MCMC) qui trouvent progressivement leur place dans des packages tels que SAS et Stata. Personnellement, je pense qu'ils seront beaucoup plus courants dans 10 ans, mais dans les applications spécialisées (SPC), ils peuvent ne pas avoir beaucoup d'avantages.
Un groupe qui se réveille rend l'analyse bayésienne plus largement disponible est le groupe qui développe le package STAN (mc-stan.org).
la source