Ma question générale est: pourquoi utiliser à la bayesglm
place d'autres méthodes de classification?
Remarque:
- Je ne m'intéresse qu'à la prédiction.
- J'ai une quantité décente de données (~ 100 000 obs.).
J'ai l'impression que la taille de l'échantillon est suffisamment grande pour que les paramètres d'une régression logistique régulière soient distribués normalement (CLT). Que gagnerais-je à spécifier des prieurs? Mon intuition est que cela n'aura d'importance que pour un petit ensemble de données, mais je n'ai aucune preuve théorique ou appliquée.
bayesian
generalized-linear-model
wcampbell
la source
la source
Réponses:
Dans l'ingénierie, ainsi que dans la gestion des risques de la chaîne d'approvisionnement, les «connaissances en ingénierie» - par exemple, une personne instruite est probablement la meilleure que vous ayez. Par exemple, la probabilité qu'un tsunami se produise et perturbe la chaîne d'approvisionnement, sans données supplémentaires, peut être estimée par un expert en la matière (il existe de meilleures méthodes pour construire des prieurs). Au fil du temps, des tsunamis se produisent et, par conséquent, nous gagnons plus de données et pouvons mettre à jour nos priors (connaissances en ingénierie) avec des postérieurs (priors ajustés pour de nouvelles données). À un moment donné, il y aura tellement de données que le prieur initial n'est pas pertinent, et peu importe qui a fait la prédiction, vous aurez des prédictions égales de vraisemblance.
Je pense que si vous avez autant de données, une approche fréquentiste "traditionnelle" est (généralement) préférable à l'approche bayésienne (bien sûr, d'autres seront en désaccord, en particulier avec le choix entre les philosophies statistiques plutôt que de s'en tenir à une et de sélectionner une méthode appropriée ). Notez qu'il est tout à fait possible (et se produit souvent) que l'approche Frequentist donne des résultats similaires / identiques à la Bayésienne.
Cela dit, lorsque la différence de méthodes est une ligne de code, pourquoi ne pas implémenter plusieurs méthodes et comparer les résultats vous-même?
la source