Pourquoi utiliser bayesglm?

8

Ma question générale est: pourquoi utiliser à la bayesglmplace d'autres méthodes de classification?

Remarque:

  1. Je ne m'intéresse qu'à la prédiction.
  2. J'ai une quantité décente de données (~ 100 000 obs.).

J'ai l'impression que la taille de l'échantillon est suffisamment grande pour que les paramètres d'une régression logistique régulière soient distribués normalement (CLT). Que gagnerais-je à spécifier des prieurs? Mon intuition est que cela n'aura d'importance que pour un petit ensemble de données, mais je n'ai aucune preuve théorique ou appliquée.

wcampbell
la source
4
Votre intuition sur la relation entre la taille de l'échantillon et les antérieurs est correcte. D'autre part, la régression logistique bayésienne peut résoudre le problème des estimations de paramètres infinies résultant d'une séparation parfaite.
Sycorax dit Réintégrer Monica
1
La régression logistique n'est pas un algorithme de classification. Il s'agit d'un algorithme de prédiction de probabilité.
Brash Equilibrium
1
Ce que Sycorax mentionne est l'une des raisons les plus importantes pour lesquelles vous voudriez utiliser un modèle bayésien dans un environnement à large échantillon. Si votre régression logistique comporte de nombreux prédicteurs, en particulier des prédicteurs à faible variance, pensez à avoir des antérieurs sur les coefficients de régression.
Brash Equilibrium

Réponses:

8

Dans l'ingénierie, ainsi que dans la gestion des risques de la chaîne d'approvisionnement, les «connaissances en ingénierie» - par exemple, une personne instruite est probablement la meilleure que vous ayez. Par exemple, la probabilité qu'un tsunami se produise et perturbe la chaîne d'approvisionnement, sans données supplémentaires, peut être estimée par un expert en la matière (il existe de meilleures méthodes pour construire des prieurs). Au fil du temps, des tsunamis se produisent et, par conséquent, nous gagnons plus de données et pouvons mettre à jour nos priors (connaissances en ingénierie) avec des postérieurs (priors ajustés pour de nouvelles données). À un moment donné, il y aura tellement de données que le prieur initial n'est pas pertinent, et peu importe qui a fait la prédiction, vous aurez des prédictions égales de vraisemblance.

Je pense que si vous avez autant de données, une approche fréquentiste "traditionnelle" est (généralement) préférable à l'approche bayésienne (bien sûr, d'autres seront en désaccord, en particulier avec le choix entre les philosophies statistiques plutôt que de s'en tenir à une et de sélectionner une méthode appropriée ). Notez qu'il est tout à fait possible (et se produit souvent) que l'approche Frequentist donne des résultats similaires / identiques à la Bayésienne.

Cela dit, lorsque la différence de méthodes est une ligne de code, pourquoi ne pas implémenter plusieurs méthodes et comparer les résultats vous-même?

TLJ
la source
Merci! Bonne explication de certains aspects de la pensée bayésienne - pas quelque chose que je connais très bien.
wcampbell