Pointe et dalle bayésienne versus méthodes pénalisées

11

Je lis les diapositives de Steven Scott sur le package BSTS R (vous pouvez les trouver ici: diapositives ).

À un moment donné, lorsqu'il parle d'inclure de nombreux régresseurs dans le modèle de série chronologique structurelle, il présente les a priori de pointe et de dalle des coefficients de régression et dit qu'ils sont meilleurs par rapport aux méthodes pénalisées.

Scott dit, se référant à un exemple d'un ensemble de données avec 100 prédicteurs:

  • Les méthodes pénalisées prennent une seule décision sur les variables qui sont incluses / exclues, ce qui signifie qu'elles décident d'un sous-ensemble de prédicteurs, c'est-à-dire d'un modèle parmi les possibles.2100
  • "Les priors lasso (et apparentés) ne sont pas clairsemés, ils induisent une rareté au niveau du mode mais pas dans la distribution postérieure"

À ce stade, il présente les prieurs Spike et Slab.

Je pense avoir compris l'intuition, mais je veux en être sûr:

  • Sont-ils meilleurs dans le sens où ils utilisent essentiellement une approche par force brute pour tester chaque sous-ensemble possible de régresseurs à inclure?
  • L'inconvénient est-il le temps de calcul pour ce faire?
  • Que pensez-vous qu'il veut dire en disant "Lasso (et apparentés) ... mais pas dans la distribution postérieure"?
Tommaso Guerrini
la source

Réponses:

10

Je vais d'abord répondre à votre troisième question et répondre aux deux autres plus tard.

  1. Que pensez-vous qu'il veut dire en disant "Lasso (et apparentés) ... mais pas dans la distribution postérieure"?

Cette figure de ses diapositives montre ce qu'il veut dire. Exprimer le régularisateur de lasso comme une distribution antérieure signifie que votre distribution antérieure prendra la forme d'une distribution laplacienne ou à double exponentielle . Cette distribution a un pic caractéristique non lisse à la moyenne, qui est fixé à 0 pour obtenir un effet de régularisation clairsemé. Pour obtenir directement un résultat régularisé au lasso, vous devez prendre le mode de votre distribution postérieure.

tester

Sur la figure, la ligne pointillée bleue représente la distribution a priori laplacienne. La distribution postérieure, en noir uni, a son mode à 0 avec une faible probabilité à gauche, tandis que le mode est non nul à droite avec une forte probabilité.

Cependant, la distribution postérieure complète n'est pas rare, car si vous en échantillonnez, vous n'obtiendrez que rarement une valeur proche de 0, et en fait parce que c'est une distribution continue, vous n'obtiendrez jamais précisément 0.

Afin d'obtenir une clarté avec une approche au lasso, vous devez généralement définir un seuil de coupure sur le mode postérieur. Le cas idéal est si votre mode postérieur est égal à 0, mais vous pouvez relâcher cela et éliminer votre variable si son mode postérieur est inférieur à 0,2 après avoir pris la valeur absolue.

La réalisation de cette sparsification sous lasso donne un ensemble particulier de régresseurs éliminés et conservés, qui est la "décision unique" sur les régresseurs qui sont inclus ou exclus.

Une approche entièrement bayésienne de la sélection des variables, la pointe et la dalle antérieures, conserve une incertitude quant aux variables qui devraient être incluses ou exclues tout au long du modèle.

Donc, pour répondre à votre première question:

  1. Sont-ils meilleurs dans le sens où ils utilisent essentiellement une approche par force brute pour tester chaque sous-ensemble possible de régresseurs à inclure?

Il s'agit d'un malentendu, car aucune des méthodes ne teste tous les sous-ensembles possibles de régresseurs à inclure.

  1. L'inconvénient est-il le temps de calcul pour ce faire?

C'est également un malentendu, car le temps de calcul n'est pas dominé par les tests de force brute de chaque sous-ensemble possible de régresseurs.

Pour clarifier le point de Scott, compte tenu de certaines données, si vous utilisez une approche de sparsification de probabilité pénalisée, vous obtiendrez exactement un ensemble de régresseurs inclus et exclus. Mais si vous utilisez une approche de sparsification des pointes et des dalles, vous avez une distribution postérieure complète pour chaque régresseur, chacun avec une probabilité distincte d'être incluse ou exclue. Certains régresseurs pourraient avoir 70% de chances d'être inclus, d'autres 25%. Cela peut être préférable dans de nombreuses applications, car étant donné un seul ensemble de données, nous devrions encore avoir une incertitude sur les régresseurs importants ou non.

Intuitivement, un pic et une dalle antérieurs représentent mieux l'espace possible des régresseurs inclus / exclus par rapport à une approche de vraisemblance pénalisée comme le lasso.

esthète
la source
2
Merci beaucoup! Ma compréhension des diapositives de Scott était si superficielle et partiellement fausse, vous l'avez dit clairement!
Tommaso Guerrini