Il y a tellement de techniques de régularisation qu'il n'est pas pratique d'essayer toutes les combinaisons:
- l1 / l2
- norme max
- abandonner
- arrêt précoce
- ...
Il semble que la plupart des gens soient satisfaits d'une combinaison d'abandon + d'arrêt précoce: y a-t-il des cas où l'utilisation d'autres techniques a du sens?
Par exemple, si vous voulez un modèle clairsemé, vous pouvez ajouter un peu de régularisation l1. En dehors de cela, existe-t-il des arguments solides en faveur de l'aspersion dans d'autres techniques de régularisation?
Je connais le théorème du déjeuner gratuit, en théorie, je devrais essayer toutes les combinaisons de techniques de régularisation, mais cela ne vaut pas la peine d'essayer s'il ne donne presque jamais une amélioration significative des performances.
la source