Pourquoi le critère d'information Akaike n'est-il pas davantage utilisé dans l'apprentissage automatique?

16

Je suis juste tombé sur "critère d'information Akaike", et j'ai remarqué cette grande quantité de littérature sur la sélection des modèles (aussi des choses comme BIC semblent exister).

Pourquoi les méthodes modernes d'apprentissage automatique ne profitent-elles pas de ces critères de sélection des modèles BIC et AIC?

écho
la source
9
parce que personne ne calcule les probabilités?
Aksakal
1
Qu'entendez-vous par «méthodes contemporaines d'apprentissage automatique»? Pour autant que j'utilise AIC et BIC sont fréquemment utilisés.
Ferdi
4
Aussi pourquoi le -1? Rappelez-vous qu'il n'y a pas de questions stupides - chaque question essaie de faire la lumière sur l'univers
faire écho
4
@echo: Je n'ai pas downvote, mais je pense que votre question serait améliorée si vous pouviez approvisionner / soutenir la revendication principale (que les méthodes d'apprentissage automatique tirent parti de ces critères de sélection des modèles BIC et AIC)
user603
2
@Aksakal Merci. Je pense qu'il vaut mieux que des questions construites autour d'une revendication générale puissent alimenter cette revendication. Je veux dire en règle générale.
user603

Réponses:

15

AIC et BIC sont utilisés, par exemple dans la régression pas à pas. Ils font en fait partie d'une classe plus large d '"heuristiques", qui sont également utilisées. Par exemple, le DIC (Deviance Information Criterion) est souvent utilisé dans la sélection du modèle bayésien.

Cependant, ce sont essentiellement des "heuristiques". Bien qu'il puisse être démontré que l'AIC et le BIC convergent de manière asymptotique vers des approches de validation croisée (je pense que l'AIC va vers un CV avec abandon et BIC vers une autre approche, mais je ne suis pas sûr), ils sont connus pour sous-pénaliser et sur-pénaliser respectivement. C'est-à-dire qu'en utilisant AIC, vous obtiendrez souvent un modèle, ce qui est plus compliqué qu'il ne devrait l'être, alors qu'avec BIC, vous obtenez souvent un modèle trop simpliste.

Étant donné que les deux sont liés au CV, le CV est souvent un meilleur choix, qui ne souffre pas de ces problèmes.

Enfin, il y a la question du nombre de paramètres requis pour BIC et AIC. Avec des approximateurs de fonctions générales (par exemple KNN) sur des entrées à valeur réelle, il est possible de "masquer" des paramètres, c'est-à-dire de construire un nombre réel qui contient les mêmes informations que deux nombres réels (pensez par exemple à croiser les chiffres). Dans ce cas, quel est le nombre réel de paramètres? D'un autre côté, avec des modèles plus compliqués, vous pouvez avoir des contraintes sur vos paramètres, disons que vous ne pouvez ajuster que des paramètres tels que θ1>θ2 (voir par exemple ici ). Ou vous pouvez ne pas être identifiable, auquel cas plusieurs valeurs des paramètres donnent en fait le même modèle. Dans tous ces cas, le simple comptage des paramètres ne donne pas une estimation appropriée.

Étant donné que de nombreux algorithmes d'apprentissage automatique contemporains présentent ces propriétés (c.-à-d. Approximation universelle, nombre de paramètres peu clair, non-identifiabilité), l'AIC et le BIC sont moins utiles pour ces modèles qu'ils ne le semblent à première vue.

MODIFIER :

Quelques points supplémentaires qui pourraient être clarifiés:

  1. Il semble que j'ai eu tort de considérer la cartographie par entrelacement des chiffres comme une bijection entre RRN (voir ici ). Cependant, les détails de pourquoi ce n'est pas une bijection sont un peu difficiles à comprendre. Cependant, nous n'avons pas réellement besoin d'une bijection pour que cette idée fonctionne (une surjection suffit).
  2. Selon la preuve de Cantor (1877), il doit y avoir une bijection entre RRN . Bien que cette bijection ne puisse pas être définie explicitement, son existence peut être prouvée (mais cela nécessite l'axiome de choix non prouvé). Cette bijection peut toujours être utilisée dans un modèle théorique (il n'est peut-être pas possible d'implémenter réellement ce modèle dans un ordinateur), pour décompresser un seul paramètre en un nombre arbitraire de paramètres.
  3. Nous n'avons pas réellement besoin que la cartographie entre RRN soit une bijection. N'importe quelle fonction surjective RRN suffit pour décompresser plusieurs paramètres d'un seul. De telles surjections peuvent être démontrées comme des limites à une séquence d'autres fonctions (appelées courbes de remplissage d'espace , par exemple la courbe de Peano ).
  4. Parce que ni la preuve de Cantor n'est constructive (elle prouve simplement l'existence de la bijection sans donner d'exemple), ni les courbes de remplissage d'espace (car elles n'existent que comme limites des objets constructifs et ne sont donc pas elles-mêmes constructives), l'argument I fait n'est qu'une preuve théorique. En théorie, nous pourrions simplement continuer à ajouter des paramètres à un modèle pour réduire le BIC en dessous de toute valeur souhaitée (sur l'ensemble d'apprentissage). Cependant, dans une implémentation de modèle réelle, nous devons approximer la courbe de remplissage d'espace, donc une erreur d'approximation peut nous interdire de le faire (je n'ai pas réellement testé cela).
  5. Parce que tout cela nécessite l'axiome de choix, la preuve devient invalide si vous n'acceptez pas cet axiome (bien que la plupart des mathématiciens le fassent). Cela signifie qu'en mathématiques constructives, cela n'est peut-être pas possible, mais je ne sais pas quel rôle les mathématiques constructives jouent pour les statistiques.
  6. NRN+1RNRNRN. Cependant, ce n'est qu'un argument informel, je ne connais aucun traitement formel de cette notion de "complexité".
LiKao
la source
Vous avez envie de jouer sur ce post stats.stackexchange.com/questions/325129/… ? Je n'ai pas eu de chance avec ça depuis un moment.
Skander H. - Rétablir Monica le
1
@LiKao Pouvez-vous citer des références sur les "techniques" des paramètres de masquage, comme le cas des chiffres qui se croisent.
horaceT
@horaceT Malheureusement, je ne connais aucun article qui donne cet exemple. Dans les articles sur MDL, il y a la notion de "complexité fonctionnelle" (par exemple lpl.psy.ohio-state.edu/documents/MNP.pdf voir eq 10). Souvent, l'exemple est fait avec des paramètres contraints (par exemple researchgate.net/publication/… ). J'aime inverser l'exemple lorsque j'en discute et montrer qu'un seul paramètre complexe peut capturer plusieurs paramètres simples parce que je le trouve plus intuitif.
LiKao
F1,2:RR2F1,N:RRN. Donc pour tout modèle avecN paramètres, je peux utiliser F1,N obtenir d'abord un N vecteur dimensionnel de mon seul paramètre, puis fournir ce vecteur comme paramètre à la Nmodèle de paramètres. Cela me donne un équivalent fonctionnel1modèle de paramètres. Cependant, l'adaptation de ce modèle serait au moins très compliquée.
LiKao
@LiKao C'est assez fascinant. Veuillez faire référence à ladite preuve de "courbes de classement". J'ai pu voir que les paramètres contraints ont "moins" de degré de liberté. Naïvement, si f (x, y) = 0, y est juste une fonction de x; vous venez de mettre g (x) où y est. Ne pouvez-vous pas faire des choses similaires avec une optimisation contrainte.
horaceT