J'ai essayé de comprendre ce que cela signifiait exactement par la fonction d'activation "Maxout" dans les réseaux de neurones. Il y a cette question, cet article, et même dans le livre Deep Learning de Bengio et al. , sauf avec juste un peu d'informations et un gros TODO à côté.
J'utiliserai la notation décrite ici pour plus de clarté. Je ne veux tout simplement pas le retaper et provoquer un gonflement des questions. Brièvement,, en d'autres termes, un neurone a un seul biais, un seul poids pour chaque entrée, puis il additionne les entrées multiplié par les poids, puis ajoute le biais et applique la fonction d'activation pour obtenir la valeur de sortie (aka activation).
Jusqu'à présent, je sais que Maxout est une fonction d'activation qui "sort le maximum de ses entrées". Qu'est-ce que ça veut dire? Voici quelques idées que je pourrais interpréter à partir de cela:
- , également appelé max-pooling.
- , en remplaçant simplement la somme qui se fait normalement par un max.
- , où chaque neurone a maintenant une valeur de biais pour chaque entrée, au lieu d'une seule valeur de biais appliquée après avoir additionné toutes les entrées. Cela rendrait la rétropropagation différente, mais toujours possible.
- Chaque est calculé comme normal, et chaque neurone a un biais unique et un poids pour chaque entrée. Cependant, semblable à SOFTMAX ( ), cela prend le maximum de tous les « s dans sa couche actuelle . Formellement, .
Certains de ces éléments sont-ils corrects? Ou est-ce quelque chose de différent?
la source