1) La plupart des réseaux de neurones ne peuvent pas effectuer de multiplications; ils ne peuvent calculer que des sommes (qui sont ensuite alimentées individuellement via une fonction d'activation ). Ils doivent plutôt estimer ces multiplications si elles sont importantes, ce qui nécessite beaucoup de neurones, surtout si les facteurs peuvent s'étendre sur de larges plages.
S'il s'avère que la zone de la maison est en fait une caractéristique importante, vous aiderez le réseau si vous lui fournissez la zone, car il peut alors utiliser les neurones dont il aurait eu besoin pour estimer la multiplication de la largeur et de la longueur pour faire autre chose.
Par conséquent, l'inclusion de caractéristiques polynomiales peut dans certains cas être bénéfique pour le réseau, mais n'a dans d'autres cas aucun effet significatif. De plus, les caractéristiques polynomiales ne sont qu'un type de caractéristiques dérivées qui peuvent être utiles au réseau. Un autre type de caractéristique dérivée qui peut s'avérer utile est par exemple les logarithmes des variables d'entrée (considérées comme positives) que le réseau doit également estimer pour obtenir.
Une idée serait de permettre au réseau d'effectuer plus d'opérations entre des nombres que de simples ajouts, pour lui permettre de calculer efficacement des choses comme les caractéristiques polynomiales, mais il n'est pas clair comment cela fonctionnerait. Une architecture qui ressemble à quelque chose de similaire est le réseau à somme de produits .
2) À l'exception du coût de calcul mentionné par John, l'augmentation du nombre de paramètres dans le modèle, qui se produit inévitablement lorsque vous introduisez plus d'entrées, augmente également le risque de sur- ajustement du réseau , surtout si vous avez peu de données d'entraînement.
Cependant, cela peut devenir beaucoup moins problématique si une bonne méthode de régularisation est utilisée. (Le décrochage semble fonctionner extrêmement bien pour cela) Théoriquement, avec une méthode de régularisation suffisamment bonne, le sur-ajustement ne devrait pas être un problème du tout. Comme le souligne Hinton, un humain a de l'ordre de 10 ^ 14 synapses dans le cerveau (correspondant aux connexions dans le réseau neuronal), mais ne vit que de l'ordre de 10 ^ 9 secondes, mais nous semblons toujours pouvoir généraliser assez bien. Il est donc clair qu'avoir de nombreux paramètres qui peuvent être réglés ne devrait être avec le bon algorithme qu'un avantage.
Bonjour au revoir
la source