Régression linéaire multivariée vs réseau de neurones?

54

Il semble qu'il soit possible d'obtenir des résultats similaires à ceux d'un réseau de neurones avec une régression linéaire multivariée dans certains cas, et la régression linéaire multivariée est extrêmement rapide et facile.

Dans quelles circonstances les réseaux de neurones peuvent-ils donner de meilleurs résultats que la régression linéaire multivariée?

Hugh Perkins
la source

Réponses:

28

Les réseaux de neurones peuvent en principe modéliser les non-linéarités automatiquement (voir le théorème d'approximation universelle ), qu'il vous faudrait modéliser explicitement à l'aide de transformations (splines, etc.) dans une régression linéaire.

La mise en garde: la tentation de suralimentation peut être (même) plus forte dans les réseaux de neurones que dans la régression, car l'ajout de couches ou de neurones cachés semble inoffensif. Faites donc très attention en examinant les performances de prévision hors échantillon.

S. Kolassa - Rétablir Monica
la source
D'accord. J'imagine que ma question est de savoir dans quelle mesure puis-je reproduire un comportement similaire en augmentant mes données d'entrée avec des termes quadratiques et cubiques?
Hugh Perkins
3
En fait, vous pouvez probablement approximer les NN avec des régresseurs correctement transformés dans une régression linéaire aussi fidèlement que vous le souhaitez (et vice versa). Les meilleures pratiques que les quadratiques et les cubiques sont des splines - je recommande vivement le manuel de Harrell "Régression Modeling Strategies".
S. Kolassa - Réintégrer Monica
D'accord. Est-il raisonnable de supposer que le temps de formation sera plus rapide pour la régression linéaire sur des données transformées, ou les temps de formation seront-ils approximativement similaires? La solution pour la régression linéaire sur les données transformées aura-t-elle un seul maximum global ou aura-t-elle beaucoup de minimum local comme pour les réseaux de neurones? (Edit: je suppose que peu importe la façon dont les entrées sont transformées, la solution à la régression linéaire n'est que le pseudo-inverse de la matrice de conception multipliée par quelque chose et donc toujours unique ou singulier?)
Hugh Perkins
2
La durée de la formation dépendra bien sûr des dimensions de l’entrée (peu / nombreuses observations, peu / nombreux prédicteurs). La régression linéaire implique une seule (pseudo) inverse (oui, unicité / singularité même avec des régresseurs transformés), alors que les NN sont généralement formés de manière itérative, mais les itérations n'impliquent pas d'inversions de matrice, de sorte que chaque itération est plus rapide - vous avez typiquement arrêtez la formation en fonction de certains critères conçus pour vous empêcher de surapprentissage.
S. Kolassa - Réintégrer Monica
1
@Yamcha: Selon ma compréhension du théorème d'approximation universelle, la dimensionnalité n'a pas d'importance en principe. (Bien sûr, il s'agit d'un résultat asymptotique. Je suppose que vous auriez besoin de quantités de données épouvantables pour que le NN soit supérieur à une régression polynomiale mise au point. Commence à sonner comme un apprentissage en profondeur ...)
S. Kolassa - Réintégrer Monica
16

Vous parlez de régression linéaire. Ceci est lié à la régression logistique , qui a un algorithme d'optimisation rapide similaire. Si vous avez des limites sur les valeurs cibles, comme avec un problème de classification, vous pouvez afficher la régression logistique comme une généralisation de la régression linéaire.

0

x311x3

Une stratégie intermédiaire consiste à choisir un grand nombre de nœuds aléatoires, similaire à ce qui se produit lorsque vous initialisez un réseau de neurones, et à corriger les poids d'entrée à masqué. L'optimisation sur les poids *-à-sortie reste linéaire. C'est ce qu'on appelle une machine d'apprentissage extrême . Cela fonctionne au moins aussi bien que la régression logistique originale.

Douglas Zare
la source
1
"Une stratégie intermédiaire consiste à choisir un grand nombre de nœuds aléatoires, similaire à ce qui se produit lorsque vous initialisez un réseau de neurones, et à fixer les poids d'entrée à masqués. L'optimisation sur les poids * à sortie reste linéaire." => vous voulez dire qu'il n'y aura qu'un seul maximum global pour la solution dans ce cas?
Hugh Perkins
1
Pour un choix aléatoire générique de nœuds cachés aléatoires, oui.
Douglas Zare
2
excellent contexte post-fourniture pour [LR, LogR, NN, ELM]. Votre commentaire sur le LogR en tant que couche de saut NN semble évident après avoir été signalé, mais constitue un bon aperçu.
javadba
3

La régression linéaire vise à séparer les données qui sont séparables linéairement. Vous pouvez utiliser des polynômes tiers> degré supplémentaires, mais vous avez ainsi redonné quelques hypothèses sur les données dont vous disposez depuis que vous avez défini la structure de la fonction objectif. Dans Neural Net. généralement, vous avez une couche d’entrée qui crée les séparateurs linéaires pour les données que vous avez et une couche masquée ET les régions qui délimitent certaines classes et les derniers OR de la couche toutes ces régions. De cette façon, toutes vos données peuvent être classées de manière non linéaire, tout ce processus se déroule avec des poids appris en interne et des fonctions définies. En outre, l'augmentation du nombre de fonctions pour la régression linéaire est opposée à "Malédiction de la dimensionnalité". De plus, certaines applications nécessitent davantage de résultats probabilistes que les nombres constants en sortie.

Erogol
la source