Réalisons-nous vraiment une analyse de régression multivariée avec * million * de coefficients / variables indépendantes?

18

Je passe un peu de temps à apprendre la machine learning (désolé pour la récursivité :) et je ne pouvais pas m'empêcher d'être intrigué par la règle de base de choisir Gradient Descent plutôt que de résoudre directement les équations pour calculer les coefficients de régression, dans le cas de la régression linéaire multivariée.

Règle générale: si le nombre de caractéristiques (lire les coefficients / variables indépendantes) est compris entre et ou au-dessus d'un million, optez pour la descente de gradient, sinon le calcul inverse de la matrice est assez gérable sur le matériel de base et donc le calcul direct des coefficients devrait fonctionner assez bien .10,0001,000,000

En termes de calcul, j'obtiens le compromis / limitations. Mais d'un point de vue statistique, calculons-nous vraiment des modèles avec autant de coefficients? Si je me souviens de mes classes de régression linéaire multivariée à l'école doctorale, nous avons été mis en garde contre l'utilisation de trop de variables indépendantes car elles peuvent avoir un impact très négligeable sur la variable dépendante ou leurs distributions ne respecteraient pas les hypothèses que nous faisons sur les données. Même si j'avais élargi mon esprit pour penser à "de nombreux IV", je n'aurais pas pensé à des millions .

Des questions):

  • Est-ce vraiment le cas ou s'agit-il d'un problème théorique?
  • Quel est l'intérêt d'analyser un million de IV? Cela nous donne-t-il vraiment autant d'augmentation de la valeur des informations obtenues au lieu de les ignorer?
  • Ou est-ce parce que, au départ, nous n'avons aucune idée de ce qui est utile, nous exécutons donc la foutue régression pour voir ce qui est utile et allons à partir de là et peut-être élagage l'ensemble des IV?

Je crois toujours que ce n'est pas parce que nous pouvons analyser "tout" que nous devons le jeter dans un solveur (ou le fait) et certaines de mes questions passées reflètent des points de vue similaires.

Je n'ai pas encore terminé le cours et je poserai peut-être la question bientôt, mais je n'arrive tout simplement pas à me faire une idée de ce "pourquoi" et j'essaie de le comprendre au mieux de mes capacités.

Doctorat
la source

Réponses:

14

Est-ce vraiment le cas ou s'agit-il d'un problème théorique?

Cela arrive, voir n'importe quel modèle de deplearning populaire pour la vision par ordinateur. Disons, alexnet a une connexion dense entre 2048 et 2048 unités, soit 4 millions de coefficients.

Quel est l'intérêt d'analyser un million de IV? Cela nous donne-t-il vraiment autant d'augmentation de la valeur des informations obtenues au lieu de les ignorer?

Si vous analysez des données hautement catégorielles (par exemple, des données de publicité sur Internet ), votre modèle doit conserver des «descriptions» significatives pour chaque catégorie (par exemple, ville, identifiant de page, nom de site, identifiant de publicité, identifiant d'utilisateur, etc.), le réel la taille de la «description» dépend du modèle ML sélectionné.

Même une simple régression logistique aura des dizaines de milliers de paramètres à ajuster (un par catégorie). Les modèles plus avancés comme les machines de factorisation vont avoir plus de temps.

Ou est-ce parce que, au départ, nous n'avons aucune idée de ce qui est utile, alors nous exécutons simplement la foutue régression pour voir ce qui est utile et aller à partir de là et éventuellement élaguer l'ensemble des IVs?

En fait, la plupart des paramètres ajustés dans ces modèles peuvent être supprimés, mais vous ne pouvez pas le savoir à l'avance, donc vous laissez le problème de définir quels paramètres sont importants pour l'apprentissage automatique, et imposez quelques régularisations pour mettre une `` limite souple '' au nombre effectif des paramètres pour rester.

... et je pense que vous trouverez de tels exemples plus tard dans votre cours de ML.

Alleo
la source