Je passe un peu de temps à apprendre la machine learning (désolé pour la récursivité :) et je ne pouvais pas m'empêcher d'être intrigué par la règle de base de choisir Gradient Descent plutôt que de résoudre directement les équations pour calculer les coefficients de régression, dans le cas de la régression linéaire multivariée.
Règle générale: si le nombre de caractéristiques (lire les coefficients / variables indépendantes) est compris entre et ou au-dessus d'un million, optez pour la descente de gradient, sinon le calcul inverse de la matrice est assez gérable sur le matériel de base et donc le calcul direct des coefficients devrait fonctionner assez bien .
En termes de calcul, j'obtiens le compromis / limitations. Mais d'un point de vue statistique, calculons-nous vraiment des modèles avec autant de coefficients? Si je me souviens de mes classes de régression linéaire multivariée à l'école doctorale, nous avons été mis en garde contre l'utilisation de trop de variables indépendantes car elles peuvent avoir un impact très négligeable sur la variable dépendante ou leurs distributions ne respecteraient pas les hypothèses que nous faisons sur les données. Même si j'avais élargi mon esprit pour penser à "de nombreux IV", je n'aurais pas pensé à des millions .
Des questions):
- Est-ce vraiment le cas ou s'agit-il d'un problème théorique?
- Quel est l'intérêt d'analyser un million de IV? Cela nous donne-t-il vraiment autant d'augmentation de la valeur des informations obtenues au lieu de les ignorer?
- Ou est-ce parce que, au départ, nous n'avons aucune idée de ce qui est utile, nous exécutons donc la foutue régression pour voir ce qui est utile et allons à partir de là et peut-être élagage l'ensemble des IV?
Je crois toujours que ce n'est pas parce que nous pouvons analyser "tout" que nous devons le jeter dans un solveur (ou le fait) et certaines de mes questions passées reflètent des points de vue similaires.
Je n'ai pas encore terminé le cours et je poserai peut-être la question bientôt, mais je n'arrive tout simplement pas à me faire une idée de ce "pourquoi" et j'essaie de le comprendre au mieux de mes capacités.