J'essaie de lire sur la recherche dans le domaine de la régression à haute dimension; lorsque est supérieur à , c'est-à-dire . Il semble que le terme apparaisse souvent en termes de taux de convergence pour les estimateurs de régression.n p > > n log p / n
Par exemple, ici , l'équation (17) dit que l'ajustement au lasso, satisfait 1
Habituellement, cela implique également que doit être inférieur à .
- Y a-t-il une intuition quant à la raison pour laquelle ce rapport est si important?
- De plus, il semble d'après la littérature que le problème de régression à haute dimension se complique lorsque . Pourquoi en est-il ainsi?
- Existe-t-il une bonne référence qui discute des problèmes de vitesse de croissance de et par rapport à l'autre?
regression
lasso
convergence
high-dimensional
Greenparker
la source
la source
Réponses:
(Déplacé des commentaires vers une réponse demandée par @Greenparker)
Partie 1)
Le terme provient de la concentration de mesure (gaussienne). En particulier, si vous avez variables aléatoires gaussiennes IID [F1], leur maximum est de l'ordre de avec une forte probabilité. pσ √Journalp----√ p σJournalp----√
Le facteur vient simplement du fait que vous regardez l'erreur de prédiction moyenne - c'est-à-dire qu'il correspond au de l'autre côté - si vous regardez l'erreur totale, elle ne serait pas là. n - 1n- 1 n- 1
Partie 2)
Essentiellement, vous devez contrôler deux forces:
Dans les statistiques classiques, nous fixons généralement et laissons aller à l'infini: ce régime n'est pas super utile pour la théorie des hautes dimensions car il est (asymptotiquement) dans le régime des basses dimensions par construction .np n
Alternativement, nous pourrions laisser aller à l'infini et rester fixe, mais notre erreur explose alors que le problème devient essentiellement impossible. Selon le problème, l'erreur peut aller à l'infini ou s'arrêter à une limite supérieure naturelle ( par exemple , erreur de classification erronée à 100%).np n
Étant donné que ces deux cas sont un peu inutiles, nous considérons plutôt que vont tous les deux à l'infini de sorte que notre théorie est à la fois pertinente (reste de grande dimension) sans être apocalyptique (caractéristiques infinies, données finies).n,p
Avoir deux "boutons" est généralement plus difficile que d'avoir un seul bouton, donc nous fixons pour certains f fixes et laissons n aller à l'infini (et donc p va à l'infini indirectement). [F2] Le choix de f détermine le comportement du problème. Pour des raisons dans ma réponse à la partie 1, il s'avère que la "méchanceté" des fonctionnalités supplémentaires ne croît que comme log p tandis que la "bonté" des données supplémentaires croît comme n .p=f(n) f n p f logp n
Ce dernier régime est parfois appelé "ultra-haute dimension" dans la littérature. Le terme «ultra-haute dimension» n'a pas de définition rigoureuse pour autant que je sache, mais il s'agit officieusement simplement «du régime qui brise le lasso et des estimateurs similaires».
Nous pouvons le démontrer avec une petite étude de simulation dans des conditions assez idéalisées. Ici, nous prenons des conseils théoriques sur le choix optimal de parmi [BRT09] et choisissons .λ = 3 √λ λ = 3 log( p ) / n-------√
Considérons d'abord un cas où . Ceci est dans le régime de haute dimension «traitable» décrit ci-dessus et, comme le prédit la théorie, nous voyons l'erreur de prédiction converger vers zéro:p=f(n)=3n
Code à reproduire:
Nous pouvons comparer cela au cas où reste approximativement constant: j'appelle cela le régime ultra-dimensionnel "borderline", mais ce n'est pas un terme standard:logpn
Ici, nous voyons que l'erreur de prédiction (en utilisant la même conception que ci-dessus) se stabilise au lieu de continuer à zéro.
Si nous réglons pour croître plus rapidement que , ( par exemple , ), l'erreur de prédiction augmente sans limite. Ces sont ridiculement rapides et conduisent à d'énormes problèmes / problèmes numériques, voici donc un exemple légèrement plus lent, mais toujours UHD:P en en2 en2
(J'ai utilisé un aléatoire clairsemé pour la vitesse, alors n'essayez pas de comparer directement les chiffres avec les autres graphiques). nom du temps de calcul. L'utilisation d'un exposant plus grand (comme ) rendrait la croissance asymptotique un peu plus claire.X en1.5
Malgré ce que j'ai dit ci-dessus et comment il peut apparaître, le régime ultra-haute dimension n'est pas vraiment complètement désespéré (bien qu'il soit proche), mais il nécessite des techniques beaucoup plus sophistiquées qu'un simple max de variables aléatoires gaussiennes pour contrôler l'erreur. La nécessité d'utiliser ces techniques complexes est la source ultime de la complexité que vous notez.
Il n'y a aucune raison particulière de penser que devrait grandir "ensemble" de quelque manière que ce soit ( c'est-à - dire qu'il n'y a pas de raison évidente "réelle" de fixer ), mais les mathématiques manquent généralement de langage et d'outils pour discuter limite avec deux "degrés de liberté" donc c'est le mieux qu'on puisse faire (pour l'instant!).p,n p=f(n)
Partie 3)
J'ai peur de ne pas connaître de livres dans la littérature statistique qui se concentrent vraiment sur la croissance de vs explicitement. (Il peut y avoir quelque chose dans la littérature sur la détection compressive)logp n
Ma référence préférée actuelle pour ce type de théorie est les chapitres 10 et 11 de Statistical Learning with Sparsity [F3], mais elle adopte généralement l'approche consistant à considérer fixe et à donner des propriétés d'échantillons finis (non asymptotiques) pour obtenir une «bonne " résultat. Il s'agit en fait d'une approche plus puissante - une fois que vous avez le résultat pour tout , il est facile de considérer les asymptotiques - mais ces résultats sont généralement plus difficiles à calculer, donc nous ne les avons actuellement que pour les estimateurs de type lasso pour autant que je savoir.n,p n,p
Si vous êtes à l'aise et désireux de vous plonger dans la littérature de recherche, je regarderais les travaux de Jianqing Fan et Jinchi Lv, qui ont fait la plupart des travaux de base sur les problèmes de très haute dimension. ("Screening" est un bon terme pour rechercher)
[F1] En fait, n'importe quelle variable aléatoire sous- russe , mais cela n'ajoute pas grand-chose à cette discussion.
[F2] Nous pourrions également définir la «vraie» densité de en fonction de ( ), mais cela ne change pas trop les choses.s n s = g( n )
[F3] T. Hastie, R. Tibshirani et M. Wainwright. Apprentissage statistique avec parcimonie. Monographies sur les statistiques et la probabilité appliquée 143. CRC Press, 2015. Disponible en téléchargement gratuit sur https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov et Alexandre B. Tsybakov. "Analyse simultanée du sélecteur Lasso et Dantzig." Annals of Statistics 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620
la source