Le mot rétrécissement est souvent utilisé dans certains cercles. Mais ce qui est rétrécissement, il ne semble pas y avoir de définition claire. Si j'ai une série chronologique (ou toute collection d'observations d'un processus), quelles sont les différentes façons de mesurer un certain type de rétrécissement empirique sur la série? Quels sont les différents types de retrait théorique dont je peux parler? Comment le retrait peut-il aider à la prévision? Les gens peuvent-ils fournir de bonnes informations ou références?
estimation
predictive-models
shrinkage
Wintermute
la source
la source
Réponses:
En 1961, James et Stein ont publié un article intitulé "Estimation with Quadratic Loss" https://projecteuclid.org/download/pdf_1/euclid.bsmsp/1200512173 . Bien qu'il n'invente pas spécifiquement le terme de rétrécissement, ils discutent des estimateurs minimax pour les statistiques de haute dimension (en fait même pour un emplacement à 3 paramètres) qui ont moins de risque (perte attendue) que le MLE habituel (chaque composant la moyenne de l'échantillon) pour les données normales . Bradley Efron appelle leur découverte "le théorème le plus frappant des statistiques mathématiques d'après-guerre". Cet article a été cité 3310 fois.
Copas en 1983 écrit le premier article Regression, Prediction and Shrinkage pour inventer le terme "shrinkage". Il est défini implicitement dans l'abstrait:
Et dans toutes les recherches successives, il semble que le rétrécissement se réfère aux caractéristiques de fonctionnement (et à leurs estimations) pour la validité hors échantillon de la prédiction et de l'estimation dans le contexte de la recherche d'estimateurs admissibles et / ou minimax.
la source
Il s'agit de régularisation. Supposons que vous souhaitiez ajuster une courbe et que vous utilisiez une fonction de perte carrée (vous pouvez en choisir différentes). Par
fit
vous souhaitez récupérer les paramètres qui régissent le processus qui a généré cette courbe. Imaginez maintenant que vous souhaitez ajuster cette courbe en utilisant le 100e polynôme (juste par exemple). Vous allez probablement suréquiper ou capturer tous les plis et bruits de la courbe. De plus, vos capacités de prédiction en dehors de l'intervalle de données d'entraînement donné seront probablement très médiocres. Ainsi, le terme de régularisation est ajouté à la fonction objectif avec un certain poids multiplié par le facteur de régularisation - l_1, l_2 ou personnalisé. Dans le cas de l_2, qui est sans doute plus simple à comprendre, cela aura pour effet que les grandes valeurs des paramètres seront forcées de réduire aka rétrécissement. Vous pouvez considérer la régularisation ou la réduction comme conduisant votre algorithme à une solution qui pourrait être une meilleure solution.la source