Considérons les trois phénomènes suivants.
Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus faible si on réduit toutes les coordonnées de la moyenne de l’échantillon vers zéro (ou vers leur moyenne, ou même vers n’importe quelle valeur, si je comprends bien).
NB: le paradoxe de Stein est généralement formulé en prenant en compte un seul point de données de ; corrigez-moi s'il vous plaît si cela est crucial et que ma formulation ci-dessus n'est pas correcte.
Régression de crête: étant donné une variable dépendante et des variables indépendantes , la régression standard tend sur-adapter les données et conduire à des performances médiocres hors échantillon. On peut souvent réduire les surajustements en diminuant vers zéro: .
Effets aléatoires dans les modèles multiniveaux / mixtes: étant donné la variable dépendante (par exemple la taille de l’élève) qui dépend de certains prédicteurs catégoriques (par exemple, l’identité de l’école et le sexe de l’élève), il est souvent conseillé de traiter certains prédicteurs comme "aléatoires", c'est-à-dire la taille moyenne des élèves dans chaque école provient d'une distribution sous-jacente normale. Cela a pour effet de réduire les estimations de la hauteur moyenne par école à la moyenne mondiale.
J'ai l'impression que tout cela relève de différents aspects du même phénomène de "rétrécissement", mais je n'en suis pas sûr et je manque cruellement d'intuition. Ma question principale est donc la suivante: existe-t-il effectivement une similitude profonde entre ces trois choses, ou s’agit-il seulement d’un semblant superficiel? Quel est le thème commun ici? Quelle est la bonne intuition à ce sujet?
De plus, voici quelques pièces de ce puzzle qui ne me vont pas vraiment ensemble:
Dans la régression de crête, n'est pas rétréci uniformément; le retrait de la crête est en fait lié à la décomposition en valeurs singulières de , les directions à faible variance étant davantage réduites (voir par exemple Les éléments de l’apprentissage statistique 3.4.1). Mais l’estimateur de James-Stein prend simplement la moyenne de l’échantillon et le multiplie par un facteur d’échelle. Comment ça va ensemble?
Mise à jour: voir l' estimateur James-Stein avec des variances inégales et par exemple ici en ce qui concerne les variances des coefficients .
La moyenne de l'échantillon est optimale pour les dimensions inférieures à 3. Cela signifie-t-il que lorsqu'il n'y a qu'un ou deux prédicteurs dans le modèle de régression, la régression de crête sera toujours pire que les moindres carrés ordinaires? En fait, à bien y penser, je ne peux pas imaginer une situation dans 1D (c'est-à-dire une régression simple et non multiple) dans laquelle une réduction de la crête serait bénéfique ...
Mise à jour: Non. Voir Dans quelles conditions exactement la régression de crête peut-elle apporter une amélioration par rapport à la régression des moindres carrés ordinaires?
Par ailleurs, la moyenne de l'échantillon est toujours inférieure aux dimensions optimales supérieures à 3. Cela signifie-t-il qu'avec plus de 3 prédicteurs, la régression de crête est toujours meilleure que la méthode MCO, même si tous les prédicteurs sont non corrélés (orthogonaux)? La régression de crête est généralement motivée par la multicolinéarité et la nécessité de "stabiliser" le terme .
Mise à jour: oui! Voir le même fil que ci-dessus.
Il y a souvent des discussions animées sur la question de savoir si divers facteurs de l'ANOVA devraient être inclus en tant qu'effets fixes ou aléatoires. Par la même logique, ne devrions-nous pas toujours, par la même logique, traiter un facteur comme aléatoire s'il comporte plus de deux niveaux (ou s'il y a plus de deux facteurs? Maintenant, je suis confus)?
Mise à jour :?
Mise à jour: J'ai obtenu d'excellentes réponses, mais aucune ne donne une image assez large, je laisserai donc la question "ouverte". Je peux promettre d’accorder une prime d’au moins 100 points à une nouvelle réponse qui surpassera les réponses existantes. Je recherche principalement un point de vue unificateur qui pourrait expliquer comment le phénomène général du retrait se manifeste dans ces divers contextes et souligner les principales différences entre eux.
la source
Réponses:
Lien entre l'estimateur de James – Stein et la régression de crête
Soit un vecteur d'observation de de longueur , , l'estimateur de James-Stein est, En termes de régression de crête, on peut estimer via où la solution est Il est facile de voir que les deux estimateurs sont sous la même forme, mais nous devons estimery θ m y∼N(θ,σ2I)
Lien entre l'estimateur de James – Stein et les modèles à effets aléatoires
Discutons d’abord des modèles à effets mixtes / aléatoires en génétique. Le modèle est S'il n'y a pas d'effet fixe et , le modèle devient ce qui équivaut au réglage de l'estimateur de James-Stein, avec quelques Idée bayésienne.
Lien entre les modèles à effets aléatoires et la régression de crête
Si nous nous concentrons sur les modèles à effets aléatoires ci-dessus, L'estimation est équivalente à la résolution du problème quand . La preuve se trouve au chapitre 3 de la reconnaissance des formes et de l'apprentissage automatique .
Lien entre les modèles à effets aléatoires (multiniveaux) et celui en génétique
Dans le modèle à effets aléatoires ci-dessus, la dimension de est et celle de est . Si nous vectorisons comme et répétons conséquence, alors nous avons la structure hiérarchique / en cluster, grappes et chacune avec unités. Si nous régressons sur répété , alors nous pouvons obtenir l'effet aléatoire de sur pour chaque grappe, bien que ce soit un peu comme une régression inverse.y m×1, Z m×p Z (mp)×1, y p m vec(Z) y Z y
Remerciements : les trois premiers points sont largement tirés de ces deux articles en chinois, 1 , 2 .
la source
Je vais laisser cela comme un exercice permettant à la communauté d’étoffer cette réponse, mais en général, la raison pour laquelle les estimateurs par rétrécissement * dominent * estimateurs non biaisés dans des échantillons finis est due au fait que les estimateurs de Bayes ne peuvent pas être dominés , et de nombreux estimateurs de retrait peuvent être dérivés de Bayes.1 2 3 4
Tout cela tombe sous l’égide de la théorie de la décision. Une référence exhaustive, mais plutôt hostile, est la "théorie de l'estimation ponctuelle" de Lehmann et Casella. Peut-être que d’autres peuvent s’adapter à des références plus conviviales?
et lesmodèles d'effets aléatoires apparaissent comme une procédure bayésienne empirique dans un cadre similaire. Ces arguments sont compliqués par le fait que la version vanille des théorèmes d’admissibilité bayésiens suppose que chaque paramètre est doté d’une priorité appropriée. Même dans la régression de crête, cela n’est pas vrai, car le "antérieur" étant placé sur la variancela source
James-Stein suppose que la dimension de la réponse est d'au moins 3. Dans la régression standard, la réponse est unidimensionnelle. Vous confondez le nombre de prédicteurs avec la dimension de réponse.
Cela étant dit, je vois la similitude entre ces situations, mais que faire exactement, par exemple, si un facteur doit être fixe ou aléatoire, combien de réduction à appliquer, le cas échéant, dépend de l'ensemble de données particulier. Par exemple, plus les prédicteurs sont orthogonaux, moins il est logique de choisir la régression de Ridge par rapport à la régression standard. Plus le nombre de paramètres est important, plus il est judicieux d'extraire le prior de l'ensemble de données lui-même via Empirical Bayes, puis de l'utiliser pour réduire les estimations de paramètres. Plus le rapport signal sur bruit est élevé, plus les avantages du retrait, etc. sont faibles.
la source
Comme d'autres l'ont dit, le lien entre les trois est la manière dont vous intégrez les informations antérieures dans la mesure.
En bref, la réponse est que vous pouvez réduire l’incertitude d’une mesure si vous savez à quoi vous attendre et classer les données avec certaines données antérieures (les informations préalables). Ces données précédentes sont ce qui contraint votre fonction de modélisation que vous utilisez pour s’ajuster aux mesures. Dans des cas simples, vous pouvez écrire votre modèle dans le cadre bayésien, mais il est parfois peu pratique, comme d’intégrer toutes les fonctions continues possibles pour trouver celle qui a la valeur bayésienne maximale A postérieure.
la source
Estimateur de James Stein et régression de Ridge
Considérer
Avecϵ∼N(0,σ2I)
La solution des moindres carrés est de la forme
James Stein
Par souci de simplicité, nous supposerons pour Jame Stein . James et Stein ajouteront alors un avant sur la , de la formeS=I β
Et obtiendrez une forme postérieure de la forme , ils estimera alors avec et obtiendra un estimateur de James Stein de la formeaa+σ2β^=(1−σ2a+σ2)β^ 1a+σ2 p−2∥β^∥2
Régression Ridge
Dans la régression de crête, est généralement standardisé (moyenne 0, vairance 1 pour chaque colonne de ), de sorte que les paramètres de régression sont comparables. Lorsqu'il s'agit de pour .X X β=(β1,β2,…,βp) Sii=1 i=1,2,…,p
Une estimation de régression de crête de est définie comme suit, , àβ λ≥0
Comment est-ce que dérivé? Rappelβ^(λ)
Ensuite nous obtenons
Identique à l'estimation de la régression de crête . La forme originale de James Stein donnée ici prend donc et .β^(λ) S=I a=σ2λ
la source