Vue unifiée sur le retrait: quelle est la relation (le cas échéant) entre le paradoxe de Stein, la régression de la crête et les effets aléatoires dans des modèles mixtes?

65

Considérons les trois phénomènes suivants.

  1. Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus faible si on réduit toutes les coordonnées de la moyenne de l’échantillon vers zéro (ou vers leur moyenne, ou même vers n’importe quelle valeur, si je comprends bien).Rn,n3

    NB: le paradoxe de Stein est généralement formulé en prenant en compte un seul point de données de ; corrigez-moi s'il vous plaît si cela est crucial et que ma formulation ci-dessus n'est pas correcte.Rn

  2. Régression de crête: étant donné une variable dépendante et des variables indépendantes , la régression standard tend sur-adapter les données et conduire à des performances médiocres hors échantillon. On peut souvent réduire les surajustements en diminuant vers zéro: .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Effets aléatoires dans les modèles multiniveaux / mixtes: étant donné la variable dépendante (par exemple la taille de l’élève) qui dépend de certains prédicteurs catégoriques (par exemple, l’identité de l’école et le sexe de l’élève), il est souvent conseillé de traiter certains prédicteurs comme "aléatoires", c'est-à-dire la taille moyenne des élèves dans chaque école provient d'une distribution sous-jacente normale. Cela a pour effet de réduire les estimations de la hauteur moyenne par école à la moyenne mondiale.y

J'ai l'impression que tout cela relève de différents aspects du même phénomène de "rétrécissement", mais je n'en suis pas sûr et je manque cruellement d'intuition. Ma question principale est donc la suivante: existe-t-il effectivement une similitude profonde entre ces trois choses, ou s’agit-il seulement d’un semblant superficiel? Quel est le thème commun ici? Quelle est la bonne intuition à ce sujet?

De plus, voici quelques pièces de ce puzzle qui ne me vont pas vraiment ensemble:

  • Dans la régression de crête, n'est pas rétréci uniformément; le retrait de la crête est en fait lié à la décomposition en valeurs singulières de , les directions à faible variance étant davantage réduites (voir par exemple Les éléments de l’apprentissage statistique 3.4.1). Mais l’estimateur de James-Stein prend simplement la moyenne de l’échantillon et le multiplie par un facteur d’échelle. Comment ça va ensemble?βX

    Mise à jour: voir l' estimateur James-Stein avec des variances inégales et par exemple ici en ce qui concerne les variances des coefficients .β

  • La moyenne de l'échantillon est optimale pour les dimensions inférieures à 3. Cela signifie-t-il que lorsqu'il n'y a qu'un ou deux prédicteurs dans le modèle de régression, la régression de crête sera toujours pire que les moindres carrés ordinaires? En fait, à bien y penser, je ne peux pas imaginer une situation dans 1D (c'est-à-dire une régression simple et non multiple) dans laquelle une réduction de la crête serait bénéfique ...

    Mise à jour: Non. Voir Dans quelles conditions exactement la régression de crête peut-elle apporter une amélioration par rapport à la régression des moindres carrés ordinaires?

  • Par ailleurs, la moyenne de l'échantillon est toujours inférieure aux dimensions optimales supérieures à 3. Cela signifie-t-il qu'avec plus de 3 prédicteurs, la régression de crête est toujours meilleure que la méthode MCO, même si tous les prédicteurs sont non corrélés (orthogonaux)? La régression de crête est généralement motivée par la multicolinéarité et la nécessité de "stabiliser" le terme .(XX)1

    Mise à jour: oui! Voir le même fil que ci-dessus.

  • Il y a souvent des discussions animées sur la question de savoir si divers facteurs de l'ANOVA devraient être inclus en tant qu'effets fixes ou aléatoires. Par la même logique, ne devrions-nous pas toujours, par la même logique, traiter un facteur comme aléatoire s'il comporte plus de deux niveaux (ou s'il y a plus de deux facteurs? Maintenant, je suis confus)?

    Mise à jour :?


Mise à jour: J'ai obtenu d'excellentes réponses, mais aucune ne donne une image assez large, je laisserai donc la question "ouverte". Je peux promettre d’accorder une prime d’au moins 100 points à une nouvelle réponse qui surpassera les réponses existantes. Je recherche principalement un point de vue unificateur qui pourrait expliquer comment le phénomène général du retrait se manifeste dans ces divers contextes et souligner les principales différences entre eux.

l'amibe dit de réintégrer Monica
la source
Je crois comprendre que la régression de crête (et ses cousins ​​tels que le lasso et le réseau élastique) rétrécit les coefficients des variables corrélées partagées par toutes les observations de la régression (par exemple, le statut socio-économique de l’élève et la moyenne pondérée cumulative), tandis qu’un modèle à effets aléatoires réduit les coefficients de niveaux ou groupes d'observations corrélées mutuellement exclusives (comme le statut socio-économique de l'élève, groupés par identifiant).
RobertF
3
Je pense que le meilleur endroit pour obtenir une réponse unificatrice est de regarder le mot clé BLUP (pour le meilleur prédicteur linéaire non biaisé) esp. dans la littérature sur l'élevage. Voir par exemple l'enquête de Robinson dans Statistical Science. Ou le livre de
Xi'an
2
@ Xi'an: Merci beaucoup, j'ai déjà trouvé le livre de Gruber moi-même, et même s'il parle certainement beaucoup de James-Stein et de la régression de crête, je n'ai pas trouvé de comparaison directe entre les deux (la lecture complète du livre est pas une option pour moi en ce moment ...). Merci pour le lien vers l'enquête de Robinson, je vais jeter un coup d'oeil; élevage d'animaux ! Qui aurait pensé. En passant, j'ai vu vos commentaires sur des sujets connexes et je suppose que vous faites peut-être partie des personnes qui pourraient réellement fournir une réponse satisfaisante ici! Ce serait génial. Jusqu'ici, aucune réponse ne me satisfait.
Amibe dit de réintégrer Monica
2
@ Xi'an: Vos commentaires utiles ci-dessous me font rater une réponse de votre part. Quoi qu’il en soit, j’ai commencé à lire Robinson et me suis rendu compte que "le meilleur prédicteur linéaire sans biais" est un estimateur biaisé (bien sûr, lorsqu’il implémente le retrait)! Quelle belle terminologie.
Amibe dit de réintégrer Monica
4
Ils sont bons dans le domaine de l'élevage: après que Casella & George 1992 "Gibbs for kids" ait changé de titre pour être publié, Wang & Gianola a écrit une introduction "Gibbs for pigs" en 1993 lors d'une réunion de l'Association européenne pour la production animale!
Xi'an

Réponses:

30

Lien entre l'estimateur de James – Stein et la régression de crête

Soit un vecteur d'observation de de longueur , , l'estimateur de James-Stein est, En termes de régression de crête, on peut estimer via où la solution est Il est facile de voir que les deux estimateurs sont sous la même forme, mais nous devons estimeryθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 dans l’estimateur James-Stein et déterminez la régression de dans la crête par validation croisée.λ

Lien entre l'estimateur de James – Stein et les modèles à effets aléatoires

Discutons d’abord des modèles à effets mixtes / aléatoires en génétique. Le modèle est S'il n'y a pas d'effet fixe et , le modèle devient ce qui équivaut au réglage de l'estimateur de James-Stein, avec quelques Idée bayésienne.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Lien entre les modèles à effets aléatoires et la régression de crête

Si nous nous concentrons sur les modèles à effets aléatoires ci-dessus, L'estimation est équivalente à la résolution du problème quand . La preuve se trouve au chapitre 3 de la reconnaissance des formes et de l'apprentissage automatique .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Lien entre les modèles à effets aléatoires (multiniveaux) et celui en génétique

Dans le modèle à effets aléatoires ci-dessus, la dimension de est et celle de est . Si nous vectorisons comme et répétons conséquence, alors nous avons la structure hiérarchique / en cluster, grappes et chacune avec unités. Si nous régressons sur répété , alors nous pouvons obtenir l'effet aléatoire de sur pour chaque grappe, bien que ce soit un peu comme une régression inverse.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Remerciements : les trois premiers points sont largement tirés de ces deux articles en chinois, 1 , 2 .

Randel
la source
(+1) Merci beaucoup! C'est très utile et je vais certainement regarder dans le manuel de Bishop que je connais bien et que je consulte souvent. Je ne m'attendais pas à trouver quoi que ce soit sur les modèles mixtes, mais il semble que la section 3.3 "Régression linéaire bayésienne" traite de ce sujet, mais utilise une terminologie différente. Très bon à savoir! Mais quelle est votre opinion sur mes questions bullet?
Amibe dit de réintégrer Monica
Vous avez trop de questions dans un post. :) 1) Comme je l’ai répondu plus haut, l’estimateur de James-Stein et la régression de crête sont équivalents en l’absence de covariables ou simplement d’une matrice d’identité. 2, 3, 4) comme @James l’a mentionné, le nombre de prédicteurs ( ci-dessus) n’est pas nécessairement égal à la dimension de la réponse . Xpm
Randel
BTW, je ne vois pas que la moyenne de l'échantillon / moyenne est utilisée dans l'estimateur de James-Stein, il prend en fait l'estimateur et le réduit ensuite à . y0
Randel
2
L'estimateur JS et la régression de crête sont distincts. Une estimation par régression de crête de l’ emplacement dimensionnel d’un vecteur p correspond à la matrice de conception , ce qui conduirait à l’estimation , qui manque le terme (non linéaire!) dans le dénominateur de l'estimateur JSpIp(1+λ)1Ipyy2
Andrew M
3
Je pense que tout dépend de ce que vous appelez un estimateur de crête. Au début de Hoerl et Kennard (1970), il n'y a en effet aucune dépendance de à l' égard des données. Dans le sens ultérieur de la thèse de doctorat de Casella (1978), la détermination manuelle de est remplacée par une fonction de la somme des carrés résiduels. λλ
Xi'an
6

Je vais laisser cela comme un exercice permettant à la communauté d’étoffer cette réponse, mais en général, la raison pour laquelle les estimateurs par rétrécissement * dominent * estimateurs non biaisés dans des échantillons finis est due au fait que les estimateurs de Bayes ne peuvent pas être dominés , et de nombreux estimateurs de retrait peuvent être dérivés de Bayes. 1234

Tout cela tombe sous l’égide de la théorie de la décision. Une référence exhaustive, mais plutôt hostile, est la "théorie de l'estimation ponctuelle" de Lehmann et Casella. Peut-être que d’autres peuvent s’adapter à des références plus conviviales?


1 Un estimateur du paramètre sur les données est dominé par un autre estimateur si pour chaque le risque (par exemple, l'erreur quadratique moyenne) de est égal ou supérieur à et bat pour au moins un . En d’autres termes, les performances de sont égales ou meilleures partout dans l’espace des paramètres.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Un estimateur est Bayes (avec une perte d'erreur carrée de toute façon) s'il s'agit de l'attente postérieure de , étant donné les données, sous un antérieur , par exemple, , où l'attente est prise avec le postérieur. Naturellement, différents antécédents entraînent différents risques pour différents sous-ensembles de . Un exemple important de jouet est l’ancien qui met tout avant masse sur le point . Ensuite, vous pouvez montrer que l’estimateur de Bayes est la fonction constanteθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, qui a bien sûr d’excellentes performances à et près de , et de très mauvaises performances ailleurs. Mais néanmoins, il ne peut pas être dominé, car seul cet estimateur conduit à un risque nul à .θ0θ0

3 Une question naturelle est de savoir si un estimateur qui ne peut pas être dominé (appelé admissible , mais qui ne serait pas indomptable ne serait-il pas plus séduisant?) Doit-il être Bayes? La réponse est presque. Voir "théorèmes de classe complets".

4 Par exemple, la régression de la crête se présente comme une procédure bayésienne lorsque vous placez un Normal (0, ) avant le , et les modèles d'effets aléatoires apparaissent comme une procédure bayésienne empirique dans un cadre similaire . Ces arguments sont compliqués par le fait que la version vanille des théorèmes d’admissibilité bayésiens suppose que chaque paramètre est doté d’une priorité appropriée. Même dans la régression de crête, cela n’est pas vrai, car le "antérieur" étant placé sur la variance1/λ2βσ2du terme d'erreur est la fonction constante (mesure de Lebesgue), qui n'est pas une distribution de probabilité (intégrable) appropriée. Néanmoins, il est possible de démontrer que nombre de ces estimateurs "partiellement" bayésiens sont admissibles en démontrant qu'ils constituent la "limite" d'une séquence d'estimateurs propres à Bayes. Mais les preuves ici deviennent plutôt compliquées et délicates. Voir "Estimateurs bayésiens généralisés".

Andrew M
la source
1
Merci beaucoup, très intéressant (+1). Je ne peux que souhaiter que votre réponse soit plus détaillée ... Concernant votre note de bas de page (3): Dites-vous que tous les estimateurs Bayes sont admissibles / indomptables (j'aime bien le mot), indépendamment de l’ancien? Mais l’estimateur de James-Stein peut être dérivé de Bayes empirique; pourquoi est-il inadmissible alors? De plus, cela voudrait dire que, par exemple, dans la régression de crête, je peux prendre une concentration antérieure non pas autour de zéro, mais autour d’une autre valeur: , et ce sera toujours le cas. une stratégie de régularisation raisonnable? βN(β0,1/λ2)
Amibe dit de réintégrer Monica
2
Pour la raison pour laquelle l’estimateur James-Stein est inadmissible, vous pouvez trouver la réponse ici . Il existe également une discussion détaillée et intéressante dans Lehmann & Casella (1998), Theory of Point Estimation .
Randel
@Randel: oui, je sais que c'est irrecevable et j'ai vu ce raisonnement, je me demande comment cela cadre avec l'affirmation d'Andrew (étant donné que j'ai bien compris) que tous les estimateurs de Bayes sont admissibles, puisque James-Stein peut être compris via Empirical. Bayes ...
amibe dit de réintégrer Monica
2
@Amoeba: Oui, tout estimateur de Bayes qui est postérieure en aucun appropriées conduit avant un estimateur admissible. Pour ce qui est des Bayes empiriques, de telles procédures ne sont en réalité pas des Bayes authentiques, car le fait de dépendre des données antérieures peut conduire à des pathologies. Parfois, il peut être démontré qu'ils sont admissibles, parfois non: vous devez généralement travailler au cas par cas. J'ai modifié ma réponse pour qu'elle soit un peu plus prudente sur ce point, car en fait, je ne sais pas si les modèles classiques mixtes linéaires sont admissibles!
Andrew M
3
Il suffit de souligner que les véritables estimateurs de Bayes fonctionnent rarement comme des estimateurs de James-Stein car ils ne sont pas minimax. Bill Strawderman a par exemple montré (en 1975) qu’il n’existait pas d’estimateur bayésien propre à minimax de dimensions inférieures à 5 pour le problème moyen normal qui règle tout.
Xi'an
2
  • James-Stein suppose que la dimension de la réponse est d'au moins 3. Dans la régression standard, la réponse est unidimensionnelle. Vous confondez le nombre de prédicteurs avec la dimension de réponse.

  • Cela étant dit, je vois la similitude entre ces situations, mais que faire exactement, par exemple, si un facteur doit être fixe ou aléatoire, combien de réduction à appliquer, le cas échéant, dépend de l'ensemble de données particulier. Par exemple, plus les prédicteurs sont orthogonaux, moins il est logique de choisir la régression de Ridge par rapport à la régression standard. Plus le nombre de paramètres est important, plus il est judicieux d'extraire le prior de l'ensemble de données lui-même via Empirical Bayes, puis de l'utiliser pour réduire les estimations de paramètres. Plus le rapport signal sur bruit est élevé, plus les avantages du retrait, etc. sont faibles.

James
la source
Merci pour la réponse. En ce qui concerne votre première puce: mais ce qui est rétréci dans la régression de crête est , qui a autant de dimensions que de prédicteurs, n'est-ce pas? β
amibe dit de réintégrer Monica
1
Ok, alors en théorie, JS devrait mieux fonctionner, en supposant qu'il ait été étendu au cas où l'estimation de la MSE est estimée et que la matrice de variance-covariance de bêta est arbitraire. Dans ce cas, JS ne se contentera pas de prendre l’estimation ponctuelle de bêta et de la multiplier par un facteur d’échelle. Comme pour Ridge Regression, les différentes composantes de la bêta seront réduites différemment.
James
Très bon point sur la matrice de covariance de ! Je suppose que cela répond (au moins intuitivement) à mon premier point. β
amibe dit de réintégrer Monica
2
@James: on peut penser à des modèles linéaires en projetant l'échantillon (qui réside dans ) sur un sous-espace de dimension (les colonnes couvertes par la matrice de conception). Nous pourrions notamment le projeter de manière triviale sur l'identité, qui est identique à l'utilisation de la moyenne d'échantillon d'un vecteur- lorsque vous n'avez qu'une seule observation. Rnpn
Andrew M
2

Comme d'autres l'ont dit, le lien entre les trois est la manière dont vous intégrez les informations antérieures dans la mesure.

  1. Dans le cas du paradoxe de Stein, vous savez que la véritable corrélation entre les variables d’entrée doit être zéro (et toutes les mesures de corrélation possibles, car vous voulez impliquer l’indépendance, pas seulement la non-corrélation), vous pouvez donc construire une variable mieux que la simple. échantillonner la moyenne et supprimer les différentes mesures de corrélation. Dans le cadre bayésien, vous pouvez construire un avant qui alourdit littéralement les événements qui conduisent à une corrélation entre les moyennes d'échantillon et les autres.
  2. En cas de régression de crête, vous souhaitez obtenir une bonne estimation de la valeur de l'espérance conditionnelle E (y | x). En principe, il s’agit d’un problème de dimension infinie et mal défini car nous n’avons qu’un nombre fini de mesures. Cependant, la connaissance antérieure est que nous recherchons une fonction continue qui modélise les données. Ceci est encore mal défini, car il existe toujours une infinité de façons de modéliser des fonctions continues, mais l'ensemble est un peu plus petit. La régression de crête n'est qu'un moyen simple de trier les fonctions continues possibles, de les tester et de s'arrêter à un dernier degré de liberté. Une interprétation est l'image de la dimension VC: lors de la régression de la crête, vous vérifiez que l'efficacité du modèle af (x, p1, p2 ...) avec un degré de liberté donné décrit l'incertitude inhérente aux données. Pratiquement, il mesure dans quelle mesure le f (x, p1, p2 ... ) et l’empirique P (p1, p2 ...) peuvent reconstruire la distribution complète de P (y | x) et pas seulement E (y | x). De cette façon, les modèles avec trop de degrés de liberté (ce qui est généralement trop grand) sont alourdis, car plus la moyenne des paramètres après un certain degré de liberté donnera des corrélations plus grandes entre les paramètres et par conséquent beaucoup plus large P (f (x, p1, p2. ..)) distributions. Une autre interprétation est que la fonction de perte initiale est également une valeur de mesure et que l'évaluation sur un échantillon donné comporte une incertitude, la tâche réelle n'est donc pas de minimiser la fonction de perte mais de trouver un minimum significativement inférieur à la valeur minimale. autres (le passage pratiquement d’un degré de liberté à un autre est une décision bayésienne; on ne modifie donc le nombre de paramètres que s’ils entraînent une diminution significative de la fonction de perte). La régression de la crête peut être interprétée comme une approximation de ces deux images (dimension CV, perte attendue). Dans certains cas, vous souhaitez préférer des degrés de liberté plus élevés, par exemple en physique des particules, vous étudiez la collision de particules dans laquelle vous vous attendez à ce que le nombre de particules produites soit une distribution de Poisson; ) d’une manière qui privilégie un nombre donné de pistes et supprime les modèles dont l’interprétation du nombre de pistes de l’image est plus petite ou plus élevée.
  3. Le troisième cas tente également de mettre en œuvre une information préalable dans la mesure, à savoir qu'il est connu des mesures précédentes que la taille des élèves peut être très bien modélisée par des distributions gaussiennes et non par un calcul de Cauchy, par exemple.

En bref, la réponse est que vous pouvez réduire l’incertitude d’une mesure si vous savez à quoi vous attendre et classer les données avec certaines données antérieures (les informations préalables). Ces données précédentes sont ce qui contraint votre fonction de modélisation que vous utilisez pour s’ajuster aux mesures. Dans des cas simples, vous pouvez écrire votre modèle dans le cadre bayésien, mais il est parfois peu pratique, comme d’intégrer toutes les fonctions continues possibles pour trouver celle qui a la valeur bayésienne maximale A postérieure.

Peter Kövesárki
la source
2

Estimateur de James Stein et régression de Ridge

Considérer

y=Xβ+ϵ

Avec ϵN(0,σ2I)

La solution des moindres carrés est de la forme

β^=S1Xy où .S=XX

β^ est non biaisé pour et a une matrice de covriance . Donc on peut écrireβσ2S1

β^N(β,σ2S1) Notez que est l'estimation du maximum de vraisemblance, MLE.β^

James Stein

Par souci de simplicité, nous supposerons pour Jame Stein . James et Stein ajouteront alors un avant sur la , de la formeS=Iβ

βN(0,aI)

Et obtiendrez une forme postérieure de la forme , ils estimera alors avec et obtiendra un estimateur de James Stein de la formeaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Régression Ridge

Dans la régression de crête, est généralement standardisé (moyenne 0, vairance 1 pour chaque colonne de ), de sorte que les paramètres de régression sont comparables. Lorsqu'il s'agit de pour .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Une estimation de régression de crête de est définie comme suit, , àβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ notez que est le MLE.β^

Comment est-ce que dérivé? Rappelβ^(λ)

β^N(β^,σ2S1) et si nous ajoutons un préalable bayésien

βN(0,σ2λI)

Ensuite nous obtenons

E(β|β^)=(S+λI)1Sβ^

Identique à l'estimation de la régression de crête . La forme originale de James Stein donnée ici prend donc et .β^(λ)S=Ia=σ2λ

Chamberlain Foncha
la source