Définition et convergence des moindres carrés itérativement repondérés

16

J'ai utilisé des moindres carrés itérativement repondérés (IRLS) pour minimiser les fonctions de la forme suivante,

J(m)=i=1Nρ(|xim|)

N est le nombre d'instances de xiR , mR est l'estimation robuste que je veux, et ρ est une fonction de pénalité robuste appropriée. Disons que c'est convexe (mais pas nécessairement strictement) et différenciable pour l'instant. Un bon exemple d'un tel ρ est la fonction de perte de Huber .

Ce que j'ai fait, c'est différencier J(m) par rapport à m (et manipuler) pour obtenir,

dJdm=i=1Nρ(|xim|)|xim|(xim)

et résoudre itérativement cela en le fixant à 0 et en fixant les poids à l'itération k à wi(k)=ρ(|xim(k)|)|xim(k)|(notez que la singularité perçue àxi=m(k)est vraiment une singularité amovible dans tous lesρje pourrais me soucier). Ensuite, j'obtiens,

i=1Nwi(k)(xim(k+1))=0

et je résous pour obtenir, m(k+1)=i=1Nwi(k)xii=1Nwi(k) .

Je répète cet algorithme à virgule fixe jusqu'à "convergence". Je noterai que si vous arrivez à un point fixe, vous êtes optimal, car votre dérivée est 0 et c'est une fonction convexe.

J'ai deux questions sur cette procédure:

  1. Est-ce l'algorithme IRLS standard? Après avoir lu plusieurs articles sur le sujet (et ils étaient très dispersés et vagues sur ce qu'est l'IRLS), c'est la définition la plus cohérente de l'algorithme que je puisse trouver. Je peux publier les journaux si les gens le souhaitent, mais je ne voulais en fait biaiser personne ici. Bien sûr, vous pouvez généraliser cette technique de base à de nombreux autres types de problèmes impliquant des vecteurs et des arguments autres que | x i - m ( k ) | , fournir l'argument est une norme d'une fonction affine de vos paramètres. N'importe quelle aide ou perspicacité serait grande sur ceci.xi|xim(k)|
  2. La convergence semble fonctionner dans la pratique, mais j'ai quelques inquiétudes à ce sujet. Je n'en ai pas encore vu de preuve. Après quelques simulations simples de Matlab, je vois qu'une itération de ceci n'est pas une cartographie de contraction (j'ai généré deux instances aléatoires de et de calcul | m 1 ( k + 1 ) - m 2 ( k + 1 ) |m|m1(k+1)m2(k+1)||m1(k)m2(k)| and saw that this is occasionally greater than 1). Also the mapping defined by several consecutive iterations is not strictly a contraction mapping, but the probability of the Lipschitz constant being above 1 gets very low. So is there a notion of a contraction mapping in probability? What is the machinery I'd use to prove that this converges? Does it even converge?

Any guidance at all is helpful.

Edit: J'aime le document sur IRLS pour la récupération clairsemée / détection compressive par Daubechies et al. 2008 "Minimisation itérative des moindres carrés repeuplés pour une récupération clairsemée" sur l'arXiv. Mais il semble se concentrer principalement sur les poids des problèmes non convexes. Mon cas est considérablement plus simple.

Chris A.
la source
Looking at the wiki page on IRWLS I struggle to the difference between the procedure you describe and IRWLS (they just use |yixxiββ|2 as their particular ρ function). Can you explain in what ways you think the algorithm you propose is different from IRWLS?
user603
I never stated that it was different, and if I implied it, I didn't mean to.
Chris A.

Réponses:

10

Quant à votre première question, il faut définir "standard", ou reconnaître qu'un "modèle canonique" s'est progressivement mis en place. Comme un commentaire l'a indiqué, il semble au moins que la façon dont vous utilisez IRWLS est plutôt standard.

Quant à votre deuxième question, la "cartographie des contractions en probabilité" pourrait être liée (de manière informelle) à la convergence des "algorithmes stochastiques récursifs". D'après ce que j'ai lu, il existe une énorme littérature sur le sujet, principalement en génie. En économie, nous en utilisons un tout petit peu, en particulier les travaux fondateurs de Lennart Ljung - le premier article était Ljung (1977) - qui a montré que la convergence (ou non) d'un algorithme stochastique récursif peut être déterminée par la stabilité (ou pas) d'une équation différentielle ordinaire connexe.

(ce qui suit a été retravaillé après une discussion fructueuse avec le PO dans les commentaires)

Convergence

Je vais utiliser comme référence Saber Elaydi "An Introduction to Difference Equations", 2005, 3d ed. L'analyse est conditionnelle à un certain échantillon de données donné, de sorte que les sont traités comme fixe. xs

La condition de premier ordre pour la minimisation de la fonction objectif, considérée comme une fonction récursive en , m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

a un point fixe (l'argmin de la fonction objectif). Par le théorème 1,13 pp 27-28 d'Elaydi, si la dérivée première par rapport à de la RHS de [ 1 ] , évaluée au point fixe m , notons-la A ( m ) , est plus petite que l'unité en valeur absolue , alors m est asymptotiquement stable (AS). De plus, par le théorème 4.3 p.179, nous avons que cela implique également que le point fixe est uniformément AS (UAS). "Asymptotiquement stable" signifie que pour une certaine plage de valeurs autour du point fixe, un voisinage ( m ±m[1]mA(m)m
(m±γ), not necessarily small in size, the fixed point is attractive , and so if the algorithm gives values in this neighborhood, it will converge. The property being "uniform", means that the boundary of this neighborhood, and hence its size, is independent of the initial value of the algorithm. The fixed point becomes globally UAS, if γ=.
So in our case, if we prove that

|A(m)||i=1Nvi(m)mxi|<1[2]

we have proven the UAS property, but without global convergence. Then we can either try to establish that the neighborhood of attraction is in fact the whole extended real numbers, or, that the specific starting value the OP uses as mentioned in the comments (and it is standard in IRLS methodology), i.e. the sample mean of the x's, x¯, always belongs to the neighborhood of attraction of the fixed point.

We calculate the derivative

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]
Then

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

and

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

we have

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Inserting this into [3] we have

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.

Alecos Papadopoulos
la source
Thanks for the response. Give me some time to analyze this answer.
Chris A.
Certainly. After all, the question waited 20 months.
Alecos Papadopoulos
Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.
Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos
Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.