L'optimisation PCA est-elle convexe?

12

La fonction objective de l'analyse en composantes principales (ACP) minimise l'erreur de reconstruction dans la norme L2 (voir la section 2.12 ici . Une autre vue essaie de maximiser la variance sur la projection. Nous avons également un excellent article ici: Quelle est la fonction objective de l'ACP ? ).

Ma question est la suivante : l'optimisation PCA est-elle convexe? (J'ai trouvé quelques discussions ici , mais j'aimerais que quelqu'un puisse fournir une belle preuve ici sur CV).

machine-learning pca optimization convex Haitao Du
la source

3

Non. Vous maximisez une fonction convexe (sous contraintes).

user603

5

Je pense que vous devez être précis sur ce que vous entendez par «optimisation PCA». Une formulation standard consiste à maximiser sous réserve de . Le problème est que la convexité n'a même pas de sens: le domaine est une sphère, pas un espace euclidien.

x^{'} A x

$x^\prime\mathbb{A}x$

x^{'} x = 1

$x^\prime x=1$

x^{'} x = 1

$x^\prime x=1$

whuber

1

@whuber merci pour votre commentaire, je ne peux peut-être pas clarifier la question en raison de connaissances limitées. J'attendrai peut-être que certaines réponses m'aident à clarifier la question en même temps.

Haitao Du

3

Je vous renvoie à toute définition de «convexe» que vous connaissez. N'impliquent-ils pas tous un concept de points dans le domaine d'une fonction située "entre" d'autres points? Cela mérite d'être rappelé, car il vous rappelle de prendre en compte la géométrie du domaine d'une fonction ainsi que toutes les propriétés algébriques ou analytiques des valeurs de la fonction. Dans cette optique, il me semble que la formulation maximisant la variance peut être légèrement modifiée pour rendre le domaine convexe: il suffit de demander plutôt que . La solution est la même - et la réponse devient assez claire.

x^{'} x \leq 1

$x^\prime x\le1$

x^{'} x = 1

$x^\prime x=1$

whuber

17

Non, les formulations habituelles de PCA ne sont pas des problèmes convexes. Mais ils peuvent être transformés en un problème d'optimisation convexe.

La perspicacité et le plaisir de cela sont de suivre et de visualiser la séquence de transformations plutôt que de simplement obtenir la réponse: cela réside dans le voyage, pas dans la destination. Les principales étapes de ce voyage sont

Obtenez une expression simple pour la fonction objectif.
Agrandir son domaine, qui n'est pas convexe, en un qui l'est.
Modifier l'objectif, qui n'est pas convexe, en un qui est, d'une manière qui ne change évidemment pas les points auxquels il atteint ses valeurs optimales.

Si vous surveillez de près, vous pouvez voir les multiplicateurs SVD et Lagrange qui se cachent - mais ils ne sont qu'un diaporama, là pour l'intérêt scénique, et je ne les commenterai pas plus loin.

La formulation standard de maximisation de la variance de l'ACP (ou au moins son étape clé) est

\begin{matrix} (*) & Maximize f (x) = x^{'} A x subject to x^{'} x = 1 \end{matrix}

$\text{Maximize }f(x)=\ x^\prime \mathbb{A} x\ \text{ subject to }\ x^\prime x=1\tag{*}$

où la matrice est une matrice symétrique semi-définie positive construite à partir des données (généralement sa somme des carrés et de la matrice des produits, sa matrice de covariance ou sa matrice de corrélation). $n\times n$ $\mathbb A$

(De manière équivalente, nous pouvons essayer de maximiser l'objectif non contraint . Non seulement c'est une expression plus désagréable - ce n'est plus une fonction quadratique - mais la représentation graphique de cas spéciaux montrera rapidement que ce n'est pas une fonction convexe On observe généralement que cette fonction est invariante sous les redimensionnements puis la réduit à la formulation contrainte .) $x^\prime \mathbb{A} x / x^\prime x$ $x\to \lambda x$ $(*)$

Tout problème d'optimisation peut être formulé de manière abstraite comme

Trouvez au moins un qui rend la fonction aussi grande que possible. $x\in\mathcal{X}$ $f:\mathcal{X}\to\mathbb{R}$

Rappelons qu'un problème d'optimisation est convexe lorsqu'il bénéficie de deux propriétés distinctes:

Le domaine est convexe. $\mathcal{X}\subset\mathbb{R}^n$ Cela peut être formulé de plusieurs façons. L'une est que chaque fois que et et , également. Géométriquement: chaque fois que deux points d'extrémité d'un mensonge de segment de droite en , les mensonges ensemble de segments dans . $x\in\mathcal{X}$ $y\in\mathcal{X}$ $0 \le \lambda \le 1$ $\lambda x + (1-\lambda)y\in\mathcal{X}$ $\mathcal X$ $\mathcal X$
La fonction est convexe. $f$ Cela peut également être formulé de plusieurs façons. La première est que chaque fois que et et , (Nous avions besoin de $x\in\mathcal{X}$ $y\in\mathcal{X}$ $0 \le \lambda \le 1$
$f (λ x + (1 - λ) y) \geq λ f (x) + (1 - λ) f (y) .$ $f(\lambda x + (1-\lambda)y) \ge \lambda f(x) + (1-\lambda) f(y).$ $\mathcal X$ être convexe pour que cette condition ait un sens.) Géométriquement: chaque fois que est un segment de ligne dans , le graphique de (limité à ce segment) se trouve au-dessus ou sur le segment de connexion et dans . $\bar{xy}$ $\mathcal X$ $f$ $(x,f(x))$ $(y,f(y))$ $\mathbb{R}^{n+1}$
L'archétype d'une fonction convexe est localement partout parabolique avec un coefficient de tête non positif: sur tout segment de droite, il peut s'exprimer sous la forme avec $y\to a y^2 + b y + c$ $a \le 0.$

Une difficulté avec est que est la sphère unitaire , qui n'est décidément pas convexe. $(*)$ $\mathcal X$ $S^{n-1}\subset\mathbb{R}^n$ Cependant, nous pouvons modifier ce problème en incluant des vecteurs plus petits. En effet, lorsque nous mettons à l'échelle par un facteur , est multiplié par . Lorsque , nous pouvons mettre à l'échelle jusqu'à la longueur unitaire en le multipliant par $x$ $\lambda$ $f$ $\lambda^2$ $0 \lt x^\prime x \lt 1$ $x$ , augmentant ainsimais restant dans la boule unitaire. Reformulons donccomme $\lambda=1/\sqrt{x^\prime x} \gt 1$ $f$ $D^n = \{x\in\mathbb{R}^n\mid x^\prime x \le 1\}$ $(*)$

\begin{matrix} (**) & Maximize f (x) = x^{'} A x subject to x^{'} x \leq 1 \end{matrix}

$\text{Maximize }f(x)=\ x^\prime \mathbb{A} x\ \text{ subject to }\ x^\prime x\le1\tag{**}$

Son domaine est qui est clairement convexe, nous sommes donc à mi-chemin. Reste à considérer la convexité du graphe de . $\mathcal{X}=D^n$ $f$

Une bonne façon de penser au problème même si vous n'avez pas l'intention d'effectuer les calculs correspondants - est en termes de théorème spectral. $(**)$ Il dit qu'au moyen d'une transformation orthogonale , vous pouvez trouver au moins une base de dans laquelle est diagonal: c'est-à-dire, $\mathbb P$ $\mathbb{R}^n$ $\mathbb A$

A = P^{'} Σ P

$\mathbb {A = P^\prime \Sigma P}$

$\Sigma$ $\mathbb{P}$ $\mathbb A$ $x\to x^\prime \mathbb{A} x$

$\mathbb A$ $\Sigma$ $\mathbb P$

σ_{1} \geq σ_{2} \geq \dots \geq σ_{n} \geq 0.

$\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_n \ge 0.$

$x=\mathbb{P}^\prime y$ $x$ $y=\mathbb{P}x$ $f$

f (y) = y^{'} A y = x^{'} P^{'} A P x = x^{'} Σ x = σ_{1} x_{1}^{2} + σ_{2} x_{2}^{2} + \dots + σ_{n} x_{n}^{2} .

$f(y) = y^\prime \mathbb{A} y = x^\prime \mathbb{P^\prime A P} x = x^\prime \Sigma x = \sigma_1 x_1^2 + \sigma_2 x_2^2 + \cdots + \sigma_n x_n^2.$

$\mathcal X$ $\sigma_i$

$(**)$ $x^\prime x = 1$ $\sigma_1$ $f$ $\mathcal{X}$ $f$ $f$ $\sigma_1$

g (y) = f (y) - σ_{1} y^{'} y .

$g(y) = f(y) - \sigma_1 y^\prime y.$

$\sigma_1$ $f$ $g$ $f$ $\mathcal X$

$-\sigma_1$ $-\sigma_1 y^\prime y$ $\mathbb P$ $y^\prime y = x^\prime x$ $x$ $g$

g (y) = σ_{1} x_{1}^{2} + \dots + σ_{n} x_{n}^{2} - σ_{1} (x_{1}^{2} + \dots + x_{n}^{2}) = (σ_{2} - σ_{1}) x_{2}^{2} + \dots + (σ_{n} - σ_{1}) x_{n}^{2} .

$g(y) = \sigma_1 x_1 ^2 + \cdots + \sigma_n x_n^2 - \sigma_1(x_1^2 + \cdots + x_n^2) = (\sigma_2-\sigma_1)x_2^2 + \cdots + (\sigma_n - \sigma_1)x_n^2.$

$\sigma_1 \ge \sigma_i$ $i$ $g$ $g$ $x_2=x_3=\cdots=x_n=0$ $x^\prime x=1$ $x_1=\pm 1$ $y = \mathbb{P} (\pm 1,0,\ldots, 0)^\prime$ $\mathbb P$

$g$ $\partial D^n=S^{n-1}$ $y^\prime y = 1$ $f$ $g$ $\sigma_1$ $g$ $f$ $D^n$ $f$ $g$

whuber
la source

4

σ_{1}

$\sigma_1$

@amoeba Droit sur tous les plans; Merci. J'ai amplifié la discussion sur ce point.

whuber

3

(+1) Dans votre réponse, vous semblez définir une fonction convexe comme étant ce que la plupart des gens considéreraient comme une fonction concave (peut-être puisqu'un problème d'optimisation convexe a un domaine convexe et une fonction concave sur laquelle un maximum est calculé (ou une fonction convexe sur laquelle un minimum est calculé))

user795305

2

g

$g$

X

$\mathcal X$

f

$f$

2

f

$f$

g

$g$

g

$g$

6

Non.

$k$ $M$

$\hat{X} = \underset{rank(X) \leq k}{argmin} \| M - X\|_F^2$

( $\|\cdot\|_F$

Bien que la norme soit convexe, l'ensemble sur lequel elle est optimisée n'est pas convexe.

Une relaxation convexe du problème de l'ACP est appelée approximation convexe de bas rang

$\hat{X} = \underset{\|X\|_* \leq c}{argmin} \| M - X\|_F^2$

$\|\cdot\|_*$ $\|\cdot\|_1$

Vous pouvez voir Apprentissage statistique avec parcimonie , ch 6 (décompositions matricielles) pour plus de détails.

Si vous êtes intéressé par des problèmes plus généraux et comment ils sont liés à la convexité, voir Modèles de bas rang généralisés .

Jakub Bartczuk
la source

1

Avertissement: Les réponses précédentes expliquent très bien comment PCA dans sa formulation d'origine n'est pas convexe mais peut être converti en un problème d'optimisation convexe. Ma réponse ne s'adresse qu'aux pauvres âmes (comme moi) qui ne sont pas si familières avec le jargon des sphères unitaires et des SVD - ce qui est, en fait, bon à savoir.

Ma source est cette note de cours du Prof. Tibshirani

Pour qu'un problème d'optimisation soit résolu avec des techniques d'optimisation convexe, il y a deux conditions préalables.

La fonction objectif doit être convexe.
Les fonctions de contrainte doivent également être convexes.

La plupart des formulations d'ACP impliquent une contrainte sur le rang d'une matrice.

$rank(X) = k,$ $J_{11}$ $J_{22}$

Honeybadger
la source

X

$X$

k

$k$

X

$X$

k

$k$

L'optimisation PCA est-elle convexe?

Réponses: