Quelles sont les étapes pour convertir la somme pondérée des carrés en forme matricielle?

Je suis nouveau dans la conversion de formules en formulaire matriciel. Mais cela est nécessaire pour un code d'apprentissage automatique efficace. Je veux donc comprendre la "bonne" façon, pas les trucs de cow-boy que je fais.

D'accord, j'essaie de convertir la somme pondérée des carrés de la forme ci-dessous en forme matricielle. Je vois souvent la forme matricielle comme équivalente à celle ci-dessous, et aucune explication n'est donnée sur la façon dont elle est dérivée.

J (w) = \sum_{i = 1}^{m} u_{i} (w^{T} x_{i} - y_{i})^{2}

$J(w)=\sum_{i=1}^m u_i (w^T x_i - y_i)^2$

où est le poids de chaque erreur d'échantillon . De plus, , , , , . est la valeur prédite, résultat de la multiplication d'un vecteur poids par un vecteur caractéristique. $u_i$ $_i$ $x_i \in \mathbb{R^n}$ $w \in \mathbb{R^n}$ $y \in \mathbb{R}$ $u_i \in \mathbb{R}$ $i=1,...,m$ $w^T x_i$

Voici ce que je pense et je suis créatif. Alors n'hésitez pas à aller jusqu'au bout si je continue sur une tangente.

Soit un vecteur colonne de fonctions qui représente l'erreur non quadratique. On peut représenter sur as $r$ $(w^T x_i - y_i)^2$ $i=1,...,m$

\begin{matrix} (1) & r^{2} = [\begin{matrix} r_{1} & r_{2} & \dots & r_{m} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ ⋮ \\ r_{m} \end{matrix}] \end{matrix}

$r^2 = \begin{bmatrix}r_1 & r_2 & \cdots & r_m\end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \\ \end{bmatrix} \tag{1}\label{1}$

Le résultat du vecteur multiplié par le vecteur est une matrice (scalaire). $1 \times m$ $m \times 1$ $1 \times 1$

Soit un vecteur de poids qui pèse chaque erreur d'échantillon. Comme nous devons peser les erreurs au carré, nous devons incorporer dans la formule avant d'obtenir le scalaire. Puisque nous voulons que le premier reste un vecteur , nous définissons comme une matrice diagonale avec les termes diagonaux provenant de . Nous avons maintenant: $u$ $u$ $\ref{1}$ $r$ $1 \times m$ $U$ $u$

\begin{matrix} (2) & J (w) = [\begin{matrix} r_{1} & r_{2} & \dots & r_{m} \end{matrix}] [\begin{matrix} u_{1} & 0 & \dots & 0 \\ 0 & u_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & u_{m} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ ⋮ \\ r_{m} \end{matrix}] \end{matrix}

$J(w) = \begin{bmatrix}r_1 & r_2 & \cdots & r_m\end{bmatrix} \begin{bmatrix} u_1 & 0 & \cdots & 0\\ 0 & u_2 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & u_m\\ \end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \\ \end{bmatrix} \tag{2}\label{2}$

Nous pouvons simplifier ceci en

\begin{matrix} (3) & J (w) = r^{T} U r \end{matrix}

$J(w) = r^T U r \tag{3}\label{3}$

Maintenant, nous développons . Nous avions multiplié par , nous donnant où X est maintenant une matrice et est un vecteur de colonne . Soit y le vecteur de colonne représentant les étiquettes . Maintenant . Nous substituons cela dans la formule , nous donnant la somme finale pondérée des carrés sous forme de matrice: $r$ $x_i \in \mathbb{R^n}$ $w \in \mathbb{R^n}$ $Xw$ $m \times n$ $w$ $n \times 1$ $m \times 1$ $y = 1,...,m$ $r = (Xw - y)$ $\ref{3}$

\begin{matrix} (4) & J (w) = (X w - y)^{T} U (X w - y) \end{matrix}

$J(w) = (Xw - y)^T U(Xw-y) \tag{4}\label{4}$

Tout d'abord, cela a-t-il un sens? Deuxièmement, et surtout, est-ce vraiment ainsi que vous êtes censé le faire?

Merci

regression machine-learning linear-algebra vega
la source

Cela: math.stackexchange.com/questions/198257/… pourrait vous aider!

kjetil b halvorsen

+1: C'est drôle que tu penses faire des trucs de cowboy. C'est exactement la façon de le faire, même si je ne l'écrirais jamais complètement (donc bon travail!). Ceci est un chapitre d'un livre de mon cours d'économétrie 1 pendant mon étude d'économétrie. La page 120 explique comment réécrire une fonction (facile) en notation matricielle et la page 121 est votre exemple sans les pondérations (notation légèrement différente cependant). Si je me souviens bien, un autre chapitre traite également des estimateurs WLS (qui est essentiellement votre expression).

Marcel10

Cela me semble correct.

Matthew Gunn

Je vais tenter une réponse à cette question: tout ce que vous avez présenté est correct.

Ce que vous avez essentiellement dérivé est le théorème de Gauss-Markov: l'estimateur des moindres carrés pondérés est le meilleur estimateur linéaire sans biais pour les données pondérées. Cet estimateur minimise la somme des carrés pondérés (votre premier affichage) et est donné par: . Ici est la matrice de conception avec la première colonne définie sur le vecteur de uns (c'est le terme d'interception). $\hat{\beta}_{WLS} = \left( \mathbf{X}^T\mathbf{W}\mathbf{X} \right) \left( \mathbf{X}^T \mathbf{W} Y \right)$ $\mathbf{X}$ $\mathbf{1}$ $n \times 1$

Ce résultat s'applique à une matrice de covariance arbitraire. Cependant, les données indépendantes pondérées sont représentées avec un vecteur de poids le long de la diagonale de la matrice de poids. (votre notation a comme coefficient de régression et comme poids, donc pour éviter toute confusion, la matrice de conception serait et . $w$ $u$ $\mathbf{X} = [x], \mathbf{W} = \text{diag}(u),$ $\beta=[w]$

La preuve du théorème de Gauss Markov est par contradiction. Voyez ici . Cela signifie que nous ne dérivons pas analytiquement un tel estimateur directement de la fonction de perte. Vous avez peut-être vu une telle approche utilisée pour dériver des équations d'estimation de régression linéaire et logistique.

AdamO
la source

Quelles sont les étapes pour convertir la somme pondérée des carrés en forme matricielle?

Réponses: