Dans l'apprentissage automatique, pourquoi les exposants sont-ils utilisés à la place des indices?

Je prends le cours d' Andrew Ng sur l'apprentissage automatique à travers Coursera . Pour les équations, les exposants sont utilisés à la place des indices. Par exemple, dans l'équation suivante, est utilisé à la place de : $x^{(i)}$ $x_i$

$J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2}$

Apparemment, c'est une pratique courante. Ma question est pourquoi utiliser des exposants au lieu des indices? Les exposants sont déjà utilisés pour l'exponentiation. Certes, je semble être en mesure de lever toute ambiguïté entre les cas d'utilisation d'exposant et d'exponentiation en faisant attention à la présence ou non de parenthèses, mais cela semble toujours confus.

machine-learning notation entpnerd
la source

Je soupçonne que c'est peut-être parce que certains informaticiens ne connaissent pas la notation mathématique standard et inventent donc leur propre notation. Les actuaires le font parfois aussi, et c'est frustrant quand on arrive à des concepts plus compliqués.

rocinante

L' iindexation est-elle supérieure à la taille de l'ensemble de données ou aux éléments du vecteur x? Si le premier, c'est tout à fait standard. Si ce dernier, c'est totalement non standard. Et la raison pour laquelle l'exposant est utilisé est que, parfois, vous voulez faire référence à l'élément du vecteur en utilisant l'indice.

Rex Kerr

@rocinante lol non, c'est parce que les indices sont déjà pris pour indexer les vecteurs.

Neil G

@rocinante C'est plutôt présomptueux. Qu'en est-il des vecteurs contravariants / notation d'Einstein ?

Will Vousden

@rocinante Je dois faire écho aux autres en soulignant que votre formulation est malheureuse. Nous avons tous tendance à considérer ce qui est local et familier comme standard.

Nick Cox

Réponses:

Si désigne un vecteur alors est une notation standard pour la ème coordonnée de , c'est-à-dire $x$ $x \in \mathbb R^m$ $x_i$ $i$ $x$

x = (x_{1}, x_{2}, \dots, x_{m}) \in R^{m} .

$x = (x_1, x_2, \ldots, x_m)\in\mathbb R^m.$

Si vous avez une collection de tels vecteurs, comment désigneriez-vous un ème vecteur? Vous ne pouvez pas écrire , cela a une autre signification standard. Donc, parfois, les gens écrivent et c'est pourquoi je crois qu'Andrew Ng le fait. $n$ $i$ $x_i$ $x^{(i)}$

C'est à dire

x^{(1)} = (x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{m}^{(1)}) \in R^{m} x^{(2)} = (x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{m}^{(2)}) \in R^{m} \dots x^{(n)} = (x_{1}^{(n)}, x_{2}^{(n)}, \dots, x_{m}^{(n)}) \in R^{m} .

$\begin{equation} x^{(1)} = (x_1^{(1)}, x_2^{(1)}, \ldots, x_m^{(1)}) \in \mathbb R^m\\ x^{(2)} = (x_1^{(2)}, x_2^{(2)}, \ldots, x_m^{(2)}) \in \mathbb R^m\\ \ldots \\ x^{(n)} = (x_1^{(n)}, x_2^{(n)}, \ldots, x_m^{(n)}) \in \mathbb R^m.\\ \end{equation}$

amibe dit réintégrer Monica
la source

Je ne suis pas en désaccord, mais souvent est utilisé, c'est-à-dire pour des mesures répétées.

x_{i j}

$x_{ij}$

Cliff AB

Oui, mais est équivalent à mon ; quel serait l'équivalent de ?

x_{i j}

$x_{ij}$

x_{j}^{(i)}

$x^{(i)}_j$

x^{(i)}

$x^{(i)}$

amibe dit Réintégrer Monica le

oui, c'est un avantage. Je pense que Est parfois utilisé, mais cela pourrait être confondu avec .

x_{i .}

$x_{i.}$

\sum_{j = 1}^{n} x_{i j} / m

$\sum_{j= 1}^n x_{ij}/m$

Cliff AB

Si vous souhaitez parcourir les matrices, alors le semble le moyen le plus intuitif de le faire. Par conséquent, la notation reste cohérente lors du passage des vecteurs aux matrices.

x_{m n}^{(i)}

$x_{mn}^{(i)}$

josh

@JAB Oui, c'est pour rendre la notation plus explicite ("type hinting" comme vous dites). Bien sûr, on peut accepter d'utiliser

pour le

ème vecteur et

pour le

ème élément du

ème vecteur. Il existe différentes conventions possibles, ce n'est que l'une d'entre elles. Je ne dis même pas que c'est le meilleur, j'explique simplement la raison d'être.

x_{i}

$x_i$

i

$i$

x_{i j}

$x_{ij}$

j

$j$

i

$i$

Amoeba dit Reinstate Monica

L'utilisation de super scripts comme vous l'avez dit, je crois, n'est pas très courante dans la littérature d'apprentissage automatique. Je devrais revoir les notes de cours de Ng pour confirmer, mais s'il met cet usage là, je dirais qu'il serait à l'origine de la prolifération de cette notation. C'est une possibilité. Quoi qu'il en soit, ne soyez pas trop méchant, mais je ne pense pas que beaucoup d'étudiants de cours en ligne publient de la littérature sur l'apprentissage automatique, donc cette notation n'est pas très courante dans la littérature actuelle. Après tout, ce sont des cours d'introduction à l'apprentissage automatique, pas des cours de niveau doctorat.

Ce qui est très courant avec les super scripts est de désigner l'itération d'un algorithme utilisant des super scripts. Par exemple, vous pouvez écrire une itération de la méthode de Newton comme

$\theta^{(t+1)} = \theta^{(t)} - H(\theta^{(t)}) ^{-1} \nabla \theta^{(t)}$

$H(\theta^{(t)})$ $\nabla \theta^{(t)}$

(... oui ce n'est pas tout à fait le meilleur moyen de mettre en œuvre la méthode de Newton en raison de l'inversion de la matrice de Hesse ...)

$\theta^{(t)}$ $\theta$ $t^{th}$

$x^{(i)}$ $x_i$ $x^{(i)}$ $i^{th}$ $x$

Cliff AB
la source

Le conflit avec l'utilisation d'exposants entre parenthèses / entre crochets pour le nombre d'itérations (une notation qui est couramment utilisée dans un large éventail de domaines) est une chose vraiment importante à soulever.

Glen_b -Reinstate Monica

Il est également couramment utilisé pour indiquer l'index de l'échantillon dans l'ensemble d'apprentissage, qui est similaire à l'itération mais pas exactement le même car vous finissez généralement par itérer plusieurs fois dans votre ensemble d'entraînement.

Rex Kerr

a_{n + 1} = a_{n} + 1

$a_{n+1} = a_n + 1$

a (n + 1) = a (n) + 1

$a(n+1) = a(n) + 1$

(x > 0)

$(x > 0)$

I (x > 0)

$I(x > 0)$

I (x > 0)

$I(x > 0)$

x > 0

$x > 0$

=

$=$ ===

Les exposants sont déjà utilisés pour l'exponentiation.

En mathématiques, les exposants sont utilisés à gauche et à droite selon le domaine. Le choix est toujours un héritage historique, rien de plus. Celui qui est entré en premier sur le terrain a établi la convention d'utilisation des sous-indices ou des exposants.

$f(x)^{(n)}$

$R^i_i$ $i$ $j$ $T_i^k=R_i^jC_j^k$

$^i_jB_k^l$

Par conséquent, le choix des exposants de Ng est également purement historique. Il n'y a aucune raison réelle de les utiliser ou de ne pas les utiliser, ou de les préférer aux indices. En fait, je pense qu'ici, les ML utilisent la notation tensorielle. Ils connaissent certainement bien le sujet, par exemple, voir cet article.

Aksakal
la source

Un autre exemple pour votre point: notation Einstein

Neil G