La question peut sembler un peu étrange car je suis nouveau dans l'inférence statistique et les réseaux de neurones.
Lorsque dans les problèmes de classification utilisant des réseaux de neurones, nous disons que nous voulons apprendre une fonction qui mappe l'espace des entrées à l'espace des sorties y : x y
Sommes-nous en train d'ajuster les paramètres ( ) pour modéliser une fonction non linéaire, ou pour modéliser une fonction de densité de probabilité?
Je ne sais pas vraiment comment mieux écrire la question. J'ai lu plusieurs fois les deux choses (fonction de densité de probabilité, ou fonction juste comme ça) donc donc ma confusion.
Généralement, les réseaux de neurones ne sont pas utilisés pour modéliser des densités de probabilité complètes. Leur objectif est de modéliser simplement la moyenne d'une distribution (ou dans une situation déterministe simplement une fonction non linéaire). Néanmoins, il est très possible de modéliser des densités de probabilité complètes via des réseaux de neurones.
Par exemple, pour un cas gaussien, une méthode simple consiste à émettre la moyenne d'une sortie et la variance d'une autre sortie du réseau, puis à minimiser la fonction dans le cadre de le processus de formation au lieu de l'erreur quadratique commune. C'est la procédure de vraisemblance maximale pour un réseau neuronal.−logN(y|x;μ,σ)
Une fois que vous entraînez ce réseau chaque fois que vous branchez une valeur en entrée, il vous donnera le et le , puis vous pouvez brancher le triplet entier à la densité pour obtenir la valeur de densité pour tout vous aimez. À ce stade, vous pouvez choisir la valeur à utiliser en fonction d'une fonction de perte de domaine réelle. Une chose à garder à l'esprit est que pour l'activation de sortie doit être illimitée afin que vous puissiez émettre vers tandis que doit être une activation positive uniquement.μ σ y , μ , σ f ( y | x ) ∼ N ( μ , σ ) y y μ - inf + inf σx μ σ y,μ,σ f(y|x)∼N(μ,σ) y y μ −inf +inf σ
En général, à moins que ce ne soit une fonction déterministe que nous recherchons, l'entraînement standard de perte au carré utilisé dans les réseaux de neurones est à peu près la même procédure que j'ai décrite ci-dessus. Sous le capot, une distribution est supposée implicitement sans se soucier du et si vous examinez attentivement vous donne une expression pour la perte au carré ( La fonction de perte de la probabilité maximale gaussienne estimateur ). Dans ce scénario, cependant, au lieu d'une valeur à votre goût, vous êtes obligé d'émettre chaque fois que vous donnez une nouvelle valeur .Gaussian σ −logN(y|x;μ,σ) y μ x
Pour la classification, la sortie sera une distribution de au lieu d'une , qui a un seul paramètre à émettre. Comme spécifié dans l'autre réponse, ce paramètre est compris entre et sorte que l'activation de la sortie doit être en conséquence. Il peut s'agir d'une fonction logistique ou de quelque chose d'autre qui atteint le même objectif.Bernoulli Gaussian 0 1
Les réseaux de densité de mélanges de Bishop sont une approche plus sophistiquée. Vous pouvez lire à ce sujet dans l'article fréquemment référencé ici:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf
la source
Ma réponse dissidente est que dans les applications pratiques les plus impressionnantes (celles où elles obtiennent le plus de couverture médiatique, par exemple), ce n'est ni la fonction ni les probabilités. Ils mettent en œuvre la prise de décision stochastique.
Sur la surface , il ressemble à NN équipons juste la fonction, la file d' attente l' approximation universelle de référence. Dans certains cas, lorsque certaines fonctions d'activation et hypothèses particulières telles que les erreurs gaussiennes sont utilisées ou lorsque vous lisez des articles sur les réseaux bayésiens, il semble que NN puisse produire les distributions de probabilité.
Cependant, tout cela est juste d'ailleurs. Ce que les NN sont censés faire, c'est modéliser la prise de décision. Lorsqu'une voiture est conduite par l'IA, son NN n'essaie pas de calculer la probabilité qu'elle ait un objet devant elle, étant donné qu'il existe un objet pour calculer la probabilité qu'il s'agisse d'un humain. Il ne calcule pas non plus le mappage des entrées de capteur sur différents types d'objets. Non, NN est censé prendre une décision sur la base de toutes les informations pour se diriger latéralement ou continuer à conduire. Ce n'est pas calculer la probabilité, c'est dire à la voiture quoi faire.
la source