Les réseaux de neurones apprennent-ils une fonction ou une fonction de densité de probabilité?

19

La question peut sembler un peu étrange car je suis nouveau dans l'inférence statistique et les réseaux de neurones.

Lorsque dans les problèmes de classification utilisant des réseaux de neurones, nous disons que nous voulons apprendre une fonction qui mappe l'espace des entrées à l'espace des sorties y : x yfxy

f(x;θ)=y

Sommes-nous en train d'ajuster les paramètres ( θ ) pour modéliser une fonction non linéaire, ou pour modéliser une fonction de densité de probabilité?

Je ne sais pas vraiment comment mieux écrire la question. J'ai lu plusieurs fois les deux choses (fonction de densité de probabilité, ou fonction juste comme ça) donc donc ma confusion.

sdiabr
la source

Réponses:

15

À strictement parler, les réseaux de neurones ont une fonction non linéaire.

Ils peuvent être interprétés comme ajustant une fonction de densité de probabilité si des fonctions d'activation appropriées sont choisies et que certaines conditions sont respectées (les valeurs doivent être positives et 1, etc ...). Mais c'est une question de comment vous choisissez d'interpréter leur sortie, pas de ce qu'ils font réellement. Sous le capot, ce sont toujours des estimateurs de fonctions non linéaires, que vous choisissez d'appliquer au problème spécifique de l'estimation PDF.

Skander H.
la source
3
@sdiabr en fait, vous n'utiliseriez pas le seuil si vous vouliez que le réseau simule un pdf - puisqu'un pdf peut avoir d'autres valeurs que 1 et 0. Avec le seuil, il devient un classificateur simple.
Skander H.21
2
La bonne façon de voir cela est que le seuillage est un problème externe à ce qui est appris du réseau. Le non-respect de cette distinction pose beaucoup de problèmes dans les applications du ML aux problèmes du monde réel.
Matthew Drury
1
Ouais ok, je comprends. Donc, en oubliant le seuillage, je modéliserais un pdf? Je pense que je me suis confondu avec le seuillage parce que j'ai lu quelque chose sur la modélisation d'une distribution de Bernouilli. Cependant, sans le seuil, c'est déjà Bernoilli non? Dans le cas où nous n'avons qu'un seul nœud de sortie avec une fonction d'activation sigmoïde, cela produirait 0 ou 1 avec une probabilité p ou (1-p)
sdiabr
1
Oui, je suis de nouveau confus, merci @CagdasOzgenc. Réessayons: en utilisant une fonction sigmoïde dans la couche de sortie, nous modélisons directement un pdf, non? suivant la distribution qu'il peut apprendre à suivre.
sdiabr
2
Cependant, vous ne vous apprenez pas sur la distribution de probabilité des coefficients inconnus, donc vous n'apprenez pas sur la distribution prédictive postérieure.
Brash Equilibrium
11

Généralement, les réseaux de neurones ne sont pas utilisés pour modéliser des densités de probabilité complètes. Leur objectif est de modéliser simplement la moyenne d'une distribution (ou dans une situation déterministe simplement une fonction non linéaire). Néanmoins, il est très possible de modéliser des densités de probabilité complètes via des réseaux de neurones.

Par exemple, pour un cas gaussien, une méthode simple consiste à émettre la moyenne d'une sortie et la variance d'une autre sortie du réseau, puis à minimiser la fonction dans le cadre de le processus de formation au lieu de l'erreur quadratique commune. C'est la procédure de vraisemblance maximale pour un réseau neuronal.logN(y|x;μ,σ)

Une fois que vous entraînez ce réseau chaque fois que vous branchez une valeur en entrée, il vous donnera le et le , puis vous pouvez brancher le triplet entier à la densité pour obtenir la valeur de densité pour tout vous aimez. À ce stade, vous pouvez choisir la valeur à utiliser en fonction d'une fonction de perte de domaine réelle. Une chose à garder à l'esprit est que pour l'activation de sortie doit être illimitée afin que vous puissiez émettre vers tandis que doit être une activation positive uniquement.μ σ y , μ , σ f ( y | x ) N ( μ , σ ) y y μ - inf + inf σxμσy,μ,σf(y|x)N(μ,σ)yyμinf+infσ

En général, à moins que ce ne soit une fonction déterministe que nous recherchons, l'entraînement standard de perte au carré utilisé dans les réseaux de neurones est à peu près la même procédure que j'ai décrite ci-dessus. Sous le capot, une distribution est supposée implicitement sans se soucier du et si vous examinez attentivement vous donne une expression pour la perte au carré ( La fonction de perte de la probabilité maximale gaussienne estimateur ). Dans ce scénario, cependant, au lieu d'une valeur à votre goût, vous êtes obligé d'émettre chaque fois que vous donnez une nouvelle valeur .GaussianσlogN(y|x;μ,σ)yμx

Pour la classification, la sortie sera une distribution de au lieu d'une , qui a un seul paramètre à émettre. Comme spécifié dans l'autre réponse, ce paramètre est compris entre et sorte que l'activation de la sortie doit être en conséquence. Il peut s'agir d'une fonction logistique ou de quelque chose d'autre qui atteint le même objectif.BernoulliGaussian01

Les réseaux de densité de mélanges de Bishop sont une approche plus sophistiquée. Vous pouvez lire à ce sujet dans l'article fréquemment référencé ici:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf

Cagdas Ozgenc
la source
Aïe, vous m'avez battu 😀 Je voulais citer les MDN de Bishop ... il y a aussi une autre façon d'obtenir des réseaux neuronaux pour produire des pdfs, qui est bien sûr le paradigme bayésien. Je vais écrire une réponse à ce sujet.
DeltaIV
Un autre article amusant sur les réseaux de densité de mélange, utilisé pour prédire les conditions de surf: icml.cc/Conferences/2005/proceedings/papers/…
Matthew Drury
Devrait-on remplacer "le triplet entier y, μ, σ" par "le triplet entier x, μ, σ"?
moh
@moh non. x est donné et n'apparaîtra pas dans la densité.
Cagdas Ozgenc du
1

Ma réponse dissidente est que dans les applications pratiques les plus impressionnantes (celles où elles obtiennent le plus de couverture médiatique, par exemple), ce n'est ni la fonction ni les probabilités. Ils mettent en œuvre la prise de décision stochastique.

Sur la surface , il ressemble à NN équipons juste la fonction, la file d' attente l' approximation universelle de référence. Dans certains cas, lorsque certaines fonctions d'activation et hypothèses particulières telles que les erreurs gaussiennes sont utilisées ou lorsque vous lisez des articles sur les réseaux bayésiens, il semble que NN puisse produire les distributions de probabilité.

Cependant, tout cela est juste d'ailleurs. Ce que les NN sont censés faire, c'est modéliser la prise de décision. Lorsqu'une voiture est conduite par l'IA, son NN n'essaie pas de calculer la probabilité qu'elle ait un objet devant elle, étant donné qu'il existe un objet pour calculer la probabilité qu'il s'agisse d'un humain. Il ne calcule pas non plus le mappage des entrées de capteur sur différents types d'objets. Non, NN est censé prendre une décision sur la base de toutes les informations pour se diriger latéralement ou continuer à conduire. Ce n'est pas calculer la probabilité, c'est dire à la voiture quoi faire.

Aksakal presque sûrement binaire
la source