La communauté du machine learning abusant est-elle «conditionnée» et «paramétrée par»?

13

Disons que dépend de α . Rigoureusement parlant,Xα

  • si et α sont tous deux des variables aléatoires, on pourrait écrire p ( X α ) ;Xαp(Xα)

  • cependant, si est une variable aléatoire et α est un paramètre, nous devons écrire p ( X ; α ) .Xαp(X;α)

Je remarque plusieurs fois que la communauté du machine learning semble ignorer les différences et abuser des termes.

Par exemple, dans le célèbre modèle LDA, où est le paramètre Dirichlet au lieu d'une variable aléatoire.α

entrez la description de l'image ici

Ne devrait-il pas s'agir de ? Je vois beaucoup de gens, y compris les auteurs originaux du document LDA, l'écrire comme p ( θ α ) .p(θ;α)p(θα)

Sibbs Gambling
la source
6
Mathématiquement parlant, vous pouvez toujours conditionner une constante, car il s'agit d'un cas limite de variable aléatoire. D'un point de vue bayésien, toutes les inconnues sont traitées comme des variables aléatoires, il est donc logique d'utiliser la notation de conditionnement partout.
Xi'an
1
@ Xi'an Je comprends votre point sur le "conditionnement sur une constante". Mais imaginez que je tire d'une distribution catégorielle du paramètre θ , c'est-à-dire X C a t ( θ ) . Puis-je écrire la distribution comme p ( X θ ) ? Cela me semble bizarre, car on peut toujours définir un θ fixe . p ( X ; θ ) me semble plus confortable. XθXCat(θ)p(Xθ)θp(X;θ)
Sibbs Gambling
4
Je ne vois pas le problème en écrivant dans ce cas particulier. Encore une fois, l'utilisation de notations conditionnelles ouvre la voie à l'introduction de distributions antérieures sur chaque paramètre inconnu. p(Xθ)
Xi'an

Réponses:

14

Je pense que cela concerne plus les statistiques bayésiennes / non-bayésiennes que l'apprentissage automatique vs les statistiques.

Dans les statistiques bayésiennes, les paramètres sont également modélisés comme des variables aléatoires. Si vous avez une distribution conjointe pour , p ( X α ) est une distribution conditionnelle, quelle que soit l'interprétation physique de X et α . Si l'on considère seulement α s fixe ou sinon ne met pas une distribution de probabilité sur α , les calculs avec p ( X ; α ) sont exactement les mêmes qu'avec p ( X α ) avec p ( )X,αp(Xα)Xαααp(X;α)p(Xα)p(α)ααα

p(X;α)p(Xα)p

Juho Kokkala
la source