La signification de représenter le simplexe comme une surface triangulaire dans la distribution de Dirichlet?

9

Je lis un livre qui présente la distribution Dirchilet, puis a présenté des chiffres à ce sujet. Mais je n'ai pas vraiment pu comprendre ces chiffres. J'ai attaché la figure ici en bas. Ce que je ne comprends pas, c'est la signification des triangles.

Normalement, quand on veut tracer une fonction de 2 variables, on prend la valeur de var1 et va2 puis on trace la valeur de la fonction de ces deux variables ... ce qui donne une visualisation en dimension 3D. Mais ici, il y a 3 dimensions et une autre valeur pour la valeur de la fonction, donc cela fait une visualisation dans l'espace 4D. Je ne peux pas comprendre ces chiffres!

J'espère que quelqu'un pourra les clarifier s'il vous plait!

ÉDITER: voici ce que je ne comprends pas de la figure 2.14a. Nous avons donc tiré de K = 3 dirichlet un échantillon thêta (qui est essentiellement un vecteur) qui est: thêta = [thêta1, thêta2, thêta3]. Le triangle trace [theta1, theta2, theta3]. La distance de l'origine à chaque thêta_i est la valeur de thêta_i. Ensuite, pour chaque thêta_i, il a mis un sommet et connecté les trois sommets et fait un triangle. Je sais que si je branche [theta1, theta2, theta3] dans dir (theta | a) j'obtiendrai un nombre qui est la probabilité conjointe du vecteur theta. Je comprends également que la probabilité de variables aléatoires continues est une mesure d'une zone. Mais ici nous avons 3 dimensions donc la probabilité conjointe sera la mesure du volume de l'espace depuis le plan rose et sous ... c'est-à-dire la pyramide. Maintenant, je ne comprends pas quel est le rôle du triangle ici.

entrez la description de l'image ici

Jack Twain
la source
2
Je vous suggère de commencer à partir de la distribution bêta et de travailler à partir de là. Le Dirichlet pour 3 est "juste" une extension logique de la bêta, qui est le Dirichlet pour 2.
Andris Birkmanis
Consultez ce fil pour un exemple: stats.stackexchange.com/questions/244917/…
Tim
Il peut être utile de penser qu'une distribution bêta est montrée en 2D (axe x représentant le résultat binaire {0,1} et axe y représentant la probabilité) donc un résultat ternaire a besoin de la dimension supplémentaire, non?
George

Réponses:

4

Je ne comprends pas quel est le rôle du triangle ici. Qu'est-ce qu'il essaie de communiquer ou de visualiser?

Tous les points du triangle doivent satisfaire aux deux contraintes: entre zéro et un dans chaque dimension ( ) et tous résument jusqu'à un ( ).θ 0 + θ 1 + θ 2 = 10θ1θ0+θ1+θ2=1

La façon dont je l'ai finalement compris est la suivante:

figure

Donc (a) montre un espace 3-D avec comme coordonnées. Ils ne varient qu'entre 0 et 1.θ1,2,3

En (b), un triangle est montré, c'est notre simplexe.

(c) montre deux exemples de points qui "reposent" sur le simplex qui remplissent également le deuxième critère (somme jusqu'à un).

(d) montre un autre exemple de point sur le simplexe, les mêmes contraintes tiennent

Dans (e), j'ai essayé de montrer une projection du simplexe sur un triangle 2D avec tous les exemples de points montrés précédemment.

J'espère que cela a plus de sens maintenant :)

John Doe
la source
2
Jolie photo. Est-ce le vôtre? Si non, pourriez-vous s'il vous plaît fournir une référence et sa source?
Tim
1
Merci. C'est le mien (dessiné à l'aide d'Inkscape), je peux fournir le SVG si nécessaire ...
John Doe
2

Le graphique 2.14 (a) montre un plan fait de trois sommets sur chaque axe. La distance d'un sommet de l'origine est , correspondant à l'une des classes. La région entourée par le plan rose et les plans des axes est la probabilité de (vecteur) k = 3 θθik=3θ. Supposons maintenant que vous incliniez ce plan afin d'avoir une pyramide avec le plan rose, le visage le plus proche du lecteur, placé à plat sur la page. Supprimez ensuite la troisième dimension "ressortant" de la page et coloriez plutôt le triangle de sorte que la région de densité plus élevée, avec une distance plus longue de la base à une surface, soit plus rouge. C'est ce que montrent les graphiques 2.14 (b) et 2.14 (c). Plus le rouge est concentré près d'un sommet, plus la classe associée à ce sommet est probable. De même, si la région rouge n'est pas très proche d'un sommet, il n'est pas particulièrement probable qu'un événement ait une probabilité plus élevée d'appartenance à l'une des classes.

Cette pyramide, cependant, n'a de sens que comme une réalisation unique de la distribution de Dirichlet. Dessiner à nouveau à partir de la même distribution peut produire une pyramide différente avec des longueurs pour chacun des sommets. La principale différence entre (a) et (b) / (c) est que (a) affiche graphiquement la probabilité d'un tirage du vecteur . Les graphiques (b) et (c) montrent la densité de probabilité pour les valeurs dans le simplexe , c'est-à-dire qu'ils tentent de présenter la fonction de densité de probabilité pour toutes les valeursθ θ k = 3 θ θ Dir ( α )θθθk=3θdans le support. Une façon de penser à (b) et (c) est comme un point ayant une couleur rouge supplémentaire en fonction de la hauteur moyenne entre le plan rose plat et la surface de la pyramide, en moyenne sur de nombreux tirages de .θDir(α)

Sycorax dit de réintégrer Monica
la source
Certains points ne sont toujours pas clairs. Peut-être à cause de mon anglais faible. "La région délimitée par le plan rose et les plans des axes est la densité." Est-ce l'espace vide de la pyramide sous le plan rose? Aussi "densité"? Que voulez-vous dire? Comme ce que je comprends, c'est que dir (x1, x2, x3) est une valeur, comment la densité entre-t-elle ici dans le graphique?
Jack Twain
Oui, entre le plan rose et les plans formés par les lignes noires en 2.14 (a) se trouve l'espace de la pyramide que j'essayais de décrire. Désolé pour la confusion!
Sycorax dit Réintégrer Monica le
Je vais modifier mon article pour expliquer davantage ce qui n'est pas encore clair
Jack Twain
le fait est que la région rose est exactement le support décrit dans le livre. puisque theta_k <= 1 et sum (theta_k) = 1. Une fois que vous vous en rendez compte, user777 a tout à fait raison.
Scratch du
@ user777 Je viens de modifier le post
Jack Twain