Si je fixe les valeurs des nœuds observés d'un MRF, devient-il un CRF?
probability
graphical-model
graph-theory
conditional-random-field
markov-random-field
Quelqu'un
la source
la source
Réponses:
Ok, j'ai trouvé la réponse moi-même:
Les champs aléatoires conditinaux (CRF) sont un cas particulier des champs aléatoires de Markov (MRF).
Source: Blake, Kohli et Rother: champs aléatoires de Markov pour le traitement de la vision et de l'image. 2011.
Source: Kevin P. Murphy: Apprentissage automatique: une perspective probabiliste
Répondre à ma question:
Oui. Fixer les valeurs revient à les conditionner. Cependant, vous devez noter qu'il existe également des différences dans la formation.
Regarder de nombreuses conférences sur PGM (modèles graphiques probabilistes) sur coursera m'a beaucoup aidé.
la source
MRF vs réseaux de Bayes : De manière imprécise (mais normalement) , il existe deux types de modèles graphiques: les modèles graphiques non dirigés et les modèles graphiques dirigés (un autre type, par exemple le graphique de Tanner). Le premier est également connu sous le nom de réseau Markov Random Fields / Markov et, plus tard, le réseau Bayes nets / Bayesian. (Parfois, les hypothèses d'indépendance des deux peuvent être représentées par des graphiques en accords)
Markov implique la façon dont il factorise et le champ aléatoire signifie une distribution particulière parmi celles définies par un modèle non orienté.
CRF∈ MRF : lorsque certaines variables sont observées, nous pouvons utiliser la même représentation graphique non dirigée (comme les graphiques non dirigés) et le paramétrage pour coder une distribution conditionnelle P(Y|X) où Y est un ensemble de variables cibles et X est un (disjoint ) ensemble de variables observées.
Et la seule différence réside dans le fait que pour un réseau de Markov standard, le terme de normalisation somme sur X et Y mais pour CRF, le terme somme sur seulement Y.
Référence:
la source
Comparons l'inférence conditionnelle dans les MRF à la modélisation à l'aide d'un CRF, en définissant les définitions en cours de route, puis abordons la question d'origine.
MRF
Un champ aléatoire de Markov (MRF) par rapport à un grapheG est
Inférence conditionnelle sous un MRF
Puisqu'un MRF représente une distribution conjointe sur de nombreuses variables qui obéit aux contraintes de Markov, alors nous pouvons calculer des distributions de probabilité conditionnelles étant donné les valeurs observées de certaines variables.
Par exemple, si j'ai une distribution conjointe sur quatre variables aléatoires: IsRaining, SprinklerOn, SidewalkWet et GrassWet, alors lundi je pourrais vouloir déduire la distribution de probabilité conjointe sur IsRaining et SprinklerOn étant donné que j'ai observé SidewalkWet = False et GrassWet = Vrai. Mardi, je pourrais vouloir déduire la distribution de probabilité conjointe sur IsRaining et SprinklerOn étant donné que j'ai observé SidewalkWet = True et GrassWet = True.
En d'autres termes, nous pouvons utiliser le même modèle MRF pour faire des inférences dans ces deux situations différentes, mais nous ne dirions pas que nous avons changé le modèle. En fait, bien que nous ayons observé SidewalkWet et GrassWet dans les deux cas décrits ici, le MRF lui-même n'a pas de "variables observées" en soi --- toutes les variables ont le même statut aux yeux du MRF, donc le MRF modélise également, par exemple, la distribution conjointe de SidewalkWet et GrassWet.
CRF
La différence
désigne un sous-ensemble de variables comme "observées"
définit uniquement une distribution conditionnelle sur des variables observées données non observées; il ne modélise pas la probabilité des variables observées (si les distributions sont exprimées en termes de paramètres, cela est souvent vu comme un avantage car les paramètres ne sont pas gaspillés pour expliquer la probabilité de choses qui seront toujours connues)
Exemple
Conclusion
Outre les économies potentielles des paramètres du modèle, l'expressivité accrue du modèle conditionnel et la rétention de l'efficacité de l'inférence, un dernier point important à propos de la recette CRF est que, pour les modèles discrets (et un grand sous-ensemble de modèles non discrets), malgré la l'expressivité de la famille CRF, la log-vraisemblance peut être exprimée comme une fonction convexe des paramètres de fonction permettant une optimisation globale avec descente de gradient.
Voir aussi: le papier CRF d'origine et ce tutoriel
la source