Méthode pour mesurer la «similitude» entre les grammaires FSA?

Je travaille avec un algorithme de correspondance de motifs qui génère un automate à états finis acyclique qui accepte une chaîne de texte donnée et toutes ses sous-chaînes. L'algorithme FSA est exécuté sur une représentation symbolique d'un flux musical (par exemple, des données MIDI). Le flux musical a été prétraité pour diviser chaque chanson en «segments» sans étiquette. Un FSA est généré pour chaque segment de chaque morceau: si j'ai morceaux, chacun divisé en segments, j'aurai FSA séparés. $n$ $y$ $n \cdot y$

Je voudrais comparer le FSA de chaque segment avec les autres FSA de mon corpus. Le but ultime serait de faire un clustering dans un espace de similarité et de trouver des «classes» de segments selon la similitude de leurs métriques de construction. Ainsi, les grammaires que chaque FSA définit sont particulièrement intéressantes (correspondant à peu près à certaines composantes du contenu musical du segment). Y a-t-il des techniques qui pourraient être bonnes pour comparer quelque chose comme ça? La divergence KL vient à l'esprit (par exemple, en l'utilisant pour comparer la distribution sur les chaînes associées à une FSA donnée), bien qu'il puisse y avoir des techniques meilleures / plus efficaces?

Aussi, veuillez m'excuser si cette question est (1) trivialement facile ou (2) indicative d'un malentendu plus profond ou (3) a répondu ailleurs. Je suis un vrai nœud, les amis!

formal-languages reference-request finite-automata retourner
la source

Vous devrez nous dire ce que vous entendez par "similaire". Vous devez sélectionner la métrique; il n'y a pas une seule bonne mesure qui convient à toutes les fins. Sans plus d'informations, nous ne pouvons pas vous dire quelle statistique utiliser. Je suggère de modifier la question pour expliquer pourquoi vous souhaitez mesurer la similitude, ce que vous ferez avec les résultats de la métrique de similitude et quelles recherches vous avez effectuées. Vous pourriez commencer par examiner les mesures des similitudes entre les chaînes sous-jacentes, plutôt que de mesurer les similitudes des FSA dérivées de ces chaînes. La distance d'édition vient à l'esprit.

Il existe de nombreuses métriques de chaîne ; qui fonctionne pour vous dépend. (Remarque: certaines des chaînes «métriques» répertoriées dans cet article ne sont pas réellement des métriques au sens mathématique.)

Raphael

Les métriques de chaîne sont bonnes, mais pas tout à fait ce que je recherche. Au lieu de comparer des chaînes spécifiques les unes aux autres, je voudrais comparer le système de règles (les grammaires formelles / FSA) qui auraient pu produire ces chaînes. Je reconnais qu'il existe une infinité de grammaires qui peuvent produire n'importe quelle chaîne spécifique, donc je limite ma recherche à une grammaire (FSA) construite en utilisant un ensemble particulier de règles. J'imagine qu'il pourrait y avoir des cas où deux chaînes individuelles sont formellement similaires selon une métrique de chaîne donnée, mais les grammaires requises pour les produire sont assez différentes

retournez le

De l'énoncé du problème, chaque FSA accepte une chaîne et toutes ses sous-chaînes. Fondamentalement, ce FSA est caractérisé par la plus longue chaîne qu'il accepte. Toute sa structure en dérive. Par conséquent, il est inutile de comparer le FSA plutôt que de comparer directement les chaînes à partir desquelles ils sont construits. Il se peut que votre technique de construction FSA mette l'accent sur certaines caractéristiques que vous jugez importantes. Ensuite, nous devons savoir à quoi ils peuvent ressembler afin de comprendre ce qui compte. Cela revient à: ce qui est similaire, quelle métrique. En l'état, cette question n'a aucun sens.

babou

Étant donné que les FSA sont des graphiques dirigés, votre question peut être généralisée comme «algorithme de mesure de la similitude entre les graphiques dirigés». Une recherche google pour «algorithme de similitude de graphique» donne des pages et des pages de résultats, peut-être que l'une d'entre elles conviendrait à vos besoins?

Une fois que la différence entre les FSA et les digraphes généraux sont les étiquettes de bord ou les symboles de transition dans les FSA, vous devrez donc modifier ces algorithmes pour en tenir compte.

Mike Ounsworth
la source

Une méthode comme celle-ci manquera certaines propriétés clés. Par exemple, vous souhaitez probablement que différentes représentations de la même langue aient une similitude complète, mais la comparaison des graphiques pourrait signaler deux automates pour la même langue comme différents.

jmite

Méthode pour mesurer la «similitude» entre les grammaires FSA?

Réponses: