Quels sont les ensembles possibles de longueurs de mots dans une langue régulière?

Étant donné un langage , définissez l'ensemble de longueur de comme l'ensemble de longueurs de mots dans : $L$ $L$ $L$

L S (L) = {| u | ∣ u \in L}

$\mathrm{LS}(L) = \{|u| \mid u \in L \}$

Quels ensembles d'entiers peuvent être l'ensemble de longueurs d'une langue régulière?

formal-languages computability regular-languages finite-automata Gilles 'SO- arrête d'être méchant'
la source

Réponses:

Premièrement, une observation qui n'est pas cruciale mais pratique: l'ensemble $\mathscr{S}$ d'ensembles d'entiers qui sont $LS(L)$ pour un langage régulier $L$ sur un alphabet non vide $\mathscr{A}$ ne dépend pas du choix de l'alphabet. Pour voir cela, considérons un automate fini qui reconnaît $L$ ; les longueurs des mots qui sont dans $L$ sont les longueurs des chemins sur l'automate vu comme un graphe sans étiquette de l'état de départ à tout état accepté. En particulier, vous pouvez renommer chaque flèche en $a$ et obtenir une langue régulière avec la même longueur définie sur l'alphabet $\{a\}$ . Inversement, si $L$ est une langue régulière sur un alphabet à un élément, il peut être injecté trivialement dans un alphabet plus grand, et le résultat est toujours une langue régulière.

Par conséquent, nous recherchons les ensembles de longueurs possibles pour les mots sur un alphabet singleton. Sur un alphabet singleton, la langue est la longueur définie en unaire: $\mathrm{LS}(L) = \{n\in\mathbb{N} \mid a^n \in L\}$ . Ces langues sont appelées langues unaires.

Laissez - $L$ un langage régulier, et d' envisager un automate fini déterministe (DFA) qui reconnaît $L$ . L'ensemble des longueurs de mots de $L$ est l'ensemble des longueurs de chemins dans le DFA vu comme un graphe orienté qui commence à l'état de début et se termine dans l'un des états d'acceptation. Un DFA sur un alphabet à un élément est assez docile (les NFA seraient plus sauvages): c'est soit une liste finie soit une liste circulaire. Si la liste est finie, numérotez les états de $0$ à $h$ suivant l'ordre de la liste; s'il est circulaire, numérotez les états de $0$ à $h$ suivant le début de la liste, et $h$ à $h+r$ long de la boucle.

automates en forme de liste

Soit $F$ l'ensemble des indices des états acceptés jusqu'à $h$ , et $G$ l'ensemble des indices des états acceptés de $h$ à $h+r$ . alors

L S (L) = F \cup {k r + X ∣ X \in g, k \in N}

$\mathrm{LS}(L) = F \cup \{ k \, r + x \mid x \in G, k\in\mathbb{N} \}$

Inversement, soit $h$ et $r$ deux entiers et $F$ et $G$ deux ensembles finis d'entiers tels que $\forall x \in F, x \le h$ et $\forall x \in G, h \le x \le h+r$ . Alors l'ensemble $L_{F,G,r} = \{ a^{k\,r+x} \mid x\in G, k\in\mathbb{N} \}$ est un langage régulier: c'est le langage reconnu par le DFA décrit ci-dessus. Une expression régulière qui décrit ce langage est $a^F \mid a^{G} (a^r)^*$ .

Pour résumer en anglais, les ensembles de longueurs des langues régulières sont les ensembles d'entiers qui sont périodiques¹ au-dessus d'une certaine valeur .

¹ _{Pour conserver une notion bien établie , périodique signifie la fonction caractéristique de l'ensemble (qui est une fonction $\mathbb{N}\to\{\mathtt{false},\mathtt{true}\}$ que nous élevons à une fonction $\mathbb{Z}\to\{\mathtt{false},\mathtt{true}\}$ ) est périodique. Périodique au-dessus d'une certaine valeur signifie que la fonction limitée à $[h,+\infty[$ peut être prolongée en une fonction périodique.}

Gilles 'SO- arrête d'être méchant'
la source

Votre observation sur la non-pertinence de l'alphabet suggère que le théorème de Parikh peut être appliqué. Plus précisément, vous montrez que LS (L) = LS (L ') où dans L' toutes les lettres sont réduites à un seul alphabet. Mais LS (L ') est la cartographie parikh de la langue L, qui est connue pour être semi-linéaire pour toute langue régulière.

Suresh

Belle approche! 1) Je pense que le premier paragraphe peut être remplacé en notant que les langages réguliers sont fermés contre les homomorphismes de chaînes. 2) Pour plus de clarté, vous devriez envisager de donner la deuxième partie de

comme

, modulo off-by-one-errors. 3) Qu'est-ce qu'un ensemble «périodique» d'entiers?

L S (L)

$\mathrm{LS(L)}$

{h + k r + (x - h) ∣ \dots}

$\{h + kr + (x - h) \mid \dots \}$

Raphael

@Suresh, Raphael (1): Je préfère énoncer la preuve de manière élémentaire, ni homomorphismes ni mappages de Parikh n'ont été mentionnés dans ma classe CS 102.

Gilles 'SO- arrête d'être méchant'

@Raphael (2) Là où vous commencez dans l'indexation

n'a pas d'importance, je pourrais supprimer la condition

, car

peut absorber autant de petits éléments que nous voulons. (3) Un ensemble qui est périodique au-dessus d'une certaine valeur est celui qui peut être mis sous la forme affichée ci-dessus.

G

$G$

h \leq G

$h \le G$

F

$F$

Gilles 'SO- arrête d'être méchant'

Tout sous-ensemble fini peut être l'ensemble de longueurs d'un langage régulier , car vous pouvez prendre un alphabet unaire et définir comme (cela inclut la langue vide et ). $\{\ell_1,\ldots,\ell_n\}\subset\mathbb{N}$ $L$ $\{0\}$ $L$ $\{0^{\ell_1},\ldots,0^{\ell_n}\}$ $\{\varepsilon\}$

Maintenant pour les ensembles infinis. Je donnerai une brève analyse, bien que la réponse finale ne soit pas assez explicite. Je ne m'étendrai pas à moins que vous ne me le demandiez, car je pense que c'est intuitif et parce que je n'ai pas beaucoup de temps maintenant.

Soit des expressions régulières générant respectivement les langages et . Il est (en quelque sorte) facile de voir que $r_1,r_2$ $L_1$ $L_2$

. $\mathsf{LS}(L(r_1+r_2))=\mathsf{LS}(L_1\cup L_2)=\mathsf{LS}(L_1)\cup\mathsf{LS}(L_2)$
. Ceci est noté $\mathsf{LS}(L(r_1r_2))=\mathsf{LS}(L_1L_2)=\{\ell_1+\ell_2:\ell_1\in\mathsf{LS}(L_1),\ell_2\in\mathsf{LS}(L_2)\}$ . $\mathsf{LS}(L_1)+\mathsf{LS}(L_2)$
$L S (L (r_{1}^{*})) = {0} \cup ⋃_{n \geq 1} {\sum_{i = 1}^{n} ℓ_{i} : (ℓ_{1}, \dots, ℓ_{n}) \in (L S (L_{1}))^{n}} .$ $\mathsf{LS}(L(r_1^*))=\{0\}\cup\bigcup_{n\geq 1}\Big\{\sum_{i=1}^n\ell_i:(\ell_1,\ldots,\ell_n)\in\big(\mathsf{LS}(L_1)\big)^n\Big\}.$

Ainsi, les ensembles possibles d'entiers qui peuvent être l'ensemble de longueurs d'un langage régulier sont ceux qui sont des sous-ensembles finis de ou qui peuvent être construits en prenant des sous-ensembles finis de et en utilisant les formules précédentes un fini nombre de fois. $\mathbb{N}$ $S_1,S_2$ $\mathbb{N}$

Ici, nous utilisons que les langages réguliers sont construits, par définition, en appliquant les règles de construction d'une expression régulière un nombre fini de fois. Notez que nous pouvons commencer avec n'importe quel sous-ensemble fini de , même si dans les expressions régulières nous commençons avec des mots de longueur 0 et 1 uniquement comme cas de base. Ceci est facilement justifié par le fait que tous les mots (finis) sont des concaténations (finies) des symboles de l'alphabet. $\mathbb{N}$

Janoma
la source

Je ne vois pas de réponse définitive. (Aviez-vous l'intention de terminer votre réponse plus tard?) J'espérais une description simple des ensembles possibles et une connexion avec les automates.

Gilles 'SO- arrête d'être méchant'

La réponse finale est là: "Ainsi, les ensembles possibles d'entiers ...". Il s'agit en effet d'une description simple, bien que liée à des expressions régulières et non à des automates.

Janoma

Il existe une description plus simple qui n'implique pas de prendre un point fixe. Peut-être que cette question n'est pas aussi élémentaire que je le pensais!

Gilles 'SO- arrête d'être méchant'

Je ne pense pas que vous puissiez éviter la dernière règle, car c'est l'opérateur étoile qui peut produire des ensembles de longueurs infinis, tout comme il produit des langages infinis.

Janoma

@Gilles Vous voulez donc une forme fermée du plus petit point fixe de la solution inductive fournie par Janoma?

Raphael

Selon le lemme de pompage pour les langues régulières, il existe un tel qu'une chaîne de longueur au moins égale à puisse s'écrire sous la forme suivante: Où les trois conditions suivantes sont réunies: $n$ $x$ $n$

X = u v w

$x = uvw$

| u v | < n

$|uv| < n$

| v | > 0

$|v| > 0$

u v^{k} w \in L

$uv^{k}w \in L$

Cela nous donne un test pour les ensembles: un ensemble ne peut pas être l'ensemble de longueur d'un langage normal à moins que tous ses éléments ne puissent être exprimés sous la forme d'un ensemble arbitraire d'entiers non supérieur à un fixe , plus un multiple d'une valeur indéterminée (la longueur de ), plus une valeur finie arbitraire. $n$ $m$ $v$

En d'autres termes, il semble que les ensembles possibles de longueurs de langue pour les langues régulières soient la fermeture par rapport à l'union des ensembles (comme discuté sous EDIT et EDIT2, grâce aux commentateurs) des ensembles décrits comme suit: Pour les ensembles fixes et tous les ensembles finis , par le lemme de pompage pour les langues régulières (merci à Gilles d'avoir signalé une erreur idiote dans ma version originale, par laquelle je définissais l'ensemble ).

{une + b n | n \in N} \cup S

$\{a + bn | n \in \mathbb{N}\} \cup S$

a, b \in N

$a, b \in \mathbb{N}$

S

$S$

N

$\mathbb{N}$

EDIT: Un peu plus de discussion. Certes, tous les ensembles entiers finis sont des ensembles de longueurs. De plus, l'union de deux ensembles de longueurs doit également être un ensemble de longueurs, de même que le complément de tout ensemble de longueurs (d'où l'intersection, donc la différence). La raison en est que les langues régulières sont fermées dans le cadre de ces opérations. Par conséquent, la réponse que je donne ci-dessus est (peut-être) incomplète; en réalité, toute union de tels ensembles est également la longueur d'un langage régulier (notez que j'ai abandonné l'exigence d'intersection, de complément, de différence, etc., car ceux-ci sont couverts par le fait que les langages réguliers sont fermés sous ces propriétés, comme discuté dans EDIT3; je pense que seul l'union est réellement nécessaire, même si les autres ont raison, ce qui pourrait ne pas être le cas).

$bn$ $a$ vient de la concaténation, et la discussion de l'union, de l'intersection, de la différence et du complément vient du + des expressions régulières (ainsi que d'autres propriétés de fermeture des langages réguliers) prouvables à partir des automates) .

EDIT3: À la lumière du commentaire de Janoma, oublions les propriétés de fermeture des ensembles de longueurs de langue dont je discute dans le premier EDIT. Étant donné que les langues régulières ont ces propriétés de fermeture et que chaque langue régulière a un DFA, il s'ensuit que le lemme de pompage pour les langues régulières s'applique à toutes les unions, intersections, compléments et différences de langues régulières, et nous allons en rester là. ; pas besoin d'en tenir compte, à l'exception de l'union, qui, selon moi, pourrait encore être nécessaire pour corriger mon original (modifié, grâce à la contribution de Gilles). Donc, ma réponse finale est la suivante: ce que je dis dans la version originale, plus la fermeture des ensembles de longueur de langue par rapport à l'union d'ensemble.

Patrick87
la source

{a + b n ∣ a, b, n \in N} \cup S

$\{a+bn \mid a,b,n\in\mathbb{N}\} \cup S$

N

$\mathbb{N}$

L = L (a^{*})

$L=L(a^*)$

Σ = {a, b}

$\Sigma=\{a,b\}$

L

$L$

N

$\mathbb{N}$

\bar{L}

$\overline{L}$

N^{+}

$\mathbb{N}^+$

@Gilles Mais l'ensemble de tous les nombres naturels est un ensemble de longueur valide, non? Je ne génère pas tous les sous-ensembles de nombres naturels, non? Je suis d'accord que ce serait problématique. Edit: oh attendez, je vois ce que vous dites. Oui tu as raison. Résoudra lorsque de retour à l'ordinateur.

Patrick87

@Janoma Excellent point, devra réfléchir à la façon dont cela pourrait changer l'ensemble des choses que je définis ...

Patrick87