Probabilité de lettres apparaissant dans l'ordre dans une chaîne

8

Supposons que nous ayons un alphabet contenant symboles, , où , et \ Pr (\ $) = 1 - (\ Pr (a) + \ Pr (b) + \ cdots) = 1-mp .m+1{a,b,c,d,e,...,$}p=Pr(a)=Pr(b)=Pr($)=1(Pr(a)+Pr(b)+)=1mp

Pour une chaîne aléatoire de longueur n , quelle est la probabilité que les lettres a,b,c,... (non compris $ ) se produisent dans l'ordre (pas nécessairement consécutivement)? En d'autres termes, la chaîne est de longueur n et satisfait l'expression régulière abc .

Quelques clarifications:

J'ai juste besoin que les lettres apparaissent dans l'ordre un jour. Donc, acbc est ok car il contient abc dans cet ordre.

J'ai besoin que toutes les lettres m apparaissent dans l'ordre.

Les lettres peuvent être répétées.

Andrew W
la source

Réponses:

11

Cette expression régulière représente une chaîne de Markov sur états correspondant à un état de départ et à chacune des lettres. Une transition se fait de à , de à , ..., et de l'avant-dernière lettre à la dernière, toujours avec probabilité . Sinon, l'État reste le même. L'état final est un état absorbant: une fois atteint, toutes les lettres ont été observées dans l'ordre.m+1ssaabp

En termes d'états , la matrice de transition est(s,a,b,)

Pm=(1pp0001pp00p001pp0001)

Les techniques algébriques linéaires standard (la forme normale de Jordan de et sa matrice de changement de base sont simples et clairsemées, ce qui le rend assez facile à faire) établissent que pour la dernière entrée de la première ligne de la puissance de la matrice estPmnmPmn

Pmn(1,m+1)=pmi=0nm(m1+im1)(1p)i.

C'est la chance d'atteindre l'état absorbant depuis l'état de départ après transitions: cela répond à la question. Si vous le souhaitez, elle peut être exprimée en "forme fermée" en termes de fonction hypergéométrique commen

Pmn(1,m+1)=1pm(nm1)(1p)m+n+12F1(1,n+1;n+2m;1p).

La somme a une interprétation combinatoire agréable. Soit la position à laquelle la dernière lettre apparaît en premier. Il est précédé d'une séquence (éventuellement vide) de non s, chacun ayant une chance de de se produire; puis un avec une probabilité de se produire; puis une séquence (éventuellement non vide) de non s, etc. Il y a emplacements où placer la première apparition d'un , puis la première apparition de a après cela, etc. Ainsi - y compris la première apparition de la dernière lettre en position - la probabilité estm+ia1papb(m1+im1)abm+i(m1+im1)pm(1p)k . Cela donne un terme de la somme. Ainsi, la somme décompose les séquences selon l'endroit où la dernière lettre apparaît en premier, qui peut être n'importe où de la position à sont évidemment disjoints - et additionne leurs probabilités.m+0m+(nm)

Comme exemple simple pour clarifier l'interprétation, supposons et considérons . Il existe quatre séquences de trois symboles, chacune de probabilité , et trois autres séquences de probabilité , dans lesquelles les symboles et apparaissent dans l'ordre:m=2n=3p3p2(12p)ab

aab,aba,abb,bab;ab$,a$b,$ab.

La chance est donc

4p3+3p2(12p)=3p22p3=p2(32p)=p2(1+2(1p))=P23(1,3).

L'interprétation combinatoire est que l'expression régulière ^ab(avec en position ) se produit avec la probabilité ; et , avec en position , se produit de deux manières as et , chacune avec une probabilité .b2p2^[^a]*a[^b]*bb3^a[^b]b^[^a]abp2(1p)

whuber
la source
0

Par "Les lettres peuvent être répétées", vous voulez dire que abbc est une chaîne valide? Ils «apparaissent dans l'ordre»?

Sinon, semble être la réponse pour moi. est la probabilité que dans un espace donné de caractères il n'y ait pas une telle combinaison, alors vous l'étendez à tous les espaces possibles de caractères1(1pm)nm+11pmmnm+1m

Si oui, vous avez une borne inférieure

gsmafra
la source
Cette formule n'est pas d'accord avec une énumération complète des cas où et sont petits, elle ne peut donc pas être généralement correcte. mn
whuber