Probabilité de trouver une séquence particulière de paires de bases

10

Penser à la probabilité me fait toujours réaliser à quel point je suis mal à compter ...

Considérons une séquence de lettres de base $n$ , chacun également susceptibles d'apparaître. Quelle est la probabilité que cette séquence contienne une séquence particulière de paires de bases d'intérêt de longueur ? $A,\; T, \; C, \text{ and } G$ $r\leq n$

Il existe séquences différentes (tout aussi probables) possibles. Commencez par la séquence d'intérêt au début de la séquence complète; séquences comme celle-ci sont possibles. Nous pouvons commencer notre séquence d'intérêt dans emplacements différents. Par conséquent, ma réponse est . $4^n$ $4^{n-r}$ $n+1 -r$ $(n+1-r)/4^r$

Cette probabilité augmente en , ce qui me semble logique. Mais cette probabilité dépasse 1 lorsque . Mais ça ne peut pas être. La probabilité devrait approcher 1 dans la limite (me semble), mais pas la dépasser. $n$ $n>4^r +r-1$

Je suppose que je compte deux fois quelque chose. Qu'est-ce que je rate? Merci.

(Pour info, pas des devoirs, juste un exemple de jouet en préparation aux examens. Une question posée par mon ami biologiste moléculaire.)

probability combinatorics Charlie
la source

C'est exact, cela ne devrait pas dépasser un car cela violerait les axiomes de probabilité: books.google.com/…

Chris Simokat

1

(Vaguement) lié: stats.stackexchange.com/questions/12174/…

cardinal

5

Considérons une petite version de ce problème avec . Quelle est la probabilité qu'une séquence de cinq lettres contienne la cible ? C'est facile: de toutes les séquences commencent par cette chaîne, un autre fin avec elle, et aucune séquence à la fois commence et se termine par cette chaîne. Par conséquent, la chance est de . $n=5$ $\ldots A C G T\ldots$ $4^{-4}$ $4^{-4}$ $2 \times 4^{-4}$

D'un autre côté, quelle est la chance de ? Encore une fois, des séquences commencent par cette chaîne, la même fin de proportion avec cette chaîne, et de toutes les séquences font les deux . Par conséquent, selon le principe d'inclusion-exclusion, la réponse est . $\ldots A A A A \ldots$ $4^{-4}$ $4^{-5}$ $2 \times 4^{-4} - 4^{-5}$

En général, la réponse dépend de la structure de la sous-chaîne. Pour être plus précis, lorsque vous numérisez une chaîne (de gauche à droite, par exemple) pour , vous ignorez tous les caractères jusqu'à ce que vous voyiez ce initial . Après cela, il y a trois possibilités: le caractère suivant est une correspondance pour , le suivant est une non-correspondance pour mais n'est pas un (vous êtes donc de retour dans l'état d'attente pour un ), ou le suivant est un non-match mais c'est un , vous plaçant dans l'état juste-vu- - . En revanche, envisagez une recherche pour $ACGT$ $A$ $C$ $C$ $A$ $A$ $A$ $A$ $ACTACG$ . Supposons que vous avez vu le préfixe . Le caractère suivant correspondra si elle est . Quand c'est un non-match, (i) un vous met dans l'état d'attente initial pour , (ii) un vous fait surveiller un , et (iii) un signifie que vous avez déjà vu et vous êtes déjà à mi-chemin d'un match (et vous cherchez le deuxième ). La "structure" pertinente consiste évidemment en des motifs de sous-chaînes dans la cible qui correspondent au préfixe de la cible. C'est pourquoi les chances dépendent de la chaîne cible. $ACTAC$ $G$ $C$ $A$ $A$ $C$ $T$ $\ldots ACT$ $A$

Les diagrammes de FSA que je préconise dans une réponse à Time pris pour frapper un motif de têtes et de queues dans une série de lancers de pièces peuvent aider à comprendre ce phénomène.

whuber
la source

3

Une approximation grossière serait . Vous prenez la probabilité que votre séquence ne se produise pas à un endroit particulier, la mettez à la puissance du nombre d'emplacements (supposant faussement l'indépendance), qui est non , et ceci est une approximation de son ne se produit pas, vous devez ensuite soustraire cela de . $1-(1-1/4^r)^{n-r+1}$ $n-r+1$ $n-r$ $1$

Un calcul précis dépendra du motif précis que vous recherchez. est plus susceptible de se produire pas que . $AAAAA$ $ATCGT$

Henri
la source

Peut - être juste moi, mais

semble un peu plus clair en termes de comprendre comment l'équation a été construite.

1 - (1 - (1 / 4)^{r})^{n - (r - 1)}

$1-(1-(1/4)^r)^{n-(r-1)}$

@JoeRocc - Je soupçonne que c'est personnel. Si vous lisez de la page

à la page

d'un livre, avez-vous lu

pages ou

pages?

300

$300$

400

$400$

400 - 300 + 1 = 101

$400-300+1=101$

400 - (300 - 1) = 101

$400-(300-1)=101$

Henry

Pas de soucis, je n'allais que par mon intuition du problème. Si nous dérivons intuitivement une équation pour être

, alors en essayant de l'expliquer à quelqu'un, je pense qu'il vaut mieux le laisser comme ça plutôt que de le simplifier en

(bien que cela puisse certainement s'avérer plus intuitif après examen). Votre intuition peut avoir été différente dans tous les cas :)

(a - (b - (c - 1 + d)))

$(a-(b-(c-1+d)))$

a - b + c - 1 + d

$a-b+c-1+d$

2

Vous comptez deux fois les séquences qui incluent plusieurs fois votre sous-séquence cible, par exemple à la fois à la position A et à la position B! = A. C'est pourquoi votre probabilité erronée peut dépasser 1

user145136
la source

Très bien fait ! +1

Michael R. Chernick

1

Il est possible d'obtenir la probabilité exacte d'une sous-séquence particulière en utilisant une représentation en chaîne de Markov du problème. Les détails de la façon de construire la chaîne dépendent de la sous-séquence particulière d'intérêt, mais je vais donner quelques exemples de la façon de procéder.

Probabilité exacte via la chaîne de Markov: considérons une séquence discrète de résultats de $A,T,C,G$ où les résultats de la séquence sont échangeables, et supposons que nous soyons intéressés par une sous-chaîne de longueur $k$ . Pour toute valeur donnée de $n$ , disons $\mathscr{W}$ être le cas où la sous - chaîne d'intérêt se produit, et soit $\mathscr{H}_a$ être le cas où ces dernières $a$ des résultats sont les premiers $a < k$ caractères de la chaîne d'intérêt (mais pas plus que cela) . Nous utilisons ces événements pour donner la partition suivante de $k+1$ états d'intérêt possibles:

\begin{matrix} État 0 & \bar{W} \cap H_{0}, \\ État 1 & \bar{W} \cap H_{1}, \\ État 2 & \bar{W} \cap H_{2}, \\ État 3 & \bar{W} \cap H_{3}, \\ ⋮ & ⋮ \\ Etat k - 1 & \bar{W} \cap H_{k - 1}, \\ Etat k & W . \end{matrix}

$\begin{matrix} \text{State 0} & & & \bar{\mathscr{W}} \cap \mathscr{H_0}, \text{ } \text{ } \text{ } \\[6pt] \text{State 1} & & & \bar{\mathscr{W}} \cap \mathscr{H_1}, \text{ } \text{ } \text{ } \\[6pt] \text{State 2} & & & \bar{\mathscr{W}} \cap \mathscr{H_2}, \text{ } \text{ } \text{ } \\[6pt] \text{State 3} & & & \bar{\mathscr{W}} \cap \mathscr{H_3}, \text{ } \text{ } \text{ } \\[6pt] \vdots & & & \vdots \\[6pt] \text{State }k-1 & & & \bar{\mathscr{W}} \cap \mathscr{H_{k-1}}, \\[6pt] \text{State }k & & & \mathscr{W}. \quad \quad \quad \text{ } \text{ } \\[6pt] \\[6pt] \end{matrix}$

Puisque la séquence des résultats est supposée être échangeable, nous avons des résultats indépendants conditionnels à leurs probabilités respectives $\theta_A + \theta_T + \theta_C + \theta_G = 1$ . Votre processus d'intérêt peut être représenté comme une chaîne de Markov à temps discret qui commence dans l' $\text{State 0}$ à $n=0$ et transite selon une matrice de probabilité qui dépend de la sous-chaîne particulière d'intérêt. La matrice de transition sera toujours a $(k+1) \times (k+1)$ matrice représentant les probabilités de transition en utilisant les états ci-dessus. Si la sous-chaîne d'intérêt n'a pas été atteinte, chaque transition peut vous rapprocher de la sous-chaîne ou vous ramener à un état précédent qui dépend de la sous-chaîne particulière. Une fois la sous-chaîne atteinte, il s'agit d'un état absorbant de la chaîne, représentant le fait que l'événement d'intérêt s'est produit.

Par exemple, si la sous-chaîne d'intérêt est $AAAAAA$ alors la matrice de transition est:

P = [\begin{matrix} 1 - θ_{UNE} & θ_{UNE} & 0 & 0 & 0 & 0 & 0 \\ 1 - θ_{UNE} & 0 & θ_{UNE} & 0 & 0 & 0 & 0 \\ 1 - θ_{UNE} & 0 & 0 & θ_{UNE} & 0 & 0 & 0 \\ 1 - θ_{UNE} & 0 & 0 & 0 & θ_{UNE} & 0 & 0 \\ 1 - θ_{UNE} & 0 & 0 & 0 & 0 & θ_{UNE} & 0 \\ 1 - θ_{UNE} & 0 & 0 & 0 & 0 & 0 & θ_{UNE} \\ 0 & 0 & 0 & 0 & 0 & 0 & 1. \end{matrix}]

$\mathbf{P} = \begin{bmatrix} 1-\theta_A & \theta_A & 0 & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & \theta_A & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & \theta_A & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & \theta_A & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & 0 & \theta_A & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & 0 & 0 & \theta_A \\[6pt] 0 & 0 & 0 & 0 & 0 & 0 & 1. \\[6pt] \end{bmatrix}$

Au contraire, si la sous-chaîne d'intérêt est $ACTAGC$ alors la matrice de transition est:

P = [\begin{matrix} 1 - θ_{UNE} & θ_{UNE} & 0 & 0 & 0 & 0 \\ 1 - θ_{UNE} - θ_{C} & θ_{UNE} & θ_{C} & 0 & 0 & 0 & 0 \\ 1 - θ_{UNE} - θ_{T} & θ_{UNE} & 0 & θ_{T} & 0 & 0 & 0 \\ 1 - θ_{UNE} & 0 & 0 & 0 & θ_{UNE} & 0 & 0 \\ 1 - θ_{UNE} - θ_{C} - θ_{g} & θ_{UNE} & θ_{C} & 0 & 0 & θ_{g} & 0 \\ 1 - θ_{UNE} - θ_{C} & θ_{UNE} & 0 & 0 & 0 & 0 & θ_{C} \\ 0 & 0 & 0 & 0 & 0 & 0 & 1. \end{matrix}]

$\mathbf{P} = \begin{bmatrix} 1-\theta_A & \theta_A & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A-\theta_C & \theta_A & \theta_C & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A-\theta_T & \theta_A & 0 & \theta_T & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & \theta_A & 0 & 0 \\[6pt] 1-\theta_A-\theta_C-\theta_G & \theta_A & \theta_C & 0 & 0 & \theta_G & 0 \\[6pt] 1-\theta_A-\theta_C & \theta_A & 0 & 0 & 0 & 0 & \theta_C \\[6pt] 0 & 0 & 0 & 0 & 0 & 0 & 1. \\[6pt] \end{bmatrix}$

$n$ $\mathbb{P}(\mathscr{W} | n) = \{ \mathbf{P}^n \}_{0,k}$ $n<k$

R $n$

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

$AAAAAA$ $n=100$ $0.01732435$

Ben - Réintègre Monica
la source

Probabilité de trouver une séquence particulière de paires de bases

Réponses: