Penser à la probabilité me fait toujours réaliser à quel point je suis mal à compter ...
Considérons une séquence de lettres de base A , , chacun également susceptibles d'apparaître. Quelle est la probabilité que cette séquence contienne une séquence particulière de paires de bases d'intérêt de longueur r ≤ n ?
Il existe séquences différentes (tout aussi probables) possibles. Commencez par la séquence d'intérêt au début de la séquence complète; 4 n - r séquences comme celle-ci sont possibles. Nous pouvons commencer notre séquence d'intérêt dans n + 1 - r emplacements différents. Par conséquent, ma réponse est ( n + 1 - r ) / 4 r .
Cette probabilité augmente en , ce qui me semble logique. Mais cette probabilité dépasse 1 lorsque n > 4 r + r - 1 . Mais ça ne peut pas être. La probabilité devrait approcher 1 dans la limite (me semble), mais pas la dépasser.
Je suppose que je compte deux fois quelque chose. Qu'est-ce que je rate? Merci.
(Pour info, pas des devoirs, juste un exemple de jouet en préparation aux examens. Une question posée par mon ami biologiste moléculaire.)
la source
Réponses:
Considérons une petite version de ce problème avec . Quelle est la probabilité qu'une séquence de cinq lettres contienne la cible … A C G T … ? C'est facile: 4 - 4 de toutes les séquences commencent par cette chaîne, un autre 4 - 4 fin avec elle, et aucune séquence à la fois commence et se termine par cette chaîne. Par conséquent, la chance est de 2 × 4 - 4 .n = 5 … A CG T… 4- 4 4- 4 2 × 4- 4
D'un autre côté, quelle est la chance de ? Encore une fois, 4 - 4 des séquences commencent par cette chaîne, la même fin de proportion avec cette chaîne, et 4 - 5 de toutes les séquences font les deux . Par conséquent, selon le principe d'inclusion-exclusion, la réponse est 2 × 4 - 4 - 4 - 5 .…AAAA… 4- 4 4- 5 2 × 4- 4- 4- 5
En général, la réponse dépend de la structure de la sous-chaîne. Pour être plus précis, lorsque vous numérisez une chaîne (de gauche à droite, par exemple) pour , vous ignorez tous les caractères jusqu'à ce que vous voyiez ce A initial . Après cela, il y a trois possibilités: le caractère suivant est une correspondance pour C , le suivant est une non-correspondance pour C mais n'est pas un A (vous êtes donc de retour dans l'état d'attente pour un A ), ou le suivant est un non-match mais c'est un A , vous plaçant dans l'état juste-vu- un - A . En revanche, envisagez une recherche pour A C T A C GA CG T UNE C C UNE UNE UNE UNE A CTA Cg . Supposons que vous avez vu le préfixe . Le caractère suivant correspondra si elle est G . Quand c'est un non-match, (i) un C vous met dans l'état d'attente initial pour A , (ii) un A vous fait surveiller un C , et (iii) un T signifie que vous avez déjà vu … A C T et vous êtes déjà à mi-chemin d'un match (et vous cherchez le deuxième A ). La "structure" pertinente consiste évidemment en des motifs de sous-chaînes dans la cible qui correspondent au préfixe de la cible. C'est pourquoi les chances dépendent de la chaîne cible.A CTA C g C UNE UNE C T … A CT UNE
Les diagrammes de FSA que je préconise dans une réponse à Time pris pour frapper un motif de têtes et de queues dans une série de lancers de pièces peuvent aider à comprendre ce phénomène.
la source
Une approximation grossière serait . Vous prenez la probabilité que votre séquence ne se produise pas à un endroit particulier, la mettez à la puissance du nombre d'emplacements (supposant faussement l'indépendance), qui est n - r + 1 et non n - r , et ceci est une approximation de son ne se produit pas, vous devez ensuite soustraire cela de 1 .1 - ( 1 - 1 / quatrer)n - r + 1 n - r + 1 n - r 1
Un calcul précis dépendra du motif précis que vous recherchez. est plus susceptible de se produire pas que A T C G T .A A A A A A TCG T
la source
Vous comptez deux fois les séquences qui incluent plusieurs fois votre sous-séquence cible, par exemple à la fois à la position A et à la position B! = A. C'est pourquoi votre probabilité erronée peut dépasser 1
la source
Il est possible d'obtenir la probabilité exacte d'une sous-séquence particulière en utilisant une représentation en chaîne de Markov du problème. Les détails de la façon de construire la chaîne dépendent de la sous-séquence particulière d'intérêt, mais je vais donner quelques exemples de la façon de procéder.
Probabilité exacte via la chaîne de Markov: considérons une séquence discrète de résultats deA , T, C, G où les résultats de la séquence sont échangeables, et supposons que nous soyons intéressés par une sous-chaîne de longueur k . Pour toute valeur donnée de n , disons W être le cas où la sous - chaîne d'intérêt se produit, et soit Hune être le cas où ces dernières une des résultats sont les premiers a < k caractères de la chaîne d'intérêt (mais pas plus que cela) . Nous utilisons ces événements pour donner la partition suivante de k + 1 états d'intérêt possibles:
Puisque la séquence des résultats est supposée être échangeable, nous avons des résultats indépendants conditionnels à leurs probabilités respectivesθUNE+ θT+ θC+ θg= 1 . Votre processus d'intérêt peut être représenté comme une chaîne de Markov à temps discret qui commence dans l' État 0 à n = 0 et transite selon une matrice de probabilité qui dépend de la sous-chaîne particulière d'intérêt. La matrice de transition sera toujours a ( k + 1 ) × ( k + 1 ) matrice représentant les probabilités de transition en utilisant les états ci-dessus. Si la sous-chaîne d'intérêt n'a pas été atteinte, chaque transition peut vous rapprocher de la sous-chaîne ou vous ramener à un état précédent qui dépend de la sous-chaîne particulière. Une fois la sous-chaîne atteinte, il s'agit d'un état absorbant de la chaîne, représentant le fait que l'événement d'intérêt s'est produit.
Par exemple, si la sous-chaîne d'intérêt estA A A A A A alors la matrice de transition est:
Au contraire, si la sous-chaîne d'intérêt estUNECTA G C alors la matrice de transition est:
R
la source