La distribution binomiale négative est devenue un modèle populaire pour les données de comptage (en particulier le nombre attendu de lectures de séquençage dans une région donnée du génome d'une expérience donnée) en bioinformatique. Les explications varient:
- Certains l'expliquent comme quelque chose qui fonctionne comme la distribution de Poisson mais qui a un paramètre supplémentaire, permettant plus de liberté pour modéliser la vraie distribution, avec une variance pas nécessairement égale à la moyenne
- Certains l'expliquent comme un mélange pondéré de distributions de Poisson (avec une distribution de mélange gamma sur le paramètre de Poisson)
Existe-t-il un moyen de concilier ces logiques avec la définition traditionnelle d'une distribution binomiale négative comme modélisation du nombre de succès des essais de Bernoulli avant de constater un certain nombre d'échecs? Ou devrais-je simplement considérer cela comme une heureuse coïncidence qu'un mélange pondéré de distributions de Poisson avec une distribution de mélange gamma a la même fonction de masse de probabilité que le binôme négatif?
poisson-distribution
negative-binomial
bioinformatics
sequence-analysis
Michael Hoffman
la source
la source
Réponses:
IMOH, je pense vraiment que la distribution binomiale négative est utilisée pour plus de commodité.
Donc, dans l'ARN Seq, il y a une hypothèse courante que si vous prenez un nombre infini de mesures du même gène dans un nombre infini de répliques, alors la vraie distribution serait lognormale. Cette distribution est ensuite échantillonnée via un processus de Poisson (avec un comptage) de sorte que la vraie distribution se lit par gène à travers les répétitions serait une distribution Poisson-Lognormal.
Mais dans les packages que nous utilisons tels que EdgeR et DESeq, cette distribution est modélisée comme une distribution binomiale négative. Ce n'est pas parce que les gars qui l'ont écrit ne connaissaient pas une distribution Poisson Lognormale.
C'est parce que la distribution Lognormale de Poisson est une chose terrible à travailler car elle nécessite une intégration numérique pour faire les ajustements, etc. donc lorsque vous essayez de l'utiliser, les performances sont parfois très mauvaises.
Une distribution binomiale négative a une forme fermée, il est donc beaucoup plus facile de travailler avec et la distribution gamma (la distribution sous-jacente) ressemble beaucoup à une distribution lognormale en ce qu'elle semble parfois normale et a parfois une queue.
Mais dans cet exemple (si vous croyez l'hypothèse), il ne peut pas être théoriquement correct parce que la distribution théoriquement correcte est la lognormale de Poisson et les deux distributions sont des approximations raisonnables l'une de l'autre mais ne sont pas équivalentes.
Mais je pense toujours que la distribution binomiale négative "incorrecte" est souvent le meilleur choix car, empiriquement, elle donnera de meilleurs résultats car l'intégration fonctionne lentement et les ajustements peuvent mal fonctionner, en particulier avec les distributions à longue queue.
la source
Cela explique pourquoi ces distributions sont égales.
la source
Je ne peux qu'offrir de l'intuition, mais la distribution gamma elle-même décrit les temps d'attente (continus) (combien de temps faut-il pour qu'un événement rare se produise). Ainsi, le fait qu'un mélange distribué gamma de distributions discrètes de poisson se traduise par un temps d'attente discret (essais jusqu'à N échecs) ne semble pas trop surprenant. J'espère que quelqu'un a une réponse plus formelle.
Edit: j'ai toujours justifié la dist binomiale négative. pour le séquençage comme suit: L'étape de séquençage réelle consiste simplement à échantillonner des lectures à partir d'une grande bibliothèque de molécules (poisson). Cependant, cette bibliothèque est réalisée à partir de l'échantillon d'origine par PCR. Cela signifie que les molécules d'origine sont amplifiées de façon exponentielle. Et la distribution gamma décrit la somme de k variables aléatoires indépendantes distribuées de façon exponentielle, c'est-à-dire combien de molécules dans la bibliothèque après avoir amplifié k molécules d'échantillons pour le même nombre de cycles de PCR.
D'où les modèles binomiaux négatifs PCR suivis de séquençage.
la source
Je vais essayer de donner une interprétation mécaniste simpliste que j'ai trouvée utile en y réfléchissant.
la source