Généralisation continue de la distribution binomiale négative

La distribution binomiale négative (NB) est définie sur des entiers non négatifs et a une fonction de masse de probabilitéEst-il sensé de considérer une distribution continue sur des réels non négatifs définis par la même formule (en remplaçant par )? Le coefficient binomial peut être réécrit comme un produit de , qui est bien défini pour tout réel . Nous aurions donc un PDF Plus généralement, nous pouvons remplacer le coefficient binomial par des fonctions Gamma, permettant des valeurs non entières de :

f (k; r, p) = (\binom{k + r - 1}{k}) p^{k} (1 - p)^{r} .

$f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.$

k \in N_{0}

$k\in \mathbb N_0$

x \in R_{\geq 0}

$x\in\mathbb R_{\ge 0}$

(k + 1) \cdot \dots \cdot (k + r - 1)

$(k+1)\cdot\ldots\cdot(k+r-1)$

k

$k$

f (x; r, p) \propto \prod_{i = 1}^{r - 1} (x + i) \cdot p^{x} (1 - p)^{r} .

$f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}.$

r

$r$

f (x; r, p) \propto \frac{Γ (x + r)}{Γ (x + 1) Γ (r)} \cdot p^{x} (1 - p)^{r} .

$f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}.$

Est-ce une distribution valide? At-il un nom? At-il des utilisations? Est-ce peut-être un composé ou un mélange? Existe-t-il des formules fermées pour la moyenne et la variance (et la constante de proportionnalité dans le PDF)?

(J'étudie actuellement un article qui utilise le modèle de mélange NB (avec fixe $r=2$ ) et l'adapte via EM. Cependant, les données sont des entiers après une certaine normalisation, c'est-à-dire pas des entiers. Néanmoins, les auteurs appliquent la formule NB standard pour calculer la probabilité et obtenir des résultats très raisonnables, donc tout semble fonctionner très bien. Je l'ai trouvé très déroutant. Notez que cette question ne concerne pas NB GLM.)

distributions negative-binomial count-data continuous-data bioinformatics amibe dit réintégrer Monica
la source

Ne serait-ce pas un mélange de Gammas avec le paramètre d'échelle

- \log p

$-\log p$ ? Si vous développez le polynôme

Π_{i = 1}^{r - 1} (x + i)

$\Pi_{i=1}^{r-1}(x+i)$ vous obtiendrez simplement

\sum_{i = 2}^{r} a_{i} x^{i - 1}

$\sum_{i=2}^ra_ix^{i-1}$ , puis en multipliant par

p^{x}

$p^x$ est le même que par

\exp {x \log p}

$\exp\{x\log p\}$ , où

a_{i}

$a_i$ est le coefficient de

x^{i - 1}

$x^{i-1}$ dans le polynôme et

\log p < 0

$\log p < 0$ bien sûr, il semble donc qu'il se convertirait en un moyenne pondérée des distributions gamma, c'est-à-dire un mélange.

jbowman

... devrait être

i = 1

$i=1$ dans la somme ci-dessus, en fait.

jbowman

Puisque ne dépend que des paramètres, c'est une constante qui peut être absorbée dans la proportionnalité. De plus, également une constante qui peut Etre ignoré. En écrivant pour , vous demandez une densité proportionnelle àCela identifie comme facteur d'échelle et comme paramètre de forme. Pour l' intégrale il s'agit clairement d'un mélange de distributions gamma. Cependant, cela n'a aucun sens de restreindre aux entiers.

(1 - p)^{r}

$(1-p)^r$

(\binom{x + r - 1}{x}) = Γ (x + r) / (Γ (r) Γ (x + 1))

$\binom{x+r-1}{x}=\Gamma(x+r)/(\Gamma(r)\Gamma(x+1))$

1 / Γ (r)

$1/\Gamma(r)$

p^{k} = e^{- k ρ}

$p^k=e^{-k\rho}$

ρ = - \log (p) \geq 0

$\rho=-\log(p) \ge 0$

f (x; r, ρ) = \frac{Γ (x + r)}{Γ (x + 1)} e^{- ρ x} .

$f(x;r,\rho)=\frac{\Gamma(x+r)}{\Gamma(x+1)}\,e^{-\rho x}.$

ρ

$\rho$

r

$r$

r

$r$

r

$r$

whuber

@whuber C'est vrai. J'utilise en fait une distribution qui est continue sur des valeurs positives et a une masse ponctuelle à zéro. Je pense que c'est la bonne approche. Mais on m'a suggéré d'utiliser une généralisation continue de NB qui aurait une probabilité non nulle à zéro et donc permettrait apparemment de traiter des zéros exacts. D'où ma question.

amibe dit Réintégrer Monica

Je pense qu'il peut y avoir une certaine confusion dans cette suggestion: elle semble confondre une probabilité (qui est ce qu'une masse ponctuelle a ou une distribution NB a à zéro) avec une densité de probabilité (qui est ce que la valeur de serait). Une densité non nulle ne vous permet pas de traiter des zéros exacts, car elle prédit toujours zéro chance qu'une valeur de se produise!

f (0, θ)

$f(0,\theta)$

0

$0$

whuber

Voilà une question intéressante. Mon groupe de recherche utilise la distribution à laquelle vous faites référence depuis quelques années dans notre logiciel de bioinformatique accessible au public. Pour autant que je sache, la distribution n'a pas de nom et il n'y a pas de littérature à ce sujet. Bien que l'article de Chandra et al (2012) cité par Aksakal soit étroitement lié, la distribution qu'ils considèrent semble être limitée aux valeurs entières pour et ils ne semblent pas donner une expression explicite pour le pdf. $r$

Pour vous donner quelques informations, la distribution NB est très largement utilisée dans la recherche génomique pour modéliser les données d'expression génique issues de l'ARN-seq et des technologies connexes. Les données de comptage surviennent lorsque le nombre de lectures de séquences d'ADN ou d'ARN extraites d'un échantillon biologique qui peuvent être mappées à chaque gène. En règle générale, des dizaines de millions de lectures de chaque échantillon biologique sont mappées à environ 25 000 gènes. Alternativement, on pourrait avoir des échantillons d'ADN à partir desquels les lectures sont mappées aux fenêtres génomiques. Nous et d'autres avons popularisé une approche par laquelle NB glms est ajusté aux lectures de séquence pour chaque gène, et des méthodes empiriques de Bayes sont utilisées pour modérer les estimateurs de dispersion de même (dispersion $\phi=1/r$ ). Cette approche a été citée dans des dizaines de milliers d'articles de revues dans la littérature génomique, de sorte que vous pouvez avoir une idée de la quantité utilisée.

Mon groupe maintient le progiciel edgeR R. Il y a quelques années, nous avons révisé l'ensemble du package afin qu'il fonctionne avec des décomptes fractionnaires, en utilisant une version continue du NB pmf. Nous avons simplement converti tous les coefficients binomiaux du NB pmf en ratios de fonctions gamma et l'avons utilisé comme pdf continu (mixte). La raison en était que les comptages de lecture de séquence peuvent parfois être fractionnaires en raison de (1) la cartographie ambiguë des lectures au transcriptome ou au génome et / ou (2) la normalisation des comptages pour corriger les effets techniques. Les dénombrements sont donc parfois des dénombrements attendus ou estimés plutôt que des dénombrements observés. Et bien sûr, le nombre de lectures peut être exactement nul avec une probabilité positive. Notre approche garantit que les résultats d'inférence de notre logiciel sont continus dans les dénombrements, correspondant exactement aux résultats NB discrets lorsque les dénombrements estimés se trouvent être des nombres entiers.

Pour autant que je sache, il n'y a pas de forme fermée pour la constante de normalisation dans le pdf, ni de forme fermée pour la moyenne ou la variance. Quand on considère qu'il n'y a pas de forme fermée pour l'intégrale (la constante de Fransen-Robinson), il est clair qu'il ne peut y en avoir pour l'intégrale du continu NB pdf non plus. Cependant, il me semble que les formules traditionnelles de moyenne et de variance pour le NB devraient continuer d'être de bonnes approximations pour le NB continu. De plus, la constante de normalisation devrait varier lentement avec les paramètres et peut donc être ignorée comme ayant une influence négligeable dans les calculs du maximum de vraisemblance.

\int_{0}^{\infty} \frac{1}{Γ (x)} d z

$\int_0^\infty \frac{1}{\Gamma(x)}dz$

On peut confirmer ces hypothèses par intégration numérique. La distribution NB apparaît en bioinformatique comme un mélange gamma de distributions de Poisson (voir l' article binomial négatif de Wikipedia ou McCarthy et al ci-dessous). La distribution NB continue résulte simplement du remplacement de la distribution de Poisson par son analogue continu par pdf pour où est une constante de normalisation pour garantir que la densité s'intègre à 1. Supposons par exemple que . La distribution de Poisson a pmf égale au pdf ci-dessus sur les entiers non négatifs et, avec

f (x; λ) = a (λ) \frac{e^{- λ} λ^{x}}{Γ (x + 1)}

$f(x;\lambda)=a(\lambda)\frac{e^{-\lambda}\lambda^x}{\Gamma(x+1)}$

x \geq 0

$x\ge 0$

a (λ)

$a(\lambda)$

λ = 10

$\lambda=10$

λ = 10

$\lambda=10$ , la moyenne et la variance de Poisson sont égales à 10. L'intégration numérique montre que et la moyenne et la variance de la distribution continue sont égales à 10 à environ 4 chiffres significatifs. Ainsi, la constante de normalisation est pratiquement 1 et la moyenne et la variance sont presque exactement les mêmes que pour la distribution de Poisson discrète. L'approximation est encore améliorée si nous ajoutons une correction de continuité, intégrant de à au lieu de 0. Avec la correction de continuité, tout est correct (la constante de normalisation est 1 et les moments sont en accord avec le Poisson discret) à environ 6 les chiffres.

a (10) = 1 / 0.999875

$a(10)=1/0.999875$

- 1 / 2

$-1/2$

\infty

$\infty$

Dans notre package edgeR, nous n'avons pas besoin de faire d'ajustement pour le fait qu'il y a une masse à zéro, car nous travaillons toujours avec des log-vraisemblances conditionnelles ou avec des différences de log-vraisemblance et toutes les fonctions delta annulent les calculs. C'est BTW typique pour glms avec des distributions de probabilité mixtes. Alternativement, nous pourrions considérer que la distribution n'a pas de masse à zéro mais un support commençant à -1/2 au lieu de zéro. L'une ou l'autre perspective théorique conduit aux mêmes calculs dans la pratique.

Bien que nous utilisions activement la distribution NB continue, nous n'avons rien publié explicitement à ce sujet. Les articles cités ci-dessous expliquent l'approche NB des données génomiques, mais ne discutent pas explicitement de la distribution continue NB.

En résumé, je ne suis pas surpris que l'article que vous étudiez ait obtenu des résultats raisonnables à partir d'une version continue du pdf NB, car c'est aussi notre expérience. La principale exigence est que nous devons modéliser correctement les moyennes et les variances et ce sera bien à condition que les données, entières ou non, présentent la même forme de relation quadratique moyenne-variance que la distribution NB.

Les références

Robinson, M. et Smyth, GK (2008). Estimation sur petit échantillon de la dispersion binomiale négative, avec applications aux données SAGE . Biostatistics 9, 321-332.

Robinson, MD et Smyth, GK (2007). Tests statistiques modérés pour évaluer les différences d'abondance des étiquettes . Bioinformatics 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analyse d'expression différentielle des expériences ARN-Seq multifactorielles en ce qui concerne la variation biologique . Nucleic Acids Research 40, 4288-4297.

Chen, Y, Lun, ATL et Smyth, GK (2014). Analyse d'expression différentielle des expériences complexes d'ARN-seq utilisant edgeR. Dans: Statistical Analysis of Next Generation Sequence Data, Somnath Datta et Daniel S Nettleton (eds), Springer, New York, pages 51--74. Préimpression

Lun, ATL, Chen, Y et Smyth, GK (2016). C'est DE-licious: une recette pour des analyses d'expression différentielle des expériences d'ARN-seq en utilisant des méthodes de quasi-vraisemblance dans edgeR. Méthodes en biologie moléculaire 1418, 391-416. Préimpression

Chen Y, Lun ATL et Smyth, GK (2016). Des lectures aux gènes en passant par les voies: analyse d'expression différentielle des expériences RNA-Seq utilisant Rsubread et le pipeline de quasi-vraisemblance edgeR . F1000 Recherche 5, 1438.

Gordon Smyth
la source

C'est extrêmement utile, @Gordon; merci beaucoup d'avoir pris le temps de l'écrire. Je travaille également avec des données RNA-seq, donc une réponse de ce point de vue est particulièrement précieuse (j'ai maintenant ajouté une balise [bioinformatique] à la question). Votre travail porte sur l'expression différentielle, alors que mon travail actuel porte sur le clustering (l'article que je lisais est Harris et al. Sur les interneurones CA1; biorxiv ). Quoi qu'il en soit, permettez-moi de vous poser quelques petites questions / clarifications. [suite]

amibe dit Réintégrer Monica

(1) Vous avez dit que le NB continu est un mélange gamma de Poissons continus. Pourriez-vous le développer un peu, peut-être le montrer un peu plus explicitement? Je pense que cela sera utile pour le grand public. À ce sujet, dans les commentaires sous ma question, deux personnes ont écrit que NB continu devrait être un mélange de Gammas avec le paramètre d'échelle , mais seulement pour entier . Les deux vues sont-elles vraies? (2) Vous avez dit que la fonction delta sur zéro n'a pas d'importance pour les GLM. Dans le même temps, il existe une grande littérature sur les GLM avec des distributions zéro gonflées. Comment cela s'intègre-t-il?

- \log (p)

$-\log(p)$

r

$r$

amibe dit Réintégrer Monica

(3) Dans votre travail pratique, utilisez-vous ML pour estimer tous les paramètres, y compris , ou fixez-vous à une valeur spécifique à l' avance (peut - être la même valeur partagée pour tous les gènes?) Puis le maintenir constant? Je suppose que cela devrait être beaucoup plus facile. (Par exemple, NB est lui-même une famille de dispersion exponentielle, mais uniquement avec un fixe .)

r

$r$

r

$r$

r

$r$

Amoeba dit Reinstate Monica

@amoeba Merci pour la réf biorxiv. (1) La dérivation de NB en tant que mélange de Poissons est assez bien connue, et est dans nos articles, par exemple McCarthy et al. La dérivation du NB continu suit juste en substituant Poisson continu à Poisson. Dois-je ajouter ceci à ma réponse? Serait long. Je ne vois pas comment le NB continu pourrait être utilement représenté comme un mélange de gammas. (2) Non, l'inflation zéro est une complication supplémentaire différente. Nous évitons cette complication dans notre travail.

Gordon Smyth

@amoeba (3) Nous estimons tous les paramètres. Il est crucial d'estimer les dispersions de genewise pour obtenir un contrôle du taux d'erreur, et cela doit être fait avec un soin particulier car les tailles d'échantillon sont souvent minuscules et la dimension des données est énorme. Nous utilisons une procédure complexe qui implique une vraisemblance de profil ajusté (pensez REML) au sein de chaque gène lié à une procédure empirique de Bayes de probabilité pondérée entre les gènes. Les glms NB également sont ensuite ajustés par ML avec les dispersions fixées. Enfin, les coefficients sont testés à l'aide de tests F de quasi-vraisemblance.

Gordon Smyth

Généralisation continue de la distribution binomiale négative

Réponses: