Comprendre les paramètres de la distribution binomiale négative

37

J'essayais d'adapter mes données à différents modèles et j'ai compris que la fitdistrfonction de la bibliothèque MASSde Rme donnait Negative Binomialle meilleur ajustement. Maintenant, à partir de la page wiki , la définition est donnée comme suit:

La distribution de NegBin (r, p) décrit la probabilité de k échecs et de r succès dans les essais de k + r Bernoulli (p) lors du dernier essai.

Utiliser Rpour ajuster le modèle me donne deux paramètres meanet dispersion parameter. Je ne comprends pas comment les interpréter car je ne peux pas voir ces paramètres sur la page du wiki. Tout ce que je peux voir, c'est la formule suivante:

Formule de distribution binomiale négative

kest le nombre d'observations et r=0...n. Maintenant, comment est-ce que je les relie avec les paramètres donnés par R? Le fichier d'aide ne fournit pas beaucoup d'informations non plus.

Je voudrais également dire quelques mots sur mon expérience: Lors d’une expérience sociale que j’ menais, j’essayais de compter le nombre de personnes contactées par chaque utilisateur sur une période de 10 jours. La taille de la population était de 100 pour l'expérience.

Maintenant, si le modèle correspond au binôme négatif, je peux dire aveuglément qu’il suit cette distribution, mais je veux vraiment comprendre le sens intuitif qui se cache derrière cela. Qu'est-ce que cela signifie de dire que le nombre de personnes contactées par mes sujets de test suit une distribution binomiale négative? Quelqu'un peut-il s'il vous plaît aider à clarifier cela?

Légende
la source

Réponses:

42

kθ1/θθ

Ben Bolker
la source
7
hmm. Je me demande pourquoi le vote négatif?
Ben Bolker
La formulation NB (moyenne, dispersion) est également décrite dans la section des formulations alternatives ( en.wikipedia.org/wiki/… ) maintenant dans cette page wiki.
mt1022
10

Comme je vous l’ai mentionné précédemment dans mon message précédent, je cherche à adapter une distribution pour compter également les données. Voici ce que j'ai appris:

Lorsque la variance est supérieure à la moyenne, une surdispersion est évidente et la distribution binomiale négative est donc probablement appropriée. Si la variance et la moyenne sont identiques, la distribution de Poisson est suggérée et lorsque la variance est inférieure à la moyenne, c'est la distribution binomiale qui est recommandée.

Avec les données de comptage sur lesquelles vous travaillez, vous utilisez le paramétrage "écologique" de la fonction binomiale négative dans R. La section 4.5.1.3 (Page 165) du livre gratuit disponible ci-après en parle spécifiquement (dans le contexte de R, pas moins!) et, j'espère, pourrait répondre à certaines de vos questions:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Si vous concluez que vos données sont tronquées à zéro (c'est-à-dire que la probabilité d'observations est égale à 0), vous voudrez peut-être vérifier le type de NBD tronqué par zéro figurant dans le package R. VGAM .

Voici un exemple d'application:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

J'espère que ceci est utile.

Jeff Tyzzer
la source
Page 165 du livre.
SmallChess