Considérons une distribution bêta pour un ensemble donné de notations dans [0,1]. Après avoir calculé la moyenne:
Existe-t-il un moyen de fournir un intervalle de confiance autour de cette moyenne?
mean
beta-distribution
dominic
la source
la source
Réponses:
Bien qu'il existe des méthodes spécifiques pour calculer les intervalles de confiance pour les paramètres d'une distribution bêta, je décrirai quelques méthodes générales, qui peuvent être utilisées pour (presque) toutes sortes de distributions , y compris la distribution bêta, et sont facilement implémentées dans R .
Intervalles de confiance de vraisemblance du profil
Commençons par l'estimation du maximum de vraisemblance avec les intervalles de confiance de vraisemblance de profil correspondants. Nous avons d'abord besoin de quelques exemples de données:
La moyenne réelle / théorique est
Nous devons maintenant créer une fonction pour calculer la fonction de vraisemblance logarithmique négative pour un échantillon à partir de la distribution bêta, avec la moyenne comme l'un des paramètres. Nous pouvons utiliser la
dbeta()
fonction, mais comme cela n'utilise pas de paramétrage impliquant la moyenne, nous devons exprimer ses paramètres ( α et β ) en fonction de la moyenne et d'un autre paramètre (comme l'écart type):Pour trouver l'estimation du maximum de vraisemblance, nous pouvons utiliser la
mle()
fonction dans lastats4
bibliothèque:Ignorez simplement les avertissements pour l'instant. Ils sont causés par les algorithmes d'optimisation essayant des valeurs invalides pour les paramètres, donnant des valeurs négatives pour α et / ou β . (Pour éviter l'avertissement, vous pouvez ajouter un
lower
argument et modifier l'optimisationmethod
utilisée.)Nous avons maintenant à la fois des estimations et des intervalles de confiance pour nos deux paramètres:
Notez que, comme prévu, les intervalles de confiance ne sont pas symétriques:
(Les deuxièmes lignes magenta externes montrent l'intervalle de confiance à 95%.)
Notez également que même avec seulement 10 observations, nous obtenons de très bonnes estimations (un intervalle de confiance étroit).
Comme alternative à
mle()
, vous pouvez utiliser lafitdistr()
fonction duMASS
package. Cela calcule également l'estimateur du maximum de vraisemblance et présente l'avantage que vous n'avez besoin que de fournir la densité, pas la probabilité logarithmique négative, mais ne vous donne pas d'intervalles de confiance de vraisemblance de profil, seulement des intervalles de confiance asymptotiques (symétriques).Une meilleure option est
mle2()
(et les fonctions associées) dubbmle
package, qui est un peu plus flexible et puissant quemle()
, et donne des tracés légèrement plus agréables.Intervalles de confiance Bootstrap
Une autre option consiste à utiliser le bootstrap. Il est extrêmement facile à utiliser dans R, et vous n'avez même pas à fournir de fonction de densité:
Le bootstrap a l'avantage supplémentaire de fonctionner même si vos données ne proviennent pas d'une distribution bêta.
Intervalles de confiance asymptotiques
Pour les intervalles de confiance sur la moyenne, n'oublions pas les bons vieux intervalles de confiance asymptotiques basés sur le théorème central limite (et la distribution t ). Tant que nous avons soit une grande taille d'échantillon (donc le CLT s'applique et la distribution de la moyenne de l'échantillon est approximativement normale), soit de grandes valeurs de α et β (de sorte que la distribution bêta elle-même soit approximativement normale), cela fonctionne bien. Ici, nous n'avons ni l'un ni l'autre, mais l'intervalle de confiance n'est toujours pas trop mauvais:
Pour des valeurs de n légèrement plus larges (et des valeurs pas trop extrêmes des deux paramètres), l'intervalle de confiance asymptotique fonctionne extrêmement bien.
la source
Découvrez la régression bêta. Une bonne introduction à la façon de le faire en utilisant R peut être trouvée ici:
http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf
Une autre façon (très facile) de construire un intervalle de confiance serait d'utiliser une approche boostrap non paramétrique. Wikipédia a de bonnes informations:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Vidéo aussi sympa ici:
http://www.youtube.com/watch?v=ZCXg64l9R_4
la source