Considérons une expérience qui produit un rapport compris entre 0 et 1. La manière dont ce rapport est obtenu ne devrait pas être pertinente dans ce contexte. Il a été élaboré dans une version précédente de cette question , mais supprimé pour plus de clarté après une discussion sur la méta .
Cette expérience est répétée fois, tandis que est petit (environ 3-10). Les sont supposés être indépendants et distribués de manière identique. A partir de ceux-ci, nous estimons la moyenne en calculant la moyenne , mais comment calculer un intervalle de confiance correspondant ?n X i ¯ X [ U , V ]
Lorsque vous utilisez l'approche standard pour calculer les intervalles de confiance, est parfois supérieur à 1. Cependant, mon intuition est que l'intervalle de confiance correct ...
- ... doit être compris entre 0 et 1
- ... devrait diminuer avec l'augmentation de
- ... est à peu près de l'ordre de celui calculé à l'aide de l'approche standard
- ... est calculé par une méthode mathématiquement valable
Ce ne sont pas des exigences absolues, mais j'aimerais au moins comprendre pourquoi mon intuition est fausse.
Calculs basés sur les réponses existantes
Dans ce qui suit, les intervalles de confiance résultant des réponses existantes sont comparés pour .
Approche standard (aka "School Math")
σ2=0,0204[0,865,1,053] , , donc l'intervalle de confiance à 99% est . Cela contredit l'intuition 1.
Recadrage (suggéré par @soakley dans les commentaires)
Il est facile d' utiliser simplement l'approche standard, puis de fournir comme résultat. Mais sommes-nous autorisés à le faire? Je ne suis pas encore convaincu que la limite inférieure reste juste constante (-> 4.)
Modèle de régression logistique (suggéré par @Rose Hartman)
Données transformées: résultat , la retransformation aboutit à . De toute évidence, le 6,90 est une valeur aberrante pour les données transformées tandis que le 0,99 n'est pas pour les données non transformées, ce qui entraîne un intervalle de confiance très grand. (-> 3.)[ 0,173 , 7,87 ] [ 0,543 , 0,999 ]
Intervalle de confiance de la proportion binomiale (suggéré par @Tim)
L'approche semble assez bonne, mais malheureusement elle ne correspond pas à l'expérience. Le simple fait de combiner les résultats et de les interpréter comme une grande expérience répétée de Bernoulli, comme le suggère @ZahavaKor, donne les résultats suivants:
sur au total. L'alimentation dans l'adj. La calculatrice de Wald donne . Cela ne semble pas réaliste, car pas un seul n'est dans cet intervalle! (-> 3.)X i
Bootstrapping (suggéré par @soakley)
Avec nous avons 3125 permutations possibles. En prenant le moyenne des permutations, nous obtenons . Ne semble pas si mal, même si je m'attendrais à un intervalle plus long (-> 3.). Cependant, il est par construction jamais plus grand que . Ainsi, pour un petit échantillon, il va plutôt croître que rétrécir pour augmenter (-> 2.). C'est du moins ce qui se passe avec les échantillons donnés ci-dessus.3093[0,91,0,99][min(Xi),max(Xi)]n
la source
Réponses:
Tout d'abord, pour clarifier, ce à quoi vous avez affaire n'est pas tout à fait une distribution binomiale, comme le suggère votre question (vous vous y référez comme une expérience de Bernoulli). Les distributions binomiales sont discrètes --- le résultat est un succès ou un échec. Votre résultat est un ratio à chaque fois que vous exécutez votre expérience , et non un ensemble de succès et d'échecs sur lesquels vous calculez ensuite un ratio de synthèse. Pour cette raison, les méthodes de calcul d'un intervalle de confiance de proportion binomiale jetteront une grande partie de vos informations. Et pourtant, vous avez raison, il est problématique de traiter cela comme s'il était normalement distribué, car vous pouvez obtenir un CI qui s'étend au-delà de la plage possible de votre variable.
Je recommande de penser à cela en termes de régression logistique. Exécutez un modèle de régression logistique avec votre variable de ratio comme résultat et sans prédicteurs. L'interception et son CI vous donneront ce dont vous avez besoin en logits, puis vous pourrez le reconvertir en proportions. Vous pouvez également effectuer vous-même la conversion logistique, calculer l'IC, puis reconvertir à l'échelle d'origine. Mon python est terrible, mais voici comment vous pourriez le faire dans R:
Voici les limites inférieures et supérieures d'un IC à 99% pour ces données:
la source
Vous voudrez peut-être essayer de rééchantillonner / amorcer. Examinons le cas simple que vous avez mentionné.
Avec 3 points de données de 0,99, 0,94 et 0,94, vous ne feriez même pas le rééchantillonnage car vous pouvez simplement répertorier les 27 permutations possibles, trouver la moyenne dans chaque cas, puis trier les moyennes.
Si vous créez la liste et prenez les 25 observations du milieu, vous avez un intervalle de confiance 25/27 92,6% de [0,9400, 0,9733]. Si vous souhaitez augmenter la confiance à 26/27 96,3%, vous avez deux choix d'intervalles unilatéraux. Soit [0,9400, 0,9733] ou [0,94, 0,99].26 / 27 =25/27= 26/27=
Je suppose que votre sera bien supérieur à 3, vous devrez donc rééchantillonner avec remplacement. Dis que tu fais ça 1000 fois. Trouvez ensuite la moyenne dans chaque cas. De l'ensemble des 1000 moyennes, prenez les 950 valeurs moyennes. Les valeurs les plus basses et les plus élevées de ce sous-ensemble forment l'intervalle de confiance à 95%.n
La question ici: comment créer un intervalle de confiance pour le paramètre d'un test de permutation? donne plus de détails, y compris du code R.
la source
Les intervalles de confiance binomiaux font depuis longtemps l'objet de débats statistiques. Votre problème considère un ratio inférieur à 100%, mais il devient encore plus problématique si nous utilisons 100%. Une façon judicieuse de poser la question est:
Avec un taux de réussite aussi élevé, nous pensons que les chances sont assez élevées, mais nous ne pouvons pas être sûrs à 100% (l'univers pourrait exploser en premier, ou quelque chose du genre). Donc, même si vous aviez une proportion de 100%, nous ne pouvons pas laisser l'intervalle de confiance s'effondrer à .p=1
Il existe un certain nombre de méthodes pour calculer ces queues. Je recommanderais de consulter Wikipedia pour les mathématiques, ou si vous voulez juste la réponse, recherchez une calculatrice d'intervalle binomial comme celle-ci (qui se trouve également avoir plus d'explications sur les mathématiques derrière).
la source
Une approche bayésienne:
Trouvez la distribution bêta unique induite par les expériences (et un a priori, disons, le a priori de Jeffreys), puis choisissez le plus petit intervalle pour lequel la densité de s'intègre à votre "confiance" souhaitée. Il est possible qu'il y ait plusieurs solutions, et en fonction de vos antérieurs, le ratio moyen peut ne pas être dans votre intervalle.BB B
la source