J'essaie d'estimer la moyenne d'une distribution plus ou moins gaussienne par échantillonnage. Je n'ai aucune connaissance préalable de sa moyenne ou de sa variance. Chaque échantillon coûte cher à obtenir. Comment puis-je décider dynamiquement du nombre d'échantillons dont j'ai besoin pour obtenir un certain niveau de confiance / précision? Sinon, comment savoir quand je peux arrêter de prélever des échantillons?
Toutes les réponses à des questions comme celle-ci que je peux trouver semblent supposer une certaine connaissance de la variance, mais je dois également le découvrir en cours de route. D'autres sont orientés vers les sondages, et je ne sais pas (débutant que je suis) comment cela se généralise - ma moyenne n'est pas w / in [0,1], etc.
Je pense que c'est probablement une question simple avec une réponse bien connue, mais mon Google-fu me fait défaut. Il me serait même utile de me dire quoi rechercher.
la source
Réponses:
Vous devez rechercher des «conceptions adaptatives bayésiennes». L'idée basique est la suivante:
Vous initialisez l'a priori pour les paramètres d'intérêt.
Avant toute collecte de données, vos priorités seraient diffuses. Au fur et à mesure que des données supplémentaires arrivent, vous réinitialisez l'avant avant d'être le postérieur qui correspond aux `` données + antérieures jusqu'à ce moment ''.
Collecter des données.
Calculez le postérieur en fonction des données et des priors. Le postérieur est ensuite utilisé comme le précédent à l'étape 1 si vous collectez réellement des données supplémentaires.
Évaluez si vos critères d'arrêt sont remplis
Vous répétez ensuite les étapes 1, 2 et 3 jusqu'à ce que vos critères d'arrêt de l'étape 4 soient remplis.
la source
Vous voudriez normalement au moins 30 pour invoquer le théorème central limite (bien que ce soit quelque peu arbitraire). Contrairement au cas des sondages, etc., qui sont modélisés à l'aide de la distribution binomiale, vous ne pouvez pas déterminer à l'avance une taille d'échantillon qui garantit un niveau de précision avec un processus gaussien - cela dépend des résidus que vous obtenez qui déterminent l'erreur standard.
Il convient de noter que si vous avez une stratégie d'échantillonnage robuste, vous pouvez obtenir des résultats beaucoup plus précis qu'avec un échantillon beaucoup plus grand avec une mauvaise stratégie.
la source