Tout d'abord, je voudrais m'excuser pour le titre vague, je ne pouvais pas vraiment en formuler un meilleur tout de suite, n'hésitez pas à changer, ou conseillez-moi de changer, le titre pour qu'il corresponde mieux au cœur de la question .
En ce qui concerne la question elle-même, j'ai travaillé sur un logiciel dans lequel j'ai rencontré l'idée d'utiliser une distribution empirique pour l'échantillonnage, mais maintenant qu'elle est implémentée, je ne sais pas comment l'interpréter. Permettez-moi de décrire ce que j'ai fait et pourquoi:
J'ai un tas de calculs pour un ensemble d'objets, ce qui donne un score final. Le score tel qu'il est cependant est très ad hoc. Donc, afin de donner un sens au score d'un objet particulier, ce que je fais est de faire un grand nombre de calculs (N = 1000) de scores avec des valeurs simulées / générées de manière aléatoire, donnant 1000 scores simulés. L'estimation d'une "distribution de score" empirique pour cet objet particulier est ensuite obtenue par ces 1000 valeurs de score factices.
J'ai implémenté cela en Java (car le reste du logiciel est également écrit en environnement Java) en utilisant la bibliothèque Apache Commons Math , en particulier la EmpiricalDistImpl
classe . Selon la documentation que cette classe utilise:
ce qui équivaut à la méthode du noyau variable avec lissage gaussien: Digérer le fichier d'entrée
- Passez le fichier une fois pour calculer min et max.
- Divisez la plage de min-max en "bacs" binCount.
- Transmettez à nouveau le fichier de données en calculant le nombre de casiers et les statistiques univariées (moyenne, écart type) pour chacun des casiers
- Divisez l'intervalle (0,1) en sous-intervalles associés aux bacs, la longueur du sous-intervalle d'un bac étant proportionnelle à son nombre.
Maintenant, ma question est, est-il judicieux d'échantillonner à partir de cette distribution pour calculer une sorte de valeur attendue? En d'autres termes, à quel point puis-je faire confiance / compter sur cette distribution? Pourrais-je par exemple tirer des conclusions sur l'importance de l'observation d'un score en vérifiant la distribution?
Je me rends compte que c'est peut-être une façon peu orthodoxe d'examiner un problème comme celui-ci, mais je pense qu'il serait intéressant de mieux comprendre le concept de distributions empiriques et la façon dont elles peuvent / ne peuvent pas être utilisées dans l'analyse.
la source
Réponses:
Les distributions empiriques sont utilisées tout le temps pour l'inférence, vous êtes donc définitivement sur la bonne voie! L'une des utilisations les plus courantes des distributions empiriques est le bootstrap. En fait, vous n'avez même pas besoin d'utiliser les machines que vous avez décrites ci-dessus. En bref, vous effectuez de nombreux tirages (avec remplacement) à partir des échantillons originaux de manière uniforme et les résultats peuvent être utilisés pour calculer les intervalles de confiance sur vos quantités statistiques précédemment calculées. De plus, ces échantillons ont des propriétés de convergence théorique bien développées. Consultez l'article wikipedia sur le sujet ici .
la source