Comment utiliser / interpréter la distribution empirique?

8

Tout d'abord, je voudrais m'excuser pour le titre vague, je ne pouvais pas vraiment en formuler un meilleur tout de suite, n'hésitez pas à changer, ou conseillez-moi de changer, le titre pour qu'il corresponde mieux au cœur de la question .

En ce qui concerne la question elle-même, j'ai travaillé sur un logiciel dans lequel j'ai rencontré l'idée d'utiliser une distribution empirique pour l'échantillonnage, mais maintenant qu'elle est implémentée, je ne sais pas comment l'interpréter. Permettez-moi de décrire ce que j'ai fait et pourquoi:

J'ai un tas de calculs pour un ensemble d'objets, ce qui donne un score final. Le score tel qu'il est cependant est très ad hoc. Donc, afin de donner un sens au score d'un objet particulier, ce que je fais est de faire un grand nombre de calculs (N = 1000) de scores avec des valeurs simulées / générées de manière aléatoire, donnant 1000 scores simulés. L'estimation d'une "distribution de score" empirique pour cet objet particulier est ensuite obtenue par ces 1000 valeurs de score factices.

J'ai implémenté cela en Java (car le reste du logiciel est également écrit en environnement Java) en utilisant la bibliothèque Apache Commons Math , en particulier la EmpiricalDistImplclasse . Selon la documentation que cette classe utilise:

ce qui équivaut à la méthode du noyau variable avec lissage gaussien: Digérer le fichier d'entrée

  1. Passez le fichier une fois pour calculer min et max.
  2. Divisez la plage de min-max en "bacs" binCount.
  3. Transmettez à nouveau le fichier de données en calculant le nombre de casiers et les statistiques univariées (moyenne, écart type) pour chacun des casiers
  4. Divisez l'intervalle (0,1) en sous-intervalles associés aux bacs, la longueur du sous-intervalle d'un bac étant proportionnelle à son nombre.

Maintenant, ma question est, est-il judicieux d'échantillonner à partir de cette distribution pour calculer une sorte de valeur attendue? En d'autres termes, à quel point puis-je faire confiance / compter sur cette distribution? Pourrais-je par exemple tirer des conclusions sur l'importance de l'observation d'un scoreS en vérifiant la distribution?

Je me rends compte que c'est peut-être une façon peu orthodoxe d'examiner un problème comme celui-ci, mais je pense qu'il serait intéressant de mieux comprendre le concept de distributions empiriques et la façon dont elles peuvent / ne peuvent pas être utilisées dans l'analyse.

posdef
la source
Si je vous ai bien compris, votre distribution finale est fondamentalement aussi bonne que vos "valeurs simulées / générées aléatoirement" pour les objets. Alors - pensez-vous que vous avez bien échantillonné la distribution de vos "objets"?
AVB
@AVB: non pas tant la distribution de l'objet que la distribution des scores pour un objet particulier. Je suppose que mon objectif est de: A) S'assurer que le calcul du score est sain et non biaisé vers différentes propriétés des objets en question; et B) Pour être en mesure de dire quelque chose sur la signification du score calculé à partir de données expérimentales réelles
posdef
Vous pourriez envisager de prendre plus d'échantillons de vos objets.
John Salvatier
@John: tu veux dire augmenter le nombre de 1000 à, disons 10K? J'y pensais aussi, je n'étais pas sûr de la façon dont cela serait rentable, compte tenu du temps de calcul. Des idées à ce sujet?
posdef
Je ne connais pas de moyen facile de quantifier la différence. Il peut être instructif de regarder un tas d'histogrammes ou de densités de noyau (avec vos yeux) avec différents nombres de points.
John Salvatier

Réponses:

5

Les distributions empiriques sont utilisées tout le temps pour l'inférence, vous êtes donc définitivement sur la bonne voie! L'une des utilisations les plus courantes des distributions empiriques est le bootstrap. En fait, vous n'avez même pas besoin d'utiliser les machines que vous avez décrites ci-dessus. En bref, vous effectuez de nombreux tirages (avec remplacement) à partir des échantillons originaux de manière uniforme et les résultats peuvent être utilisés pour calculer les intervalles de confiance sur vos quantités statistiques précédemment calculées. De plus, ces échantillons ont des propriétés de convergence théorique bien développées. Consultez l'article wikipedia sur le sujet ici .

Gary
la source
Merci pour votre réponse, Gary. Je connais les méthodes d'amorçage, mais je ne sais pas comment (lire: où dans l'analyse) suggérez-vous d'implémenter l'amorçage. De quels échantillons originaux parlons-nous?
posdef
Les échantillons originaux se réfèrent à la N=1000des échantillons que vous avez utilisés pour construire votre distribution empirique. Vous avez mentionné l'utilisation de cette distribution pour calculer des statistiques; disons pour plus de simplicité la moyenne. La façon d'utiliser le bootstrap serait de calculer une moyenne avec l'initialeN points, appelons-le μ^N. Maintenant, nous prenonsM échantillons de bootstrap et calcul M estimations de la moyenne, {μ^i}i=1M. Vous pouvez ensuite commander cet ensemble et les statistiques de commande vous donneront des intervalles de confiance surμ^N
Gary
Merci encore pour l'explication. Je ne sais pas si cela est utile cependant, lorsque j'essaie d'estimerP(x>xobs)xF^1000(x). Si vous voulez dire que je peux partir du devisμ^Nà un calcul de probabilité, alors je suis certainement intéressé ..
posdef
Je suppose que je suis un peu confus par ce que vous cherchez, alors je ferai de mon mieux pour utiliser l'exemple que vous avez posé. Pour une valeur fixe, disonsy, nous souhaitons estimer F(y). Ensuite, nous prenons leN=1000 des échantillons et obtenir une certaine valeur q^. Maintenant, prenezM réplicants de l'échantillon d'origine et vous répétez le même calcul donnant M valeurs de q^, donnant un CI sur q^. Le point clé est que l'échantillon d'origine peut vous fournir les statistiques et le bootstrap donne le CI. La vraie question est peut-être de savoir ce que vous voulez faire avec la distribution empirique.
Gary