Quelles sont les meilleures méthodes pour ajuster le «mode» des données échantillonnées à partir d'une distribution continue?
Étant donné que le mode est techniquement indéfini (non?) Pour une distribution continue, je me demande vraiment `` comment trouvez-vous la valeur la plus courante ''?
Si vous supposez que la distribution parente est gaussienne, vous pouvez regrouper les données et trouver par exemple que le mode est l'emplacement du bac avec le plus grand nombre. Cependant, comment déterminez-vous la taille du bac? Existe-t-il des implémentations robustes? (c.-à-d. robuste aux valeurs aberrantes). J'utilise python
/ scipy
/ numpy
, mais je peux probablement traduire R
sans trop de difficulté.
distributions
fitting
mode
keflavich
la source
la source
Réponses:
Dans R, l'application de la méthode qui n'est pas basée sur la modélisation paramétrique de la distribution sous-jacente et utilise l'estimateur par défaut du noyau de densité à 10000 variables distribuées gamma:
renvoie 0,199 qui est la valeur de x estimée comme ayant la densité la plus élevée (les estimations de densité sont stockées sous la forme "z $ y").
la source
Supposons que vous réalisiez un histogramme de taille b et que la plus grande corbeille ait k entrées à partir de votre échantillon total de taille n. Le PDF moyen dans ce bac peut alors être estimé à b * k / n.
Le problème est qu'un autre bac, qui compte moins de membres au total, pourrait avoir une densité de tache élevée. Vous ne pouvez le savoir que si vous avez une hypothèse raisonnable sur le taux de changement du PDF. Si vous le faites, vous pouvez alors estimer la probabilité que le deuxième plus grand bac contienne réellement le mode.
Le problème sous-jacent est le suivant. Un échantillon fournit une bonne connaissance du CDF, par le théorème de Kolmogorov-Smirnov, et donc une bonne estimation de la médiane et d'autres quantiles. Mais connaître une approximation d'une fonction dans L1 ne fournit pas une connaissance approximative de sa dérivée. Aucun échantillon ne fournit donc une bonne connaissance du PDF, sans hypothèses supplémentaires.
la source
Voici quelques esquisses de solution générales qui fonctionnent également pour les distributions de grande dimension:
Former un f-GAN avec une divergence KL inversée, sans donner aucune entrée aléatoire au générateur (c'est-à-dire le forcer à être déterministe).
Entraînez un f-GAN avec une divergence KL inversée, déplacez la distribution d'entrée vers le générateur vers une fonction delta de Dirac à mesure que la formation progresse et ajoutez une pénalité de gradient à la fonction de perte du générateur.
Former un modèle génératif (différenciable) qui peut évaluer facilement une approximation du pdf à tout moment (je crois que, par exemple, un VAE, un modèle basé sur les flux ou un modèle autorégressif ferait l'affaire). Ensuite, utilisez un certain type d'optimisation (une certaine saveur d'ascension du gradient peut être utilisée si l'inférence du modèle est différentiable) pour trouver un maximum de cette approximation.
la source