J'ai quelques données et j'essayais de lui ajuster une courbe lisse. Cependant, je ne veux pas imposer trop de croyances antérieures ou des pré-conceptions trop fortes (à l'exception de celles impliquées par le reste de ma question), ni aucune distribution spécifique.
Je voulais juste l'adapter à une courbe lisse (ou avoir une bonne estimation de la distribution de probabilité dont il pourrait provenir). La seule méthode que je connaisse pour ce faire est l'estimation de la densité du noyau (KDE). Je me demandais si les gens connaissaient d'autres méthodes pour estimer une telle chose. Je voulais juste une liste d'entre eux et à partir de là, je peux faire mes propres recherches pour savoir lesquelles je veux utiliser.
Donner des liens ou de bonnes références (ou des intuitions sur lesquelles ils sont bons) sont toujours les bienvenus (et sont encouragés)!
la source
Réponses:
Vous ne spécifiez pas que vous parlez de variables aléatoires continues, mais je suppose, puisque vous mentionnez KDE, que vous avez l'intention de le faire.
Deux autres méthodes pour ajuster les densités lisses:
1) estimation de la densité log-spline. Ici, une courbe spline est ajustée à la densité logarithmique.
Un exemple de papier:
Kooperberg et Stone (1991),
«A study of logspline densité estimation»,
Computational Statistics & Data Analysis , 12 , 327-347
Kooperberg fournit un lien vers un pdf de son article ici , sous "1991".
Si vous utilisez R, il existe un package pour cela. Un exemple d'un ajustement généré par celui-ci est ici . Vous trouverez ci-dessous un histogramme des journaux de l'ensemble de données et des reproductions des estimations de la courbe du journal et de la densité du noyau à partir de la réponse:
Estimation de la densité du logspline:
Estimation de la densité du noyau:
2) Modèles à mélange fini . Ici, une famille de distributions commode est choisie (dans de nombreux cas, la normale), et la densité est supposée être un mélange de plusieurs membres différents de cette famille. Notez que les estimations de densité de noyau peuvent être considérées comme un tel mélange (avec un noyau gaussien, elles sont un mélange de Gaussiennes).
Plus généralement, ceux-ci peuvent être ajustés via ML, ou l'algorithme EM, ou dans certains cas via l'appariement des moments, bien que dans des circonstances particulières, d'autres approches puissent être envisageables.
(Il existe une pléthore de packages R qui font diverses formes de modélisation de mélange.)
Ajouté en édition:
3) Histogrammes décalés moyens
(qui ne sont pas littéralement lisses, mais peut-être assez lisses pour vos critères non déclarés):
Imaginez que vous calculez une séquence d'histogrammes à une certaine largeur de binaire fixe ( ), à travers une origine de binaire qui se décale de pour un entier chaque fois, puis en moyenne. Cela ressemble à première vue à un histogramme fait à la largeur de bande , mais est beaucoup plus fluide.b / k k b / kb b/k k b/k
Par exemple, calculez 4 histogrammes chacun à la largeur de bande 1, mais décalés de + 0, + 0,25, + 0,5, + 0,75, puis faites la moyenne des hauteurs à tout donné . Vous vous retrouvez avec quelque chose comme ça:x
Diagramme tiré de cette réponse . Comme je l'ai dit, si vous allez à ce niveau d'effort, vous feriez aussi bien d'estimer la densité du noyau.
la source
Sous réserve des commentaires ci-dessus concernant des hypothèses telles que le lissage, etc. Vous pouvez effectuer une estimation de densité non paramétrique bayésienne en utilisant des modèles de mélange avec le processus de Dirichlet au préalable.
L'image ci-dessous montre les contours de densité de probabilité récupérés à partir de l'estimation MCMC d'un modèle de mélange DP normal bivarié pour les données «anciennes fidèles». Les points sont colorés IIRC selon le clustering obtenu lors de la dernière étape MCMC.
Teh 2010 fournit un bon contexte.
la source
La forêt aléatoire est un choix populaire (voir concrètement le chapitre cinq de « Forêts de décision: un cadre unifié pour la classification, la régression, l'estimation de la densité, l'apprentissage multiple et l'apprentissage semi-supervisé »).
Il décrit en détail l'algorithme et l'évalue par rapport à d'autres choix populaires comme k-means, GMM et KDE. Random Forest est implémenté dans R et scikit-learn.
Les forêts aléatoires sont des arbres de décision ensachés de manière intelligente.
la source