Avantage de l'estimation de la densité du noyau par rapport à l'estimation paramétrique

10

Y a-t-il une raison particulière pour laquelle vous choisirez l'estimation de la densité du noyau plutôt que l'estimation paramétrique? J'apprenais à adapter la distribution à mes données. Cette question m'est venue.

La taille de mes données est relativement grande avec 7500 points de données. Réclamations automobiles. Mon objectif est de l'adapter à une distribution (non paramétrique ou paramétrique). Ensuite, utilisez-le pour simuler les données de réclamation automatique et calculer la VaR ou la TVaR.

J'ai utilisé log pour transformer les données pour les rendre relativement normales. J'ai ajusté de nombreuses distributions, y compris normal, lognormal, gamma, t, etc ... J'ai utilisé AIC et loglikehood pour identifier le meilleur ajustement. Mais aucun de ces ajustements n'a réussi le test KS (valeur p extrêmement petite, avec e-10).

C'est pourquoi j'ai demandé dans quelle situation je devais passer à KDE.

MegaChunk
la source
Il me semble que l'ajustement d'un grand ensemble de données à une distribution paramétrique est assez difficile. Même si je peux voir que l'ajustement est très bon sur l'histogramme et le qqplot, j'obtiens toujours une valeur de p très faible du test KS. Mais KDE résout-il vraiment ce problème? (Je n'essaye jamais)
MegaChunk
@MegaChunk AFAIK la valeur de p du test KS n'est pas très informative, car la distribution n'est jamais parfaitement normale et donc si vous avez suffisamment de points de données, l'hypothèse nulle est presque toujours rejetée.
d_ijk_stra

Réponses:

8

La réponse à la question est "pourquoi modélisez-vous vos données comme un échantillon d'une distribution?" Si vous voulez en savoir plus sur le phénomène derrière vos données, comme lors de l'amélioration d'une théorie scientifique ou du test d'une hypothèse scientifique, l'utilisation d'un estimateur de noyau non paramétrique ne vous en dit pas beaucoup plus que les données elles-mêmes. Alors qu'un modèle paramétré peut indiquer beaucoup plus clairement (a) si les données et le modèle sont d'accord et (b) quelles sont les valeurs probables des paramètres. En fonction de vos objectifs, vous déterminez ainsi l'approche à privilégier.

Xi'an
la source
6

Il pourrait y avoir. L'estimation de la densité du noyau est une approche non paramétrique. L'estimation paramétrique nécessite une famille paramétrique de distributions basée sur quelques paramètres. Si vous avez des raisons de croire que le modèle est approximativement correct, il est avantageux de faire une inférence paramétrique. D'un autre côté, il est possible que les données ne correspondent bien à aucun membre de la famille. Dans ce cas, il est préférable d'utiliser l'estimation de la densité du noyau car elle construira une densité qui correspondra raisonnablement aux données. Il ne nécessite aucune hypothèse concernant les familles paramétriques.

Cette description peut être légèrement simplifiée à des fins de clarté. Permettez-moi de donner un exemple précis pour concrétiser cela. Supposons que la famille paramétrique soit la distribution normale qui est définie par les deux paramètres inconnus, la moyenne et la variance. Chaque distribution dans la famille est symétrique et en forme de cloche avec la moyenne égale à la médiane et au mode. Maintenant, votre échantillon ne semble pas être symétrique et la moyenne de l'échantillon est très différente de la médiane de l'échantillon. Ensuite, vous avez des preuves que votre hypothèse est fausse. Vous devez donc soit trouver une transformation qui convertit les données pour qu'elles correspondent à une belle famille paramétrique (peut-être la normale), soit trouver une autre famille paramétrique. Si ces approches paramétriques alternatives ne semblent pas fonctionner, l'approche de la densité du noyau est une alternative qui fonctionnera. Il y a quelques problèmes (1) la forme du noyau, (2) la bande passante du noyau qui détermine le niveau de fluidité et (3) éventuellement une taille d'échantillon plus grande que celle dont vous pourriez avoir besoin pour une famille paramétrique. Le problème 1 a été montré dans la littérature comme étant pratiquement sans importance. Le problème 2 est important. Le problème 3 dépend de la taille d'un échantillon que vous pouvez vous permettre de collecter. Même si ces problèmes existent avec l'hypothèse implicite que la distribution a une densité, ces hypothèses peuvent être plus faciles à accepter que les hypothèses paramétriques restrictives. Le problème 3 dépend de la taille d'un échantillon que vous pouvez vous permettre de collecter. Même si ces problèmes existent avec l'hypothèse implicite que la distribution a une densité, ces hypothèses peuvent être plus faciles à accepter que les hypothèses paramétriques restrictives. Le problème 3 dépend de la taille d'un échantillon que vous pouvez vous permettre de collecter. Même si ces problèmes existent avec l'hypothèse implicite que la distribution a une densité, ces hypothèses peuvent être plus faciles à accepter que les hypothèses paramétriques restrictives.

Michael R. Chernick
la source