Test de distribution bimodale

30

Je me demande s'il existe un test statistique pour "tester" la signification d'une distribution bimodale. Je veux dire, dans quelle mesure mes données correspondent à la distribution bimodale ou non? Si oui, y a-t-il un test dans le programme R?

Pauloc
la source
3
Vous n'avez pas trouvé de réponse en cherchant sur notre site ? Sinon, qu'est-ce qui manque?
whuber
7
Il existe des tests de bimodalité ou de multimodalité, mais ils ont tendance à être unilatéraux. Autrement dit, vous pouvez conclure des choses comme "il y a plus d'un mode", mais vous ne pouvez pas dire "il y a moins de trois modes" - vous pouvez obtenir des limites inférieures sur le nombre de modes mais vous ne pouvez pas vraiment obtenir des limites supérieures parce que on peut trouver une distribution multimodale avec un nombre quelconque de modes qui est arbitrairement proche d'une distribution avec un nombre moindre de modes. Je vais voir si je peux trouver des tests ou des références explicites.
Glen_b -Reinstate Monica
4
La page wikipedia sur la distribution bimodale répertorie huit tests de multimodalité contre l'unimodalité et fournit des références pour sept d'entre eux. Je ne sais pas s'il y en a dans R. Je vais regarder.
Glen_b -Reinstate Monica

Réponses:

17

Une autre approche possible de ce problème consiste à réfléchir à ce qui pourrait se passer dans les coulisses qui génère les données que vous voyez. Autrement dit, vous pouvez penser en termes de modèle de mélange , par exemple, un modèle de mélange gaussien. Par exemple, vous pourriez penser que vos données sont tirées soit d'une seule population normale, soit d'un mélange de deux distributions normales (dans une certaine proportion), avec des moyennes et des variances différentes. Bien sûr, vous n'avez pas à croire qu'il n'y en a qu'un ou deux, ni à croire que les populations dont les données sont tirées doivent être normales.

Il existe (au moins) deux packages R qui vous permettent d'estimer les modèles de mélange. Un paquet est flexmix , et un autre est mclust . Ayant estimé deux modèles candidats, je pense qu'il est possible de réaliser un test de rapport de vraisemblance. Alternativement, vous pouvez utiliser la méthode de cross-fit paramétrique bootstrap ( pdf ).

gung - Réintégrer Monica
la source
Bonjour @gung, pour la méthode de cross-fit paramétrique bootstrap, comment définiriez-vous le critère optimal par rapport à la distribution bimodale? Il peut y avoir un cas où deux distributions concurrentes se croisent en deux points. Que faut-il faire dans un tel cas?
akashrajkn
32

Comme mentionné dans les commentaires, la page Wikipédia sur «Distribution bimodale» répertorie huit tests de multimodalité contre l'unimodalité et fournit des références pour sept d'entre eux.

Il y en a au moins dans R. Par exemple:

  1. Le package diptestimplémente le test d'immersion de Hartigan.

  2. Les stampdonnées du bootstrappackage ont été utilisées dans Efron et Tibshirani's Introduction to the Bootstrap (le livre sur lequel le package est basé) pour faire un exemple relatif au bootstrap sur le nombre de modes; si vous avez accès au livre, vous pourrez peut-être utiliser cette approche.

    Efron, B. et Tibshirani, R. (1993) An Introduction to the Bootstrap .
    Chapman and Hall, New York, Londres.

-

Il y a une question sur CV qui parle d' identifier (c'est-à-dire d'estimer plutôt que de tester) le nombre de modes que la recherche de @ whuber révèle. Cela vaut la peine de lire les réponses ici. L'une des réponses (la mienne, en l'occurrence) a un lien vers une recherche Google qui révèle cet article de David Donoho sur la construction d'IC ​​unilatéraux pour le nombre de modes, qui peuvent bien sûr être utilisés comme test (par exemple , si l'intervalle unilatéral n'inclut pas le cas unimodal, vous pouvez rejeter l'unimodalité). Au meilleur de ma connaissance, ce n'est pasl'un des tests que Wikipédia mentionne. Je ne pense pas qu'il y ait une implémentation R de cet intervalle, mais (malgré le fait que Donoho ait tendance à utiliser des outils assez sophistiqués dans sa discussion), c'est en fait une idée assez simple à implémenter. Cette idée est directement liée à la notion d'utilisation de l'estimation de la densité du noyau.

Glen_b -Reinstate Monica
la source
C'est un travail précieux.
rolando2