Supposons que j'ai un ensemble d'observations univariées indépendantes et distribuées de manière identique et deux hypothèses sur la façon dont été généré:
: est tiré d'une distribution gaussienne unique avec une moyenne et une variance inconnues.
: est tiré d'un mélange de deux Gaussiennes avec une moyenne, une variance et un coefficient de mélange inconnus.
Si je comprends bien, ce sont des modèles imbriqués puisque le modèle que représente peut être décrit en termes de si vous contraignez les paramètres des deux Gaussiens à être identiques ou contraignez le coefficient de mélange à zéro pour l'un des deux Gaussiens.
Par conséquent, il semble que vous devriez pouvoir utiliser l'algorithme EM pour estimer les paramètres de , puis utiliser le théorème de Wilks pour déterminer si la probabilité des données sous est significativement supérieure à celle sous . Il y a un petit acte de foi dans l'hypothèse que l'algorithme EM convergera vers la probabilité maximale ici, mais c'est celui que je suis prêt à faire.
J'ai essayé cela dans une simulation de monte carlo, en supposant que a 3 degrés de liberté de plus que (la moyenne et la variance pour le deuxième gaussien et le paramètre de mélange). Lorsque j'ai simulé des données de , j'ai obtenu une distribution de valeurs P qui était sensiblement non uniforme et enrichie pour de petites valeurs P. (Si l'EM ne convergeait pas vers la vraie vraisemblance maximale, l'exact opposé serait attendu.) Qu'est-ce qui ne va pas avec mon application du théorème de Wilks qui crée ce biais?
L'inférence sur le nombre de composants de mélange ne satisfait pas aux conditions de régularité nécessaires pour le théorème de Wilks puisque (a) le paramètreρ se trouve à la limite de l'espace des paramètres et (b) le paramétrage n'est pas identifiable sous la valeur nulle. Cela ne veut pas dire que la distribution du rapport de vraisemblance généralisée est inconnue! Si tous les 5 paramètres de votre configuration sont inconnus et, surtout, sans limites, la distribution de la statistique LR ne converge pas. Si tous les paramètres non identifiables sont bornés, alors la statistique LR est monotone dans le supremum d'un processus gaussien tronqué. Dont la covariance n'est pas facile à calculer dans le cas général (5 paramètres), et même lorsque vous l'avez - la distribution du supremum d'un tel processus n'est pas facilement approximative. Pour quelques résultats pratiques concernant le mélange à deux composants, voir ici. Fait intéressant, le document montre que dans des configurations plutôt simples, la statistique LR est en fait moins puissante que certaines statistiques plus simples. Pour l'article fondamental sur la dérivation de la distribution asymptotique dans de tels problèmes, voir ici . À toutes fins pratiques, vous pouvez ajuster le mélange à l'aide d'un EM, puis Bootstrap la distribution de la statistique LR. Cela peut prendre un certain temps car l'EM est connu pour être lent et vous avez besoin de nombreuses réplications pour capturer l'effet de la taille de l'échantillon. Voir ici pour plus de détails.
la source