J'ai une distribution de valeurs évidemment bimodale, que je cherche à adapter. Les données peuvent être adaptées à 2 fonctions normales (bimodales) ou à 3 fonctions normales. De plus, il existe une raison physique plausible pour ajuster les données avec 3.
Plus il y a de paramètres introduits, plus l'ajustement sera parfait, car avec suffisamment de constantes, on peut " ajuster un éléphant ".
Voici la distribution, ajustée à la somme de 3 courbes normales (gaussiennes):
Ce sont les données de chaque ajustement. Je ne sais pas quel test je devrais appliquer ici pour déterminer l'ajustement. Les données comprennent 91 points.
1 Fonction normale:
- RSS: 1.06231
- X ^ 2: 3.1674
- F.Test: 0,3092
2 fonctions normales:
- RSS: 0.010939
- X ^ 2: 0,053896
- F.Test: 0,97101
3 fonctions normales:
- RSS: 0.00536
- X ^ 2: 0,02794
- F.Test: 0.99249
Quel est le test statistique correct qui peut être appliqué pour déterminer laquelle de ces 3 correspondances est la meilleure? De toute évidence, l'ajustement de 1 fonction normale est inadéquat. Alors, comment puis-je distinguer entre 2 et 3?
Pour ajouter, je fais surtout cela avec Excel et un peu de Python; Je ne connais pas encore R ou d'autres langages statistiques.
R
route). Certains critères de sélection des modèles sont mentionnés dans cette réponse . Enfin, vous voudrez peut-être considérer les méthodes d'ensemble , que j'ai brièvement couvertes dans cette réponse , qui contient également un lien vers des informations centrées sur Python. Vous pouvez trouver plus de détails sur la sélection et la moyenne des modèles dans cette réponse .Réponses:
Voici deux façons d'aborder le problème de la sélection de votre distribution:
Pour la comparaison de modèles, utilisez une mesure qui pénalise le modèle en fonction du nombre de paramètres. Les critères d'information le font. Utilisez un critère d'information pour choisir le modèle à conserver, choisissez le modèle avec le critère d'information le plus bas (par exemple AIC). La règle de base pour comparer si une différence dans les AIC est significative est si la différence dans les AIC est supérieure à 2 (ce n'est pas un test d'hypothèse formel, voir Test de la différence des AIC de deux modèles non imbriqués ).
Si vous voulez un test d'hypothèse formel, vous pouvez procéder d'au moins deux façons. Le plus simple est sans doute d'ajuster vos distributions en utilisant une partie de votre échantillon et de tester si les distributions de résidus sont significativement différentes en utilisant un test de Chi au carré ou de Kolgomorov-Smirnov sur le reste des données. De cette façon, vous n'utilisez pas les mêmes données pour ajuster et tester votre modèle que AndrewM mentionné dans les commentaires.
Vous pouvez également effectuer un test de rapport de vraisemblance avec un ajustement de la distribution nulle. Une version de ceci est décrite dans Lo Y. et al. (2013) "Test du nombre de composants dans un mélange normal." Biometrika mais je n'ai pas accès à l'article, je ne peux donc pas vous fournir plus de détails sur la façon de procéder.
Dans les deux cas, si le test n'est pas significatif, conservez la distribution avec le plus petit nombre de paramètres, s'il est significatif, choisissez celle qui a le plus grand nombre de paramètres.
la source