J'ai l'impression d'avoir déjà vu ce sujet ici, mais je n'ai rien trouvé de spécifique. Là encore, je ne sais pas trop quoi chercher.
J'ai un ensemble unidimensionnel de données ordonnées. Je fais l'hypothèse que tous les points de l'ensemble sont tirés de la même distribution.
Comment puis-je tester cette hypothèse? Est-il raisonnable de tester par rapport à une alternative générale de "les observations dans cet ensemble de données sont tirées de deux distributions différentes"?
Idéalement, je voudrais identifier quels points proviennent de la distribution «autre». Étant donné que mes données sont commandées, pourrais-je m'en tirer en identifiant un point de coupure, après avoir en quelque sorte testé s'il est «valide» de couper les données?
Edit: selon la réponse de Glen_b, je serais intéressé par des distributions unimodales strictement positives. Je serais également intéressé par le cas particulier de l'hypothèse d'une distribution, puis de tester différents paramètres .
la source
Réponses:
Imaginez deux scénarios:
les points de données étaient tous tirés de la même distribution - celle qui était uniforme sur (16,36)
les points de données ont été tirés d'un mélange 50-50 de deux populations:
une. population A, qui a la forme suivante:
b. population B, en forme de ceci:
... de telle sorte que le mélange des deux ressemble exactement au cas en 1.
Comment les distinguer?
Quelles que soient les formes que vous choisissez pour deux populations, il y aura toujours une distribution de population unique qui aura la même forme. Cet argument démontre clairement que pour le général cas , vous ne pouvez tout simplement pas le faire. Il n'y a aucun moyen de différencier.
Si vous introduisez des informations sur les populations (hypothèses, effectivement), il peut souvent y avoir des moyens de procéder *, mais le cas général est mort.
* Par exemple, si vous supposez que les populations sont unimodales et ont des moyens suffisamment différents, vous pouvez vous rendre quelque part
[Les restrictions qui ont été ajoutées à la question ne sont pas suffisantes pour éviter une version différente du type de problème que je décris ci-dessus - nous pouvons toujours écrire un null unimodal sur la demi-ligne positive comme un mélange 50-50 de deux distributions unimodales sur la demi-ligne positive. Bien sûr, si vous avez un null plus spécifique, cela devient beaucoup moins problématique. Alternativement, il devrait toujours être possible de restreindre davantage la classe des alternatives jusqu'à ce que nous soyons en mesure de tester une alternative au mélange. Ou certaines restrictions supplémentaires pourraient être appliquées à la fois nulles et alternatives qui les rendraient distinctes.]
la source
Vous avez évidemment besoin d'avoir une théorie pour parler de distribution (s) et des hypothèses d'état à tester. Quelque chose qui regroupe les sujets en un ou plusieurs groupes et quelque chose qui fait des mesures à mettre à part.
Comment peux tu aller la bas? Je vois trois options:
L'exercice vous permettrait alors de conclure qu'il y a un ou plusieurs groupes représentés dans votre échantillon ou un seul. Ou pas de groupe du tout.
la source