«Tous ces points de données proviennent de la même distribution.» Comment tester?

16

J'ai l'impression d'avoir déjà vu ce sujet ici, mais je n'ai rien trouvé de spécifique. Là encore, je ne sais pas trop quoi chercher.

J'ai un ensemble unidimensionnel de données ordonnées. Je fais l'hypothèse que tous les points de l'ensemble sont tirés de la même distribution.

Comment puis-je tester cette hypothèse? Est-il raisonnable de tester par rapport à une alternative générale de "les observations dans cet ensemble de données sont tirées de deux distributions différentes"?

Idéalement, je voudrais identifier quels points proviennent de la distribution «autre». Étant donné que mes données sont commandées, pourrais-je m'en tirer en identifiant un point de coupure, après avoir en quelque sorte testé s'il est «valide» de couper les données?

Edit: selon la réponse de Glen_b, je serais intéressé par des distributions unimodales strictement positives. Je serais également intéressé par le cas particulier de l'hypothèse d'une distribution, puis de tester différents paramètres .

shadowtalker
la source
Qu'entendez-vous par "même distribution"? Les observations de Gamma sont-elles considérées comme provenant de la même distribution, ou sont-elles considérées comme la somme des distributions exponentielles?
Metariat
+1 c'est une très bonne question à vous poser.
user541686
@Metallica tant que chaque observation est une somme exponentielle, je dirais qu'elles proviennent de la même distribution
shadowtalker
@Mehrdad Je n'ai pas de formation officielle en statistiques au-delà de mon diplôme de premier cycle et quelques cours divers dans ma maîtrise. Si vous regardez l'historique de mes réponses, il est clair que je connais beaucoup de régression linéaire et pas grand chose d'autre about
shadowtalker
2
Une façon possible d'aborder cette question est de considérer un mélange fini, par exemple d'une classe de distributions, et de voir si vous avez besoin de plus d'un composant de mélange pour bien décrire vos données. Cependant, la question est de savoir s'il existe une classe de distributions suffisamment flexible pour décrire votre "hypothèse nulle" par un seul composant de mélange (par exemple, si vous utilisez un mélange fini de distributions gamma, celles-ci peuvent ne pas être flexibles en termes d'asymétrie ou de queue comportement en fonction de ce que vous essayez de faire), tout en contenant l'alternative potentielle en tant que mélange multi-composants.
Björn

Réponses:

29

Imaginez deux scénarios:

  1. les points de données étaient tous tirés de la même distribution - celle qui était uniforme sur (16,36)

  2. les points de données ont été tirés d'un mélange 50-50 de deux populations:

    une. population A, qui a la forme suivante:

entrez la description de l'image ici

b. population B, en forme de ceci:

entrez la description de l'image ici

... de telle sorte que le mélange des deux ressemble exactement au cas en 1.

Comment les distinguer?

Quelles que soient les formes que vous choisissez pour deux populations, il y aura toujours une distribution de population unique qui aura la même forme. Cet argument démontre clairement que pour le général cas , vous ne pouvez tout simplement pas le faire. Il n'y a aucun moyen de différencier.

Si vous introduisez des informations sur les populations (hypothèses, effectivement), il peut souvent y avoir des moyens de procéder *, mais le cas général est mort.

* Par exemple, si vous supposez que les populations sont unimodales et ont des moyens suffisamment différents, vous pouvez vous rendre quelque part

[Les restrictions qui ont été ajoutées à la question ne sont pas suffisantes pour éviter une version différente du type de problème que je décris ci-dessus - nous pouvons toujours écrire un null unimodal sur la demi-ligne positive comme un mélange 50-50 de deux distributions unimodales sur la demi-ligne positive. Bien sûr, si vous avez un null plus spécifique, cela devient beaucoup moins problématique. Alternativement, il devrait toujours être possible de restreindre davantage la classe des alternatives jusqu'à ce que nous soyons en mesure de tester une alternative au mélange. Ou certaines restrictions supplémentaires pourraient être appliquées à la fois nulles et alternatives qui les rendraient distinctes.]

Glen_b -Reinstate Monica
la source
1
Merci, super contre-exemple. Il s'agit donc de restreindre de manière appropriée l'hypothèse alternative, n'est-ce pas?
shadowtalker
@ssdecontrol oui, essentiellement; si (étant donné les hypothèses) l'alternative se distingue du nul, vous avez un certain espoir d'un test avec une puissance supérieure à votre niveau de signification.
Glen_b -Reinstate Monica
0

Vous avez évidemment besoin d'avoir une théorie pour parler de distribution (s) et des hypothèses d'état à tester. Quelque chose qui regroupe les sujets en un ou plusieurs groupes et quelque chose qui fait des mesures à mettre à part.

Comment peux tu aller la bas? Je vois trois options:

  • Si vous le savez déjà à partir de votre sujet, il vous suffit de le traduire dans le langage de l'hypothèse statistique
  • Tracer les graphiques et reconnaître les modèles pour devenir des hypothèses à tester
  • Trouvez une liste de distributions que vous pourriez adapter et faites une expérience mathématique. La programmation probabiliste est le mot clé ici

L'exercice vous permettrait alors de conclure qu'il y a un ou plusieurs groupes représentés dans votre échantillon ou un seul. Ou pas de groupe du tout.

Diego
la source