Tester si 2 jeux de données distribués exponentiellement sont différents

8

J'ai 2 jeux de données distribués de façon exponentielle et je veux être sûr qu'ils proviennent de distributions différentes. Malheureusement, une erreur nécessaire dans la détection des données m'oblige à rejeter toutes les données sous un certain seuil. Dans chaque ensemble, j'ai environ 3000 points de données et le traçage des données me fait penser que la valeur lambda est différente. L'ajustement donne également des valeurs différentes pour lambda.

Comment puis-je être sûr que les deux jeux de données proviennent d'une distribution différente?

Voici un graphique de la façon dont les ensembles ressemblent (Notez que toutes les valeurs sous life = 3sec doivent être rejetées):

MISE À JOUR: Les distributions ci-dessus sont dans les deux cas normalisées sur N juste pour mieux les comparer dans un graphique car le nombre total de points de données N est différent.

UPDATE2: Après la troncature, j'ai environ 150 valeurs à vie pour le jeu de données rouge et 350 pour le jeu de données bleu. Il s'avère que 3000 a été exagéré (je suis désolé).

UPDATE3: Merci de votre patience. Voici les données brutes:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Jusqu'à présent, j'ai ajusté une fonction exponentielle aux deux ensembles de données et comparé les pentes. Étant donné que toute normalisation ne devrait pas modifier la pente des données, différentes pentes devraient impliquer différentes distributions exponentielles sous-jacentes (mon expérience avec l'analyse statistique est très limitée).

Les valeurs sous le seuil sont ignorées car la mesure détecte trop souvent de nombreux événements dans ce régime.

UPDATE4: Je viens de réaliser que mon problème est beaucoup plus compliqué que je ne le pensais. J'ai laissé des données censurées (je ne connais pas le début de certains événements) et des données censurées à droite (je ne connais pas la fin de certains événements) ET je dois supprimer toutes les durées de vie inférieures à 3 s (troncature). Existe-t-il un moyen d'intégrer tout cela dans une seule analyse? Jusqu'à présent, j'ai trouvé de l'aide sur la façon de travailler avec des données censurées (analyse de survie), mais que dois-je faire avec la troncature?

MaxJ
la source
Puisque l'intrigue semble montrer des densités, comment sont-elles estimées?
Yves
Cela ressemble à des données censurées. Vous perdez des informations et risquez de biaiser les résultats en rejetant ceux qui sont en dessous du seuil. Au lieu de cela, vous devez indiquer ce que ce seuil est (3 secondes, je vois) et fournir le nombre de valeurs rejetées dans chaque groupe. Vous devez également expliquer toutes les données quantifiées affichées sous le seuil (comme le point brun en bas à gauche). Étiqueter l'axe vertical comme "densité" est mystérieux: vos données d'origine ne sont sûrement que des durées de vie et ce graphique donne des chiffres dans des classes de vie étroites?
whuber
Si vous souhaitez comparer les deux distributions conditionnelles (au-dessus du seuil), vous pouvez utiliser un test F pour la comparaison des moyennes comme décrit par @Glen_b dans stats.stackexchange.com/a/76695/10479
Yves
Veuillez supprimer la normalisation afin que nous puissions voir les données réelles (la normalisation détruit les informations essentielles) et nous dire combien de valeurs vous jetez généralement dans les données.
whuber
J'ai ajouté les données brutes à la question. Dans le premier ensemble de données, je dois éliminer 50% dans le second environ 30%.
MaxJ

Réponses:

5

Les durées de vie distribuées exponentiellement sont un cas particulièrement simple pour l' analyse de la survie . Les analyser est souvent le premier exemple travaillé pour amorcer les élèves avant de passer à des situations plus compliquées. De plus, l'analyse de survie est naturellement adaptée aux données censurées. En bref, je vous suggère d'utiliser l'analyse de survie avec un indicateur de regroupement pour les deux distributions comme effet de traitement. Vous pouvez utiliser un modèle paramétrique (par exemple, le modèle de Weibull, car l'exponentielle est un cas particulier du Weibull ), ou vous pouvez utiliser des méthodes non paramétriques, telles que le test de classement du journal , si vous préférez.

gung - Réintégrer Monica
la source
Cela s'applique-t-il également aux données tronquées? Je pense que mon problème est un peu différent de la censure ou?
MaxJ
@ user3683367, la troncature est différente de la censure. Ceux-ci testeraient les différences dans les distributions au-dessus de la limite de détection.
gung - Rétablir Monica
Je me suis débarrassé de la troncature (nouvelle configuration d'exp.) Et j'ai juste utilisé des données censurées gauche et droite dans la boîte à outils statistiques MATLABS. J'ai utilisé la fonction Weibull avec des données censurées gauche et droite. Les moyennes ajustées sont différentes et leurs bornes d'erreur ne se chevauchent pas. Comment puis-je calculer une probabilité que mes distributions soient réellement les mêmes?
MaxJ
@ user3683367, vous ne pouvez pas calculer la probabilité que les distributions soient les mêmes. Cette probabilité est soit soit , et vous ne savez pas laquelle. Au lieu de cela, vous pouvez calculer la probabilité d'obtenir 2 groupes aussi divergents s'ils proviennent de la même distribution; c'est la valeur p. En ce qui concerne comment obtenir MATLAB pour vous donner cela, je ne sais pas - je n'ai pas utilisé MATLAB depuis longtemps, mais une valeur de p sur le contraste du traitement devrait venir avec une sortie de modèle standard. 10
gung - Rétablir Monica
2

Vous êtes intéressé par le test suivant: où est le paramètre unique qui identifie de manière unique la distribution exponentielle avec laquelle vous traitez. Puisque correspond également à la moyenne de cette distribution, vous êtes essentiellement intéressé à tester la différence de moyennes dans ces deux distributions.H0:λ1=λ2λiλ

Puisque vous avez un grand échantillon, pour tester cela, nous pouvons faire appel au théorème de la limite centrale qui nous dit ce qui suit:

Théorème de la limite centrale: supposons que est une séquence de variables aléatoires iid avec . Alors que approche de l'infini, la variable aléatoire converge en distribution vers une distribution normale .X1,X2,...XnE[Xi]=μ and Var[Xi]=σ2<nn(X¯μ)N(0,σ2)

En d'autres termes, vos moyennes d'échantillonnage pour chacun des deux groupes sont réparties approximativement normalement. Puisque vous ne connaissez pas la vraie valeur de , vous pouvez effectuer un test t pour une différence de moyennes.σ2

TrynnaDoStat
la source
1
Parce que la distribution exponentielle est tellement asymétrique, une petite analyse est nécessaire pour justifier l'application de la CLT. Si en effet ces données n'étaient pas censurées, il s'avère que serait plus que suffisant pour que l'approximation normale soit bonne. (Preuve: le cgf de la moyenne des exponentielles est , ce qui implique que l'asymétrie est de , qui est petit pour ) Mais cela pourrait être une grave erreur si une proportion substantielle de l'un ou l'autre des ensembles de données avait été rejetée. n=3000nψ(t)=t2/(2n)+it3/(3n2)+O(t4)2nn=3000
whuber
J'ai édité ma question. Puis-je vraiment appliquer le CLT pour les données censurées à gauche avec N = 100-300?
MaxJ
Corrigez-moi si je me trompe, mais je crois que le point de Whuber est que si la distribution exponentielle est tronquée, ce n'est plus une distribution exponentielle pure. Un nœud de mon argument est que la moyenne de la distribution exponentielle l'identifie de manière unique. Si cette nouvelle distribution tronquée n'est plus identifiée de manière unique par sa moyenne, mon argument peut échouer. Que les données soient tronquées ou non, vous pouvez toujours faire un test de différence de moyenne. Si les moyennes sont différentes, les distributions sont différentes.
TrynnaDoStat
Si le point de Whuber est que le CLT ne s'applique pas, je devrai être en désaccord avec lui. Que vos données proviennent ou non d'une distribution exponentielle pure ou tronquée, vous avez toujours un échantillon iid de la même distribution avec une moyenne et une variance finie . μσ2
TrynnaDoStat
2
Mon point n'est pas que le CLT soit inapplicable: c'est que pour l'appliquer il faut vérifier que l'approximation asymptotique est bonne. Le CLT ne dit absolument rien sur la distribution de la moyenne d'un nombre fini particulier de variables iid à variance finie. Et s'il vous plaît ne confondez pas la troncature avec la censure: le problème créé par la censure est que certaines données ne sont pas des nombres pairs (ce sont des intervalles) - donc a fortiori le CLT ne peut pas (directement) s'appliquer dans cette situation.
whuber