J'ai 2 jeux de données distribués de façon exponentielle et je veux être sûr qu'ils proviennent de distributions différentes. Malheureusement, une erreur nécessaire dans la détection des données m'oblige à rejeter toutes les données sous un certain seuil. Dans chaque ensemble, j'ai environ 3000 points de données et le traçage des données me fait penser que la valeur lambda est différente. L'ajustement donne également des valeurs différentes pour lambda.
Comment puis-je être sûr que les deux jeux de données proviennent d'une distribution différente?
Voici un graphique de la façon dont les ensembles ressemblent (Notez que toutes les valeurs sous life = 3sec doivent être rejetées):
MISE À JOUR: Les distributions ci-dessus sont dans les deux cas normalisées sur N juste pour mieux les comparer dans un graphique car le nombre total de points de données N est différent.
UPDATE2: Après la troncature, j'ai environ 150 valeurs à vie pour le jeu de données rouge et 350 pour le jeu de données bleu. Il s'avère que 3000 a été exagéré (je suis désolé).
UPDATE3: Merci de votre patience. Voici les données brutes:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Jusqu'à présent, j'ai ajusté une fonction exponentielle aux deux ensembles de données et comparé les pentes. Étant donné que toute normalisation ne devrait pas modifier la pente des données, différentes pentes devraient impliquer différentes distributions exponentielles sous-jacentes (mon expérience avec l'analyse statistique est très limitée).
Les valeurs sous le seuil sont ignorées car la mesure détecte trop souvent de nombreux événements dans ce régime.
UPDATE4: Je viens de réaliser que mon problème est beaucoup plus compliqué que je ne le pensais. J'ai laissé des données censurées (je ne connais pas le début de certains événements) et des données censurées à droite (je ne connais pas la fin de certains événements) ET je dois supprimer toutes les durées de vie inférieures à 3 s (troncature). Existe-t-il un moyen d'intégrer tout cela dans une seule analyse? Jusqu'à présent, j'ai trouvé de l'aide sur la façon de travailler avec des données censurées (analyse de survie), mais que dois-je faire avec la troncature?
Réponses:
Les durées de vie distribuées exponentiellement sont un cas particulièrement simple pour l' analyse de la survie . Les analyser est souvent le premier exemple travaillé pour amorcer les élèves avant de passer à des situations plus compliquées. De plus, l'analyse de survie est naturellement adaptée aux données censurées. En bref, je vous suggère d'utiliser l'analyse de survie avec un indicateur de regroupement pour les deux distributions comme effet de traitement. Vous pouvez utiliser un modèle paramétrique (par exemple, le modèle de Weibull, car l'exponentielle est un cas particulier du Weibull ), ou vous pouvez utiliser des méthodes non paramétriques, telles que le test de classement du journal , si vous préférez.
la source
Vous êtes intéressé par le test suivant: où est le paramètre unique qui identifie de manière unique la distribution exponentielle avec laquelle vous traitez. Puisque correspond également à la moyenne de cette distribution, vous êtes essentiellement intéressé à tester la différence de moyennes dans ces deux distributions.H0:λ1=λ2 λi λ
Puisque vous avez un grand échantillon, pour tester cela, nous pouvons faire appel au théorème de la limite centrale qui nous dit ce qui suit:
Théorème de la limite centrale: supposons que est une séquence de variables aléatoires iid avec . Alors que approche de l'infini, la variable aléatoire converge en distribution vers une distribution normale .X1,X2,...Xn E[Xi]=μ and Var[Xi]=σ2<∞ n n−−√(X¯−μ) N(0,σ2)
En d'autres termes, vos moyennes d'échantillonnage pour chacun des deux groupes sont réparties approximativement normalement. Puisque vous ne connaissez pas la vraie valeur de , vous pouvez effectuer un test t pour une différence de moyennes.σ2
la source