Lié à l' analyse des ratios de variables et comment paramétrer le ratio de deux variables normalement distribuées, ou l'inverse d'une? .
Supposons que je dispose d'un certain nombre d'échantillons provenant de quatre distributions aléatoires continues différentes, que nous pouvons tous supposer être à peu près normales. Dans mon cas, cela correspond à certaines mesures de performances de deux systèmes de fichiers différents (par exemple, ext4 et XFS), avec et sans cryptage. La métrique peut être, par exemple, le nombre de fichiers créés par seconde, ou la latence moyenne pour certaines opérations sur les fichiers. Nous pouvons supposer que tous les échantillons tirés de ces distributions seront toujours strictement positifs. Appelons ces distributions où et . fstype∈{xfs,ext4}encryption∈{crypto,nocrypt
Maintenant, mon hypothèse est que le cryptage ralentit l'un des systèmes de fichiers d'un facteur plus important que l'autre. Existe-t-il un test simple pour l'hypothèse ?
Réponses:
Une alternative à la bonne réponse de StasK est d'utiliser un test de permutation. La première étape consiste à définir une statistique de test , peut-être:T
où est, peut-être, la moyenne de l'échantillon des observations de Perf e x t 4 , c r y p t o , etc. (Cela correspond à votre définition de l'hypothèse comme le rapport des attentes plutôt que la possibilité alternative de l'attente du rapport - quelle alternative peut être ce que vous voulez vraiment.) La deuxième étape consiste à permuter au hasard les étiquettes e x t 4 , x fPe r fˆe x t 4 , c r yp to Perfe xt 4 , c r yp to dans les données plusieurs fois, disons i = 1 , … , 10000 , et calculez T i pour chaque permutation. La dernière étape consiste à comparer votre T d' origineavec le T i observé; la p-valeur de permutation estimée serait la fraction du T i ≤ T . e x t 4 , x f s i = 1 , … , 10000 Tje T Tje Tje≤ T
Le test de permutation vous libère de la dépendance aux asymptotiques, mais bien sûr, en fonction de la taille de votre échantillon (et des données aussi, bien sûr), la méthode delta, que j'utilise également à l'occasion, peut très bien fonctionner.
la source
Vous pouvez calculer l'erreur standard (asymptotique) du rapport en utilisant la méthode delta . Si vous avez deux variables aléatoires et Y telles que √X Oui en distribution (ce qui serait le cas si vous disposez de données indépendantes, mais cela vaut également dans un cas plus général de données en cluster lorsque vous exécutez vos tests sur différentes machines), alors pour le rapportr= ˉ Y / ˉ X
J'espère que vous pourrez le prendre à partir de là et effectuer le reste des calculs d'enveloppe pour obtenir la formule finale.
la source
Le rapport des variables normales est distribué Cauchy. Sachant cela, vous pouvez simplement effectuer un test du facteur Bayes.
C'était une idée plutôt spontanée. Je ne suis plus sûr du mécanisme de génération de données. Installez-vous différents systèmes de fichiers sur le même PC, puis comparez-les pour les deux cas, afin de pouvoir assumer une structure de données hiérarchique?
De plus, je ne suis pas sûr que les ratios de recherche aient un sens.
Et puis vous avez écrit le ratio des valeurs attendues, alors que je pensais à la valeur attendue des ratios. Je suppose que j'ai besoin de plus d'informations sur la génération de données avant de continuer.
la source
Dans les cas où vous ne pouvez pas effectuer de permutations, par exemple lorsque la taille de l'échantillon crée des millions de possibilités, une autre solution serait le rééchantillonnage Monte Carlo.
la source