Nom du phénomène sur les parcelles CDF estimées de données censurées

8

Mon ensemble de données contient deux variables (plutôt fortement corrélées) (temps d'exécution de l'algorithme) et (nombre de nœuds examinés, peu importe). Les deux sont fortement corrélés par conception, car l'algorithme peut gérer environ nœuds par seconde.tnc

L'algorithme a été exécuté sur plusieurs problèmes, mais il a été mis fin si une solution n'a pas été trouvée après un certain délai d' attente . Les données sont donc censurées à droite sur la variable de temps.T

Je trace la fonction de densité cumulée estimée (ou le nombre cumulé) de la variable pour les cas où l'algorithme s'est terminé avec . Cela montre combien de problèmes pourraient être résolus en développant au plus nœuds et est utile pour comparer différentes configurations de l'algorithme. Mais dans l'intrigue pour , il y a ces queues drôles en haut qui vont à droite, comme on peut le voir dans l'image ci-dessous. Comparez l'ecdf pour la variable , sur laquelle la censure a été effectuée.nt<Tnnt

Nombre cumulé den

ecdf de n

Nombre cumulé det

ecdf de t

Simulation

Je comprends pourquoi cela se produit et je peux reproduire l'effet dans une simulation en utilisant le code R suivant. Cela est dû à la censure d'une variable fortement corrélée sous l'ajout de bruit.

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

données synthétiques

Comment s'appelle ce phénomène? Je dois déclarer dans une publication que ces fans sont des artefacts de l'expérience et ne reflètent pas la distribution réelle.

ziggystar
la source
Est-ce dû à une résiliation anticipée?
lcrmorin
Pouvez-vous modéliser vos données avec une distribution paramétrique? Vous pouvez essayer cela en utilisant uniquement les données non censurées. Si cela fonctionne, vous pouvez utiliser le maximum de vraisemblance sur l'ensemble de données pour obtenir une estimation du véritable CDF et éliminer le comportement dans votre graphique.
soakley
@soakly Les échantillons ne sont pas iis. L'algorithme s'exécute sur un ensemble de problèmes de référence, et ceux-ci définissent essentiellement la forme de la courbe (ainsi que les caractéristiques des configurations d'algorithme).
ziggystar
@lmorin Je ne sais pas exactement ce que signifie une résiliation anticipée, mais les données sont proprement censurées à droite sur la variable de temps.
ziggystar
1
Les quantités dans les deux premiers affichages ne sont pas en fait des ECDF, car les valeurs prises par les ECDF sont sur [0,1]. Il serait préférable de les étiqueter avec un titre plus précis.
Glen_b -Reinstate Monica

Réponses:

1

Je ne suis pas un expert, mais je pense que ce que vous voyez est analogue à l'écrêtage doux .

Tri d'écrêtage (gain de compression)

C'est un peu différent, car votre écrêtage est provoqué par un processus non déterministe, en ce que votre signal est écrêté quand il plus un bruit aléatoire dépasse un seuil, au lieu d'un appareil qui réduit de manière déterministe un signal analogique. J'ai une pédale de guitare qui fait ça, ça adoucit le "punch" de jouer d'une guitare électrique:

Démo du compresseur Keeyley

Cela ressemble à une analogie décente. Je ne sais pas s'il y a un nom dans la communauté statistique.

Matthew Drury
la source
0

Je soupçonne que vous rencontrez la famille des distributions stables non symétriques.
Tout d'abord, tracez votre ecdf dans un tracé log-log. Adoptez une approche paramétrique, supposez Pareto Distribution, entrez la description de l'image ici

Le cdf dans votre cas est traduit par Ft(t)=1-(tmjent)une For t>tmjen, où tmjenest le temps de complétion minimum de votre algorithme, d'où le seuil apparaissant sur le côté gauche du graphique ecdf
Si vous voyez une ligne dans le tracé log-log, alors vous êtes sur le bon chemin, faites une régression linéaire sur les données transformées en log vous avez, pour découvrirα^, le soi-disant indice de Pareto.

L'indice de Pareto doit être supérieur à 1, il donne et l'interprétation de la "tailness" lourde de la distribution, la quantité de données s'étend sur les bords. Plus vous êtes proche de 1, plus votre situation est pathogène.
En d'autres termes,αexprime le rapport entre les nœuds ayant passé un temps négligeable et les nœuds ayant passé un temps excessif avant leur achèvement. Le lecteur précédent a identifié le fait que vous interrompiez brusquement votre expérience, ce qui introduit une complication décrite commeα^=α^(T). Je vous suggère de varierT d'explorer cette dépendance.

Le phénomène des queues lourdes est courant en informatique, en particulier lorsque les nœuds sont en concurrence aléatoire avec les ressources partagées, par exemple les réseaux informatiques.

aarsakian
la source
2
Je ne pense pas que mon problème réside dans la recherche du bon modèle. Vous voyez le deuxième complot dans ma question? La vraie distribution apparaîtrait comme une ligne, mais en raison de l'effet de censure, elle devient une courbe. Je veux savoir comment appeler ce phénomène.
ziggystar
Vos nœuds partagent une ressource commune, votre processeur qui se reflète indirectement dans les fluctuations de fin de temps et ces points rouges et roses qui sont assez éloignés de la masse principale de leur distribution respective est ce qui me rend suspect. Les nœuds de traitement de longue durée affecteront les nœuds de repos, je pense qu'ils finiront par éloigner la masse de son centre.
aarsakian
2
Je ne sais pas si vous avez bien compris le domaine: le problème est une recherche. L'algorithme examine un nœud à la fois afin de trouver un nœud de solution. Un meilleur algorithme doit examiner moins de nœuds avant de trouver une solution (car il sélectionne plus intelligemment les nœuds). L'examen d'un nœud nécessite un certain temps, et donc le nombre de nœuds examinés et le temps consommé devraient être assez fortement corrélés.
ziggystar
-1

disons que votre distribution est tronquée , comme la normale tronquée

Aksakal
la source