J'ai une application basée sur servlet dans laquelle je mesure le temps nécessaire pour terminer chaque demande à ce servlet. Je calcule déjà des statistiques simples comme la moyenne et le maximum; Je voudrais cependant produire une analyse plus sophistiquée, et pour ce faire, je pense que je dois modéliser correctement ces temps de réponse.
Certes, je dis, les temps de réponse suivent une distribution bien connue, et il y a de bonnes raisons de croire que la distribution est le bon modèle. Cependant, je ne sais pas ce que devrait être cette distribution.
Log-normal et Gamma viennent à l'esprit, et vous pouvez créer une sorte de données de temps de réponse réelles. Quelqu'un a-t-il une idée de la répartition des temps de réponse à suivre?
la source
Ma recherche montre que le meilleur modèle est déterminé par quelques éléments: 1) Êtes-vous concerné par le corps, la queue ou les deux? Si ce n'est pas "les deux", la modélisation d'un ensemble de données filtré peut être plus utile. 2) Voulez-vous un modèle très simple ou très précis? c'est à dire combien de paramètres?
Si la réponse à 1 était "les deux" et 2 était "simple", Pareto semble fonctionner le mieux. Sinon, si 1 était "corps" et 2 était "simple" - choisissez un modèle erlang filtré. Si 1 était "les deux" et 2 était "précis", vous voulez probablement un modèle de mélange gaussien sur vos données dans le domaine de log - en fait un ajustement lognormal.
J'ai fait des recherches sur ce sujet ces derniers temps, et je n'ai pas trouvé que le sujet soit suffisamment bien couvert sur Internet public, alors j'ai juste écrit un article de blog détaillant mes recherches sur ce sujet.
la source