Simuler des distributions

9

Je travaille sur une mission de planification des capacités et j'ai lu quelques livres. Il s'agit spécifiquement des distributions. J'utilise R.

  1. Quelle est l'approche recommandée pour identifier ma distribution de données? Existe-t-il des méthodes statistiques pour l'identifier?

J'ai ce schéma.

APPROCHES PROBABILISTIQUES: ANALYSE DE SCÉNARIO, ARBRES DE DÉCISION ET SIMULATIONS

  1. Quelles sont les approches de simulation disponibles avec R? Ici, je veux générer des données pour une certaine distribution comme exponentielle. Est-ce que r-java est la bonne approche si je veux l'intégrer à Java?

  2. Existe-t-il un moyen de prédire quelle distribution l'effet (utilisation du processeur, etc.) aura lorsque je dirigerai les données pour une distribution particulière? Quels sont les différents effets de l'envoi de certaines distributions de données?

Veuillez considérer ces questions comme des questions pour les débutants. Existe-t-il des livres ou du matériel traitant de ces types de simulations?

Remarques

Le diagramme provient de la fin de l'article http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Bonté des techniques d'ajustement que j'ai rencontrées

Évaluation de la qualité de l'ajustement

  1. Chi carré
  2. Kolmogorov-Smirnov,
  3. Anderson-Darling statistiques densité, diagrammes cdf, PP et QQ

Je ne sais pas quelle devrait être l'interprétation ou les prochaines étapes si je trouve que ma distribution est normale ou exponentielle, etc. Qu'est-ce que cela me permet de faire? Prédiction? J'espère que cette question est claire.

Les retards exponentiels induiront des fluctuations de file d'attente selon mon livre de planification de capacité par Neil Gunther. Je connais donc ce point.

Mohan Radhakrishnan
la source
Si vous pensez que votre diagramme est important, alors vous devriez essayer d'améliorer la qualité de l'image ...
ocram
J'apprécie le soin qu'il faut pour poser une belle question. À mon avis, votre point 2. (qui devrait être 3 je suppose) a besoin d'être clarifié, ou vous pouvez même le déplacer vers Stack Overflow.
gui11aume
1
Je pense que ma dernière question appartient ici. Disons que j'identifie ma distribution de données. Est-ce que je prédis que les distributions futures suivront cette probabilité? Il me manque une partie d'analyse de données ici. Je sais qu'un complot à moustaches montre facilement des quartiles que je comprends. Je n'ai pas l'utilité d'une distribution. Qu'il y ait des propriétés de cette distribution que je dois rechercher pour la prédiction.
Mohan Radhakrishnan
@ocram Si la qualité est mauvaise, agrandissez la page dans votre navigateur: le détail est là. BTW, ces images doivent provenir d'une partie de la documentation de Crystal Ball .
whuber
@whuber: En effet, je n'ai même pas essayé! Désolé pour le commentaire.
ocram

Réponses:

7

Je répondrai à votre point sur les simulations avec R car c'est la seule que je connaisse. R a beaucoup de distributions intégrées que vous pouvez simuler. La logique du nommage est que pour simuler une distribution appelée disle nom sera rdis.

Voici ceux que j'utilise le plus souvent

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Vous pouvez trouver des compléments dans les distributions Enfilage avec R .

Ajout: merci à @jthetzel pour avoir fourni un lien avec une liste complète des distributions et des packages auxquels elles appartiennent.

Mais attendez, il y a plus: OK, suivant le commentaire de @ whuber, je vais essayer de répondre aux autres points. En ce qui concerne le point 1, je ne privilégie jamais la qualité de l'ajustement. Au lieu de cela, je pense toujours à l'origine du signal, comme ce qui cause le phénomène, y a-t-il des symétries naturelles dans ce qui le produit, etc. Vous avez besoin de plusieurs chapitres de livre pour le couvrir, je vais donc donner deux exemples.

  1. Si les données sont des nombres et qu'il n'y a pas de limite supérieure, j'essaie un Poisson. Les variables de Poisson peuvent être interprétées comme les comptes d'indépendants successifs au cours d'une fenêtre temporelle, ce qui est un cadre très général. J'ajuste la distribution et vois (souvent visuellement) si la variance est bien décrite. Très souvent, la variance de l'échantillon est beaucoup plus élevée, auquel cas j'utilise un binôme négatif. Le binôme négatif peut être interprété comme un mélange de Poisson avec différentes variables, ce qui est encore plus général, ce qui correspond généralement très bien à l'échantillon.

  2. Si je pense que les données sont symétriques par rapport à la moyenne, c'est-à - dire que les écarts sont également susceptibles d'être positifs ou négatifs, j'essaie d'ajuster un gaussien. Je vérifie ensuite (à nouveau visuellement) s'il y a beaucoup de valeurs aberrantes, c'est-à - dire des points de données très éloignés de la moyenne. S'il y en a, j'utilise plutôt un t de Student. La distribution t de Student peut être interprétée comme un mélange de gaussien avec différentes variances, ce qui est encore très général.

Dans ces exemples, quand je dis visuellement, je veux dire que j'utilise un tracé QQ

Le point 3 mérite également plusieurs chapitres de livre. Les effets de l'utilisation d'une distribution au lieu d'une autre sont illimités. Donc, au lieu de passer par tout cela, je vais continuer les deux exemples ci-dessus.

  1. À mes débuts, je ne savais pas que le binôme négatif peut avoir une interprétation significative, j'ai donc toujours utilisé Poisson (car j'aime pouvoir interpréter les paramètres en termes humains). Très souvent, lorsque vous utilisez un Poisson, vous ajustez bien la moyenne, mais vous sous-estimez la variance. Cela signifie que vous ne pouvez pas reproduire les valeurs extrêmes de votre échantillon et vous considérerez ces valeurs comme des valeurs aberrantes (points de données qui n'ont pas la même distribution que les autres points) alors qu'ils ne le sont pas réellement.

  2. Encore une fois à mes débuts, je ne savais pas que le t de Student avait également une interprétation significative et j'utiliserais le gaussien tout le temps. Une chose similaire s'est produite. J'ajusterais bien la moyenne et la variance, mais je ne capturerais toujours pas les valeurs aberrantes car presque tous les points de données sont censés être à moins de 3 écarts-types de la moyenne. La même chose s'est produite, j'ai conclu que certains points étaient "extraordinaires", alors qu'en réalité ils ne l'étaient pas.

gui11aume
la source
2
Une note pour ajouter à la réponse de gui11aume: Il y a un "d, p, q, r" syntaxe des fonctions liées à la distribution dans R. Par exemple, dnorm, pnorm, qnormet rnormsont la densité, la fonction de distribution cumulative (CDF), inverse CDF et fonctions de générateur de variables aléatoires pour la distribution normale, respectivement. Voir la vue des tâches de distribution de probabilité pour une liste complète des distributions disponibles.
jthetzel
Oui, merci beaucoup (+1). Je cherchais une telle liste depuis longtemps. Je l'ai mis dans la réponse pour qu'il soit plus visible.
gui11aume
1
Je ne pourrais même pas vous dire ce qu'est un tiers de ces distributions. Bien plus à apprendre .... +1, mais n'oublions pas le reste de la question, qui est fondamentale (mais peut-être un peu trop large): quels effets les choix de distribution ont-ils dans une simulation? Comment faire ces choix?
whuber
@whuber J'ai ajouté l'effet de la distribution exponentielle des retards sur les fluctuations de la file d'attente. Référer. livres sur CP ou en file d'attente.
Mohan Radhakrishnan
J'ai lu les distributions d'ajustement avec R et j'ai également utilisé le tracé QQ une fois. L'estimation du maximum de vraisemblance commence par l'expression mathématique connue sous le nom de fonction de vraisemblance des données de l'échantillon. En gros, la vraisemblance d'un ensemble de données est la probabilité d'obtenir cet ensemble particulier de données compte tenu du modèle de probabilité choisi. Est-ce à dire qu'il existe un moyen de calculer que la distribution peut se reproduire? Combien de mesures sont nécessaires pour le prouver?
Mohan Radhakrishnan