Je ne suis pas statisticien. Alors, veuillez supporter mes erreurs, le cas échéant.
Pourriez-vous expliquer de manière simple comment se fait la simulation? Je sais qu'il prend un échantillon aléatoire dans une distribution normale et sert à la simulation. Mais, ne comprends pas clairement.
simulation
Curieuse
la source
la source
Réponses:
En statistique, la simulation est utilisée pour évaluer les performances d'une méthode, généralement en l'absence de connaissances théoriques. Avec les simulations, le statisticien connaît et contrôle la vérité .
La simulation est avantageusement utilisée dans un certain nombre de situations. Cela comprend la fourniture d'une estimation empirique des distributions d'échantillonnage, l'étude de la spécification erronée des hypothèses dans les procédures statistiques, la détermination de la puissance dans les tests d'hypothèse, etc.
Les études de simulation doivent être conçues avec beaucoup de rigueur. Burton et al. (2006) ont donné un très bon aperçu dans leur article « La conception des études de simulation en statistiques médicales ». Des études de simulation menées dans une grande variété de situations peuvent être trouvées dans les références.
Exemple illustratif simple Considérons le modèle linéaire
où est une covariable binaire ( ou ), et . En utilisant des simulations dans R, vérifions quex = 0 x = 1 ϵ ∼ N ( 0 , σ 2 )x x=0 x=1 ϵ∼N(0,σ2)
Remarque : Il y a une lettre à l'éditeur pour l'article référencé ci-dessus.
la source
Tout d'abord, il existe de très nombreux types de simulation différents en statistique, et encore plus dans les domaines environnants. Dire simplement "Simulation" est à peu près aussi utile que dire "Modèle" - c'est-à-dire pas grand-chose du tout.
Sur la base du reste de votre question, je suppose que vous parlez de simulation de Monte Carlo, mais même cela est un peu vague. Fondamentalement, ce qui se passe, c'est que vous tirez à plusieurs reprises des échantillons d' une distribution (ce n'est pas nécessairement normal) afin de faire une analyse statistique sur une population artificielle avec des propriétés connues, mais aléatoires.
Le but de ceci a tendance à se diviser en deux catégories:
Ma méthode peut-elle gérer X? : Essentiellement, vous simulez une série de nombreuses populations aléatoires avec une «bonne» réponse connue pour voir si votre nouvelle technique vous donne la bonne réponse. Comme exemple de base, disons que vous avez développé ce que vous pensez être une nouvelle façon de mesurer la corrélation entre deux variables, X et Y. Vous simulez deux variables où la valeur de Y dépend de la valeur de X, avec du bruit aléatoire. Par exemple, Y = 0,25x + bruit. Vous créeriez ensuite une population avec des valeurs aléatoires de X, des valeurs de Y qui étaient 0,25x + un nombre aléatoire, probablement plusieurs milliers de fois, puis vous montreriez qu'en moyenne, votre nouvelle technique crache un nombre qui montre correctement que Y = 0,25x.
Ce qui se passe si? La simulation peut être effectuée comme une analyse de sensibilité pour une étude existante. Disons par exemple que j'ai mené une étude de cohorte, mais je sais que ma mesure d'exposition n'est pas très bonne. Il classe incorrectement 30% de mes sujets comme exposés alors qu'ils ne devraient pas l'être, et classe 10% de mes sujets comme non exposés alors qu'ils ne devraient pas l'être. Le problème est que je n'ai pas de meilleur test, donc je ne sais pas lequel est lequel.
Je prendrais ma population et donnerais à chaque sujet exposé 30% de chances de passer à non exposé, et chaque sujet non exposé 10% de chances de passer à exposé. Je créerais ensuite des milliers de nouvelles populations, déterminerais au hasard quels sujets changeraient et relancerais mon analyse. La gamme de ces résultats me donnera une bonne estimation de la façon dont mon résultat d'étude pourrait changer si j'aurais pu classer correctement tout le monde.
Il y a bien sûr, comme toujours, une plus grande complexité, nuance et utilité à la simulation, selon la quantité que vous voulez creuser.
la source
La simulation peut également être utilisée pour examiner des processus réels dans des conditions théoriques, où ces processus ont des entrées non linéaires. Par exemple, une entreprise manufacturière peut être intéressée à savoir si l'ajout d'une ligne de production supplémentaire est rentable, un centre d'appels peut être intéressé par la façon d'acheminer les appels autour des opérateurs afin de réduire le temps d'attente et les taux de fardeau pour les appelants, un service d'urgence peut être intéressé par la meilleure façon de classer le personnel et de transférer les patients, ou un port d'expédition peut être intéressé par la manière la plus efficace d'organiser ses opérations de conteneurs. La simulation d'événements discrets peut être utilisée pour modéliser ces processus, et on peut ajuster les paramètres pour répondre aux questions de type «et si».
Un autre domaine d'intérêt en simulation est celui des systèmes complexes. En particulier en sciences sociales, la simulation basée sur les agents est un type de simulation intéressant qui commence à rassembler plus de partisans. Dans la simulation basée sur les agents, les agents (par exemple les individus) reçoivent des attributs tels que des personnalités et interagissent les uns avec les autres, de sorte qu'il modélise un système chaotique. La simulation basée sur les agents examine l'effet des agents environnants les uns sur les autres, et l'effet à distance peut être inclus. Bien que je n'aie moi-même fait aucune simulation basée sur un agent, je l'ai vu utilisé pour modéliser des systèmes tels que la répartition géographique de la taille de la population dans une communauté préhistorique au fil du temps.
la source
La simulation reproduit le caractère aléatoire inhérent à un échantillon statistique en utilisant un générateur pseudo-aléatoire (par exemple, un générateur normal comme rnorm) et utilise la reproductibilité de la génération pseudo-aléatoire pour déduire la distribution d'une procédure statistique appliqué à l'échantillon d'origine.x1,…,xn
Un exemple particulièrement important de la technique statistique basée sur la simulation est lié au bootstrap , introduit par Efron (1979). Étant donné un échantillon , le cdf empirique est un convergent (en approximation) de la vraie fonction de répartition, . Par conséquent, toute quantité dépendant de , par exemple une attente, , ou la distribution d'une statistique , peut être approximée par la quantité correspondante sousx1,…,xn
la source