Comment et pourquoi les générateurs de nombres aléatoires (RNG) sont-ils importants dans les statistiques de calcul?
Je comprends que le caractère aléatoire est important lors du choix des échantillons pour de nombreux tests statistiques afin d'éviter tout biais vers l'une ou l'autre hypothèse, mais y a-t-il d'autres domaines des statistiques de calcul où les générateurs de nombres aléatoires sont importants?
hypothesis-testing
monte-carlo
algorithms
random-generation
computational-statistics
Patrick
la source
la source
Réponses:
Il existe de très nombreux exemples. Beaucoup trop pour être énumérés, et probablement trop pour que quiconque sache complètement (à part peut-être @whuber, qui ne devrait jamais être sous-estimé).
Comme vous le mentionnez, dans les expériences contrôlées, nous évitons les biais d'échantillonnage en répartissant au hasard les sujets en groupes de traitement et de contrôle.
Dans le bootstrap, nous approchons l'échantillonnage répété d'une population par échantillonnage aléatoire avec remplacement à partir d'un échantillon fixe. Cela nous permet entre autres d'estimer la variance de nos estimations.
Dans la validation croisée, nous estimons l'erreur hors échantillon d'une estimation en partitionnant nos données au hasard en tranches et en assemblant des ensembles d'apprentissage et de test aléatoires.
Dans les tests de permutation, nous utilisons des permutations aléatoires pour échantillonner sous l'hypothèse nulle, ce qui permet d'effectuer des tests d'hypothèse non paramétriques dans une grande variété de situations.
Dans l' ensachage, nous contrôlons la variance d'une estimation en effectuant à plusieurs reprises une estimation sur des échantillons bootstrap de données d'entraînement, puis en faisant la moyenne des résultats.
Dans les forêts aléatoires, nous contrôlons en outre la variance d'une estimation en échantillonnant également au hasard à partir des prédicteurs disponibles à chaque point de décision.
En simulation, nous demandons à un modèle d'ajustement de générer aléatoirement de nouveaux ensembles de données que nous pouvons comparer à des données de formation ou de test, aidant à valider l'ajustement et les hypothèses dans un modèle.
Dans la chaîne de Markov Monte Carlo, nous échantillonnons à partir d'une distribution en explorant l'espace des résultats possibles à l'aide d'une chaîne de Markov (merci à @Ben Bolker pour cet exemple).
Ce ne sont que les applications courantes et courantes qui viennent immédiatement à l'esprit. Si je creusais profondément, je pourrais probablement doubler la longueur de cette liste. L'aléatoire est à la fois un objet d'étude important et un outil important à manier.
la source
Si cela vous préoccupe, le titre de la question devrait peut-être être remplacé par «Impact du choix du GNR sur les résultats de Monte-Carlo» ou quelque chose du genre. Dans ce cas, déjà pris en compte sur la validation croisée SE , voici quelques directions
la source