Quelles sont les utilisations importantes de la génération de nombres aléatoires dans les statistiques de calcul?

15

Comment et pourquoi les générateurs de nombres aléatoires (RNG) sont-ils importants dans les statistiques de calcul?

Je comprends que le caractère aléatoire est important lors du choix des échantillons pour de nombreux tests statistiques afin d'éviter tout biais vers l'une ou l'autre hypothèse, mais y a-t-il d'autres domaines des statistiques de calcul où les générateurs de nombres aléatoires sont importants?

Patrick
la source
4
Étroitement liés: stats.stackexchange.com/q/135665/35989
Tim
1
Que demandez-vous? Votre question n'a pas vraiment de sens.
Carl Witthoft
2
Il serait peut-être préférable de demander des domaines dans lesquels ils ne sont pas importants. Ce serait probablement une liste plus courte.
John Coleman
2
La question est large mais le titre est attrayant et la réponse de Matthew est un bel aperçu. J'ai voté pour rouvrir!
Benoit Sanchez
3
Ceci est clairement trop large par rapport aux normes SE classiques, et équivaut à une question de «grande liste» qui est susceptible d'accumuler beaucoup de petites réponses à peine élaborées qui reproduisent souvent les réponses déjà fournies. Cependant, il semble y avoir une réelle valeur ici. Un compromis est que cela soit CW et protégé. À l'avenir, les réponses qui mentionnent quelque chose sans élaboration et / ou que les utilisations en double déjà mentionnées seront supprimées rapidement et sans commentaire.
gung - Rétablir Monica

Réponses:

17

Il existe de très nombreux exemples. Beaucoup trop pour être énumérés, et probablement trop pour que quiconque sache complètement (à part peut-être @whuber, qui ne devrait jamais être sous-estimé).

Comme vous le mentionnez, dans les expériences contrôlées, nous évitons les biais d'échantillonnage en répartissant au hasard les sujets en groupes de traitement et de contrôle.

Dans le bootstrap, nous approchons l'échantillonnage répété d'une population par échantillonnage aléatoire avec remplacement à partir d'un échantillon fixe. Cela nous permet entre autres d'estimer la variance de nos estimations.

Dans la validation croisée, nous estimons l'erreur hors échantillon d'une estimation en partitionnant nos données au hasard en tranches et en assemblant des ensembles d'apprentissage et de test aléatoires.

Dans les tests de permutation, nous utilisons des permutations aléatoires pour échantillonner sous l'hypothèse nulle, ce qui permet d'effectuer des tests d'hypothèse non paramétriques dans une grande variété de situations.

Dans l' ensachage, nous contrôlons la variance d'une estimation en effectuant à plusieurs reprises une estimation sur des échantillons bootstrap de données d'entraînement, puis en faisant la moyenne des résultats.

Dans les forêts aléatoires, nous contrôlons en outre la variance d'une estimation en échantillonnant également au hasard à partir des prédicteurs disponibles à chaque point de décision.

En simulation, nous demandons à un modèle d'ajustement de générer aléatoirement de nouveaux ensembles de données que nous pouvons comparer à des données de formation ou de test, aidant à valider l'ajustement et les hypothèses dans un modèle.

Dans la chaîne de Markov Monte Carlo, nous échantillonnons à partir d'une distribution en explorant l'espace des résultats possibles à l'aide d'une chaîne de Markov (merci à @Ben Bolker pour cet exemple).

Ce ne sont que les applications courantes et courantes qui viennent immédiatement à l'esprit. Si je creusais profondément, je pourrais probablement doubler la longueur de cette liste. L'aléatoire est à la fois un objet d'étude important et un outil important à manier.

Matthew Drury
la source
Tout cela est vrai, mais ne résout pas le problème principal: un PRNG avec toute sorte de structure résultante ou de prévisibilité dans la séquence entraînera l'échec des simulations.
Carl Witthoft
3
Une des choses qui mérite d'être mentionnée est les coûts de calcul et de mémoire liés à la génération d'un grand nombre de nombres aléatoires ou pseudo-aléatoires. Certaines applications de RNG dans les statistiques nécessitent des centaines à des millions de nombres aléatoires, mais certaines nécessitent de nombreux ordres de grandeur supplémentaires, ce qui porte sur ces deux coûts.
Alexis
5

Tout cela est vrai, mais ne résout pas le problème principal: un PRNG avec toute sorte de structure résultante ou de prévisibilité dans la séquence entraînera l'échec des simulations. Carl Witthoft 31 janvier à 15:51

Si cela vous préoccupe, le titre de la question devrait peut-être être remplacé par «Impact du choix du GNR sur les résultats de Monte-Carlo» ou quelque chose du genre. Dans ce cas, déjà pris en compte sur la validation croisée SE , voici quelques directions

Xi'an
la source