Bootstrap vs Monte Carlo, estimation d'erreur

12

Je lis l'article Anderson propagation (Error propagation by the Monte Carlo in geochemical calculs), et il y a quelque chose que je ne comprends pas très bien.

Considérons quelques données mesurées et un programme qui les traite et renvoie une valeur donnée. Dans l'article, ce programme est utilisé pour obtenir d'abord la meilleure valeur en utilisant les moyennes des données (ie: ).{ A , B , C }{A±σA,B±σB,C±σC}{A,B,C}

L'auteur utilise ensuite une méthode de Monte Carlo pour attribuer une incertitude à cette meilleure valeur, en faisant varier les paramètres d'entrée dans leurs limites d'incertitude (données par une distribution gaussienne avec les moyennes et les écarts types ) avant de les alimenter au programme. Ceci est illustré dans la figure ci-dessous:{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

entrez la description de l'image ici

( Droit d'auteur: ScienceDirect )

où l'incertitude peut être obtenue à partir de la distribution finale .Z

Que se passerait-il si, au lieu de cette méthode Monte Carlo, j'appliquais une méthode bootstrap? Quelque chose comme ça:

entrez la description de l'image ici

C'est: au lieu de varier les données dans leurs incertitudes avant de les alimenter au programme, j'échantillonne avec remplacement d'eux.

Quelles sont les différences entre ces deux méthodes dans ce cas? Quelles mises en garde dois-je savoir avant d'appliquer l'une d'entre elles?


Je suis au courant de cette question Bootstrap, Monte Carlo , mais elle ne résout pas tout à fait mon doute car, dans ce cas, les données contiennent des incertitudes attribuées.

Gabriel
la source
Juste pour clarifier: le "changement aléatoire" dans la méthode MC est généré aléatoirement par le chercheur? Autrement dit, du bruit / des erreurs sont ajoutés artificiellement aux données d'entrée?
shadowtalker
Il est "généré aléatoirement", basé sur les incertitudes des données mesurées (ie: les ) et en supposant une certaine distribution de ces erreurs (généralement gaussiennes). Donc non, les erreurs ne sont pas ajoutées artificiellement. Les données d'entrée ont une erreur associée donnée par le processus de mesure. σ
Gabriel
Je ne pense pas comprendre. C'est du bruit artificiel, mais avec un écart-type estimé à partir des données
shadowtalker
Alors je ne comprends probablement pas ce qu'est un "bruit artificiel" (et ce qui constituerait un "bruit non artificiel"). Avez-vous vu l'article? Cela explique certainement les choses beaucoup mieux que moi.
Gabriel
Bruit naturel: variation aléatoire de mes données. Bruit artificiel: utiliser un générateur de nombres aléatoires pour tirer des nombres d'une distribution de probabilité et ajouter ces nombres à mes données
shadowtalker

Réponses:

7

Pour autant que je comprends votre question, la différence entre l'approche "Monte Carlo" et l'approche bootstrap est essentiellement la différence entre les statistiques paramétriques et non paramétriques.

Dans le cadre paramétrique, on sait exactement comment les données sont générées, c'est-à-dire, étant donné les paramètres du modèle ( , , & tc. Dans votre description), vous pouvez produire de nouvelles réalisations de tels ensembles de données , et à partir de là de nouvelles réalisations de votre procédure statistique (ou "sortie"). Il est ainsi possible de décrire entièrement et exactement la distribution de probabilité de la sortie , soit par des dérivations mathématiques, soit par une expérience de Monte Carlo renvoyant un échantillon de taille arbitraire à partir de cette distribution. A σ A Zx1,,xNAσAZ

Dans le cadre non-paramétrique, on ne veut pas faire de telles hypothèses sur les données et utilise ainsi les données et seules les données pour estimer sa distribution, . Le bootstrap est une telle approche en ce sens que la distribution inconnue est estimée par la distribution empirique faite en fixant un poids de probabilité de sur chaque point de l'échantillon (dans le cas le plus simple lorsque les données sont iid). En utilisant cette distribution empirique en remplacement pour la distribution vraie , on peut dériver par Monte Carlo de la distribution estimée de la sortie .F 1 / n F F ZFF^1/nF^FZ

Ainsi, la principale différence entre les deux approches est de savoir si l'on fait ou non cette hypothèse paramétrique sur la distribution des données.

Xi'an
la source
2
Près de deux ans plus tard, je sais que c'est la meilleure réponse car elle mentionne explicitement la différence entre les approches paramétriques et non paramétriques (que je ne connaissais pas à l'époque) Ainsi, je change la réponse acceptée à celle-ci .
Gabriel
mais pour l'approche paramétrique, on peut aussi utiliser le bootstrap paramétrique non?
Tom Wenseleers
12

Le changement aléatoire dans votre modèle de Monte Carlo est représenté par une courbe en cloche et le calcul suppose probablement une "erreur" ou un "changement" normalement distribué. Au moins, votre ordinateur a besoin d'une hypothèse sur la distribution à partir de laquelle tirer le «changement». Le bootstrap ne fait pas nécessairement de telles hypothèses. Il prend les observations comme des observations et si leur erreur est distribuée de manière asymétrique, alors il va dans le modèle de cette façon.

Le bootstrap s'appuie sur l'observation et nécessite donc un certain nombre de vraies observations. Si vous lisez dans un livre, ce C est en moyenne de 5 avec un écart-type de 1, alors vous pouvez configurer un Monte Carlo Modell même si vous n'avez pas d'observations à tirer. Si votre observation est rare (pensez: astronomie), vous pouvez mettre en place un Monte Carlo Modell avec 6 observations et quelques hypothèses sur leur distribution mais vous ne démarrerez pas à partir de 6 observations.

Des modèles mixtes avec une entrée tirée des données observées et une partie des données simulées (disons hypothétiques) sont possibles.

Edit: Dans la discussion suivante dans les commentaires, l'affiche originale a trouvé ce qui est utile:

Le "programme original" ne se soucie pas, qu'il obtienne une valeur, que vous calculiez à partir d'une moyenne et d'une déviation ou que ce soit une véritable réalisation d'une moyenne et d'une déviation dans un processus naturel.

Bernhard
la source
1
Merci pour ta réponse Bernhard! Quelques questions qui me viennent à l'esprit. 1. Est-ce que je comprends bien que la seule différence (principale?) Entre ces deux méthodes est que MC doit supposer une distribution pour les incertitudes alors que le bootstrap ne le fait pas? 2. Si j'avais un ensemble de données suffisamment grand et que j'effectuais l'itération plusieurs fois ( ), ces deux méthodes convergeraient-elles alors sur l'incertitude estimée attribuée à la meilleure valeur ? 3. Ne suis-je pas en train d'écarter des données précieuses en n'utilisant pas les incertitudes attribuées aux données d'entrée dans la méthode d'amorçage? N
Gabriel
1
Je suis autodidacte statistiquement / par apprentissage automatique, donc je ne prétendrai pas que les différences que j'ai mentionnées sont les seules. Je ne suis même pas certain que Bootstrapping soit considéré comme une méthode de Monte Carlo elle-même. Les deux algorithmes simulent un grand nombre de scénarios réalistes. Vous pouvez soit tirer l'entrée des hypothèses ou des observations. Mon domaine est la médecine et les hypothèses sont notoirement erronées dans ce domaine. Par conséquent, j'essaierais d'aller avec des observations chaque fois qu'elles sont disponibles en assez grand nombre. Il se pourrait bien que, dans un domaine plus proche de la physique ou de la chimie, ...
Bernhard
1
... que dans des domaines plus proches de la physique ou de la chimie, les hypothèses sont plus fiables. En ce qui concerne le point 2: si vous utilisez des échantillons et des itérations suffisamment grands, je suppose, vous constaterez que les données réelles ne sont jamais vraiment distribuées normalement et que vos hypothèses sont toujours un peu erronées, mais je ne peux prétendre à aucune connaissance. En ce qui concerne le point 3: je ne suis pas sûr d'avoir compris ce que vous voulez dire en rejetant des données précieuses dans la méthode bootstrap. "Attribuer l'incertitude" est une création humaine, les données proviennent de la réalité. Encore une fois, c'est ma conviction basée sur mon domaine. En réalité, vous aurez rarement une bonne théorie et des données volumineuses
Bernhard
1
σA,σB,σC
1
Chaque observation est une valeur mesurée et contient donc déjà ses propres erreurs de mesure et incertitudes. Le «programme original» ne se soucie pas, qu'il obtienne une valeur, que vous calculiez à partir d'une moyenne et d'une déviation ou que ce soit une véritable réalisation d'une moyenne et d'une déviation dans un processus naturel. Mais bien sûr, toutes les techniques de rééchantillonnage reposent sur une base de données volumineuse et vous pouvez calculer des nombres arbitraires ou des nombres aléatoires mais généralement pas faire des nombres arbitraires d'observations. Donc, dans les cas où vous avez un grand nombre d'observations, je ne vois pas, où les données sont rejetées.
Bernhard
1

Si la fonction reliant la sortie Z aux entrées est raisonnablement linéaire (c'est-à-dire dans la plage de variation des entrées), la variance de Z est une combinaison des variances et des covariances des entrées. Les détails de la distribution n'ont pas trop d'importance ... Donc, les deux méthodes devraient retourner des résultats similaires.

Voir le supplément 1 au GUM

Pascal
la source
Que se passe-t-il lorsque la fonction n'est pas raisonnablement linéaire? En quoi ces deux méthodes seront-elles alors différentes?
Gabriel
Dans ce cas, vous devez vous référer à la réponse ci-dessus, par Bernhard. Autrement dit, pour qu'ils coïncident, vous devez avoir une description fidèle des données pdf pour Monte Carlo.
Pascal
0

Bootstrap signifie laisser les données parler d'elles-mêmes. Avec la méthode Monte Carlo, vous échantillonnez de nombreux tirages aléatoires du CDF imposé (normal; gamma; bêta ...) via une distribution uniforme et créez un PDF empirique (à condition que le CDF soit continu et dérivable). Une explication intéressante de l'ensemble du processus de Monte Carlo est rapportée dans: Briggs A, Schulper M, Claxton K. Modélisation décisionnelle pour l'évaluation économique de la santé. Oxford: Oxford University Press, 2006: 93-95.

Carlo Lazzaro
la source