Sélection des priorités en fonction de l'erreur de mesure

9

Comment calculez-vous l'a priori approprié si vous avez l'erreur de mesure d'un instrument? Ce paragraphe est tiré du livre de Cressie "Statistiques pour les données spatio-temporelles":

Il arrive souvent que certaines informations préalables soient disponibles concernant la variance des erreurs de mesure, ce qui permet de spécifier un modèle de paramètre assez informatif. Par exemple, si nous supposons des erreurs de mesure indépendantes conditionnellement qui sont iid , nous devons alors spécifier un préalable informatif pour . Disons que nous étions intéressés à la température de l' air ambiant, et nous avons vu que les spécifications du fabricant d'instruments ont indiqué une « erreur » de ± 0,1 ° C . En supposant que cette «erreur» correspond à 2 écarts types (une hypothèse à vérifier!), On pourrait alors spécifier \ sigma _ {\ epsilon} ^ {2} pour avoir une moyenne préalable de (0,1 / 2) ^ 2 = 0,0025Gau(0,σϵ2)σϵ2±0.1°Cσϵ2(0.1/2)2=0.0025. En raison des spécifications du fabricant de l'instrument, nous supposerions une distribution ayant un pic clairement défini et assez étroit à 0,0025 (par exemple, gamma inverse). En fait, nous pourrions simplement fixer à 0,0025; cependant, l'erreur du modèle de données peut également avoir d'autres composantes d'incertitude (section 7.1). Pour éviter d'éventuels problèmes d'identification avec l'erreur de modèle de processus, il est très important que les modélisateurs réduisent l'incertitude autant que la science le permet, y compris en effectuant des études parallèles conçues pour avoir des données reproduites.

Quelqu'un sait-il quelle est la procédure générale pour obtenir les valeurs d'un a priori comme décrit ci-dessus (bien que le paragraphe se réfère uniquement à l'obtention de la moyenne a priori)?

Robert Smith
la source

Réponses:

6

Deux méthodes standard sont

  1. Consultez les «spécifications du fabricant d'instruments», comme indiqué dans le devis. Il s'agit généralement d'une solution de rechange grossière à utiliser lorsqu'aucune autre information n'est disponible, car (a) ce que le fabricant d'instruments entend réellement par «précision» et «précision» est souvent indéterminé et (b) comment l'instrument a réagi lorsqu'il était nouveau dans un laboratoire d'essai était probablement beaucoup mieux qu'il ne fonctionne lorsqu'il est utilisé sur le terrain.

  2. Collectez des échantillons répliqués. Dans l'échantillonnage environnemental, il existe environ une demi-douzaine de niveaux auxquels les échantillons sont régulièrement répliqués (et beaucoup d'autres auxquels ils pourraient être répliqués), chaque niveau étant utilisé pour contrôler une source de variation attribuable. Ces sources peuvent comprendre:

    • Identité de la personne prélevant l'échantillon.
    • Procédures préliminaires, telles que les puits de vidange, prises avant d'obtenir un échantillon.
    • Variabilité du processus d'échantillonnage physique.
    • Hétérogénéité dans le volume d'échantillon lui-même.
    • Changements pouvant survenir lors de la conservation et de l'expédition d'un échantillon à un laboratoire.
    • Variations dans les procédures préliminaires de laboratoire, telles que l'homogénéisation d'un échantillon physique ou sa digestion pour analyse.
    • L'identité du ou des analystes de laboratoire.
    • Différences entre les laboratoires.
    • Différences entre des instruments physiquement distincts, tels que deux chromatographes en phase gazeuse.
    • Dérive de l'étalonnage de l'instrument au fil du temps.
    • Variation diurne. (Cela peut être naturel et systématique mais peut sembler aléatoire lorsque les temps d'échantillonnage sont arbitraires.)

Une évaluation quantitative complète des composantes de la variabilité ne peut être obtenue qu'en faisant varier systématiquement chacun de ces facteurs selon une conception expérimentale appropriée.

Habituellement, seules les sources supposées contribuer le plus à la variabilité sont étudiées. Par exemple, de nombreuses études diviseront systématiquement une certaine partie des échantillons une fois qu'ils auront été obtenus et les expédieront à deux laboratoires différents. Une étude des différences entre les résultats de ces divisions peut quantifier leur contribution à la variabilité de la mesure. Si suffisamment de ces répartitions sont obtenues, la distribution complète de la variabilité de la mesure peut être estimée comme a priori dans un modèle spatio-temporel bayésien hiérarchique. Étant donné que de nombreux modèles supposent des distributions gaussiennes (pour chacun des calculs), l'obtention d'un a priori gaussien revient finalement à estimer la moyenne et la variance des différences entre les divisions. Dans les études plus complexes, qui visent à identifier plus d'une composante de la variance,

Un des avantages de même penser à ces problèmes est qu'ils vous aident à identifier des moyens de réduire, voire d'éliminer certains de ces composants d'erreur (sans jamais avoir à les quantifier), se rapprochant ainsi de l'idéal de Cressie & Wikle de "réduire l'incertitude" autant que la science le permet. "

Pour un exemple travaillé étendu (dans l'échantillonnage des sols), voir

Van Ee, Blume et Starks, Une justification de l'évaluation des erreurs dans l'échantillonnage des sols. US EPA, mai 1990: EPA / 600 / 4-90 / 013.

whuber
la source
2
Le problème ici, Robert, est que parfois quelqu'un signalera un écart-type de pour l'estimation; d'autres fois, ils le rapporteront deux fois (d'où la division par deux) ou un intervalle de confiance bilatéral; et parfois même autre chose; il n'y a donc pas de règle définitive pour convertir les déclarations d'exactitude et de précision en priorités: vous devez consulter les notes de bas de page et autres détails techniques pour savoir exactement ce que les chiffres représentent. L'erreur type d'une estimation, étant fonction de la taille de l'échantillon utilisé, n'est pas pertinente à cet effet BTW.
whuber
1
Je l'ai. Permettez-moi de mettre l'accent sur votre deuxième cas. Si je répète une expérience plusieurs fois et que mesures et , comment puis-je utiliser ces informations pour informer la moyenne et la variance d'une distribution antérieure? Vous avez suggéré quelque chose comme pour plusieurs divisions, non? Par conséquent, j'aurais une moyenne d'une erreur de mesure et d'un exemple d'écart type . Est-ce suffisant pour l'inclure dans un précédent ? m1m2m1m2mϵσϵN(mϵ,σϵ2)
Robert Smith,
1
Vous ne pouvez pas évaluer la précision avec des divisions: pour cela, vous devez mesurer des échantillons de valeurs connues. (Des pointes de laboratoire et des doublons à pointes sont utilisés pour cela.) Cela déterminera la moyenne. Habituellement, cela est traité lors de l'étalonnage du processus de mesure, de sorte que la moyenne est considérée comme nulle. La variance est estimée avec les formules ANOVA habituelles. Vous pouvez l'utiliser pour spécifier un a priori sur le composant correspondant du système de mesure.
whuber
2
Ce n'est pas le cas: la référence que j'ai donnée est une directive de l'EPA américaine qui existe depuis un quart de siècle et de nombreuses directives plus récentes s'appuient sur ses idées. J'ai utilisé cette approche dans une affaire devant un tribunal fédéral pour évaluer l'effet d'une erreur de mesure sur les courbes de niveau tracées (sur la base d'un prédicteur géostatistique) pour délimiter un panache de contaminant: l'erreur de mesure était supérieure à la concentration utilisée pour délimiter le panache! (En d'autres termes, l'incertitude dans la délimitation du panache était essentiellement infinie.)
whuber
1
Vraiment sympa. Soit dit en passant, je voulais dire que les prieurs sont généralement définis sans prendre grand soin. J'ai vu cela plus en évidence dans la modélisation et l'apprentissage automatique bayésiens, peut-être parce qu'une supposition est souvent suffisante pour produire des résultats décents.
Robert Smith du