J'ai deux 2 heures de données GPS avec un taux d'échantillonnage de 1 Hz (7200 mesures). Les données sont données sous la forme , où est l'incertitude de mesure.
Lorsque je prends la moyenne de toutes les mesures (par exemple, la valeur Z moyenne de ces deux heures), quel est son écart-type? Je peux bien sûr calculer l'écart type à partir des valeurs Z, mais je néglige ensuite le fait qu'il existe des incertitudes de mesure connues ...
Modifier: les données proviennent toutes de la même station et toutes les coordonnées sont réévaluées toutes les secondes. En raison des constellations de satellites, etc., chaque mesure présente une incertitude différente. Le but de mon analyse est de trouver le déplacement dû à un événement externe (ie un tremblement de terre). Je voudrais prendre la moyenne pour 7200 mesures (2h) avant le tremblement de terre et une autre moyenne pour 2h après le tremblement de terre, puis calculer la différence résultante (en hauteur par exemple). Afin de préciser l'écart type de cette différence, j'ai besoin de connaître l'écart type des deux moyennes.
la source
Réponses:
Je soupçonne que les réponses précédentes à cette question peuvent être un peu décalées. Il me semble que ce que l'affiche originale est vraiment demande ici pourrait être reformulée comme « étant donné une série de mesures de vecteur: avec i = 1 , 2 , 3 , . . . , 7200 et covariance de mesure : C i = ( X 2 σ , i 0 0 0 Y
En général, lorsque je réponds aux questions de stackexchange.com, je ne trouve normalement pas utile de reconditionner de longues dérivations qui ont déjà été présentées auparavant dans de nombreux manuels - si vous voulez vraiment comprendre le matériel et comprendre pourquoi les réponses semblent comme ils le font, alors vous devriez vraiment aller lire les explications qui ont déjà été publiées par les auteurs du manuel. Dans cet esprit, je vais simplement passer directement à la reformulation des réponses que d'autres ont déjà fournies. D'après Frederick James, en fixant , la moyenne pondérée est: → θ m e a n = ( N ∑ i = 1 CN= 7200 et la covariance de la moyenne pondérée est:Cmean=( N ∑ i=1C - 1 i )-1 Cette réponse est tout à fait général et sera valable quelle que soit la forme duCi, même pour les matrices de covariance de mesure non diagonales.
la source
This should be easily solved using bayesian inference. You know the measurement properties of the individual points with respect to their true value and want to infer the population mean and SD that generated the true values. This is a hierarchical model.
Rephrasing the problem (Bayes basics)
Note that whereas orthodox statistics give you a single mean, in the bayesian framework you get a distribution of credible values of the mean. E.g. the observations (1, 2, 3) with SDs (2, 2, 3) could have been generated by the Maximum Likelihood Estimate of 2 but also by a mean of 2.1 or 1.8, though slightly less likely (given the data) than the MLE. So in addition to the SD, we also infer the mean.
Another conceptual difference is that you have to define your knowledge state before making the observations. We call this priors. You might know in advance that a certain area was scanned and in a certain height range. The complete absence of knowledge would be to have uniform(-90, 90) degrees as the prior in X and Y and maybe uniform(0, 10000) meters on height (above the ocean, below the highest point on earth). You have to define priors distributions for all parameters that you want to estimate, i.e. get posterior distributions for. This is true for the standard deviation as well.
Donc, reformulant votre problème, je suppose que vous voulez déduire des valeurs crédibles pour trois moyennes (X.mean, Y.mean, X.mean) et trois écarts types (X.sd, Y.sd, X.sd) qui pourraient avoir généré vos données.
Le modèle
En utilisant la syntaxe BUGS standard (utilisez WinBUGS, OpenBUGS, JAGS, stan ou d'autres packages pour exécuter cela), votre modèle ressemblerait à ceci:
Naturellement, vous surveillez les paramètres .mean et .sd et utilisez leurs éléments postérieurs pour l'inférence.
Simulation
J'ai simulé des données comme celle-ci:
Puis a exécuté le modèle en utilisant JAGS pour 2000 itérations après un burnin de 500 itérations. Voici le résultat pour X.sd.
La plage bleue indique l'intervalle de densité postérieure ou crédible le plus élevé à 95% (où vous pensez que le paramètre est après avoir observé les données. Notez qu'un intervalle de confiance orthodoxe ne vous donne pas cela).
The red vertical line is the MLE estimate of the raw data. It is usually the case that the most likely parameter in Bayesian estimation is also the most likely (maximum likelihood) parameter in orthodox stats. But you should not care too much about the top of the posterior. The mean or median is better if you want to boil it down to a single number.
Notice that MLE/top is not at 5 because the data were randomly generated, not because of wrong stats.
Limitiations
This is a simple model which has several flaws currently.
Je dois mentionner qu'il y a beaucoup de littérature sur les modèles spatiaux bayésiens que je ne connais pas.
la source
J'introduis d'abord une notation et j'installe le problème en utilisant l'approche simple que vous avez mentionnée. Allez plus loin. j'utiliseraiz pour faire référence au vecteur Z que vous avez donné.
Considérez le modèle suivant, qui n'a pas l'erreur de mesure de mention explicite:Z¯= ∑ni = 1μZ+ ϵjen , où Z¯ est la valeur moyenne estimée de z , et μZ est la vraie valeur moyenne de Z. Ici, ϵ est un vecteur des erreurs dans vos données, et vous vous attendez à ce que si votre échantillon est grand Z¯ va converger vers μZ . Si vous prenez simplement leZ valeurs et les moyenne, vous obtenez Z¯ et si vous calculez l'écart type d'échantillon que vous obtenez σ^ , l'estimation de l'écart-type réel de la population σ . Que faire si vous souhaitez utiliser certaines connaissances sur l'erreur de mesure?
Tout d'abord, notons que nous pouvons reformuler le modèle initial comme suit:z = 1 β+ ϵ , où 1 est un vecteur de uns, et β finira par être Z¯ . Maintenant, cela ressemble vraiment à une régression, mais nous obtenons toujours une estimation deμZ . Si nous effectuons une régression comme celle-ci, nous obtiendrons également une estimation de l'erreur-type deϵ , ce qui est presque ce que nous voulons - ce n'est rien d'autre que l'erreur standard de z (mais nous voulons toujours tenir compte de l'erreur de mesure).
Nous pouvons augmenter notre modèle initial pour obtenir un modèle à effets mixtes.z = 1 β+ Q u + ϵ , où u est un vecteur d'effets aléatoires, et Q est le régresseur relatif z à u . Comme pour tout effet aléatoire, vous devrez faire une hypothèse sur la distribution deu . Est-il exact queZσ est la distribution de l'erreur de mesure pour z ? Si oui, cela peut être utilisé pour fournir la distribution des effets aléatoires. Généralement, un logiciel pour effectuer une modélisation de base des effets mixtes supposera que les effets aléatoires ont une distribution normale (avec une moyenne de 0 ...) et estimera la variance pour vous. Vous pouvez peut-être essayer ceci pour tester le concept. Si vous souhaitez utiliser vos informations préalables sur la distribution de l'erreur de mesure, un modèle bayésien d'effets mixtes s'impose. Vous pouvez utiliser R2OpenBUGS.
Après avoir estimé ce modèle, l'erreur standard que vous obtenez pour les résidusϵ est l'erreur standard qui vous intéresse. Intuitivement, la composante des effets aléatoires du modèle absorbe une partie de la variation que vous pouvez expliquer parce que vous savez qu'il y a une erreur de mesure. Cela vous permet d’obtenir une estimation plus pertinente de la variation deϵ
Voir cet article pour une discussion plus approfondie sur cette approche des effets aléatoires pour tenir compte des erreurs de mesure. Votre situation est similaire à celle présentée par les auteurs pourré et son erreur de mesure version corrompue W . L'exemple de la section 4 peut donner un aperçu de votre situation.
Comme mentionné par whuber, vous souhaiterez peut-être tenir compte de l'autocorrélation dans vos données. L'utilisation d'effets aléatoires ne résoudra pas ce problème.
la source