Tests statistiques intégrant l'incertitude de mesure

11

Supposons que l'on me donne deux groupes de mesures de masse (en mg), appelés y1 et y2. Je veux faire un test pour déterminer si les deux échantillons proviennent de populations avec des moyens différents. Quelque chose comme ça par exemple (en R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

J'obtiens une valeur de p de 0,3234, et à un niveau de signification de 0,05, je ne rejette pas l'hypothèse nulle selon laquelle les deux groupes sont issus de populations ayant la même moyenne. Maintenant, on me donne des incertitudes pour chaque mesure:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

où u1 [1] est l'incertitude standard combinée dans la mesure y1 [1] (et ainsi de suite). Comment intégrer ces incertitudes dans le test statistique?

À M
la source
Ces mesures sont-elles appariées ou non? (Je suppose que non.) Les incertitudes pourraient être utilisées pour dériver des pondérations qui pourraient améliorer votre inférence, mais la variation des incertitudes est assez petite, donc il n'y aura pas beaucoup de gain, même si les incertitudes sont exactes.
Glen_b -Reinstate Monica
Il s'agit d'un sous-ensemble de données réelles non appariées. L'exemple visait principalement à clarifier la question. Ce que je recherche vraiment, c'est des conseils généraux sur la meilleure façon d'incorporer l'incertitude de mesure dans un test d'hypothèse (comme au test). Il me semble que nous gaspillons beaucoup d'informations précieuses si nous n'utilisons pas les incertitudes de mesure, mais je n'ai pas pu trouver de directives claires à ce sujet dans la littérature.
Tom
Pour en tirer le meilleur parti, vous devez les intégrer dans un modèle probabiliste pour les observations; que représentent réellement les incertitudes de mesure ? (Vous ne pouvez pas faire un signe à la main, alors soyez prudent.)
Glen_b -Reinstate Monica

Réponses:

1

Il semble que vous souhaitiez effectuer une analyse pondérée. Voir «Exemple de statistiques pondérées» dans la section «Concepts» de la documentation SAS.

Meule
la source
Donc, nous faisons juste le test t avec les moyennes pondérées et les écarts-types pondérés, où u1 et u1 sont les poids?
Tom
Oui. Vous supposeriez que la variance de la i_ième observation est Var / w_i, où w_i est le poids de la i_ième observation et Var> 0.
Rick
1

Pourquoi ne pas le simuler? C'est-à-dire, ajoutez votre incertitude en tant que réalisations de bruit à chaque observation. Répétez ensuite le test d'hypothèse. Faites cela environ 1000 fois et voyez combien de fois le null a été rejeté. Vous devrez choisir une distribution pour le bruit. La normale semble être une option, mais elle pourrait produire des observations négatives, ce qui n'est pas réaliste.

Soakley
la source
1

Vous pouvez en faire un problème de régression et utiliser les incertitudes comme pondérations. Autrement dit, prédire le groupe (1 ou 2?) À partir de la mesure dans une régression.

Mais

Les incertitudes sont à peu près constantes, il semble donc probable que rien ne changera beaucoup en les utilisant également.

Vous avez une valeur aberrante légère à 10,5, ce qui complique les choses en réduisant la différence entre les moyennes. Mais si vous pouvez en croire les incertitudes, cette valeur n'est pas plus suspecte que les autres.

Le test t ne sait pas que votre hypothèse alternative est que deux échantillons sont tirés de populations différentes. Tout ce qu'il sait, c'est comparer les moyennes, sous certaines hypothèses. Les tests basés sur le classement sont une alternative, mais si vous êtes intéressé par ces données en tant que mesures, elles ne semblent pas préférables pour vos objectifs.

Nick Cox
la source
Point pris. J'ai changé la question pour l'exprimer en termes de moyens.
Tom
0

Dans les moindres carrés ordinaires (par exemple, lm (y ~ x)), vous autorisez la variabilité (incertitude) autour des valeurs y, étant donné une valeur x. Si vous inversez la régression (lm (x ~)), vous minimisez les erreurs autour de x. Dans les deux cas, les erreurs sont supposées être assez homogènes.

Si vous connaissez la quantité de variance autour de chaque observation de votre variable de réponse et que cette variance n'est pas constante lorsqu'elle est ordonnée par x, alors vous voudrez utiliser les moindres carrés pondérés. Vous pouvez pondérer les valeurs y par des facteurs de 1 / (variance).

Dans le cas où vous craignez que x et y aient une incertitude et que l'incertitude ne soit pas la même entre les deux, alors vous ne voulez pas simplement minimiser les résidus (incertitude d'adresse) perpendiculairement à l'un de vos axes. Idéalement, vous minimiseriez l'incertitude perpendiculaire à la ligne de tendance ajustée. Pour ce faire, vous pouvez utiliser la régression PCA (également connue sous le nom de régression orthogonale, ou total des moindres carrés. Il existe des packages R pour la régression PCA , et il y a déjà eu des messages sur ce sujet sur ce site Web , qui ont ensuite également été discutés ailleurs De plus, je pense (c'est-à-dire que je peux me tromper ...) que vous pouvez toujours faire une version pondérée de cette régression, en utilisant votre connaissance des variances.

rbatt
la source