Supposons que l'on me donne deux groupes de mesures de masse (en mg), appelés y1 et y2. Je veux faire un test pour déterminer si les deux échantillons proviennent de populations avec des moyens différents. Quelque chose comme ça par exemple (en R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
J'obtiens une valeur de p de 0,3234, et à un niveau de signification de 0,05, je ne rejette pas l'hypothèse nulle selon laquelle les deux groupes sont issus de populations ayant la même moyenne. Maintenant, on me donne des incertitudes pour chaque mesure:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
où u1 [1] est l'incertitude standard combinée dans la mesure y1 [1] (et ainsi de suite). Comment intégrer ces incertitudes dans le test statistique?
Réponses:
Il semble que vous souhaitiez effectuer une analyse pondérée. Voir «Exemple de statistiques pondérées» dans la section «Concepts» de la documentation SAS.
la source
Pourquoi ne pas le simuler? C'est-à-dire, ajoutez votre incertitude en tant que réalisations de bruit à chaque observation. Répétez ensuite le test d'hypothèse. Faites cela environ 1000 fois et voyez combien de fois le null a été rejeté. Vous devrez choisir une distribution pour le bruit. La normale semble être une option, mais elle pourrait produire des observations négatives, ce qui n'est pas réaliste.
la source
Vous pouvez en faire un problème de régression et utiliser les incertitudes comme pondérations. Autrement dit, prédire le groupe (1 ou 2?) À partir de la mesure dans une régression.
Mais
Les incertitudes sont à peu près constantes, il semble donc probable que rien ne changera beaucoup en les utilisant également.
Vous avez une valeur aberrante légère à 10,5, ce qui complique les choses en réduisant la différence entre les moyennes. Mais si vous pouvez en croire les incertitudes, cette valeur n'est pas plus suspecte que les autres.
Le test t ne sait pas que votre hypothèse alternative est que deux échantillons sont tirés de populations différentes. Tout ce qu'il sait, c'est comparer les moyennes, sous certaines hypothèses. Les tests basés sur le classement sont une alternative, mais si vous êtes intéressé par ces données en tant que mesures, elles ne semblent pas préférables pour vos objectifs.
la source
Dans les moindres carrés ordinaires (par exemple, lm (y ~ x)), vous autorisez la variabilité (incertitude) autour des valeurs y, étant donné une valeur x. Si vous inversez la régression (lm (x ~)), vous minimisez les erreurs autour de x. Dans les deux cas, les erreurs sont supposées être assez homogènes.
Si vous connaissez la quantité de variance autour de chaque observation de votre variable de réponse et que cette variance n'est pas constante lorsqu'elle est ordonnée par x, alors vous voudrez utiliser les moindres carrés pondérés. Vous pouvez pondérer les valeurs y par des facteurs de 1 / (variance).
Dans le cas où vous craignez que x et y aient une incertitude et que l'incertitude ne soit pas la même entre les deux, alors vous ne voulez pas simplement minimiser les résidus (incertitude d'adresse) perpendiculairement à l'un de vos axes. Idéalement, vous minimiseriez l'incertitude perpendiculaire à la ligne de tendance ajustée. Pour ce faire, vous pouvez utiliser la régression PCA (également connue sous le nom de régression orthogonale, ou total des moindres carrés. Il existe des packages R pour la régression PCA , et il y a déjà eu des messages sur ce sujet sur ce site Web , qui ont ensuite également été discutés ailleurs De plus, je pense (c'est-à-dire que je peux me tromper ...) que vous pouvez toujours faire une version pondérée de cette régression, en utilisant votre connaissance des variances.
la source