La régression de x sur y est-elle clairement meilleure que y sur x dans ce cas?

10

Un instrument utilisé pour mesurer les niveaux de glucose dans le sang d'une personne est surveillé sur un échantillon aléatoire de 10 personnes. Les niveaux sont également mesurés à l'aide d'une procédure de laboratoire très précise. La mesure de l'instrument est notée x. La mesure de la procédure de laboratoire est indiquée par y.

Personnellement, je pense que y sur x est plus correct parce que l'intention est d'utiliser les lectures de l'instrument pour prédire les lectures de laboratoire. Et y sur x minimise les erreurs de telles prédictions.

Mais la réponse fournie était x sur y.

Néo
la source
2
Bienvenue sur le site, @Neo. Si cette question était motivée par un exercice en classe / manuel, veuillez ajouter la [self-study]balise.
gung - Rétablir Monica

Réponses:

6

De nombreux articles de laboratoire, en particulier les expériences de test d'instruments, appliquent une telle régression x sur y.

Ils soutiennent qu'à partir de la collecte de données dans l'expérience, les conditions y sont contrôlées et obtiennent x de la lecture de l'instrument (ce qui introduit une erreur). Il s'agit du modèle physique d'origine de l'expérience, donc l'erreur x ~ y + convient mieux.

Pour minimiser l'erreur d'expérience, parfois, y étant contrôlé dans les mêmes conditions, alors x est mesuré plusieurs fois (ou expérience répétée). Cette procédure peut vous aider à comprendre la logique qui les sous-tend et à trouver plus clairement l'erreur x ~ y +.

Vincent
la source
+1 Je pense vraiment à la réponse jusqu'à présent, cela correspond probablement mieux au message d'origine. Cette question était presque certainement motivée par la compréhension de l'instrument plutôt que par l'étalonnage d'un proxy. Si vous n'avez qu'une seule mesure X pour chaque Y, alors je suis presque sûr (à part le commentaire de Whuber) que Y-on-X est une approche correcte. Plusieurs X détruisent cela, mais X-on-Y est toujours correct (mais pas utilisable pour prédire Y).
Korone
Vous avez un problème, @Corone: si X vs Y et Y vs X sont corrects, nous savons tous que vous obtenez des lignes ajustées distinctement chaque fois que est inférieur à . Laquelle de ces deux lignes choisiriez-vous et sur quelle base? La résolution correcte de ce dilemme est que - comme l'explique Vincent - il y a une asymétrie dans notre conception de l'erreur de mesure: l'instrument est mesuré avec une erreur appréciable; le laboratoire est supposé n'avoir aucune erreur appréciable. Les procédures de régression ordinaires supposent que X n'a ​​pas d'erreur et que toute l'erreur est dans Y, de sorte que cela se règle. 1R21
whuber
@ whuber ils sont tous les deux corrects mais répondent à des problèmes différents. Avec plusieurs mesures X, Y-on-X n'est même plus correct pour le problème auquel il est censé répondre. Mes commentaires deviennent idiots non, donc je modifierai ma réponse à la place
Korone
6

Comme c'est généralement le cas, différentes analyses répondent à différentes questions. Les deux et pourrait être valable ici, vous voulez juste vous assurer que votre analyse correspond à la question que vous voulez répondre. (Pour plus dans ce sens, vous voudrez peut-être lire ma réponse ici: Quelle est la différence entre la régression linéaire sur Y avec X et X avec Y? )X  sur  YY on XX on Y

Vous avez raison que si tout ce que vous voulez faire est de prédire le plus probable valeur donnée d'une connaissance valeur, vous régresse . Toutefois, si vous voulez comprendre comment ces mesures sont liées les unes aux autres, vous pouvez utiliser une des erreurs en les variables approche, puisque vous croyez qu'il ya une erreur de mesure dans . X Y  sur  X XYXY on XX

D'autre part, régressant (et en supposant est parfaitement sans erreur - un soi-disant étalon-or ) vous permet d'étudier les propriétés de mesure de . Par exemple, vous pouvez déterminer si l'instrument devient biaisé lorsque la valeur réelle augmente (ou diminue) en évaluant si la fonction est droite ou courbe. Y XX on YYX

Lorsque vous essayez de comprendre les propriétés d'un instrument de mesure, la compréhension de la nature de l'erreur de mesure est très importante, et cela peut être fait en régressant . Par exemple, lors de la vérification de l'homoscédasticité, vous pouvez déterminer si l'erreur de mesure varie en fonction du niveau de la valeur réelle de la construction. C'est souvent le cas avec les instruments qu'il y a plus d'erreur de mesure aux extrêmes de sa plage qu'au milieu de sa plage applicable (c'est-à-dire, son «point idéal»), vous pouvez donc le déterminer, ou peut-être déterminer ce qui est le plus approprié la plage est. Vous pouvez également estimer le montantYX on Yde l'erreur de mesure dans votre instrument avec l'erreur quadratique moyenne (l'écart-type résiduel); bien sûr, cela suppose une homoscédasticité, mais vous pouvez également obtenir des estimations à différents points sur ajustant une fonction lisse, comme une spline , aux résidus. Y

Compte tenu de ces considérations, je suppose que est meilleur, mais cela dépend certainement de vos objectifs. X on Y

gung - Réintégrer Monica
la source
+1 Pour avoir reconnu que la régression de sur nécessite des erreurs de variables et que la réponse nécessite vraiment de comprendre les objectifs de l'analyse. XYX
whuber
@whuber Les erreurs dans les variables ne conviennent pas à la prédiction. Les erreurs dans les variables sont utiles si vous souhaitez comprendre l' ampleur d'une relation mais que vous avez des erreurs de mesure dans X et Y. Pour la prédiction, le X est "connu sans erreur" tant qu'il est collecté de la même manière dans votre ensemble d'entraînement et ensemble de prédiction.
Korone
@Corone Vous avez raison de dire que les erreurs dans les variables ne sont pas bonnes pour la prédiction, mais ce n'est pas ce que je recommande pour autant que je sache. En effet, c'est précisément la raison pour laquelle il faut vraiment régresser l'instrument par rapport au laboratoire (qui utilise uniquement OLS) et non l'inverse. Veuillez consulter la référence Draper & Smith que je cite dans un autre commentaire de ce fil. Je m'appuie sur la section 1.7 de la deuxième édition.
whuber
@Corone, vous avez raison sur la prédiction / erreurs dans les variables, mais ce n'est pas tout à fait ce que je voulais dire. Je vais essayer de penser à une meilleure façon de le formuler.
gung - Rétablir Monica
4

Prédiction et prévision

Oui, vous avez raison, lorsque vous voyez cela comme un problème de prédiction, une régression Y-on-X vous donnera un modèle tel que, compte tenu d'une mesure d'instrument, vous pouvez faire une estimation impartiale de la mesure de laboratoire précise, sans faire la procédure de laboratoire .

Autrement dit, si vous êtes simplement intéressé par vous voulez une régression Y-on-X.E[Y|X]

Cela peut sembler contre-intuitif car la structure d'erreur n'est pas la "vraie". En supposant que la méthode de laboratoire est une méthode sans erreur étalon-or, alors nous «savons» que le véritable modèle de génération de données est

Xi=βYi+ϵi

où et sont des distributions identiques identiques, etϵ i E [ ϵ ] = 0YiϵiE[ϵ]=0

Nous souhaitons obtenir la meilleure estimation de . En raison de notre hypothèse d'indépendance, nous pouvons réorganiser ce qui précède:E[Yi|Xi]

Yi=Xiϵβ

Maintenant, prendre les attentes étant donné que est l'endroit où les choses deviennent veluesXi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

Le problème est le terme - est-il égal à zéro? Cela n'a pas vraiment d'importance, car vous ne pouvez jamais le voir, et nous modélisons uniquement des termes linéaires (ou l'argument s'étend jusqu'aux termes que vous modélisez). Toute dépendance entre et peut simplement être absorbée dans la constante que nous estimons.E[ϵi|Xi]ϵX

De manière explicite, sans perte de généralité, nous pouvons laisser

ϵi=γXi+ηi

Où par définition, de sorte que nous avons maintenantE[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

ce qui satisfait toutes les exigences d'OLS, car est maintenant exogène. Peu importe que le terme d'erreur contienne également un car ni ni sont de toute façon connus et doivent être estimés. On peut donc simplement remplacer ces constantes par de nouvelles et utiliser l'approche normaleβ β σηββσ

YI=αXi+ηi

Notez que nous n'avons PAS estimé la quantité que j'ai notée à l'origine - nous avons construit le meilleur modèle possible pour utiliser X comme proxy pour Y.β

Analyse des instruments

La personne qui vous a posé cette question ne voulait clairement pas la réponse ci-dessus car elle dit que X-on-Y est la bonne méthode, alors pourquoi aurait-elle pu le vouloir? Ils envisageaient très probablement la tâche de comprendre l'instrument. Comme discuté dans la réponse de Vincent, si vous voulez savoir s'ils veulent que l'instrument se comporte, le X-on-Y est le chemin à parcourir.

Revenons à la première équation ci-dessus:

Xi=βYi+ϵi

La personne posant la question aurait pu penser à l'étalonnage. Un instrument est dit calibré lorsqu'il a une attente égale à la vraie valeur - c'est-à-dire . De toute évidence, pour calibrer vous devez trouver , et donc pour calibrer un instrument, vous devez effectuer une régression X-on-Y. X βE[Xi|Yi]=YiXβ

Rétrécissement

L'étalonnage est une exigence intuitivement sensible d'un instrument, mais il peut également provoquer de la confusion. Notez que même un instrument bien calibré ne vous montrera pas la valeur attendue de ! Pour obtenir vous devez toujours effectuer la régression Y-on-X, même avec un instrument bien calibré. Cette estimation ressemblera généralement à une version réduite de la valeur de l'instrument (rappelez-vous le terme qui s'est glissé dans). En particulier, pour obtenir une estimation vraiment bien de vous devez inclure votre connaissance préalable de la distribution de . Cela conduit alors à des concepts tels que la régression vers la moyenne et les bayés empiriques.E [ Y | X ] γ E [ Y | X ] YYE[Y|X]γE[Y|X]Y

Exemple dans R Une façon de se faire une idée de ce qui se passe ici est de faire quelques données et d'essayer les méthodes. Le code ci-dessous compare X-on-Y avec Y-on-X pour la prédiction et l'étalonnage et vous pouvez rapidement voir que X-on-Y n'est pas bon pour le modèle de prédiction, mais est la procédure correcte pour l'étalonnage.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Les deux lignes de régression sont tracées sur les données

entrez la description de l'image ici

Ensuite, la somme des erreurs de carrés pour Y est mesurée pour les deux ajustements sur un nouvel échantillon.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Alternativement, un échantillon peut être généré à un Y fixe (dans ce cas 4) puis à la moyenne de ces estimations prises. Vous pouvez maintenant voir que le prédicteur Y-on-X n'est pas bien calibré ayant une valeur attendue bien inférieure à Y. Le prédicteur X-on-Y, est bien calibré ayant une valeur attendue proche de Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

La distribution des deux prédictions peut être observée dans un graphique de densité.

entrez la description de l'image ici

Korone
la source
YXX
3
Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
1
β
2
Y peut être une variable aléatoire sur une population de personnes, mais pour une personne donnée, c'est un paramètre à estimer. La régression de Y sur X réduit chaque estimation de Y vers la moyenne du groupe, ce qui réduit l'erreur quadratique moyenne sur les personnes mais crée des biais systématiques qui peuvent être inacceptables pour des raisons éthiques ou légales. La régression de X sur Y donne des informations qui peuvent être utilisées pour construire un intervalle de confiance non biaisé pour le Y de chaque personne, mais ces intervalles ont tendance à être larges, comme la zone bleue dans l'intrigue, tandis que l'intervalle de prédiction de régression de Y sur X est plus étroit mais biaisé , comme le rouge.
Ray Koopman
1
@RayKoopman c'est une merveilleuse façon de le dire! Oui - Y sur X consiste à obtenir la meilleure prédiction en moyenne sur de nombreux Y différents, tandis que l'étalonnage consiste à être juste et impartial pour un Y individuel.
Korone
2

Cela dépend de vos hypothèses sur la variance de X et la variance de Y pour les moindres carrés ordinaires. Si Y a la seule source de variance et X a une variance nulle, utilisez X pour estimer Y. Si les hypothèses sont inversées (X a la seule variance et Y a une variance nulle), utilisez Y pour estimer X.

Si X et Y sont tous deux supposés avoir une variance, vous devrez peut-être considérer le total des moindres carrés .

Une bonne description de TLS a été écrite sur ce lien . Le document est orienté vers le trading, mais la section 3 décrit bien TLS.

Edit 1 (09/10/2013) ========================================== ======

Je pensais à l'origine qu'il s'agissait d'une sorte de problème de devoirs, donc je n'ai pas été vraiment précis sur la "réponse" à la question du PO. Mais, après avoir lu d'autres réponses, il semble que ce soit OK pour être un peu plus détaillé.

Citant une partie de la question du PO:

".... Les niveaux sont également mesurés en utilisant une procédure de laboratoire très précise ...."

La déclaration ci-dessus indique qu'il y a deux mesures, une de l'instrument et une de la procédure de laboratoire. La déclaration implique également que la variance pour la procédure de laboratoire est faible par rapport à la variance pour l'instrument.

Une autre citation de la question du PO est la suivante:

".... La mesure de procédure de laboratoire est notée y ....."

Ainsi, d'après les deux énoncés ci-dessus, Y a la variance la plus faible. Ainsi, la technique la moins sujette aux erreurs est d'utiliser Y pour estimer X. La «réponse fournie» était correcte.

bill_080
la source
1
XY
Non, le choix de la régression ne doit pas être fait en fonction de la position de la variance - il doit être fait en fonction de la question à laquelle vous essayez de répondre. Si vous utilisez TLS pour construire un modèle de prédiction pour Y donné X , vous aurez tort. TLS et les modèles similaires d'erreurs dans les variables visent à comprendre la véritable relation entre les variables / processus sous-jacents - pas à prévoir
Korone
1
@Corone Bien que vous ayez raison de dire que ses objectifs guident le choix des procédures statistiques, la procédure doit également être appropriée pour le modèle de probabilité ("où la variance est"). Si votre but est de prédire la lecture en laboratoire à partir de la lecture de l'instrument à haute variance, choisissez définitivement une procédure appropriée pour cela: mais cette procédure n'est pas une prédiction utilisant l'ajustement des moindres carrés ordinaires et ses estimations de variance.
whuber
1
@Corone - Je conviens que la technique de régression doit être basée sur la question à laquelle vous essayez de répondre, mais la technique sélectionnée contient des hypothèses sur la variance des variables. Si les hypothèses de variance de la sélection ne correspondent pas à votre concept pour le modèle, alors vous avez sélectionné la mauvaise technique. C'est pourquoi j'ai énuméré les 3 possibilités (variance zéro X pour estimer Y; variance zéro Y pour estimer X; ou variance X et Y non nulle).
bill_080