Un instrument utilisé pour mesurer les niveaux de glucose dans le sang d'une personne est surveillé sur un échantillon aléatoire de 10 personnes. Les niveaux sont également mesurés à l'aide d'une procédure de laboratoire très précise. La mesure de l'instrument est notée x. La mesure de la procédure de laboratoire est indiquée par y.
Personnellement, je pense que y sur x est plus correct parce que l'intention est d'utiliser les lectures de l'instrument pour prédire les lectures de laboratoire. Et y sur x minimise les erreurs de telles prédictions.
Mais la réponse fournie était x sur y.
[self-study]
balise.Réponses:
De nombreux articles de laboratoire, en particulier les expériences de test d'instruments, appliquent une telle régression x sur y.
Ils soutiennent qu'à partir de la collecte de données dans l'expérience, les conditions y sont contrôlées et obtiennent x de la lecture de l'instrument (ce qui introduit une erreur). Il s'agit du modèle physique d'origine de l'expérience, donc l'erreur x ~ y + convient mieux.
Pour minimiser l'erreur d'expérience, parfois, y étant contrôlé dans les mêmes conditions, alors x est mesuré plusieurs fois (ou expérience répétée). Cette procédure peut vous aider à comprendre la logique qui les sous-tend et à trouver plus clairement l'erreur x ~ y +.
la source
Comme c'est généralement le cas, différentes analyses répondent à différentes questions. Les deux et pourrait être valable ici, vous voulez juste vous assurer que votre analyse correspond à la question que vous voulez répondre. (Pour plus dans ce sens, vous voudrez peut-être lire ma réponse ici: Quelle est la différence entre la régression linéaire sur Y avec X et X avec Y? )X sur YY on X X on Y
Vous avez raison que si tout ce que vous voulez faire est de prédire le plus probable valeur donnée d'une connaissance valeur, vous régresse . Toutefois, si vous voulez comprendre comment ces mesures sont liées les unes aux autres, vous pouvez utiliser une des erreurs en les variables approche, puisque vous croyez qu'il ya une erreur de mesure dans . X Y sur X XY X Y on X X
D'autre part, régressant (et en supposant est parfaitement sans erreur - un soi-disant étalon-or ) vous permet d'étudier les propriétés de mesure de . Par exemple, vous pouvez déterminer si l'instrument devient biaisé lorsque la valeur réelle augmente (ou diminue) en évaluant si la fonction est droite ou courbe. Y XX on Y Y X
Lorsque vous essayez de comprendre les propriétés d'un instrument de mesure, la compréhension de la nature de l'erreur de mesure est très importante, et cela peut être fait en régressant . Par exemple, lors de la vérification de l'homoscédasticité, vous pouvez déterminer si l'erreur de mesure varie en fonction du niveau de la valeur réelle de la construction. C'est souvent le cas avec les instruments qu'il y a plus d'erreur de mesure aux extrêmes de sa plage qu'au milieu de sa plage applicable (c'est-à-dire, son «point idéal»), vous pouvez donc le déterminer, ou peut-être déterminer ce qui est le plus approprié la plage est. Vous pouvez également estimer le montantYX on Y de l'erreur de mesure dans votre instrument avec l'erreur quadratique moyenne (l'écart-type résiduel); bien sûr, cela suppose une homoscédasticité, mais vous pouvez également obtenir des estimations à différents points sur ajustant une fonction lisse, comme une spline , aux résidus. Y
Compte tenu de ces considérations, je suppose que est meilleur, mais cela dépend certainement de vos objectifs.X on Y
la source
Prédiction et prévision
Oui, vous avez raison, lorsque vous voyez cela comme un problème de prédiction, une régression Y-on-X vous donnera un modèle tel que, compte tenu d'une mesure d'instrument, vous pouvez faire une estimation impartiale de la mesure de laboratoire précise, sans faire la procédure de laboratoire .
Autrement dit, si vous êtes simplement intéressé par vous voulez une régression Y-on-X.E[Y|X]
Cela peut sembler contre-intuitif car la structure d'erreur n'est pas la "vraie". En supposant que la méthode de laboratoire est une méthode sans erreur étalon-or, alors nous «savons» que le véritable modèle de génération de données est
où et sont des distributions identiques identiques, etϵ i E [ ϵ ] = 0Yi ϵi E[ϵ]=0
Nous souhaitons obtenir la meilleure estimation de . En raison de notre hypothèse d'indépendance, nous pouvons réorganiser ce qui précède:E[Yi|Xi]
Maintenant, prendre les attentes étant donné que est l'endroit où les choses deviennent veluesXi
Le problème est le terme - est-il égal à zéro? Cela n'a pas vraiment d'importance, car vous ne pouvez jamais le voir, et nous modélisons uniquement des termes linéaires (ou l'argument s'étend jusqu'aux termes que vous modélisez). Toute dépendance entre et peut simplement être absorbée dans la constante que nous estimons.E[ϵi|Xi] ϵ X
De manière explicite, sans perte de généralité, nous pouvons laisser
Où par définition, de sorte que nous avons maintenantE[ηi|X]=0
ce qui satisfait toutes les exigences d'OLS, car est maintenant exogène. Peu importe que le terme d'erreur contienne également un car ni ni sont de toute façon connus et doivent être estimés. On peut donc simplement remplacer ces constantes par de nouvelles et utiliser l'approche normaleβ β ση β β σ
Notez que nous n'avons PAS estimé la quantité que j'ai notée à l'origine - nous avons construit le meilleur modèle possible pour utiliser X comme proxy pour Y.β
Analyse des instruments
La personne qui vous a posé cette question ne voulait clairement pas la réponse ci-dessus car elle dit que X-on-Y est la bonne méthode, alors pourquoi aurait-elle pu le vouloir? Ils envisageaient très probablement la tâche de comprendre l'instrument. Comme discuté dans la réponse de Vincent, si vous voulez savoir s'ils veulent que l'instrument se comporte, le X-on-Y est le chemin à parcourir.
Revenons à la première équation ci-dessus:
La personne posant la question aurait pu penser à l'étalonnage. Un instrument est dit calibré lorsqu'il a une attente égale à la vraie valeur - c'est-à-dire . De toute évidence, pour calibrer vous devez trouver , et donc pour calibrer un instrument, vous devez effectuer une régression X-on-Y. X βE[Xi|Yi]=Yi X β
Rétrécissement
L'étalonnage est une exigence intuitivement sensible d'un instrument, mais il peut également provoquer de la confusion. Notez que même un instrument bien calibré ne vous montrera pas la valeur attendue de ! Pour obtenir vous devez toujours effectuer la régression Y-on-X, même avec un instrument bien calibré. Cette estimation ressemblera généralement à une version réduite de la valeur de l'instrument (rappelez-vous le terme qui s'est glissé dans). En particulier, pour obtenir une estimation vraiment bien de vous devez inclure votre connaissance préalable de la distribution de . Cela conduit alors à des concepts tels que la régression vers la moyenne et les bayés empiriques.E [ Y | X ] γ E [ Y | X ] YY E[Y|X] γ E[Y|X] Y
Exemple dans R Une façon de se faire une idée de ce qui se passe ici est de faire quelques données et d'essayer les méthodes. Le code ci-dessous compare X-on-Y avec Y-on-X pour la prédiction et l'étalonnage et vous pouvez rapidement voir que X-on-Y n'est pas bon pour le modèle de prédiction, mais est la procédure correcte pour l'étalonnage.
Les deux lignes de régression sont tracées sur les données
Ensuite, la somme des erreurs de carrés pour Y est mesurée pour les deux ajustements sur un nouvel échantillon.
Alternativement, un échantillon peut être généré à un Y fixe (dans ce cas 4) puis à la moyenne de ces estimations prises. Vous pouvez maintenant voir que le prédicteur Y-on-X n'est pas bien calibré ayant une valeur attendue bien inférieure à Y. Le prédicteur X-on-Y, est bien calibré ayant une valeur attendue proche de Y.
La distribution des deux prédictions peut être observée dans un graphique de densité.
la source
Cela dépend de vos hypothèses sur la variance de X et la variance de Y pour les moindres carrés ordinaires. Si Y a la seule source de variance et X a une variance nulle, utilisez X pour estimer Y. Si les hypothèses sont inversées (X a la seule variance et Y a une variance nulle), utilisez Y pour estimer X.
Si X et Y sont tous deux supposés avoir une variance, vous devrez peut-être considérer le total des moindres carrés .
Une bonne description de TLS a été écrite sur ce lien . Le document est orienté vers le trading, mais la section 3 décrit bien TLS.
Edit 1 (09/10/2013) ========================================== ======
Je pensais à l'origine qu'il s'agissait d'une sorte de problème de devoirs, donc je n'ai pas été vraiment précis sur la "réponse" à la question du PO. Mais, après avoir lu d'autres réponses, il semble que ce soit OK pour être un peu plus détaillé.
Citant une partie de la question du PO:
".... Les niveaux sont également mesurés en utilisant une procédure de laboratoire très précise ...."
La déclaration ci-dessus indique qu'il y a deux mesures, une de l'instrument et une de la procédure de laboratoire. La déclaration implique également que la variance pour la procédure de laboratoire est faible par rapport à la variance pour l'instrument.
Une autre citation de la question du PO est la suivante:
".... La mesure de procédure de laboratoire est notée y ....."
Ainsi, d'après les deux énoncés ci-dessus, Y a la variance la plus faible. Ainsi, la technique la moins sujette aux erreurs est d'utiliser Y pour estimer X. La «réponse fournie» était correcte.
la source