Quel type de régression utiliser, en considérant une variable avec une limite supérieure?

9

Je ne sais pas quelle méthode utiliser pour modéliser la relation entre deux variables ( et ) dans l'expérience décrite comme suit: $x$ $y$

Il y a 3 variables: , et . $x_{aim}$ $x$ $y$
La valeur de est définie lors du fonctionnement de l'expérience. Cependant, et ne sont pas toujours égaux. $x_{aim}$ $x$ $x_{aim}$
Le coefficient de corrélation de Pearson entre $x_{aim}$ et est d'environ 0,9. $x$
Le coefficient de corrélation de Pearson entre $x$ et est beaucoup moins: environ 0,5. $y$
$y$ a une valeur maximale possible ( ) qui ne peut pas être dépassée. $y_{max}$
Chaque point de données est obtenu après avoir défini et lu et $x_{aim}$ $x$ $y$ .

Bien que le coefficient de corrélation de Pearson entre et ne soit pas grand, il ressemble à $x$ $y$ $y$ tendance à augmenter avec . $x$

Après avoir fait des régressions linéaires simples de et (et reconverti ces dernières en , de manière à être affichées sur le même graphique que par exemple), les deux pentes sont positifs, mais la pente de $y=f(x)$ $x=g(y)$ $g^{-1}$ $f$ $g^{-1}$ est supérieure à celle de . $f$

Est-il sensé de dire ou $x_{max} = f^{-1}(y_{max})$ $x_{max} = g(y_{max})$ ? ( serait atteint plus tôt dans le deuxième cas.) $x_{max}$

Considérant que est lié par $y$ $y_{max}$ , que dire de la valeur maximale possible de qui pourrait être atteinte? $x$

Pour autant que je sache, il est logique de faire une régression linéaire de la forme lorsque est la variable indépendante et est la variable dépendante. Cependant, dans ce contexte, je ne sais pas s'il est logique de considérer que $y=f(x)$ $x$ $y$ $x$ est indépendant et est dépendant. $y$

Une régression totale des moindres carrés serait-elle plus appropriée? Existe-t-il d'autres méthodes pour déterminer quelles valeurs de $x_{max}$ peuvent être atteintes (et avec quelle probabilité)?

(Si cela est important, et ne semblent pas suivre une distribution normale, car davantage de tentatives ont été faites pour essayer d'atteindre des valeurs plus élevées de $x$ $y$ $x$ .)

regression correlation Bruno
la source

Que ferez-vous de cette relation, si vous la trouvez? Allez-vous tester les hypothèses, ou êtes-vous simplement intéressé à quoi cela ressemble? S'il y a beaucoup de points de données, vous devez envisager des modèles non linéaires.

mpiktas

@mpiktas, en fin de compte, j'aimerais savoir quel x_max est une cible raisonnable que je pourrais essayer d'atteindre régulièrement (pas seulement une fois), étant donné que le fait d'atteindre ou de dépasser y_max annule l'expérience (ce qui implique effectivement x = x_min pour cette tentative).

Bruno

La régression des moindres carrés (ou erreurs dans les variables) est indiquée lorsque la variance de

devient importante par rapport à celle de

. La corrélation de 90% avec l'

suggère que la variance de

peut être suffisamment petite pour que vous puissiez la traiter en toute sécurité comme une variable indépendante. C'est quelque chose que vous pouvez vérifier après la régression en comparant le RMSE des résidus de

vs

aux RMSE des résidus de

vs

. Que

soit un problème dépend; si vous voyez un seuil supérieur dans le nuage de points avec un

x

$x$

y

$y$

x_{aim}

$x_\text{aim}$

x

$x$

x_{aim}

$x_\text{aim}$

x

$x$

y

$y$

x_{aim}

$x_\text{aim}$

y_{max}

$y_\text{max}$

x_{aim}

$x_\text{aim}$ , c'est une considération importante.

whuber

4

Je veux appuyer les points @ King. Il est très intuitif de soupçonner que la régression de sur («régression directe») et la régression de sur («régression inverse») devraient être les mêmes. Cependant , ce n'est ni vrai mathématiquement ni en ce qui concerne la façon dont la régression est liée à la situation que vous analysez. Si vous tracez sur l'axe vertical d'un graphique et sur l'axe horizontal, vous pouvez voir ce qui se passe. La régression directe trouve la ligne qui minimise les distances verticales entre les points de données et la ligne, tandis que la régression inverse minimise les distances horizontales. La ligne qui minimise l'un ne minimisera l'autre que si $y$ $x$ $x$ $y$ $y$ $x$ . Vous devez décider ce que vous voulez expliquer et ce que vous voulez utiliser pour l'expliquer. La réponse à cette question vous donne quelle variable est et $r_{xy}=1.0$ $y$ $x$ et spécifie votre modèle. De plus, (suivant à nouveau @King), je ne suis pas d'accord pour essayer de dire $x_{max}=f^{-1}(y_{max})$ , pour les mêmes raisons.

En ce qui concerne le problème d'une variable bornée, il est généralement concevable que le montant «réel» puisse aller plus haut, mais que vous ne pouvez tout simplement pas le mesurer. Par exemple, un thermomètre extérieur par ma fenêtre monte à 120, mais il pourrait être 140 à l'extérieur à certains endroits, et vous n'auriez que 120 comme mesure. Ainsi, la variable aurait une limite supérieure, mais ce à quoi vous vouliez vraiment penser ne le fait pas. Si c'est le cas, modèles tobit existent uniquement pour de telles situations.

Une autre approche consisterait à utiliser quelque chose de plus robuste comme le loess, qui peut être parfaitement adapté à vos besoins.

gung - Rétablir Monica
la source

Toutes mes excuses pour le retard, je n'avais pas remarqué votre réponse. Je vais avoir besoin de lire sur le modèle Tobit.

Bruno

Aucun problème. Pour plus d'informations sur la nature de la régression (vs régression inverse), voir ici . Pour obtenir de l'aide sur l'application de la régression tobit à l'aide de divers logiciels, essayez ici .

gung - Reinstate Monica

3

Tout d'abord, je ne pense pas qu'il soit logique de dire ici, c'est comme impliquer que c'est une fonction bien que soit expliqué par d'autres non observés variables. $x_{max}=f^{-1}(y_{max})$ $x_{max}$

Deuxièmement, cela dépend vraiment du contexte pour lequel on doit traiter comme une variable indépendante ou dépendante. D'après mon expérience, à moins que la théorie ne suggère fortement une voie; de toute façon, ça va. D'après vos commentaires du 7 octobre, il semble que soit la personne à charge tandis que est l'indépendant. $x$ $y$

Si possible, examinez les résidus et voyez si vous pouvez en extraire quoi que ce soit. Il pourrait y avoir une autre variable que vous avez oubliée; ou cela peut aider à transformer vos variables.

Roi
la source

Quel type de régression utiliser, en considérant une variable avec une limite supérieure?

Réponses: