Quel type de régression utiliser, en considérant une variable avec une limite supérieure?

9

Je ne sais pas quelle méthode utiliser pour modéliser la relation entre deux variables ( et ) dans l'expérience décrite comme suit:yxy

  • Il y a 3 variables: , et . x yxaimxy
  • La valeur de est définie lors du fonctionnement de l'expérience. Cependant, et ne sont pas toujours égaux. x x a i mxaimxxaim
  • Le coefficient de corrélation de Pearson entre xaim et est d'environ 0,9.x
  • Le coefficient de corrélation de Pearson entrex et est beaucoup moins: environ 0,5.y
  • y a une valeur maximale possible ( ) qui ne peut pas être dépassée.ymax
  • Chaque point de données est obtenu après avoir défini et lu et x yxaimxy .

Bien que le coefficient de corrélation de Pearson entre et ne soit pas grand, il ressemble ày yxyy tendance à augmenter avec .x

Après avoir fait des régressions linéaires simples de et (et reconverti ces dernières en , de manière à être affichées sur le même graphique que par exemple), les deux pentes sont positifs, mais la pente dex = g ( y ) g - 1 f g - 1y=f(x)x=g(y)g1fg1 est supérieure à celle de .f

Est-il sensé de dire oux m a x = g ( y m a x )xmax=f1(ymax)xmax=g(ymax) ? ( serait atteint plus tôt dans le deuxième cas.)xmax

Considérant que est lié pary m a xyymax , que dire de la valeur maximale possible de qui pourrait être atteinte?x

Pour autant que je sache, il est logique de faire une régression linéaire de la forme lorsque est la variable indépendante et est la variable dépendante. Cependant, dans ce contexte, je ne sais pas s'il est logique de considérer quex y x yy=f(x)xyx est indépendant et est dépendant.y

Une régression totale des moindres carrés serait-elle plus appropriée? Existe-t-il d'autres méthodes pour déterminer quelles valeurs dexmax peuvent être atteintes (et avec quelle probabilité)?

(Si cela est important, et y ne semblent pas suivre une distribution normale, car davantage de tentatives ont été faites pour essayer d'atteindre des valeurs plus élevées de xxyx .)

Bruno
la source
Que ferez-vous de cette relation, si vous la trouvez? Allez-vous tester les hypothèses, ou êtes-vous simplement intéressé à quoi cela ressemble? S'il y a beaucoup de points de données, vous devez envisager des modèles non linéaires.
mpiktas
@mpiktas, en fin de compte, j'aimerais savoir quel x_max est une cible raisonnable que je pourrais essayer d'atteindre régulièrement (pas seulement une fois), étant donné que le fait d'atteindre ou de dépasser y_max annule l'expérience (ce qui implique effectivement x = x_min pour cette tentative).
Bruno
La régression des moindres carrés (ou erreurs dans les variables) est indiquée lorsque la variance de devient importante par rapport à celle de y . La corrélation de 90% avec l' objectif x suggère que la variance de x peut être suffisamment petite pour que vous puissiez la traiter en toute sécurité comme une variable indépendante. C'est quelque chose que vous pouvez vérifier après la régression en comparant le RMSE des résidus de x objectif vs x aux RMSE des résidus de y vs x objectif . Que y max soit un problème dépend; si vous voyez un seuil supérieur dans le nuage de points avec un objectif xxyxaimxxaimxyxaimymaxxaim, c'est une considération importante.
whuber

Réponses:

4

Je veux appuyer les points @ King. Il est très intuitif de soupçonner que la régression de sur x («régression directe») et la régression de x sur y («régression inverse») devraient être les mêmes. Cependant , ce n'est ni vrai mathématiquement ni en ce qui concerne la façon dont la régression est liée à la situation que vous analysez. Si vous tracez y sur l'axe vertical d'un graphique et x sur l'axe horizontal, vous pouvez voir ce qui se passe. La régression directe trouve la ligne qui minimise les distances verticales entre les points de données et la ligne, tandis que la régression inverse minimise les distances horizontales. La ligne qui minimise l'un ne minimisera l'autre que siyxxyyx . Vous devez décider ce que vous voulez expliquer et ce que vous voulez utiliser pour l'expliquer. La réponse à cette question vous donne quelle variable est y et xrxy=1.0yxet spécifie votre modèle. De plus, (suivant à nouveau @King), je ne suis pas d'accord pour essayer de dire xmax=f1(ymax) , pour les mêmes raisons.

En ce qui concerne le problème d'une variable bornée, il est généralement concevable que le montant «réel» puisse aller plus haut, mais que vous ne pouvez tout simplement pas le mesurer. Par exemple, un thermomètre extérieur par ma fenêtre monte à 120, mais il pourrait être 140 à l'extérieur à certains endroits, et vous n'auriez que 120 comme mesure. Ainsi, la variable aurait une limite supérieure, mais ce à quoi vous vouliez vraiment penser ne le fait pas. Si c'est le cas, modèles tobit existent uniquement pour de telles situations.

Une autre approche consisterait à utiliser quelque chose de plus robuste comme le loess, qui peut être parfaitement adapté à vos besoins.

gung - Rétablir Monica
la source
Toutes mes excuses pour le retard, je n'avais pas remarqué votre réponse. Je vais avoir besoin de lire sur le modèle Tobit.
Bruno
Aucun problème. Pour plus d'informations sur la nature de la régression (vs régression inverse), voir ici . Pour obtenir de l'aide sur l'application de la régression tobit à l'aide de divers logiciels, essayez ici .
gung - Reinstate Monica
3

Tout d'abord, je ne pense pas qu'il soit logique de dire ici, c'est comme impliquer que c'est une fonction biunivoque bien que x m a x soit expliqué par d'autres non observés variables.xmax=f1(ymax)xmax

Deuxièmement, cela dépend vraiment du contexte pour lequel on doit traiter comme une variable indépendante ou dépendante. D'après mon expérience, à moins que la théorie ne suggère fortement une voie; de toute façon, ça va. D'après vos commentaires du 7 octobre, il semble que soit la personne à charge tandis que y est l'indépendant.xy

Si possible, examinez les résidus et voyez si vous pouvez en extraire quoi que ce soit. Il pourrait y avoir une autre variable que vous avez oubliée; ou cela peut aider à transformer vos variables.

Roi
la source