Je ne sais pas quelle méthode utiliser pour modéliser la relation entre deux variables ( et ) dans l'expérience décrite comme suit:y
- Il y a 3 variables: , et . x y
- La valeur de est définie lors du fonctionnement de l'expérience. Cependant, et ne sont pas toujours égaux. x x a i m
- Le coefficient de corrélation de Pearson entre et est d'environ 0,9.
- Le coefficient de corrélation de Pearson entre et est beaucoup moins: environ 0,5.
- a une valeur maximale possible ( ) qui ne peut pas être dépassée.
- Chaque point de données est obtenu après avoir défini et lu et x y .
Bien que le coefficient de corrélation de Pearson entre et ne soit pas grand, il ressemble ày y tendance à augmenter avec .
Après avoir fait des régressions linéaires simples de et (et reconverti ces dernières en , de manière à être affichées sur le même graphique que par exemple), les deux pentes sont positifs, mais la pente dex = g ( y ) g - 1 f g - 1 est supérieure à celle de .
Est-il sensé de dire oux m a x = g ( y m a x ) ? ( serait atteint plus tôt dans le deuxième cas.)
Considérant que est lié pary m a x , que dire de la valeur maximale possible de qui pourrait être atteinte?
Pour autant que je sache, il est logique de faire une régression linéaire de la forme lorsque est la variable indépendante et est la variable dépendante. Cependant, dans ce contexte, je ne sais pas s'il est logique de considérer quex y x y est indépendant et est dépendant.
Une régression totale des moindres carrés serait-elle plus appropriée? Existe-t-il d'autres méthodes pour déterminer quelles valeurs de peuvent être atteintes (et avec quelle probabilité)?
(Si cela est important, et y ne semblent pas suivre une distribution normale, car davantage de tentatives ont été faites pour essayer d'atteindre des valeurs plus élevées de x .)
la source
Réponses:
Je veux appuyer les points @ King. Il est très intuitif de soupçonner que la régression de sur x («régression directe») et la régression de x sur y («régression inverse») devraient être les mêmes. Cependant , ce n'est ni vrai mathématiquement ni en ce qui concerne la façon dont la régression est liée à la situation que vous analysez. Si vous tracez y sur l'axe vertical d'un graphique et x sur l'axe horizontal, vous pouvez voir ce qui se passe. La régression directe trouve la ligne qui minimise les distances verticales entre les points de données et la ligne, tandis que la régression inverse minimise les distances horizontales. La ligne qui minimise l'un ne minimisera l'autre que siy X X y y X . Vous devez décider ce que vous voulez expliquer et ce que vous voulez utiliser pour l'expliquer. La réponse à cette question vous donne quelle variable est y et xrx y= 1,0 y X et spécifie votre modèle. De plus, (suivant à nouveau @King), je ne suis pas d'accord pour essayer de dire Xm a x= f- 1( ym a x) , pour les mêmes raisons.
En ce qui concerne le problème d'une variable bornée, il est généralement concevable que le montant «réel» puisse aller plus haut, mais que vous ne pouvez tout simplement pas le mesurer. Par exemple, un thermomètre extérieur par ma fenêtre monte à 120, mais il pourrait être 140 à l'extérieur à certains endroits, et vous n'auriez que 120 comme mesure. Ainsi, la variable aurait une limite supérieure, mais ce à quoi vous vouliez vraiment penser ne le fait pas. Si c'est le cas, modèles tobit existent uniquement pour de telles situations.
Une autre approche consisterait à utiliser quelque chose de plus robuste comme le loess, qui peut être parfaitement adapté à vos besoins.
la source
Tout d'abord, je ne pense pas qu'il soit logique de dire ici, c'est comme impliquer que c'est une fonction biunivoque bien que x m a x soit expliqué par d'autres non observés variables.xmax=f−1(ymax) xmax
Deuxièmement, cela dépend vraiment du contexte pour lequel on doit traiter comme une variable indépendante ou dépendante. D'après mon expérience, à moins que la théorie ne suggère fortement une voie; de toute façon, ça va. D'après vos commentaires du 7 octobre, il semble que soit la personne à charge tandis que y est l'indépendant.x y
Si possible, examinez les résidus et voyez si vous pouvez en extraire quoi que ce soit. Il pourrait y avoir une autre variable que vous avez oubliée; ou cela peut aider à transformer vos variables.
la source