J'essaie de modéliser une variable de réponse théoriquement limitée entre -225 et +225. La variable est le score total obtenu par les sujets en jouant à un jeu. Bien que théoriquement, il est possible pour les sujets d'obtenir un score de +225. Malgré cela, car le score dépend non seulement des actions des sujets, mais aussi des actions d'une autre action.Le maximum que n'importe qui a marqué était de 125 (c'est le plus haut score que les 2 joueurs peuvent jouer), cela s'est produit avec une fréquence très élevée. Le score le plus bas était de +35.
Cette limite de 125 cause des difficultés avec une régression linéaire. La seule chose à laquelle je peux penser est de redimensionner la réponse entre 0 et 1 et d'utiliser une régression bêta. Si je fais cela, je ne suis pas sûr de pouvoir vraiment justifier que 125 est la limite supérieure (ou 1 après transformation) car il est possible de marquer +225. De plus, si je faisais cela, quelle serait ma limite inférieure, 35?
Merci,
Jonathan
la source
Réponses:
Bien que je ne sois pas entièrement certain de votre problème de régression linéaire, je suis en train de terminer un article sur la façon d'analyser les résultats bornés. Comme je ne connais pas la régression bêta, peut-être que quelqu'un d'autre répondra à cette option.
Par votre question, je comprends que vous obtenez des prédictions en dehors des limites. Dans ce cas, je choisirais la régression logistique quantile . La régression quantile est une alternative très intéressante à la régression linéaire régulière. Vous pouvez regarder différents quantiles et obtenir une bien meilleure image de vos données que ce qui est possible avec une régression linéaire régulière. Il n'a également aucune hypothèse concernant la distribution 1 .
La transformation d'une variable peut souvent provoquer des effets amusants sur la régression linéaire, par exemple vous avez une signification dans la transformation logistique mais cela ne se traduit pas en valeur régulière. Ce n'est pas le cas avec les quantiles, la médiane est toujours la médiane quelle que soit la fonction de transformation. Cela vous permet de vous transformer d'avant en arrière sans déformer quoi que ce soit. Le professeur Bottai a suggéré cette approche des résultats bornés 2 , c'est une excellente méthode si vous voulez faire des prédictions individuelles, mais il y a des problèmes lorsque vous ne voulez pas regarder les bêta et les interpréter de manière non logistique. La formule est simple:
Où est votre score et est un petit nombre arbitraire .ϵy ϵ
Voici un exemple que j'ai fait il y a quelque temps lorsque je voulais l'expérimenter dans R:
Cela donne la dispersion de données suivante, comme vous pouvez le voir, elle est clairement limitée et incommode :
Cela donne l'image suivante où les femelles sont clairement au-dessus de la limite supérieure:
Cela donne le tracé suivant avec des problèmes similaires:
La régression quantile logistique qui a une très belle prédiction bornée:
Ici, vous pouvez voir le problème avec les bêta qui, à la manière de la retransformation, diffère selon les régions (comme prévu):
Références
Pour les curieux les parcelles ont été créées à l'aide de ce code:
la source
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , PDF en ligne . Il a une motivation similaire pour la modélisation des distributions avec des effets de plancher / plafond.