Régression pour un résultat (ratio ou fraction) compris entre 0 et 1

43

Je songe à construire un modèle prédisant un rapport , où et et . Le rapport serait donc compris entre et .une/bunebune>0b>001

Je pourrais utiliser la régression linéaire, bien qu'elle ne soit pas naturellement limitée à 0..1. Je n'ai aucune raison de croire que la relation est linéaire, mais bien sûr, elle est souvent utilisée comme premier modèle.

Je pourrais utiliser une régression logistique, bien qu'elle soit normalement utilisée pour prédire la probabilité d'un résultat à deux états, et non pour prédire une valeur continue de l'intervalle 0..1.

Ne connaissant rien de plus, utiliseriez-vous la régression linéaire, la régression logistique ou l'option cachée c ?

dfrankow
la source
4
Avez-vous envisagé la régression bêta?
Peter Flom - Réintégrer Monica
Un grand merci à tous ceux qui ont répondu. Je vais devoir étudier et choisir. Cela ressemble à une version bêta est un bon endroit pour commencer, surtout si je peux observer un bon ajustement (peut-être à l'œil nu).
Départ
J'ai vu cela faire en utilisant GLM (fonction de lien de poisson). Le numérateur a serait les données de comptage (le résultat) et le dénominateur b serait la variable offset. Vous devrez alors séparer un et b des valeurs pour chaque sujet / observation. Je ne suis pas sûr que ce soit l'option la plus valable. Je trouve la distribution bêta une option intéressante - une option dont je n’avais pas entendu parler. Cependant, j'ai du mal à comprendre, étant un non-statisticien.
MegPophealth
Merci à vous tous pour votre analyse approfondie et utile, je suis actuellement confronté au même défi, mais au lieu de prédire un ratio continu compris entre 0 et 1, je souhaite plutôt construire un modèle de régression permettant de prédire l'utilité des patients entre -1. et 1. C’est assez compliqué, je n’ai trouvé aucune fonction de lien appropriée pour construire un modèle de régression avec une plage dépendante continue comprise entre -1 et 1. Les gars veulent simplement avoir une idée de ce qui pourrait être fait. Merci,
1
Pour le moment, il existe une réponse triviale: redimensionner la réponse de amène tout lien pour dans la plage, après quoi vous pouvez redimensionner le rapport si vous le souhaitez. y(y+1)/2[0,1]
Nick Cox

Réponses:

34

Vous devriez choisir "option cachée c", où c est la régression bêta. Il s'agit d'un type de modèle de régression approprié lorsque la variable de réponse est distribuée sous forme bêta . Vous pouvez penser que cela ressemble à un modèle linéaire généralisé . C'est exactement ce que vous recherchez. Il y a un paquet dans Rappelé betareg qui traite de ce sujet . Je ne sais pas si vous l'utilisez R, mais même si vous ne pouviez pas lire les 'vignettes' de toute façon, elles vous donneraient des informations générales sur le sujet en plus de la manière de le mettre en œuvre R(dont vous n'auriez pas besoin dans ce cas).


Edit (beaucoup plus tard): Permettez-moi de faire une clarification rapide. J'interprète la question comme se rapportant au rapport de deux valeurs positives et positives. Si c'est le cas (et ils sont distribués en tant que Gammas), il s'agit d'une distribution bêta. Toutefois, si est un décompte de "succès" sur un total connu, , de "essais", il s'agira alors d'une proportion de comptage , et non d'une proportion continue, et vous devrez utiliser la méthode binomiale GLM (par exemple, logistique). régression). Pour savoir comment le faire dans R, voir par exemple Comment faire une régression logistique dans R lorsque le résultat est fractionnaire (un ratio de deux comptes)?unebune/b

Une autre possibilité consiste à utiliser une régression linéaire si les rapports peuvent être transformés de manière à respecter les hypothèses d'un modèle linéaire standard, bien que je ne sois pas optimiste quant à l'efficacité de ce dernier.

gung - Rétablir Monica
la source
1
Pourriez-vous préciser pourquoi les régressions bêta seraient préférables dans ce cas? C'est une recommandation que je vois assez souvent ici, mais je ne vois vraiment personne expliquer en détail les raisons, ce serait bien d'avoir!
Matt Parker
4
p
3
Je ferais attention à dire qu'une bêta est "la" distribution appropriée à utiliser. C'est assez flexible et cela pourrait être approprié mais cela ne couvre pas tous les cas. Donc, même si c'est une bonne suggestion et peut très bien être ce qu'ils veulent - vous ne pouvez pas vraiment dire que c'est la distribution appropriée uniquement sur le fait qu'il s'agit d'une réponse continue entre 0 et 1.
Dason
1
Une distribution triangulaire sur [0,1] représente une distribution continue sur des proportions qui n'est pas une version bêta. Il pourrait y en avoir beaucoup d'autres. La version bêta est une famille nicw flexible mais elle n’a rien de magique. Vous faites un bon point sur la régression logistique car elle s’applique généralement aux données binaires.
Michael R. Chernick
2
Je devrais peut-être essayer de paraître moins dogmatique. Ce que je voulais dire, c’est que vous examiniez votre DV et utilisiez la distribution qu’il suit. Certes, il existe d'autres distributions de proportions continues. Techniquement, la bêta est le rapport entre un gamma et sa somme + un autre gamma. Dans une situation donnée, une distribution différente pourrait être supérieure; Par exemple, la version bêta ne peut pas prendre les valeurs 0 ou 1, uniquement (0, 1). Néanmoins, la bêta est bien comprise et très flexible avec seulement 2 paramètres à adapter. Je soutiens que lorsque l'on a affaire à un DV, il s'agit généralement du meilleur endroit pour commencer.
gung - Réintégrer Monica
2

S'agit-il d'échantillons appariés ou de deux populations indépendantes?

XjeXjeMjeXjeMje

Votre interception de cette régression sera log (B) et votre pente sera log (ratio).

Voir plus ici:

Beyene J, Moineddin R. Méthodes d'estimation de l'intervalle de confiance d'un paramètre de rapport avec application aux quotients de localisation. Méthodologie de recherche médicale BMC. 2005; 5 (1): 32.

EDIT: J'ai écrit un addon SPSS pour faire cela. Je peux le partager si cela vous intéresse.

DocBuckets
la source
1
Par curiosité, quelle méthode avez-vous utilisée (delta, Fieller ou GLM)? Cela me dissipe un peu que l'article de BMC n'ait pas procédé à des simulations de la couverture des différents estimateurs (bien que créer une simulation réaliste serait ennuyeux). Cela m’a été rappelé parce que j’ai récemment découvert un document qui utilise la méthode delta (sans véritable justification), bien qu’il cite l’article de BMC.
Andy W
1
À l'époque où j'ai écrit ce commentaire, je l'ai utilisé REGRESSIONaprès la transformation du journal des données. Depuis lors, j'ai écrit une version plus sophistiquée qui utilise GLM. Je traite des mesures d’émission de lumière et mes tests suggèrent que la régression gamma avec une liaison log-link était la moins sujette à une incertitude extrême sur les paramètres. Pour la plupart de mes données réelles, les réponses issues de l'utilisation de normal, binomiale négative et gamma avec log-link étaient toutes très similaires (au moins à la précision dont j'avais besoin)
DocBuckets
0

Xjeje=1,2,..,kkp1-pp=exp(X)[1+exp(X)]X

Michael R. Chernick
la source
p
2
-1. Je suis d'accord avec @ amoeba. Je ne comprends pas pourquoi cela a jamais été voté. Cela ne concerne pas la question, qui ne suppose pas du tout que les données binaires 0 ou 1, mais se concentre sur les proportions mesurées comprises entre 0 et 1 inclus.
Nick Cox