Quels sont les problèmes liés à l'utilisation du résultat en pourcentage dans la régression linéaire?

11

J'ai une étude où de nombreux résultats sont représentés comme des pourcentages et j'utilise plusieurs régressions linéaires pour évaluer l'effet de certaines variables catégorielles sur ces résultats.

Je me demandais, étant donné qu'une régression linéaire suppose que le résultat est une distribution continue, y a-t-il des problèmes méthodologiques dans l'application de ce modèle à des pourcentages, qui sont limités entre 0 et 100?

Bakaburg
la source
1
Ces pourcentages sont-ils continus (comme le pourcentage de crème dans le lait, par exemple), ou discrets (comme les proportions binomiales, un décompte dans une catégorie sur un décompte total)?
Glen_b -Reinstate Monica
1
Uhm ... je ne comprends pas la différence. Ne sont-ils pas tous les deux continus? Quoi qu'il en soit, je pense que le second décrit mieux mes données, car nous parlons de personnes sur au total.
Bakaburg
La distribution des dénombrements divisée par les dénombrements est définitivement discrète. En effet, le numérateur est généralement modélisé comme un binôme, le dénominateur est conditionné (traité comme constant), de sorte que le rapport est généralement traité comme un binôme à l'échelle. Cependant, même si le dénominateur était également une variable aléatoire, le rapport serait toujours discret puisque son espace d'échantillonnage est dénombrable
Glen_b -Reinstate Monica

Réponses:

17

Je vais aborder les questions pertinentes à la possibilité discrète ou continue:

  1. Un problème avec la description de la moyenne

    Vous avez une réponse limitée. Mais le modèle que vous ajustez n'est pas borné, et peut donc exploser jusqu'au bout; certaines de vos valeurs ajustées peuvent être impossibles et les valeurs prévues doivent éventuellement l'être.

    La vraie relation doit finalement devenir plus plate qu'elle ne l'est au milieu lorsqu'elle approche des limites, de sorte qu'elle devrait se plier d'une manière ou d'une autre.

  2. Un problème avec la description de la variance

    À mesure que la moyenne s'approche de la limite, la variance aura également tendance à diminuer, toutes choses étant égales par ailleurs. Il y a moins d'espace entre la moyenne et la limite, donc la variabilité globale a tendance à diminuer (sinon la moyenne aurait tendance à être éloignée de la limite par des points qui sont en moyenne plus éloignés du côté non proche de la limite.

(En effet, si toutes les valeurs de la population dans un quartier étaient exactement à la limite, la variance serait nulle.)

Un modèle qui traite d'une telle limite devrait tenir compte de ces effets.

Si la proportion est pour une variable de comptage, un modèle commun pour la distribution de la proportion est un GLM binomial. Il existe plusieurs options pour la forme de la relation entre la proportion moyenne et les prédicteurs, mais la plus courante serait un GLM logistique (plusieurs autres choix sont couramment utilisés).

Si la proportion est continue (comme le pourcentage de crème dans le lait), il existe un certain nombre d'options. La régression bêta semble être un choix assez courant. Encore une fois, il pourrait utiliser une relation logistique entre la moyenne et les prédicteurs, ou il pourrait utiliser une autre forme fonctionnelle.

Voir aussi Régression pour un résultat (ratio ou fraction) compris entre 0 et 1 .

Glen_b -Reinstate Monica
la source
1
+1 et j'ai pris la liberté d'ajouter un lien vers ce qui pourrait peut-être être considéré comme notre fil conducteur sur ce sujet (la réponse de Gung y couvre également les options bêta et logistiques).
Amoeba dit Reinstate Monica
2
Un argument général simple est que si la moyenne est 0, cela n'est possible que si toutes les valeurs sont égales à 0, et de même avec 1 = 100% et toutes les valeurs étant 1. La variance doit donc être de 0 aux extrêmes, que les proportions soient basées sur compter ou mesurer. Bien qu'il soit possible que toutes les autres valeurs soient constantes, en pratique, cela est très rare. Par conséquent, la variance sera la plus élevée pour une valeur comprise entre 0 et 1.
Nick Cox
seriez-vous en mesure de fournir des références pour les 2 problèmes décrits?
user1607
3

C'est exactement la même chose que dans le cas où le résultat est compris entre 0 et 1, et ce cas est généralement traité avec un modèle linéaire généralisé (GLM) comme la régression logistique. Il existe de nombreux excellents amorces pour la régression logistique (et d'autres GLM) sur Internet, et il existe également un livre bien connu d'Agresti sur le sujet.

La régression bêta est une alternative viable mais plus compliquée. Il est probable que la régression logistique fonctionnerait bien pour votre application et serait généralement plus facile à mettre en œuvre avec la plupart des logiciels statistiques.

Pourquoi ne pas utiliser la régression des moindres carrés ordinaires? En fait, les gens le font, parfois sous le nom de «modèle de probabilité linéaire» (LPM). La raison la plus évidente pour laquelle les LPM sont "mauvais" est qu'il n'y a pas de moyen facile de contraindre le résultat à se situer dans une certaine plage, et vous pouvez obtenir des prédictions supérieures à 1 (ou 100% ou toute autre limite supérieure finie) et inférieures à 0 (ou une autre borne inférieure). Pour la même raison, les prévisions près de la limite supérieure ont tendance à être systématiquement trop élevées et les prévisions près de la limite inférieure ont tendance à être trop basses. Les mathématiques sous-jacentes à la régression linéaire supposent explicitement que de telles tendances n'existent pas. Il n'y a généralement pas de bonne raison d'adapter un LPM à une régression logistique.

Soit dit en passant, il s'avère que tous les modèles de régression OLS, y compris les LPM, peuvent être définis comme un type spécial de GLM, et dans ce contexte, les LPM sont liés à la régression logistique.

shadowtalker
la source
4
Bien que dans l'ensemble, une bonne partie de cette réponse semble utile, elle contient des informations erronées qui pourraient embrouiller les lecteurs. Le compte rendu de la régression logistique dans le premier paragraphe ressemble à une description d'une transformation logarithmique de la variable dépendante suivie d'une régression linéaire: ce n'est pas une régression logistique. L'interprétation des coefficients n'est pas non plus tout à fait correcte. Un problème plus important avec les «LPM» est que lorsque les données sont proches des extrêmes, elles présentent probablement des distributions asymétriques des résidus, ce qui constitue une violation importante de l'hypothèse de régression iid.
whuber
Je ne pensais pas que cela valait la peine d'entrer dans les rapports de cotes et autres. Je vais simplement retirer ces trucs et laisser le PO le lire ensuite. Bon point également sur les résidus.
shadowtalker
(+1) Merci pour vos réponses constructives!
whuber
2

Il pourrait être utile d'étudier la régression bêta (pour laquelle je comprends qu'il existe un package R), qui semble bien adaptée à de tels problèmes.

http://www.jstatsoft.org/v34/i02/paper

Dikran Marsupial
la source
7
Vous répondrez serait encore mieux si vous identifiez certaines des principales raisons pour lesquelles la régression linéaire souffre lorsque le résultat est un pourcentage.
Alexis