Interprétation des proportions qui totalisent un en tant que variables indépendantes dans la régression linéaire

13

Je connais le concept de variables catégorielles et le codage des variables fictives respectif qui nous permet d'ajuster un niveau comme ligne de base afin d'éviter la colinéarité. Je suis également familier avec la façon d'interpréter les estimations de paramètres à partir de ces modèles: le changement prévu dans le résultat pour un niveau ajusté donné du prédicteur catégoriel, par rapport à la catégorie de référence.

Ce que je ne sais pas, c'est comment interpréter un ensemble de variables indépendantes qui sont des proportions qui se résument à un . Nous avons à nouveau la colinéarité si nous ajustons toutes les proportions dans le modèle, donc nous devrions probablement laisser une catégorie de côté. Je suppose également que je regarderais le SS de type III pour le test global de la signification de cette variable. Cependant, comment interprétons-nous les estimations des paramètres pour ces niveaux qui correspondent au modèle par rapport à ceux jugés de référence?

Un exemple : Au niveau du code postal, la variable indépendante est la proportion de roches métamorphiques, ignées et sédimentaires. Comme vous le savez peut-être, ce sont les trois principaux types de roches, et toutes les roches sont classées parmi celles-ci. En tant que tel, les proportions dans les trois sont égales à 1. Le résultat est le niveau moyen de radon dans un code postal respectif.

Si je devais ajuster, disons, les proportions métamorphiques et ignées en tant que prédicteurs dans le modèle, en laissant les sédiments comme ligne de base, un test global de type III SS F des deux niveaux ajustés signifierait si le type de roche, dans son ensemble, est un important prédicteur du résultat (niveau moyen de radon). Ensuite, j'ai pu examiner les valeurs p individuelles (basées sur la distribution t ) pour déterminer si un ou les deux types de roches étaient significativement différents de la ligne de base.

Cependant, en ce qui concerne les estimations des paramètres, mon cerveau continue de vouloir les interpréter uniquement comme le changement prévu dans le résultat entre les groupes (types de roches), et je ne comprends pas comment incorporer le fait qu'ils correspondent à des proportions .

Si l' estimation du métamorphisme était, disons, de 0,43, l'interprétation n'est pas simplement que le niveau de radon moyen prévu augmente de 0,43 unités lorsque la roche est métamorphique par rapport aux sédiments. Cependant, l'interprétation n'est pas non plus simplement pour une sorte d'augmentation d'unité (disons 0,1) dans la proportion de type de roche métamorphique, car cela ne reflète pas le fait qu'elle est également relative à la ligne de base ( sédimentaire ), et, en outre, ce changement la proportion de métamorphique change par nature la proportion de l'autre niveau de roche ajusté dans le modèle, igné .β

Quelqu'un at-il une source qui fournit l'interprétation d'un tel modèle, ou pourriez-vous fournir un bref exemple ici sinon?

Meg
la source
2
+1 Souvent, les proportions n'ont pas de relations linéaires avec la réponse. Si des re-paramétrisations telles que π i = exp ( λ i )(π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
1
Non, mais je suppose que ça va être problématique, surtout parce que la plupart des "proportions" sont en fait sorties comme 0 et 1, ou des valeurs très proches de 0 et 1, et agissent donc essentiellement comme binaires de toute façon. En tant que tel, il est probable que nous en ferons de véritables groupes (et que nous supprimions les proportions), mais cela a tout de même suscité mon intérêt quant à ce que serait la bonne interprétation, hypothétiquement.
Meg
Assez juste - c'est une bonne question.
whuber
2
λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

Réponses:

8

Comme suivi et ce que je pense être la bonne réponse (me semble raisonnable): j'ai posté cette question sur la liste de diffusion ASA Connect, et j'ai obtenu la réponse suivante de Thomas Sexton à Stony Brook:

"Votre modèle de régression linéaire estimé ressemble à:

ln (Radon) = (une expression linéaire dans d'autres variables) + 0,43 M + 0,92I

où M et I représentent les pourcentages de roches métamorphiques et ignées, respectivement, dans le code postal. Vous êtes contraint par:

M + I + S = 100

où S représente les pourcentages de roche sédimentaire dans le code postal.

L'interprétation de 0,43 est qu'une augmentation d'un point de pourcentage de M est associée à une augmentation de 0,43 en ln (Radon) en maintenant toutes les autres variables du modèle fixes . Ainsi, la valeur de I ne peut pas changer, et la seule façon d'avoir une augmentation d'un point de pourcentage dans M tout en satisfaisant la contrainte est d'avoir une diminution d'un point de pourcentage dans S, la catégorie omise.

Bien sûr, ce changement ne peut pas se produire dans les codes postaux dans lesquels S = 0, mais une diminution de M et une augmentation correspondante de S seraient possibles dans ces codes postaux. "

Voici le lien vers le fil ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561b449b6f6b6f

Je poste ceci comme réponse correcte acceptée, mais je suis toujours ouvert à d'autres discussions si quelqu'un a quelque chose à ajouter.

Meg
la source
Un conseil serait d'aller au fil ASA, car il y a beaucoup de discussions qui remettent en question la réponse fournie ici.
Maxim.K
@ Maxim.K: Faites-vous référence à mon propre fil ASA que j'ai lié ci-dessus? Dans l'affirmative, oui, il y a eu de nombreuses mises en garde sans réponse, et je ne suis toujours pas complètement sûr de la «bonne» réponse (si elle existe même). C'est pourquoi j'ai ajouté le qualificatif "Je publie ceci comme la bonne réponse acceptée, mais je suis toujours ouvert à d'autres discussions si quelqu'un a quelque chose à ajouter."
Meg