Qualité de l'ajustement et quel modèle choisir la régression linéaire ou Poisson

19

J'ai besoin de conseils concernant deux dilemmes principaux dans ma recherche, qui est une étude de cas de 3 grands produits pharmaceutiques et de l'innovation. Le nombre de brevets par an est la variable dépendante.

Mes questions sont

  • Quels sont les critères les plus importants pour un bon modèle? Qu'est-ce qui est plus / moins important? Est-ce que la plupart ou toutes les variables seront significatives? Est-ce le problème de "F STATISTIC"? Est-ce la valeur de "R ajusté au carré"?

  • Deuxièmement, comment puis-je décider du modèle le plus approprié pour la recherche? Outre les brevets qui sont une variable de comptage (donc peut-être un nombre de Poisson), j'ai des variables explicatives telles que le rendement des actifs, le budget de recherche et développement, le partenaire répété (% pas une variable binaire), la taille de l'entreprise (employés) et quelques autres. Dois-je faire une régression linéaire ou Poisson?

Nitzan
la source
5
Kjetil a donné une bonne réponse détaillée. Une opinion plus rapide et plus concordante avec son argument est que ce que vous étiquetez «deuxième» est la question vraiment importante. Ce que vous mentionnez en premier est fortuit.
Nick Cox du

Réponses:

31

Le plus important est la logique derrière le modèle. Votre variable "nombre de brevets par an" est une variable de comptage, donc la régression de Poisson est indiquée. Il s'agit d'un GLM (modèle linéaire généralisé) avec (généralement) une fonction de liaison logarithmique, tandis que la régression linéaire habituelle est un GLM gaussien avec lien d'identité. Ici, c'est vraiment la fonction de lien log qui est la plus importante, plus importante que la distribution d'erreur (Poisson ou Gaussienne).

La variable "Brevets" est une variable extensive : voir propriétés intensives et extensives . Pour les variables intensives , telles que la température, les modèles linéaires (avec lien d'identité) sont souvent appropriés. Mais avec une variable étendue, c'est différent. Pensez qu'une de vos sociétés pharmaceutiques s'est scindée en deux sociétés différentes. Ensuite, les brevets ont dû être répartis entre les deux nouvelles sociétés. Que se passe-t-il avec les covariables, les dans votre régression? Des variables telles que le nombre d'employés et le budget de RD devraient également être divisées.X

Dans l'ensemble, dans ce contexte, une variable intensive est une variable indépendante de la taille de l'entreprise, tandis qu'une variable étendue dépend (généralement, linéairement) de la taille de l'entreprise. Donc, dans un sens, si nous avons de nombreuses variables extensives différentes dans l'équation de régression, nous mesurons les effets de taille à plusieurs reprises . Cela semble redondant, nous devons donc essayer, si possible, d'exprimer des variables sous une forme intensive , comme le budget de RD par employé (ou en pourcentage du budget total), de même que les revenus, etc. Une variable comme le nombre d'employés devra être laissée comme extensif. Voir la réponse de @ onestop à Traiter avec les régresseurs corrélés pour une autre discussion de ce problème de variable étendue / intensive.

Examinons cela algébriquement: sont les brevets, le budget (par employé), les employés de l'entreprise d'origine, tandis que P 1 , B 1 , E 1 et P 2 , B 2 , E 2 sont les variables correspondantes après a Divisé. Supposons, comme ci-dessus, que E est la seule covariable étendue (avec P , bien sûr, également étendue).P,B,EP1,B1,E1P2,B2,E2EP

Ensuite, avant la scission, nous avons le modèle, lien d'identité, avec une partie aléatoire omise: Soit les fractions de scission être α , 1 - α donc pour l'entreprise 1 après la scission, nous obtenons α P

P=μ+β1E+β2B
α,1-α étant donnéP1=αP,E1=αEmaisB1=B. De même pour la deuxième entreprise. Le modèle dépend donc de manière assez compliquée de la taille de l'entreprise, seul le coefficient de régression surE
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEêtre indépendant de la taille de l'entreprise, taille influençant tous les autres paramètres. Cela rend l'interprétation des résultats difficile, surtout si, dans vos données, vous avez des entreprises de taille variable, comment allez-vous interpréter ces coefficients? La comparaison avec d'autres études basées sur d'autres données, etc., devient extrêmement compliquée.

Voyons maintenant si l'utilisation d'une fonction de lien de journal peut aider. Encore une fois, nous écrivons des modèles idéalisés sans termes de perturbation. Les variables sont comme ci-dessus.

Tout d'abord, le modèle avant la scission: Après la scission, pour l'entreprise 1, on obtient: P 1

P=exp(μ+β1E+β2B)
Cela semble presque correct, sauf pour un problème, la partie de la dépendance àEne fonctionne pas tout à fait. Nous voyons donc que le nombre d'employés, celui covariable sous forme extensive, doit être utilisé sur une échelle logarithmique. Ensuite, en essayant à nouveau, nous obtenons:
P1=exp(Journalα)exp(μ+β1E+β2B)P1=exp(Journalα+μ+β1E+β2B1)
E

P=exp(μ+β1JournalE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
where μ is a new intercept. Now, we have put the model in a form where all parameters (except the intercept) have an interpretation independent of company size.

That makes interpretations of results much easier, and also comparisons with studies using other data, trends with time, and so on. You cannot achieve this form with parameters with size-independent interpretations with an identity link.

Conclusion: Use a GLM with log link function, maybe a Poisson regression, or negative-binomial, or ... The link function is orders of magnitude more important!

To sum up, when constructing a regression model for a response variable which is extensive, like a count variable.

  1. Try to express covariables in intensive form.

  2. Covariables which must be left as extensive: log them (the algebra above depends on there being at most one extensive covariable).

  3. Use a log link function.

Then, other criteria, such as those based on fit, can be used for secondary decisions, such as the distribution of the disturbance term.

kjetil b halvorsen
la source
3
I thought a Poisson regression was a GLS regression with log link function?
Sideshow Bob
1
Habituellement, oui, mais vous pouvez également envisager une régression de Poisson avec un lien d'identité (ou autre, comme la racine carrée). Mais mon argument ici montre qu'en général, vous voulez le lien du journal.
kjetil b halvorsen
@ kjetil b halvorsen, qu'est-ce que (1-β) en correction de μterme?
garej