J'ai besoin de conseils concernant deux dilemmes principaux dans ma recherche, qui est une étude de cas de 3 grands produits pharmaceutiques et de l'innovation. Le nombre de brevets par an est la variable dépendante.
Mes questions sont
Quels sont les critères les plus importants pour un bon modèle? Qu'est-ce qui est plus / moins important? Est-ce que la plupart ou toutes les variables seront significatives? Est-ce le problème de "F STATISTIC"? Est-ce la valeur de "R ajusté au carré"?
Deuxièmement, comment puis-je décider du modèle le plus approprié pour la recherche? Outre les brevets qui sont une variable de comptage (donc peut-être un nombre de Poisson), j'ai des variables explicatives telles que le rendement des actifs, le budget de recherche et développement, le partenaire répété (% pas une variable binaire), la taille de l'entreprise (employés) et quelques autres. Dois-je faire une régression linéaire ou Poisson?
la source
Réponses:
Le plus important est la logique derrière le modèle. Votre variable "nombre de brevets par an" est une variable de comptage, donc la régression de Poisson est indiquée. Il s'agit d'un GLM (modèle linéaire généralisé) avec (généralement) une fonction de liaison logarithmique, tandis que la régression linéaire habituelle est un GLM gaussien avec lien d'identité. Ici, c'est vraiment la fonction de lien log qui est la plus importante, plus importante que la distribution d'erreur (Poisson ou Gaussienne).
La variable "Brevets" est une variable extensive : voir propriétés intensives et extensives . Pour les variables intensives , telles que la température, les modèles linéaires (avec lien d'identité) sont souvent appropriés. Mais avec une variable étendue, c'est différent. Pensez qu'une de vos sociétés pharmaceutiques s'est scindée en deux sociétés différentes. Ensuite, les brevets ont dû être répartis entre les deux nouvelles sociétés. Que se passe-t-il avec les covariables, les dans votre régression? Des variables telles que le nombre d'employés et le budget de RD devraient également être divisées.X
Dans l'ensemble, dans ce contexte, une variable intensive est une variable indépendante de la taille de l'entreprise, tandis qu'une variable étendue dépend (généralement, linéairement) de la taille de l'entreprise. Donc, dans un sens, si nous avons de nombreuses variables extensives différentes dans l'équation de régression, nous mesurons les effets de taille à plusieurs reprises . Cela semble redondant, nous devons donc essayer, si possible, d'exprimer des variables sous une forme intensive , comme le budget de RD par employé (ou en pourcentage du budget total), de même que les revenus, etc. Une variable comme le nombre d'employés devra être laissée comme extensif. Voir la réponse de @ onestop à Traiter avec les régresseurs corrélés pour une autre discussion de ce problème de variable étendue / intensive.
Examinons cela algébriquement: sont les brevets, le budget (par employé), les employés de l'entreprise d'origine, tandis que P 1 , B 1 , E 1 et P 2 , B 2 , E 2 sont les variables correspondantes après a Divisé. Supposons, comme ci-dessus, que E est la seule covariable étendue (avec P , bien sûr, également étendue).P, B , E P1, B1, E1 P2, B2, E2 E P
Ensuite, avant la scission, nous avons le modèle, lien d'identité, avec une partie aléatoire omise: Soit les fractions de scission être α , 1 - α donc pour l'entreprise 1 après la scission, nous obtenons α P
Voyons maintenant si l'utilisation d'une fonction de lien de journal peut aider. Encore une fois, nous écrivons des modèles idéalisés sans termes de perturbation. Les variables sont comme ci-dessus.
Tout d'abord, le modèle avant la scission: Après la scission, pour l'entreprise 1, on obtient: P 1
That makes interpretations of results much easier, and also comparisons with studies using other data, trends with time, and so on. You cannot achieve this form with parameters with size-independent interpretations with an identity link.
Conclusion: Use a GLM with log link function, maybe a Poisson regression, or negative-binomial, or ... The link function is orders of magnitude more important!
To sum up, when constructing a regression model for a response variable which is extensive, like a count variable.
Try to express covariables in intensive form.
Covariables which must be left as extensive: log them (the algebra above depends on there being at most one extensive covariable).
Use a log link function.
Then, other criteria, such as those based on fit, can be used for secondary decisions, such as the distribution of the disturbance term.
la source