Il y a quelques mois, j'ai effectué un stage dans cette organisation; et, comme cadeau de départ, j'ai décidé de passer ma dernière semaine, avec le temps libre dont je disposais, pour enquêter sur les facteurs qui affectent les salaires des enseignants. Un problème que j'ai rencontré avec les salaires des enseignants était que la distribution pour l'État donné était biaisée. J'ai eu beaucoup d'observations qui se sont accrochées à l'extrémité inférieure de l'échelle des salaires. J'ai essayé de résoudre ce problème en incorporant un indice de salaire comparable dans ma variable dépendante (le salaire des enseignants), mais les résultats que j'ai trouvés étaient complètement obsolètes pour la portée de mon projet. J'ai plutôt décidé d'enregistrer ma variable dépendante. C'était bien parce que maintenant mon salaire avait une distribution normale et il avait l'air parfait dans l'histogramme. Lorsque j'ai commencé à tester, je suis arrivé au point où il me restait une dernière variable indépendante, les déclarations de revenus fonciers. Le problème avec mon salaire normatif était également apparent dans mes observations de déclaration d'impôt foncier. J'avais une énorme asymétrie de numéros de déclaration de revenus fonciers vers l'extrémité inférieure du spectre. Donc, j'ai également enregistré cette variable et elle a tout de même réussi le test d'hypothèse nulle.
Je ne sais pas si c'est exactement correct, mais en comparant le changement d'une variable enregistrée à une autre variable enregistrée m'a donné l'élasticité. En supposant que cela est correct, mon équation de régression (quelque chose comme LogWages = B0 + B1 (LogPropertyTaxReturns)) montre l'élasticité entre les deux variables. Est-ce pourtant significatif? Si mon objectif était de voir quelle variable a le plus affecté les salaires des enseignants dans un comté donné de mon état, est-ce que montrer l'élasticité entre les deux variables est utile? Nous voulons augmenter les comtés avec les salaires des enseignants les plus bas pour augmenter leur niveau de vie, mais je crains d'avoir extrapolé si loin des vraies observations que mon équation de régression finale n'a aucun sens.
Edit: Une de mes plus grandes craintes est que j'aurais dû utiliser un modèle non linéaire pour montrer la relation. Je pense que forcer à la fois la variable dépendante et la variable indépendante à coopérer dans cette régression linéaire est trompeur d'une certaine manière.
la source
Réponses:
La réponse à la question est oui, elle est en effet significative (au moins mathématiquement parlant). Si vous estimez l'équation linéaire
De manière générale, les transformations linéaires n'affectent que l'interprétation donnée aux coefficients, mais la validité de la régression elle-même (en termes économiques généraux) est donnée par les hypothèses du modèle et les phénomènes économiques analysés.
la source
Je suppose que votre question est de savoir si l'utilisation de cette forme fonctionnelle a du sens dans votre modèle particulier. C'est difficile à dire. Comme pour toute régression linéaire ordinaire, vous faites une hypothèse sur la forme fonctionnelle. Vous pouvez au moins y penser comme une approximation linéaire qui a plus de sens après la transformation log-log.
la source
Notez qu'en tant que représentation de la "vraie" décision sous-jacente, toutes les transformations qui entraînent une régression linéaire sont fausses. En fait, tous les modèles vont se tromper. La question est vraiment: la statistique que vous avez obtenue de ce modèle est-elle utile à votre problème ? Si votre étude se concentre sur la détermination d'un modèle sous-jacent, est-ce un moment qui vous dit quelque chose d'intéressant sur ce modèle plus profond? Si vous êtes davantage orienté vers les politiques, une approximation avec une élasticité constante vous rapprochera-t-elle suffisamment de la vérité selon laquelle de nouvelles améliorations ne sont pas pertinentes? Soit il est extrêmement difficile de répondre à des questions en tant qu'observateur extérieur. Mais si la seule alternative qui vous inquiète est l'élasticité variable, le type de test que j'ai décrit ci-dessus peut vous donner une certaine tranquillité d'esprit.
la source
Les autres réponses couvraient les principaux problèmes, je voudrais répondre à la "modification" faite par l'OP dans la question:
On a tendance à oublier que "transformer une variable" conduit à une nouvelle variable , dont le comportement peut être totalement différent de "l'original". L'exemple le plus simple consiste à comparer les graphiques d'une variable et son carré.
Ainsi, en considérant les logarithmes naturels de vos variables, vous n'examinez plus la relation entre elles , mais une relation entre certaines fonctions d'entre elles.
Il est heureux que le concept mathématique de "logarithme" puisse être lié au concept d '"élasticité", qui décrit une relation entre les variations en pourcentage, ce que nous comprenons d'un point de vue économique et que nous pouvons interpréter et utiliser de manière significative.
Si l'on peut raisonnablement dire que les variables présentent une "relation linéaire dans les logarithmes", cela signifie que leurs niveaux (c'est-à-dire les variables réelles) ont une relation non linéaire:
Alors pourquoi ne pas estimer un modèle non linéaire?
Dans le principe (mathématique), il n'y a aucune raison de ne pas le faire. Certains problèmes pratiques sont les suivants:
1) Il existe trop de formes de relations non linéaires, il n'y a qu'une seule relation linéaire (structurellement parlant). Il s'agit de "frais de recherche" pour la spécification la plus adaptée.
2) La relation non linéaire obtenue peut ne pas avoir d' explication économique claire . Pourquoi c'est un problème? Parce que nous ne découvrons pas ici les "lois de la nature", inchangées à travers le temps et l'espace. Nous approchons un phénomène social. Avoir une approximation qui, de plus, ne peut être présentée que comme une formule mathématique, sans raisonnement économique qui la valide et la soutient, rend le résultat très mince.
3) L' estimation non linéaire est moins stable en ce qui concerne la mécanique de l'algorithme d'estimation.
la source
Je dirais que votre modèle dans ce cas ne semble pas significatif si votre " objectif était de voir quelle variable les salaires des enseignants les plus touchés dans un comté donné de mon état ". Vous venez de montrer quelle est la corrélation entre (les journaux de) salaires et les déclarations d'impôts fonciers. Vous devez au moins utiliser une régression multiple.
Bien sûr, vous pouvez continuer et développer une stratégie d'identification à part entière et appropriée avec les outils méthodologiques appropriés afin d'estimer l'intensité de chaque effet causal et de trouver le plus grand ... En réalité, vous ne pourrez probablement pas pour le faire étant donné la complexité d'une telle tâche. C'est juste un continuum de raffinements et vous êtes près du modèle le plus grossier possible utilisé pour expliquer les salaires, très loin de ce que je considérerais comme les approximations acceptables d'une réponse à la question implicite dans votre objectif. Vous devriez essayer d'obtenir l'aide d'un économétricien.
la source