J'ai quelques données avec lesquelles je joue; pour simplifier, supposons que les données contiennent des informations sur le nombre de publications d'un blogueur par rapport au nombre de personnes qui se sont abonnées au blog de cette personne (ce n'est qu'un exemple inventé).
Je veux obtenir un modèle approximatif de la relation entre # publications et # abonnés, et lorsque je regarde un graphique journal-journal, je vois ce qui suit:
Cela ressemble à une relation linéaire approximative (sur l'échelle log-log), et la vérification rapide des résidus semble d'accord (pas de schéma apparent, pas d'écart notable par rapport à une distribution normale):
Ma question est donc: est-il acceptable d'utiliser ce modèle linéaire? Je sais vaguement qu'il y a des problèmes à utiliser des régressions linéaires sur des tracés log-log pour estimer les distributions de loi de puissance, mais mes données ne sont pas une distribution de probabilité de loi de puissance (c'est simplement quelque chose qui semble suivre grossièrement unmodèle; en particulier, rien ne doit résumer à 1), donc je ne sais pas si les mêmes critiques s'appliquent. (Peut-être que je corrige trop la mention de "log-log" et de "régression linéaire" dans la même phrase ...) De plus, tout ce que j'essaie vraiment de faire est de:
- Voir s'il y a des tendances dans les blogs avec des résidus positifs par rapport aux blogs avec des résidus négatifs
- Suggérer un modèle approximatif de la relation entre les abonnés et le nombre de publications.
la source
Réponses:
Il n'y a rien de fondamentalement mauvais avec une régression log-log et les économistes les utilisent depuis des âges pour estimer l'élasticité. Pourtant, si vous voulez autoriser l'effet de la loi de puissance mais ne voulez pas trop déranger, vous pouvez appliquer cette simple correction: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=881759
la source