Je pense à un problème qui consiste à prédire le journal (dépenses) d'un client à l'aide d'une régression linéaire.
Je réfléchis aux fonctionnalités à utiliser en entrée et je me demande si ce serait correct d'utiliser le centile d'une variable comme entrées.
Par exemple, je pourrais utiliser les revenus de l'entreprise comme intrant. Ce que je me demande, c'est si je pourrais utiliser le centile de revenus de l'entreprise à la place.
Un autre exemple serait un classificateur d'industrie catégorique (SCIAN) - si je regardais les dépenses médianes par code SCIAN et attribuais ensuite chaque code SCIAN à un `` centile du SCIAN '', serait-ce une variable explicative valide que je pourrais utiliser?
Vous vous demandez simplement s'il y a des problèmes à connaître lors de l'utilisation des centiles? Est-il à certains égards équivalent à un type de mise à l'échelle des fonctionnalités?
la source
Réponses:
Si votre modèle implique une sorte de concours de revenus fermes, vous pouvez utiliser le centile. Le centile logarithmique semble plus significatif, les quantiles ne vont pas avoir une valeur linéaire, du moins j'imagine.
Dans cette histoire, vous incluez ln (%) des entreprises ayant des revenus sous la firme d'observation. L'histoire est qu'avec des revenus élevés ont une réputation meilleure que les entreprises à faibles revenus, et cette relation «avoir plus que la concurrence» est pertinente, pas le niveau de revenus lui-même. Je pouvais voir cela comme un élément important de la reconnaissance et de l'image de marque de l'entreprise.
la source