Utiliser les centiles comme prédicteurs - bonne idée?

9

Je pense à un problème qui consiste à prédire le journal (dépenses) d'un client à l'aide d'une régression linéaire.

Je réfléchis aux fonctionnalités à utiliser en entrée et je me demande si ce serait correct d'utiliser le centile d'une variable comme entrées.

Par exemple, je pourrais utiliser les revenus de l'entreprise comme intrant. Ce que je me demande, c'est si je pourrais utiliser le centile de revenus de l'entreprise à la place.

Un autre exemple serait un classificateur d'industrie catégorique (SCIAN) - si je regardais les dépenses médianes par code SCIAN et attribuais ensuite chaque code SCIAN à un `` centile du SCIAN '', serait-ce une variable explicative valide que je pourrais utiliser?

Vous vous demandez simplement s'il y a des problèmes à connaître lors de l'utilisation des centiles? Est-il à certains égards équivalent à un type de mise à l'échelle des fonctionnalités?

andrewm4894
la source
2
Si vous avez les données d'origine, pourquoi voudriez-vous utiliser des centiles? Ce n'est peut-être pas une bonne idée, car les centiles ne sont que des mesures ordinales et non métriques. Mais je ne suis pas sûr du biais / de l'efficacité.
hplieninger
9
Le centrage des correspond pas à la manière dont les ont leur effet. Une erreur courante est le poids centile ou l'IMC lors de la prévision d'un résultat pour la santé. La physique du poids dicte que ce sont les dimensions physiques d'une personne qui se rapportent à leurs fonctions corporelles, et non le nombre de personnes dans l'échantillon qui sont inférieures au poids ou à l'IMC d'un sujet. XX
Frank Harrell
1
si vous pouvez raisonnablement regrouper votre variable industrielle en groupes, par exemple 4, utilisez un codage fictif (ou tout autre schéma de codage approprié) et vous avez terminé. C'est comme ça que je le ferais.
hplieninger
3
Je ne peux pas penser à une raison pour laquelle le centile serait lié linéairement à la variable dépendante. Si vous pouvez penser à un, alors ça pourrait être OK (et veuillez mettre à jour votre question avec votre raison)
Peter Flom
1
Si vous souhaitez utiliser le code SCIAN comme proxy pour les dépenses d'une entreprise, vous pouvez le faire en utilisant les dépenses moyennes dans son code SCIAN - pas besoin d'utiliser des centiles.
Scortchi - Réintégrer Monica

Réponses:

1

Si votre modèle implique une sorte de concours de revenus fermes, vous pouvez utiliser le centile. Le centile logarithmique semble plus significatif, les quantiles ne vont pas avoir une valeur linéaire, du moins j'imagine.

Dans cette histoire, vous incluez ln (%) des entreprises ayant des revenus sous la firme d'observation. L'histoire est qu'avec des revenus élevés ont une réputation meilleure que les entreprises à faibles revenus, et cette relation «avoir plus que la concurrence» est pertinente, pas le niveau de revenus lui-même. Je pouvais voir cela comme un élément important de la reconnaissance et de l'image de marque de l'entreprise.

RegressForward
la source