Utiliser les centiles comme prédicteurs

Je pense à un problème qui consiste à prédire le journal (dépenses) d'un client à l'aide d'une régression linéaire.

Je réfléchis aux fonctionnalités à utiliser en entrée et je me demande si ce serait correct d'utiliser le centile d'une variable comme entrées.

Par exemple, je pourrais utiliser les revenus de l'entreprise comme intrant. Ce que je me demande, c'est si je pourrais utiliser le centile de revenus de l'entreprise à la place.

Un autre exemple serait un classificateur d'industrie catégorique (SCIAN) - si je regardais les dépenses médianes par code SCIAN et attribuais ensuite chaque code SCIAN à un `` centile du SCIAN '', serait-ce une variable explicative valide que je pourrais utiliser?

Vous vous demandez simplement s'il y a des problèmes à connaître lors de l'utilisation des centiles? Est-il à certains égards équivalent à un type de mise à l'échelle des fonctionnalités?

regression linear-model quantiles predictor andrewm4894
la source

Si vous avez les données d'origine, pourquoi voudriez-vous utiliser des centiles? Ce n'est peut-être pas une bonne idée, car les centiles ne sont que des mesures ordinales et non métriques. Mais je ne suis pas sûr du biais / de l'efficacité.

hplieninger

Le centrage des correspond pas à la manière dont les ont leur effet. Une erreur courante est le poids centile ou l'IMC lors de la prévision d'un résultat pour la santé. La physique du poids dicte que ce sont les dimensions physiques d'une personne qui se rapportent à leurs fonctions corporelles, et non le nombre de personnes dans l'échantillon qui sont inférieures au poids ou à l'IMC d'un sujet.

X

$X$

X

$X$

Frank Harrell

si vous pouvez raisonnablement regrouper votre variable industrielle en groupes, par exemple 4, utilisez un codage fictif (ou tout autre schéma de codage approprié) et vous avez terminé. C'est comme ça que je le ferais.

hplieninger

Je ne peux pas penser à une raison pour laquelle le centile serait lié linéairement à la variable dépendante. Si vous pouvez penser à un, alors ça pourrait être OK (et veuillez mettre à jour votre question avec votre raison)

Peter Flom

Si vous souhaitez utiliser le code SCIAN comme proxy pour les dépenses d'une entreprise, vous pouvez le faire en utilisant les dépenses moyennes dans son code SCIAN - pas besoin d'utiliser des centiles.

Scortchi - Réintégrer Monica

Utiliser les centiles comme prédicteurs - bonne idée?

Réponses: