Je me demande quel est l'intérêt de prendre une variable prédictive continue et de la diviser (par exemple, en quintiles), avant de l'utiliser dans un modèle.
Il me semble que, en regroupant la variable, nous perdons des informations.
- Est-ce simplement pour que nous puissions modéliser des effets non linéaires?
- Si nous maintenions la variable continue et que la relation n'était pas linéaire, aurions-nous besoin de créer une sorte de courbe pour ajuster au mieux les données?
Réponses:
Vous avez raison sur les deux points. Voir la page de Frank Harrell ici pour une longue liste de problèmes avec le binning des variables continues. Si vous utilisez quelques bacs, vous perdez beaucoup d'informations dans les prédicteurs; si vous en utilisez beaucoup, vous avez tendance à insérer des mouvements dans ce qui devrait être une relation douce, sinon linéaire, et utiliser beaucoup de degrés de liberté. Il est généralement préférable d’utiliser des polynômes ( ) ou des splines (polynômes par morceaux se joignant régulièrement) pour les prédicteurs. Le binning n’est vraiment une bonne idée que lorsque vous vous attendez à une discontinuité dans la réponse aux points de coupure (disons que la température atteint son maximum, ou l’âge légal pour conduire) et que la réponse est neutre entre eux ..x+x2+…
La valeur? Eh bien, c'est un moyen rapide et facile de prendre en compte la courbure sans avoir à y penser, et le modèle pourrait bien suffire à son utilisation. Cela a tendance à fonctionner correctement lorsque vous avez beaucoup de données comparées au nombre de prédicteurs, chaque prédicteur étant divisé en plusieurs catégories; dans ce cas, dans chaque bande de prédicteur, la plage de réponse est petite et la réponse moyenne est déterminée avec précision.
[Modifier en réponse aux commentaires:
Parfois, des seuils standard sont utilisés dans un champ pour une variable continue: par exemple, en médecine, les mesures de pression artérielle peuvent être classées comme basses, moyennes ou élevées. Il peut y avoir de nombreuses bonnes raisons d'utiliser ces seuils lorsque vous présentez ou appliquez un modèle. En particulier, les règles de décision reposent souvent sur moins d'informations que dans un modèle et doivent parfois être simples à appliquer. Mais cela ne veut pas dire que ces seuils sont appropriés pour regrouper les prédicteurs lorsque vous vous adaptez au modèle.
Supposons qu'une réponse varie continuellement avec la pression artérielle. Si vous définissez un groupe d'hypertension artérielle comme un prédicteur dans votre étude, l'effet que vous estimez est la réponse moyenne par rapport à la pression artérielle des individus de ce groupe. Ce n'est pasune estimation de la réponse moyenne des personnes hypertendues dans la population en général ou des personnes appartenant au groupe des hypertendus participant à une autre étude, à moins que vous ne preniez des mesures spécifiques pour y parvenir. Si la distribution de l’hypertension artérielle dans la population générale est connue, comme je l’imagine, vous ferez mieux de calculer la réponse moyenne des personnes souffrant d’hypertension artérielle dans la population générale en vous basant sur les prédictions du modèle avec l’hypertension artérielle. variable continue. Le binning brut rend votre modèle approximativement généralisable.
En général, si vous avez des questions sur le comportement de la réponse entre les seuils, ajustez le meilleur modèle possible, puis utilisez-le pour y répondre.]
[En ce qui concerne la présentation; Je pense que c'est un hareng rouge:
(1) La facilité de présentation ne justifie pas de mauvaises décisions de modélisation. (Et dans les cas où le binning est une bonne décision de modélisation, il n'a pas besoin de justification supplémentaire.) Cela va sûrement de soi. Personne ne recommande jamais de supprimer une interaction importante d'un modèle, car il est difficile à présenter.
(2) Quel que soit le modèle qui vous convient, vous pouvez toujours présenter ses résultats en termes de catégories si vous pensez que cela facilitera l'interprétation. Bien que ...
(3) Il faut être prudent pour vous assurer qu'il ne contribue pas mal -interprétation, pour les raisons exposées ci - dessus.
(4) Il n'est en fait pas difficile de présenter des réponses non linéaires. Opinion personnelle, clairement, et les publics diffèrent; mais je n'ai jamais vu un graphique de valeurs de réponse ajustées par rapport à des valeurs de prédicteur qui pose des problèmes à quelqu'un simplement parce qu'il est courbe. Interactions, logites, effets aléatoires, multicolinéarité,… - tout cela est beaucoup plus difficile à expliquer.]
[Un point supplémentaire soulevé par @Roland est l'exactitude de la mesure des prédicteurs; Il suggère, je pense, que la catégorisation peut être appropriée si elles ne sont pas particulièrement précises. Le bon sens pourrait donner à penser que vous n'améliorer les choses en les re-disant encore moins précisément, et le bon sens serait bon: MacCallum et al (2002), « Sur la pratique de dichotomisation des variables quantitatives », méthodes psychologiques , 7 , 1, pages 17-19.]
la source
Une partie de cette réponse que j’ai apprise depuis que je pose la question est qu’il ne faut pas binning pour chercher à répondre à deux questions légèrement différentes: quel est le changement incrémentiel dans les données? et Quelle est la différence entre le plus bas et le plus haut? .
Non binning dit "ceci est une quantification de la tendance observée dans les données" et binning dit "je n'ai pas assez d'informations pour dire à quel point cela change à chaque incrément, mais je peux dire que le haut est différent du bas" .
la source
En tant que clinicien, je pense que la réponse dépend de ce que vous voulez faire. Si vous voulez faire le meilleur ajustement ou le meilleur ajustement, vous pouvez utiliser des variables continues et au carré.
Si vous souhaitez décrire et communiquer des associations complexes pour un public non axé sur les statistiques, l'utilisation de variables catégorisées est préférable, en acceptant que vous puissiez donner des résultats légèrement biaisés dans la dernière décimale. Je préfère utiliser au moins trois catégories pour afficher les associations non linéaires. L'alternative consiste à produire des graphiques et des résultats prédits à certains moments. Ensuite, vous devrez peut-être produire une famille de graphiques pour chaque covariable continue qui pourrait être intéressante. Si vous avez peur de trop de biais, je pense que vous pouvez tester les deux modèles et voir si la différence est importante ou non. Vous devez être pratique et réaliste.
Je pense que nous pouvons nous rendre compte que, dans de nombreuses situations cliniques, nos calculs ne sont pas basés sur des données exactes. Par exemple, lorsque je prescris un médicament à un adulte, je ne le fais pas avec des mg exacts par kilo (la parabole avec choix entre chirurgie et traitement médical). est juste un non-sens).
la source
Comme les précédentes affiches l'ont mentionné, il est généralement préférable d'éviter de dichotomiser une variable continue. Cependant, en réponse à votre question, il existe des cas où la dichotomisation d’une variable continue confère des avantages.
Par exemple, si une variable donnée contient des valeurs manquantes pour une proportion significative de la population, mais est connue pour être très prédictive et que les valeurs manquantes elles-mêmes ont une valeur prédictive. Par exemple, dans un modèle d'évaluation du crédit, considérons une variable, disons un solde créditeur moyen-renouvelable (qui est accordée, n'est pas techniquement continue, mais reflète dans ce cas une distribution normale suffisamment proche pour être traitée comme telle), qui contient valeurs manquantes pour environ 20% du bassin de candidats dans un marché cible donné. Dans ce cas, les valeurs manquantes pour cette variable représentent une classe distincte - celles qui ne disposent pas d'une ligne de crédit ouverte et renouvelable; Ces clients affichent un comportement totalement différent de ceux disposant, par exemple, de lignes de crédit renouvelables, mais qui n’ont régulièrement aucun solde.
Un autre avantage de la dichotomisation: elle peut être utilisée pour atténuer les effets de valeurs aberrantes significatives qui biaisent les coefficients, mais représente des cas réalistes qu’il faut gérer. Si les résultats des valeurs aberrantes ne diffèrent pas beaucoup des autres valeurs dans les centiles les plus proches, mais biaisent suffisamment les paramètres pour obtenir une précision marginale, il peut être avantageux de les regrouper avec des valeurs affichant des effets similaires.
Parfois, une distribution se prête naturellement à un ensemble de classes, auquel cas la dichotomisation vous donnera en réalité un degré de précision supérieur à celui d'une fonction continue.
En outre, comme mentionné précédemment, la facilité de présentation peut dépasser les pertes de précision en fonction du public. Pour reprendre l’exemple de la notation de crédit, dans la pratique, le degré élevé de réglementation constitue un argument concret en faveur d’une discrétisation par moments. Bien que le degré de précision plus élevé puisse aider le prêteur à réduire les pertes, les praticiens doivent également considérer que les modèles doivent être facilement compris par les régulateurs (qui peuvent demander des milliers de pages de documentation de modèle) et que les consommateurs, qui se voient refuser le crédit, ont légalement le droit de explication de pourquoi.
Tout dépend du problème et des données, mais il existe certainement des cas où la dichotomisation a ses avantages.
la source
Si une variable a un effet sur un seuil spécifique, créez-en une nouvelle en la regroupant. C'est une bonne chose à faire. Je garde toujours les deux variables, l'une d'origine et l'autre, et vérifie quelle variable est un meilleur prédicteur.
la source
Je suis un partisan convaincu de l'avis de Frank Harrell selon lequel les analystes devraient résister à la discrétisation prématurée des données continues. Et j’ai plusieurs réponses sur CV et SO qui montrent comment visualiser les interactions entre variables continues, car j’estime qu’il s’agit d’une piste d’investigation encore plus précieuse. Cependant, j'ai également une expérience concrète dans le monde médical des obstacles à l'adhésion à ces conseils. Les cliniciens et les non-cliniciens s'attendent souvent à des "divisions". La "limite supérieure de la normale" conventionnelle est un tel point de partage "naturel". Essentiellement, on examine d’abord le fondement statistique d’une relation, puis on communique le contenu des constatations dans des termes que votre public attend et peut facilement comprendre. Malgré mon "allergie" aux barres, ils sont extrêmement communs dans le discours scientifique et médical. Ainsi, le public aura probablement un modèle cognitif prêt à l'emploi pour le traiter et sera capable d'intégrer les résultats dans sa base de connaissances.
En outre, l'affichage graphique des interactions modélisées entre les formes non linéaires de variables prédictives nécessite la présentation de tracés de contour ou d'affichages en mode filaire que la plupart des destinataires auront des difficultés à digérer. J'ai trouvé le public médical et le grand public plus réceptifs aux présentations qui ont des résultats discrétisés et segmentés. Donc, je suppose que la conclusion est que la division est effectuée correctement une fois l'analyse statistique terminée; et est fait dans la phase de présentation.
la source
Plusieurs fois, la juxtaposition de variables continues s'accompagne d'un malaise de causer des dommages en raison de la perte d'informations. Cependant, non seulement vous pouvez limiter la perte d’informations, vous pouvez obtenir des informations et obtenir plus d’avantages.
Si vous utilisez le binning et obtenez des variables catégorisées, vous pourrez peut-être appliquer des algorithmes d'apprentissage qui ne sont pas applicables aux variables continues. Votre jeu de données convient peut-être mieux à l'un de ces algorithmes, voici donc votre premier avantage.
L'idée d'estimer la perte due au binning est basée sur le document "Apprentissage PAC avec attributs non pertinents". Supposons que notre concept soit binaire afin que nous puissions scinder les échantillons en positifs et négatifs. Pour chaque paire d'échantillons négatifs et positifs, la différence de concept pourrait s'expliquer par une différence dans l'une des caractéristiques (ou sinon, elle n'est pas explicable par les caractéristiques données). L'ensemble des différences de caractéristiques est l'ensemble d'explications possibles pour la différence de concept, d'où les données à utiliser pour déterminer le concept. Si nous avons effectué le binning et que nous obtenons toujours le même ensemble d'explications pour les paires, nous ne perdons aucune information nécessaire (en ce qui concerne les algorithmes d'apprentissage qui fonctionnent avec de telles comparaisons). Si notre catégorisation sera très stricte, nous aurons probablement un plus petit ensemble d'explications possibles, mais nous serons en mesure de mesurer avec précision combien et où nous perdons. Cela nous permettra d’échanger le nombre de bacs par rapport à un ensemble d’explications.
Jusqu'ici, nous avons constaté que nous ne perdrions peut-être pas à cause de la catégorisation, mais si nous envisagions d'appliquer une telle mesure, nous aimerions en tirer profit. En effet, nous pouvons bénéficier de la catégorisation
De nombreux algorithmes d'apprentissage à qui il sera demandé de classer un échantillon avec des valeurs non visibles dans le train, considéreront cette valeur comme "inconnue". Nous aurons donc un casier "inconnu" qui inclut TOUTES les valeurs non vues pendant le train (ou même pas assez vues). Pour de tels algorithmes, la différence entre les paires de valeurs inconnues ne sera pas utilisée pour améliorer la classification. Comparez vos paires après binning aux paires avec unknown et voyez si votre binning est utile et que vous avez réellement gagné.
Vous pouvez estimer la fréquence des valeurs inconnues en vérifiant la répartition des valeurs de chaque entité. Les valeurs caractéristiques qui apparaissent peu de fois sont une bonne partie de leur distribution et constituent de bons candidats pour le binning. Notez que dans de nombreux scénarios, de nombreuses fonctionnalités avec inconnue augmentent la probabilité qu'un échantillon contienne une valeur inconnue. Les algorithmes qui traitent tout ou partie des fonctionnalités sont sujets aux erreurs dans de telles situations.
A. Dhagat et L. Hellerstein, "Apprentissage de la PAC avec des attributs non pertinents", dans 'Proceedings of IEEE Symp. on Foundation of Computer Science ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html
la source