Quel est l'effet de la dichotomisation des variables?

14
  • Lors de la dichotomisation des variables, quelles informations sont perdues dans le processus?
  • Comment une dichotomisation aide-t-elle dans les analyses?
Mimi
la source
Gelman et Park ont ​​un article qui compare la pratique de créer trois catégories à partir d'une variable continue, par opposition à deux. Il est généralement préférable de laisser la variable continue pour les raisons expliquées ci-dessous.
Michael Bishop

Réponses:

10

Quelles informations sont perdues: cela dépend de la variable. En général, en dichotomisant, vous affirmez qu'il existe une ligne droite d'effet entre une variable et une autre. Par exemple, envisagez une mesure continue de l'exposition à un polluant dans une étude sur le cancer. Si vous le dichotomisez en «haut» et «bas», vous affirmez que ce sont les deux seules valeurs qui comptent. Il existe un risque de cancer élevé et il y en a un faible. Mais que se passe-t-il si le risque augmente régulièrement pendant un certain temps, puis s'aplatit, puis augmente à nouveau avant de finalement atteindre des valeurs élevées? Tout cela est perdu.

Ce que vous gagnez: c'est plus facile. Les variables dichotomiques sont souvent beaucoup plus faciles à traiter statistiquement. Il y a des raisons de le faire - si une variable continue tombe en deux groupes clairs de toute façon , mais j'ai tendance à éviter la dichotomisation à moins que ce soit une forme naturelle de la variable en premier lieu. Il est souvent utile aussi que votre champ dichotomise les choses de toute façon pour avoir une forme dichotomisée d'une variable. Par exemple, beaucoup considèrent le nombre de cellules CD4 inférieur à 400 comme un seuil critique pour le VIH. En tant que tel, j'aurais souvent une variable 0/1 pour Au-dessus / En dessous de 400, bien que je conserverais également la variable de compte CD4 continue. Cela permet de mettre en cohérence votre étude avec les autres.

Je ne suis pas d'accord avec Peter. Bien que la division d'une variable continue en catégories soit souvent beaucoup plus judicieuse qu'une dichotomisation brute, je suis plutôt opposé à la catégorisation quantile. De telles catégorisations sont très difficiles à donner des interprétations significatives. Je pense que votre première étape devrait être de voir s'il existe une catégorisation biologiquement ou cliniquement bien supportée, et ce n'est qu'une fois ces options épuisées que vous devez utiliser des quantiles.

Fomite
la source
Salut @epigrad. Je pense que la régression quantile a une interprétation assez facile; elle est très similaire à la régression OLS régulière, sauf pour remplacer "XXX percentile" par "moyenne".
Peter Flom - Réintègre Monica
@PeterFlom Désolé, j'aurais dû être plus clair. Je les trouve difficiles à composer comme une interprétation cliniquement / biologiquement pertinente, par rapport aux catégories construites à partir de preuves cliniques / biologiques. Il s'agit certes d'un parti pris spécifique au domaine de ma part.
Fomite
Oh, OK, @epigrad, cela a du sens. Et je vais modifier ma réponse pour inclure ce cas.
Peter Flom - Réintègre Monica
1
Il semble qu'EpiGrad et @PeterFlom interprètent différemment la "régression quantile". EpiGrad parle de diviser la variable X en groupes définis par des quantiles, tandis que Peter Flom parle de modéliser, disons, le 90e quantile de la réponse au lieu de sa moyenne.
Aniko
@Aniko Cela peut aussi être possible. J'avais supposé (probablement à tort) que Peter voulait dire catégoriser les données en quantiles et les utiliser dans un modèle de régression. Une tendance courante (et ennuyeuse) dans mon domaine. Ce n'est peut-être pas le cas.
Fomite
9

La dichotimisation ajoute une pensée magique à l'analyse des données. C'est très rarement une bonne idée.

Voici un article de Royston, Altman et Sauerbrei sur quelques raisons pour lesquelles c'est une mauvaise idée.

Mes propres pensées: si vous dichotomisez une variable dépendante, par exemple, le poids de naissance à 2,5 kg (cela se fait tout le temps), alors vous traitez les bébés nés à 2,49 kg comme ceux nés à 1,5 kg et les bébés nés à 2,51 kg tout comme ceux qui font 3,5 kg. Cela n'a pas de sens.

Une meilleure alternative est souvent la régression quantile. J'ai écrit à ce sujet pour NESUG récemment. Ce papier est ici

Une exception à ce qui précède est lorsque les catégories sont motivées de manière substantielle; par exemple, si vous travaillez avec un comportement de conduite, il sera judicieux de classer en fonction de l'âge légal pour conduire.

Peter Flom - Réintégrer Monica
la source
5
Magnifiquement dit Peter. Je ne peux pas imaginer une situation où la dichotomisation dans l'analyse est une bonne idée.
Frank Harrell
5

J'ai aimé et soutenu les réponses de @ Epigrad et @ Peter. Je voulais juste ajouter que la variable d'intervalle de binning en une variable binaire rend la variable (potentiellement) métrique juste ordinale. Avec une variable binaire, il est incorrect de calculer la moyenne ou la variance (malgré le fait que certaines personnes le font), et, comme je l'ai noté ailleurs , certaines analyses multivariées deviennent théoriquement ou logiquement inapplicables. Par exemple, je pense qu'il n'est pas correct d'utiliser le regroupement hiérarchique centroïde / Ward ou l'analyse factorielle avec des variables binaires.

Les clients de l'enquête nous obligent souvent à dichotomiser les variables à la sortie parce que penser en termes de quelques classes plutôt que d'un trait continu est plus simple, l'information semble moins brumeuse et (faussement) plus volumineuse.

Il existe cependant des cas où la dichotomisation peut être justifiée. Par exemple, en cas de forte bimodalité ou lorsque l'analyse (par exemple MAMBAC ou autre) montre la présence de 2 classes latentes.

ttnphns
la source
J'ai du mal à comprendre votre argument. Et si un client veut que nous nous engagions dans de mauvaises pratiques statistiques, nous devrions y réfléchir à deux fois. Remarque: trichotomise n'est pas un mot. Dichotomisation = dicho (deux) + tomeux (coupe), il serait donc tritomisé / tritomisé s'il était utilisé.
Frank Harrell
Le passage sur le client était une complainte, pas un argument. Quant au grec, vous avez raison; J'ai supprimé le mot.
ttnphns
1
Merci. J'essaie, autant que possible humainement, de traduire les lamentations statistiques en actions correctives, à travers un processus d'éducation intensif avec le client.
Frank Harrell