Est-il utile de traiter les données catégoriques de manière continue?

57

En répondant à cette question sur des données discrètes et continues, j'ai clairement affirmé qu'il était rarement logique de traiter des données catégoriques comme continues.

À première vue, cela semble aller de soi, mais l’intuition est souvent un mauvais guide pour les statistiques, ou du moins la mienne. Alors maintenant je me demande: est-ce vrai? Ou existe-t-il des analyses établies pour lesquelles une transformation de données catégoriques en un continuum est réellement utile? Cela ferait-il une différence si les données étaient ordinales?

talkie-walkie
la source
20
Cette question et ses réponses nous rappellent à quel point cette division désuète des variables en ratio intervalle catégoriel-ordinal est vraiment grossière et limitée. Cela peut guider le naïf sur le plan statistique, mais pour l'analyste réfléchi ou expérimenté, c'est un obstacle, un obstacle à l' expression des variables de manière appropriée pour les données et les décisions à prendre avec elles. Quelqu'un travaillant de ce dernier point de vue se déplacera librement entre les représentations de données catégoriques et "continues"; pour eux, cette question ne peut même pas se poser! Au lieu de cela, nous devrions demander: comment cela aide-t-il?
whuber
@whuber (+1) Au minimum, il semble difficile d'optimiser la fiabilité des mesures et la précision du diagnostic en même temps.
chl

Réponses:

34

Je supposerai qu'une variable "catégorique" représente en réalité une variable ordinale; sinon, cela n'a pas beaucoup de sens de le traiter comme une variable continue, à moins que ce ne soit une variable binaire (codée 0/1) comme indiqué par @Rob. Ensuite, je dirais que le problème n’est pas tellement la façon dont nous traitons la variable, bien que de nombreux modèles aient déjà été développés pour l’ analyse de données catégoriques - voir par exemple, L’analyse des données catégorielles ordonnées: aperçu et enquête récente. développements de Liu et Agresti-, que l’échelle de mesure sous-jacente que nous supposons. Ma réponse portera sur ce deuxième point, bien que je traiterai d'abord brièvement de l'attribution de scores numériques à des catégories ou à des niveaux variables.

En utilisant un simple recodage numérique d'une variable ordinale, vous supposez que celle-ci possède des propriétés d'intervalle (au sens de la classification donnée par Stevens, 1946). Du point de vue de la théorie de la mesure (en psychologie), cela peut souvent être une hypothèse trop forte, mais pour une étude de base (c’est-à-dire lorsqu'un seul élément est utilisé pour exprimer son opinion sur une activité quotidienne avec une formulation claire), tout score monotone devrait donner des résultats comparables. . Cochran (1954) a déjà signalé que

tout ensemble de scores donne un test valide , à condition qu'ils soient construits sans consulter les résultats de l'expérience. Si l'ensemble des scores est faible, en ce sens qu'il déforme fortement une échelle numérique qui sous-tend réellement la classification ordonnée, le test ne sera pas sensible. Les scores doivent donc refléter les meilleures informations disponibles sur la manière dont la classification a été construite et utilisée. (p. 436)

(Un grand merci à @whuber pour m'avoir rappelé cela tout au long de l'un de ses commentaires, ce qui m'a amené à relire le livre d'Agresti, d'où provient cette citation.)

M2M2=(n1)r2

Vous pouvez également décider de recoder votre variable sur une plage irrégulière ou d’agréger certains de ses niveaux, mais dans ce cas, un déséquilibre important entre les catégories recodées peut fausser les tests statistiques, par exemple le test de tendance susmentionné. Une alternative intéressante pour attribuer une distance entre les catégories avait déjà été proposée par @Jeromy, à savoir une mise à l'échelle optimale.

Maintenant, parlons du deuxième point que j'ai présenté, celui du modèle de mesure sous-jacent. J'hésite toujours à ajouter la balise "psychométrie" lorsque je vois ce genre de question, car la construction et l'analyse des échelles de mesure relèvent de la théorie psychométrique (Nunnally et Bernstein, 1994 pour un aperçu complet). Je ne m'attarderai pas sur tous les modèles qui se trouvent dans la théorie de la réponse à l' item , et je renvoie gentiment le lecteur intéressé au didacticiel de I. Partchev, Guide visuel de la théorie de la réponse à l'item, pour une introduction en douceur à la TRI, et aux références (5-8) énumérées à la fin des taxonomies possibles pour la TRI. Très brièvement, l’idée est qu’au lieu d’attribuer des distances arbitraires entre des catégories de variables, vous assumez une échelle latente et estimez leur emplacement sur ce continuum, ainsi que les capacités ou les responsabilités des individus. Un exemple simple vaut beaucoup de notation mathématique, considérons donc l'item suivant (tiré du questionnaire sur la qualité de vie lié à la santé EORTC QLQ-C30 ):

Avez-vous vous inquiéter?

qui est codé sur une échelle de quatre points, allant de "pas du tout" à "beaucoup". Les scores bruts sont calculés en attribuant un score de 1 à 4. Les scores des éléments appartenant à la même échelle peuvent ensuite être additionnés pour donner ce que l'on appelle une échelle, qui indique le rang sur le construit sous-jacent (ici, une composante de santé mentale ). Ces scores sur une échelle sommée sont très pratiques en raison de la facilité de notation (pour le praticien ou l'infirmière), mais ils ne sont rien de plus qu'une échelle discrète (ordonnée).

Nous pouvons également considérer que la probabilité d’endosser une catégorie de réponses donnée obéit à une sorte de modèle logistique, comme décrit dans le tutoriel de I. Partchev, mentionné ci-dessus. Fondamentalement, l’idée est celle d’un type de modèle à seuil (qui aboutit à une formulation équivalente en termes de modèle de probabilité proportionnelle ou cumulative) et nous modélisons les chances de figurer dans une catégorie de réponse plutôt que la précédente ou les chances de marquer au-dessus d’un point. certaine catégorie, conditionnée à la localisation des sujets sur le trait latent. De plus, nous pouvons imposer que les catégories de réponses soient équidistantes sur l’échelle latente (c’est le modèle de l’échelle d’évaluation) - c’est ce que nous faisons en attribuant des scores numériques régulièrement espacés - ou non (c’est le modèle du crédit partiel). .

Clairement, nous n’ajoutons pas grand chose à la théorie des tests classiques, où les variables ordinales sont traitées comme des variables numériques. Cependant, nous introduisons un modèle probabiliste, dans lequel nous supposons une échelle continue (avec des propriétés d’intervalle) et où des erreurs de mesure spécifiques peuvent être comptabilisées, et nous pouvons intégrer ces scores factoriels à n’importe quel modèle de régression.

Références

  1. SS Stevens. Sur la théorie des échelles de mesure. Science , 103 : 677-680, 1946.
  2. χ2
  3. J Nunnally et moi Bernstein. Théorie psychométrique . McGraw-Hill, 1994
  4. Alan Agresti. Analyse de données catégorique . Wiley, 1990.
  5. CR Rao et S Sinharay, éditeurs. Manuel de statistique, vol. 26: Psychométrie . Elsevier Science BV, Pays-Bas, 2007.
  6. Un Boomsma, MAJ van Duijn et TAB Snijders. Essais sur la théorie de la réponse par élément . Springer, 2001.
  7. D Thissen et L. Steinberg. Une taxonomie des modèles de réponse d'item. Psychometrika , 51 (4) : 567-577, 1986.
  8. P Mair et R Hatzinger. Extended Rasch Modélisation: Le paquet pour l'application eRM des modèles IRT en R . Journal of Statistical Software , 20 (9) , 2007.
chl
la source
19

S'il n'y a que deux catégories, les transformer en (0,1) est logique. En fait, cela se produit couramment lorsque la variable factice résultante est utilisée dans des modèles de régression.

S'il y a plus de deux catégories, alors je pense que cela n'a de sens que si les données sont ordinales, et seulement dans des circonstances très spécifiques. Par exemple, si je fais de la régression et que je fais correspondre une fonction non linéaire non paramétrique à la variable ordinale-numérique, je pense que c'est correct. Mais si j'utilise une régression linéaire, je fais alors de très fortes hypothèses sur la différence relative entre les valeurs consécutives de la variable ordinale, et je suis généralement réticent à le faire.

Rob Hyndman
la source
1
"C’est pourquoi j’émets de très fortes hypothèses sur la différence relative entre les valeurs consécutives de la variable ordinale." Je pense que c'est le point clé, vraiment. Autrement dit, à quel point pouvez-vous affirmer que la différence entre les groupes 1 et 2 est comparable à celle entre 2 et 3?
Freya Harrison
Je pense que vous devriez faire une hypothèse sur la manière dont la variable continue doit être distribuée, puis essayer d’adapter ce "psudohistogramme" de chaque fréquence variable catégorique (je veux dire trouver des largeurs de bacs qui le transformeront en un histogramme ajusté). Pourtant, je ne suis pas un expert dans ce domaine, c'est une idée rapide et sale.
Il est logique de redéfinir les catégories binaires en tant que {0,1}, mais transformer cet intervalle en un intervalle continu [0,1] semble un peu prématuré. Sur un plan plus général, je suis tout à fait d'accord avec votre réticence à pondérer également les ordinaux, à moins que le modèle ne contienne de puissants arguments.
walkytalky
18

Il est de pratique courante de traiter les variables catégorielles ordonnées comportant de nombreuses catégories comme continues. Exemples de ceci:

  • Nombre d'éléments corrects sur un test de 100 éléments
  • Une échelle psychologique résumée (par exemple, la moyenne de 10 éléments sur une échelle de cinq points)

Et par "traiter comme continu", j'entends l'inclusion de la variable dans un modèle qui suppose une variable aléatoire continue (par exemple, en tant que variable dépendante dans une régression linéaire). Je suppose que la question est de savoir combien de points d'échelle sont nécessaires pour que cela soit une hypothèse simplificatrice raisonnable.

Quelques autres réflexions:

  • Les corrélations polychoriques tentent de modéliser la relation entre deux variables ordinales en termes de variables continues latentes supposées.
  • La mise à l' échelle optimale vous permet de développer des modèles dans lesquels la mise à l'échelle d'une variable catégorielle est développée en fonction des données tout en respectant les contraintes d'échelle que vous imposez (par exemple, l'ordinalité). Pour une bonne introduction, voir De Leeuw et Mair (2009)

Références

  • De Leeuw, J., & Mair, P. (2009). Méthodes Gifi pour une mise à l'échelle optimale dans R: les homals du package. Journal of Statistical Software, à paraître, 1-30. PDF
Jeromy Anglim
la source
7

Un exemple très simple, souvent négligé, qui devrait résider dans l'expérience de nombreux lecteurs concerne les notes ou notes attribuées à un travail universitaire. Souvent, les notes attribuées à des tâches individuelles sont essentiellement des mesures ordinales fondées sur un jugement, même lorsque, par convention, elles sont exprimées en pourcentages ou en notes sur une échelle de maximum 5 (éventuellement avec des points décimaux). C'est-à-dire qu'un enseignant peut lire un essai, une thèse, une thèse ou un article et décider qu'il mérite 42%, ou 4, ou peu importe. Même lorsque les marques sont basées sur un schéma d’évaluation détaillé, l’échelle se situe à une certaine distance de l’échelle de mesure des intervalles ou des ratios.

Mais alors, de nombreuses institutions estiment que si vous avez assez de ces notes ou notes, il est parfaitement raisonnable de les moyenner (moyenne pondérée, etc.) et même de les analyser plus en détail. Ainsi, à un moment donné, les mesures ordinales se transforment en une échelle récapitulative traitée comme si elle était continue.

Les connaisseurs d'ironie noteront que les cours de statistiques dans de nombreux départements ou écoles enseignent souvent que cela est au mieux douteux et au pire faux, tout en étant mis en œuvre comme une procédure à l'échelle de l'université.

Nick Cox
la source
5

Dans une analyse du classement par fréquence, comme avec un graphique de Pareto et les valeurs associées (par exemple, combien de catégories constituent les 80% de défauts de produit)

AdamV
la source
5
Point important, qui peut être étendu: De nombreux modèles pour les données ordinales reposent sur l’idée que ce ne sont pas les données ordinales qui peuvent être modélisées, mais bien leurs probabilités cumulatives.
Nick Cox
4

Je vais faire valoir que le fait de traiter une variable véritablement catégorique et non ordinale comme une variable continue peut parfois avoir un sens.

Si vous construisez des arbres de décision basés sur de grands ensembles de données, il peut s'avérer coûteux en termes de puissance de traitement et de mémoire de convertir des variables catégorielles en variables nominales. En outre, certains modèles (par exemple randomForesten R) ne peuvent pas gérer les variables catégorielles à plusieurs niveaux.

Dans ces cas, un modèle arborescent devrait être capable d'identifier des catégories extrêmement importantes, MÊME SI elles sont codées comme une variable continue. Un exemple artificiel:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y est une variable continue, a est une variable continue et b est une variable catégorique. Cependant, dat1b est traité comme continu.

En ajustant un arbre de décision à ces 2 jeux de données, nous trouvons que cela dat1est légèrement pire que dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Si vous regardez les 2 modèles, vous constaterez qu’ils sont très similaires, mais model1 manque l’importance de b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Cependant, model1 s'exécute dans environ 1/10 du temps de model2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Vous pouvez bien sûr modifier les paramètres du problème pour trouver des situations dans lesquelles une dat2surperformance est supérieure dat1ou dat1légèrement supérieure dat2.

Je ne préconise pas de manière générale de traiter les variables catégorielles comme des variables continues, mais j’ai trouvé des situations dans lesquelles cela réduisait considérablement le temps nécessaire à l’adaptation de mes modèles, sans réduire leur précision prédictive.

Zach
la source
3

Un très beau résumé de ce sujet peut être trouvé ici:

mijkerhemtulla.socsci.uva.nl PDF

"Dans quels cas les variables qualitatives peuvent-elles être traitées comme continues? Comparaison de méthodes d'estimation SEM robustes, continues et catégoriques, dans des conditions non optimales."

Mijke Rhemtulla, Patricia É. Brosseau-Liard et Victoria Savalei

Ils étudient environ 60 pages de méthodes pour ce faire et fournissent des indications sur le moment où il est utile de le faire, quelle approche adopter et quels sont les points forts et les points faibles de chaque approche en fonction de votre situation spécifique. Ils ne les couvrent pas tous (comme j'apprends qu'il semble y en avoir une quantité illimitée), mais ceux qu'ils couvrent couvrent bien.

Taal
la source
2

Il y a un autre cas où cela a du sens: lorsque les données sont échantillonnées à partir de données continues (par exemple via un convertisseur analogique-numérique). Pour les instruments plus anciens, les ADC sont souvent de 10 bits, donnant ce qui est nominalement des données ordinales de 1024 catégories, mais peuvent dans la plupart des cas être considérés comme réels (bien qu'il y ait des artefacts pour des valeurs proches de l'extrémité inférieure de l'échelle). Aujourd'hui, les CAN sont plus souvent 16 ou 24 bits. Au moment où vous parlez des "catégories" 65536 ou 16777216, vous n’avez vraiment aucune difficulté à traiter les données comme étant continues.

Kieran O'Neill
la source
Je suis tout à fait d’accord avec vos résultats, mais on peut soutenir que de telles données n’ont jamais été ordinaires, mais simplement discrétisées. Les traitements moche du rapport intervalle nominal-ordinal sont à blâmer ici pour ne pas souvent indiquer que l'ordinal implique discret, mais pas l'inverse. Un compte est ordinal, mais c'est aussi un intervalle et un ratio.
Nick Cox
@ Nick Ordinal implique discret? Pas nécessairement. Les mesures continues peuvent être ordinales. Par exemple, les variables physiologiques telles que le GSP ou la fréquence cardiaque sont continues, mais en tant que mesures de variables psychologiques telles que l’anxiété ou l’excitation, elles ne sont que ordinales. La notion d’ordinal contre intervalle renvoie en réalité à la linéarité de la fonction qui relie la mesure à ce qu’elle est censée mesurer.
Ray Koopman
C'est une remarque intéressante, mais une fois sur ce territoire, je ne vois pas comment classer la fréquence cardiaque sans preuve indépendante de ce qu'est réellement l'anxiété et, en fin de compte, la plupart des variables considérées comme des substituts sont donc inclassables. Accepteriez-vous de refuser d’utiliser des méthodes pour les données d’intervalles ou de ratios chaque fois que vous passez à ne considérer l’échelle de mesure que comme ordinale? Je ne pense pas que les données se comportent différemment en raison de ce que vous avez l'intention de faire avec elles. c'est le noeud de la question pour moi.
Nick Cox
1
@Nick La question qui se pose est de savoir si la fonction qui relie la valeur mesurée à la "vraie" valeur est suffisamment proche de la linéarité pour que son traitement en tant que tel ne conduise pas à des conclusions de fond erronées, ou doit-elle être traitée comme étant uniquement monotone. Il existe généralement peu ou pas de données fiables sur lesquelles fonder la décision; ce sera presque toujours un jugement, au sujet duquel des personnes intelligentes informées devront peut-être accepter d'être en désaccord.
Ray Koopman
1
Je pense que dans les discussions sur les échelles de mesure en statistique, l’accent est habituellement mis sur les propriétés mathématiques des variables et sur les opérations mathématiques légitimes pour chacune d’elles. C'est assez controversé. Le souci scientifique de savoir si quelque chose mesure ce que je suis supposé accepter volontiers est d’une importance vitale, mais j’estime qu’il s’agit d’un sujet de débat assez différent.
Nick Cox