En répondant à cette question sur des données discrètes et continues, j'ai clairement affirmé qu'il était rarement logique de traiter des données catégoriques comme continues.
À première vue, cela semble aller de soi, mais l’intuition est souvent un mauvais guide pour les statistiques, ou du moins la mienne. Alors maintenant je me demande: est-ce vrai? Ou existe-t-il des analyses établies pour lesquelles une transformation de données catégoriques en un continuum est réellement utile? Cela ferait-il une différence si les données étaient ordinales?
categorical-data
data-transformation
ordinal-data
continuous-data
talkie-walkie
la source
la source
Réponses:
Je supposerai qu'une variable "catégorique" représente en réalité une variable ordinale; sinon, cela n'a pas beaucoup de sens de le traiter comme une variable continue, à moins que ce ne soit une variable binaire (codée 0/1) comme indiqué par @Rob. Ensuite, je dirais que le problème n’est pas tellement la façon dont nous traitons la variable, bien que de nombreux modèles aient déjà été développés pour l’ analyse de données catégoriques - voir par exemple, L’analyse des données catégorielles ordonnées: aperçu et enquête récente. développements de Liu et Agresti-, que l’échelle de mesure sous-jacente que nous supposons. Ma réponse portera sur ce deuxième point, bien que je traiterai d'abord brièvement de l'attribution de scores numériques à des catégories ou à des niveaux variables.
En utilisant un simple recodage numérique d'une variable ordinale, vous supposez que celle-ci possède des propriétés d'intervalle (au sens de la classification donnée par Stevens, 1946). Du point de vue de la théorie de la mesure (en psychologie), cela peut souvent être une hypothèse trop forte, mais pour une étude de base (c’est-à-dire lorsqu'un seul élément est utilisé pour exprimer son opinion sur une activité quotidienne avec une formulation claire), tout score monotone devrait donner des résultats comparables. . Cochran (1954) a déjà signalé que
(Un grand merci à @whuber pour m'avoir rappelé cela tout au long de l'un de ses commentaires, ce qui m'a amené à relire le livre d'Agresti, d'où provient cette citation.)
Vous pouvez également décider de recoder votre variable sur une plage irrégulière ou d’agréger certains de ses niveaux, mais dans ce cas, un déséquilibre important entre les catégories recodées peut fausser les tests statistiques, par exemple le test de tendance susmentionné. Une alternative intéressante pour attribuer une distance entre les catégories avait déjà été proposée par @Jeromy, à savoir une mise à l'échelle optimale.
Maintenant, parlons du deuxième point que j'ai présenté, celui du modèle de mesure sous-jacent. J'hésite toujours à ajouter la balise "psychométrie" lorsque je vois ce genre de question, car la construction et l'analyse des échelles de mesure relèvent de la théorie psychométrique (Nunnally et Bernstein, 1994 pour un aperçu complet). Je ne m'attarderai pas sur tous les modèles qui se trouvent dans la théorie de la réponse à l' item , et je renvoie gentiment le lecteur intéressé au didacticiel de I. Partchev, Guide visuel de la théorie de la réponse à l'item, pour une introduction en douceur à la TRI, et aux références (5-8) énumérées à la fin des taxonomies possibles pour la TRI. Très brièvement, l’idée est qu’au lieu d’attribuer des distances arbitraires entre des catégories de variables, vous assumez une échelle latente et estimez leur emplacement sur ce continuum, ainsi que les capacités ou les responsabilités des individus. Un exemple simple vaut beaucoup de notation mathématique, considérons donc l'item suivant (tiré du questionnaire sur la qualité de vie lié à la santé EORTC QLQ-C30 ):
qui est codé sur une échelle de quatre points, allant de "pas du tout" à "beaucoup". Les scores bruts sont calculés en attribuant un score de 1 à 4. Les scores des éléments appartenant à la même échelle peuvent ensuite être additionnés pour donner ce que l'on appelle une échelle, qui indique le rang sur le construit sous-jacent (ici, une composante de santé mentale ). Ces scores sur une échelle sommée sont très pratiques en raison de la facilité de notation (pour le praticien ou l'infirmière), mais ils ne sont rien de plus qu'une échelle discrète (ordonnée).
Nous pouvons également considérer que la probabilité d’endosser une catégorie de réponses donnée obéit à une sorte de modèle logistique, comme décrit dans le tutoriel de I. Partchev, mentionné ci-dessus. Fondamentalement, l’idée est celle d’un type de modèle à seuil (qui aboutit à une formulation équivalente en termes de modèle de probabilité proportionnelle ou cumulative) et nous modélisons les chances de figurer dans une catégorie de réponse plutôt que la précédente ou les chances de marquer au-dessus d’un point. certaine catégorie, conditionnée à la localisation des sujets sur le trait latent. De plus, nous pouvons imposer que les catégories de réponses soient équidistantes sur l’échelle latente (c’est le modèle de l’échelle d’évaluation) - c’est ce que nous faisons en attribuant des scores numériques régulièrement espacés - ou non (c’est le modèle du crédit partiel). .
Clairement, nous n’ajoutons pas grand chose à la théorie des tests classiques, où les variables ordinales sont traitées comme des variables numériques. Cependant, nous introduisons un modèle probabiliste, dans lequel nous supposons une échelle continue (avec des propriétés d’intervalle) et où des erreurs de mesure spécifiques peuvent être comptabilisées, et nous pouvons intégrer ces scores factoriels à n’importe quel modèle de régression.
Références
la source
S'il n'y a que deux catégories, les transformer en (0,1) est logique. En fait, cela se produit couramment lorsque la variable factice résultante est utilisée dans des modèles de régression.
S'il y a plus de deux catégories, alors je pense que cela n'a de sens que si les données sont ordinales, et seulement dans des circonstances très spécifiques. Par exemple, si je fais de la régression et que je fais correspondre une fonction non linéaire non paramétrique à la variable ordinale-numérique, je pense que c'est correct. Mais si j'utilise une régression linéaire, je fais alors de très fortes hypothèses sur la différence relative entre les valeurs consécutives de la variable ordinale, et je suis généralement réticent à le faire.
la source
Il est de pratique courante de traiter les variables catégorielles ordonnées comportant de nombreuses catégories comme continues. Exemples de ceci:
Et par "traiter comme continu", j'entends l'inclusion de la variable dans un modèle qui suppose une variable aléatoire continue (par exemple, en tant que variable dépendante dans une régression linéaire). Je suppose que la question est de savoir combien de points d'échelle sont nécessaires pour que cela soit une hypothèse simplificatrice raisonnable.
Quelques autres réflexions:
Références
la source
Un exemple très simple, souvent négligé, qui devrait résider dans l'expérience de nombreux lecteurs concerne les notes ou notes attribuées à un travail universitaire. Souvent, les notes attribuées à des tâches individuelles sont essentiellement des mesures ordinales fondées sur un jugement, même lorsque, par convention, elles sont exprimées en pourcentages ou en notes sur une échelle de maximum 5 (éventuellement avec des points décimaux). C'est-à-dire qu'un enseignant peut lire un essai, une thèse, une thèse ou un article et décider qu'il mérite 42%, ou 4, ou peu importe. Même lorsque les marques sont basées sur un schéma d’évaluation détaillé, l’échelle se situe à une certaine distance de l’échelle de mesure des intervalles ou des ratios.
Mais alors, de nombreuses institutions estiment que si vous avez assez de ces notes ou notes, il est parfaitement raisonnable de les moyenner (moyenne pondérée, etc.) et même de les analyser plus en détail. Ainsi, à un moment donné, les mesures ordinales se transforment en une échelle récapitulative traitée comme si elle était continue.
Les connaisseurs d'ironie noteront que les cours de statistiques dans de nombreux départements ou écoles enseignent souvent que cela est au mieux douteux et au pire faux, tout en étant mis en œuvre comme une procédure à l'échelle de l'université.
la source
Dans une analyse du classement par fréquence, comme avec un graphique de Pareto et les valeurs associées (par exemple, combien de catégories constituent les 80% de défauts de produit)
la source
Je vais faire valoir que le fait de traiter une variable véritablement catégorique et non ordinale comme une variable continue peut parfois avoir un sens.
Si vous construisez des arbres de décision basés sur de grands ensembles de données, il peut s'avérer coûteux en termes de puissance de traitement et de mémoire de convertir des variables catégorielles en variables nominales. En outre, certains modèles (par exemple
randomForest
en R) ne peuvent pas gérer les variables catégorielles à plusieurs niveaux.Dans ces cas, un modèle arborescent devrait être capable d'identifier des catégories extrêmement importantes, MÊME SI elles sont codées comme une variable continue. Un exemple artificiel:
y est une variable continue, a est une variable continue et b est une variable catégorique. Cependant,
dat1
b est traité comme continu.En ajustant un arbre de décision à ces 2 jeux de données, nous trouvons que cela
dat1
est légèrement pire quedat2
:Si vous regardez les 2 modèles, vous constaterez qu’ils sont très similaires, mais model1 manque l’importance de b == 42:
Cependant, model1 s'exécute dans environ 1/10 du temps de model2:
Vous pouvez bien sûr modifier les paramètres du problème pour trouver des situations dans lesquelles une
dat2
surperformance est supérieuredat1
oudat1
légèrement supérieuredat2
.Je ne préconise pas de manière générale de traiter les variables catégorielles comme des variables continues, mais j’ai trouvé des situations dans lesquelles cela réduisait considérablement le temps nécessaire à l’adaptation de mes modèles, sans réduire leur précision prédictive.
la source
Un très beau résumé de ce sujet peut être trouvé ici:
mijkerhemtulla.socsci.uva.nl PDF
"Dans quels cas les variables qualitatives peuvent-elles être traitées comme continues? Comparaison de méthodes d'estimation SEM robustes, continues et catégoriques, dans des conditions non optimales."
Mijke Rhemtulla, Patricia É. Brosseau-Liard et Victoria Savalei
Ils étudient environ 60 pages de méthodes pour ce faire et fournissent des indications sur le moment où il est utile de le faire, quelle approche adopter et quels sont les points forts et les points faibles de chaque approche en fonction de votre situation spécifique. Ils ne les couvrent pas tous (comme j'apprends qu'il semble y en avoir une quantité illimitée), mais ceux qu'ils couvrent couvrent bien.
la source
Il y a un autre cas où cela a du sens: lorsque les données sont échantillonnées à partir de données continues (par exemple via un convertisseur analogique-numérique). Pour les instruments plus anciens, les ADC sont souvent de 10 bits, donnant ce qui est nominalement des données ordinales de 1024 catégories, mais peuvent dans la plupart des cas être considérés comme réels (bien qu'il y ait des artefacts pour des valeurs proches de l'extrémité inférieure de l'échelle). Aujourd'hui, les CAN sont plus souvent 16 ou 24 bits. Au moment où vous parlez des "catégories" 65536 ou 16777216, vous n’avez vraiment aucune difficulté à traiter les données comme étant continues.
la source