Quelles statistiques sommaires utiliser avec des variables catégorielles ou qualitatives?

18

Juste pour clarifier, quand je veux parler de statistiques sommaires, je me réfère à la gamme moyenne, quartile médian, variance, écart-type.

En résumant une univariée qui est catégorique ou qualitative , compte tenu des cas nominaux et ordinaux , est-il logique de trouver sa moyenne, sa médiane, ses plages de quartile, sa variance et son écart-type?

Si c'est le cas, est-ce différent que si vous résumiez une variable continue, et comment?

chutsu
la source
2
Je vois à peine une différence entre la variable catégorielle et la variable qualitative, à l'exception de la terminologie. Quoi qu'il en soit, il serait très difficile de calculer quelque chose comme la moyenne ou l'écart-type sur une variable nominale (par exemple, la couleur des cheveux). Vous pensez peut-être à des variables catégorielles avec des niveaux ordonnés?
chl
Non, si les données catégorielles ont un ordre ou des niveaux classés, elles sont dites ordinales selon ce site Web: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] , et il dit "Vous pouvez compter et ordonner, mais pas mesurer, les données ordinales "
chutsu
Mais ai-je tort?
chutsu

Réponses:

8

En général, la réponse est non. Cependant, on pourrait faire valoir que vous pouvez prendre la médiane des données ordinales, mais vous aurez, bien sûr, une catégorie comme médiane, pas un nombre. La médiane divise les données également: moitié au-dessus, moitié au-dessous. Les données ordinales dépendent uniquement de la commande.

En outre, dans certains cas, l'ordinalité peut être transformée en données de niveau d'intervalle approximatif. Cela est vrai lorsque les données ordinales sont regroupées (par exemple, des questions sur le revenu sont souvent posées de cette façon). Dans ce cas, vous pouvez trouver une médiane précise et vous pouvez être en mesure d'approximer les autres valeurs, en particulier si les limites inférieure et supérieure sont spécifiées: vous pouvez assumer une certaine distribution (par exemple uniforme) au sein de chaque catégorie. Un autre cas de données ordinales qui peuvent être faites à intervalle est lorsque les niveaux reçoivent des équivalents numériques. Par exemple: jamais (0%), parfois (10-30%), environ la moitié du temps (50%) et ainsi de suite.

Pour (encore une fois) citer David Cox:

Il n'y a pas de questions statistiques de routine, seulement des routines statistiques douteuses

Peter Flom - Réintégrer Monica
la source
1
Vous fournissez de bonnes informations connexes, mais je pense qu'en réponse à la question du chl, le PO a clairement indiqué qu'il parlait de données catégoriques qui ne sont pas ordinales. Votre réponse n'est donc pas vraiment une réponse, mais je ne suis pas du genre à donner un downvote. Mais je pense que vous devriez le changer en commentaire.
Michael R. Chernick
1
Non, je ne rejeterai pas la réponse car je pense que cela a ajouté de la valeur à ma compréhension limitée. J'aurais dû indiquer clairement dans ma description que je considère les statistiques récapitulatives ordinales et nominales, donc la faute est de moi.
chutsu
5

Comme cela a été mentionné, les moyennes, les écarts-types et les points d'articulation ne sont pas significatifs pour les données catégorielles. Les points charnières (par exemple, la médiane et les quartiles) peuvent être significatifs pour les données ordinales. Votre titre demande également quelles statistiques récapitulatives doivent être utilisées pour décrire les données catégoriques. Il est standard de caractériser les données catégorielles par des nombres et des pourcentages. (Vous pouvez également vouloir inclure un intervalle de confiance de 95% autour des pourcentages.) Par exemple, si vos données étaient:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Vous pouvez les résumer ainsi:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)
gung - Réintégrer Monica
la source
3

Si vous avez des variables nominales, il n'y a pas de fonction d'ordre ou de distance. Alors, comment pourriez-vous définir les statistiques récapitulatives que vous mentionnez? Je ne pense pas que vous puissiez. Les quartiles et la gamme nécessitent au moins une commande et les moyennes et la variance nécessitent des données numériques. Je pense que les graphiques à barres et les graphiques circulaires sont des exemples typiques de la bonne façon de résumer des variables qualitatives qui ne sont pas ordinales.

Michael R. Chernick
la source
3
@PeterFlom Mon but n'était pas d'énumérer toutes les procédures graphiques possibles pour résumer les données qualitatives. Je veux vraiment souligner que c'est vraiment la proportion qui peut être comparée et la façon dont les proportions sont réparties entre les catégories. Pour reconnaître visuellement les différences de proportions, je pense que les graphiques à barres sont plus faciles à visualiser que les graphiques circulaires, mais ce ne sont que deux façons populaires de résumer les données catégorielles. Je ne veux pas dire qu'elles sont les meilleures car je ne connais pas toutes les méthodes disponibles.
Michael R. Chernick
7
Ils sont certainement populaires! Mais je pense que cela fait partie de notre responsabilité, en tant qu'experts dans le domaine, de rendre les graphiques circulaires moins populaires.
Peter Flom - Réintègre Monica
3
Cleveland a montré, premièrement, que les gens perçoivent moins bien la mesure angulaire que la distance linéaire. Deuxièmement, le fait de changer les couleurs d'un graphique à secteurs a changé la perception qu'ont les gens de la taille des tranches. Troisièmement, la rotation du graphique à secteurs a changé la perception qu'ont les gens de la taille des tranches. Quatrièmement, les gens avaient du mal à commander les tranches du plus grand au plus petit, sauf si elles étaient de tailles très différentes. Les tracés de points de Cleveland évitent tout cela.
Peter Flom - Réintègre Monica
6
@Michael "Un tableau est presque toujours meilleur qu'un graphique à secteurs stupide; le seul pire design qu'un graphique à secteurs est plusieurs d'entre eux ... les graphiques à secteurs ne devraient jamais être utilisés." - Tufte. "Les données qui peuvent être montrées par des diagrammes circulaires peuvent toujours être représentées par un diagramme à points. ... dans les années 1920, une bataille a fait rage sur les pages de JASA sur les mérites relatifs des diagrammes circulaires et des diagrammes à barres divisées ... les deux camps perdent parce que d'autres graphiques fonctionnent bien mieux que les diagrammes à barres divisées ou les camemberts. "- Cleveland. Comme vous le savez, Cleveland n'est pas normatif: c'est aussi fort qu'il obtient à propos de n'importe quoi.
whuber
6
BTW, @Michael, je suis d'accord avec vous et les arguments que vous avancez dans ce fil (que je trouve convaincant et bien présenté), mais en tant que modérateur, je dois exprimer les fortes objections exprimées par les membres de la communauté concernant le "ton de la voix" vous adoptez. Veuillez suivre l'étiquette du site: respectez le sujet et n'attaquez pas les autres. N'écrivez même pas des choses qui pourraient ressembler à une attaque, même par plaisanterie. Bien sûr, le même avertissement s'applique à tout le monde.
whuber
2

Le mode fonctionne toujours! N'est-ce pas là une statistique sommaire importante? (Quelle est la catégorie la plus courante?) Je pense que la suggestion médiane a peu ou pas de valeur statistique, mais le mode le fait.

Un décompte distinct serait également utile. (Combien de catégories avez-vous?)

Vous pouvez créer des ratios, comme (catégorie la plus courante) / (catégorie la moins commune) ou (catégorie n ° 1 la plus courante) / (catégorie n ° 2 la plus courante). Aussi (catégorie la plus courante) / (toutes les autres catégories), comme la règle 80/20.

Vous pouvez également attribuer des numéros à vos catégories et devenir fou avec toutes les statistiques habituelles. AA = 1, Hisp = 2, etc. Vous pouvez maintenant calculer la moyenne, la médiane, le mode, SD, etc.

Maddenker
la source
0

J'apprécie les autres réponses, mais il me semble qu'un certain fond topologique donnerait une structure bien nécessaire aux réponses.

Définitions

Commençons par établir les définitions des domaines:

  • La variable catégorielle est une variable dont le domaine contient des éléments, mais il n'y a pas de relation connue entre eux (nous n'avons donc que des catégories). Les exemples dépendent du contexte, mais je dirais que dans le cas général, il est difficile de comparer les jours de la semaine: le lundi est-il avant le dimanche, si oui, qu'en est-il du lundi prochain? Les vêtements sont peut-être un exemple plus facile, mais moins utilisé: sans fournir un contexte qui donnerait un sens à une commande, il est difficile de dire si les pantalons passent avant les pulls ou vice versa.

  • La variable ordinale est celle qui a un ordre total défini sur le domaine, c'est-à-dire que pour tous les deux éléments du domaine, nous pouvons dire qu'ils sont identiques ou que l'un est plus grand que l'autre. Une échelle de Likert est un bon exemple de définition d'une variable ordinale. "plutôt d'accord" est certainement plus proche de "fortement d'accord" que de "pas d'accord".

  • la variable d' intervalle est une, dont le domaine définit les distances entre les éléments (une métrique ), nous permettant ainsi de définir des intervalles.

Exemples de domaine

En tant qu'ensemble le plus courant que nous utilisons, les nombres naturels et réels ont un ordre total et des mesures standard. C'est pourquoi nous devons être prudents lorsque nous attribuons des numéros à nos catégories. Si nous ne faisons pas attention à ne pas tenir compte de l'ordre et de la distance, nous convertissons pratiquement nos données catégorielles en données d'intervalle. Lorsque l'on utilise un algorithme d'apprentissage automatique sans savoir comment il fonctionne, on risque de faire de telles hypothèses à contrecœur, ce qui pourrait invalider ses propres résultats. Par exemple, les algorithmes d'apprentissage en profondeur les plus populaires fonctionnent avec des nombres réels en profitant de leur intervalle et de leurs propriétés continues. Un autre exemple, pensez aux échelles de Likert à 5 points, et comment l'analyse que nous leur appliquons suppose que la distance entre fortement d'accord et d' accordéquivaut à être en désaccord et ni d'accord ni en désaccord . Difficile de justifier une telle relation.

Un autre ensemble avec lequel nous travaillons souvent est celui des cordes . Il existe un certain nombre de métriques de similitude de chaîne qui sont utiles lorsque vous travaillez avec des chaînes. Cependant, ceux-ci ne sont pas toujours utiles. Par exemple, pour les adresses, John Smith Street et John Smith Road sont assez proches en termes de similitude de chaîne, mais représentent évidemment deux entités différentes qui pourraient être éloignées de plusieurs kilomètres.

Statistiques sommaires

Ok, voyons maintenant comment certaines statistiques récapitulatives s'inscrivent dans ce domaine. Comme les statistiques fonctionnent avec des nombres, ses fonctions sont bien définies sur des intervalles. Mais voyons des exemples pour savoir si / comment nous pourrions les généraliser à des données catégorielles ou ordinales:

  • mode - à la fois lorsque vous travaillez avec des données catégorielles et ordinales, nous pouvons dire quel élément est le plus fréquemment utilisé. Nous avons donc ceci. Ensuite, nous pouvons également dériver toutes les autres mesures que @Maddenker énumère dans leur réponse. L'intervalle de confiance de @ gung pourrait également être utile.
  • médiane - comme le dit @ peter-flom, tant que vous avez une commande, vous pouvez dériver votre médiane.
  • moyenne , mais aussi l'écart type, les centiles, etc. - vous ne les obtenez qu'avec des données d'intervalle, en raison de la nécessité d'une mesure de distance.

Exemple de contextualité des données

À la fin, je tiens à souligner à nouveau que l'ordre et les mesures que vous définissez sur vos données sont très contextuels. Cela devrait être évident maintenant, mais permettez-moi de vous donner un dernier exemple: lorsque vous travaillez avec des emplacements géographiques, nous avons beaucoup de façons différentes de les aborder:

  • si nous nous intéressons à la distance qui les sépare, nous pouvons travailler avec leur géolocalisation, ce qui nous donne essentiellement un espace numérique bidimensionnel, donc intervalle.
  • si nous sommes intéressés par leur partie de relation, nous pouvons définir un ordre total (par exemple une rue fait partie d'une ville, deux villes sont égales, un continent contient un pays)
  • si nous voulons savoir si deux chaînes représentent la même adresse, nous pourrions travailler avec une certaine distance de chaîne qui tolérerait les fautes d'orthographe et les positions de permutation des mots, mais assurez-vous de distinguer les différents termes et noms. Ce n'est pas une chose facile, mais juste pour faire le cas.
  • Il existe de nombreux autres cas d'utilisation, que nous rencontrons tous quotidiennement, où rien de tout cela n'a de sens. Dans certains d'entre eux, il n'y a rien de plus à faire que de traiter les adresses comme de simples catégories différentes, dans d'autres, il s'agit d'une modélisation et d'un prétraitement des données très intelligents.
carte pour
la source