Juste pour clarifier, quand je veux parler de statistiques sommaires, je me réfère à la gamme moyenne, quartile médian, variance, écart-type.
En résumant une univariée qui est catégorique ou qualitative , compte tenu des cas nominaux et ordinaux , est-il logique de trouver sa moyenne, sa médiane, ses plages de quartile, sa variance et son écart-type?
Si c'est le cas, est-ce différent que si vous résumiez une variable continue, et comment?
Réponses:
En général, la réponse est non. Cependant, on pourrait faire valoir que vous pouvez prendre la médiane des données ordinales, mais vous aurez, bien sûr, une catégorie comme médiane, pas un nombre. La médiane divise les données également: moitié au-dessus, moitié au-dessous. Les données ordinales dépendent uniquement de la commande.
En outre, dans certains cas, l'ordinalité peut être transformée en données de niveau d'intervalle approximatif. Cela est vrai lorsque les données ordinales sont regroupées (par exemple, des questions sur le revenu sont souvent posées de cette façon). Dans ce cas, vous pouvez trouver une médiane précise et vous pouvez être en mesure d'approximer les autres valeurs, en particulier si les limites inférieure et supérieure sont spécifiées: vous pouvez assumer une certaine distribution (par exemple uniforme) au sein de chaque catégorie. Un autre cas de données ordinales qui peuvent être faites à intervalle est lorsque les niveaux reçoivent des équivalents numériques. Par exemple: jamais (0%), parfois (10-30%), environ la moitié du temps (50%) et ainsi de suite.
Pour (encore une fois) citer David Cox:
la source
Comme cela a été mentionné, les moyennes, les écarts-types et les points d'articulation ne sont pas significatifs pour les données catégorielles. Les points charnières (par exemple, la médiane et les quartiles) peuvent être significatifs pour les données ordinales. Votre titre demande également quelles statistiques récapitulatives doivent être utilisées pour décrire les données catégoriques. Il est standard de caractériser les données catégorielles par des nombres et des pourcentages. (Vous pouvez également vouloir inclure un intervalle de confiance de 95% autour des pourcentages.) Par exemple, si vos données étaient:
Vous pouvez les résumer ainsi:
la source
Si vous avez des variables nominales, il n'y a pas de fonction d'ordre ou de distance. Alors, comment pourriez-vous définir les statistiques récapitulatives que vous mentionnez? Je ne pense pas que vous puissiez. Les quartiles et la gamme nécessitent au moins une commande et les moyennes et la variance nécessitent des données numériques. Je pense que les graphiques à barres et les graphiques circulaires sont des exemples typiques de la bonne façon de résumer des variables qualitatives qui ne sont pas ordinales.
la source
Le mode fonctionne toujours! N'est-ce pas là une statistique sommaire importante? (Quelle est la catégorie la plus courante?) Je pense que la suggestion médiane a peu ou pas de valeur statistique, mais le mode le fait.
Un décompte distinct serait également utile. (Combien de catégories avez-vous?)
Vous pouvez créer des ratios, comme (catégorie la plus courante) / (catégorie la moins commune) ou (catégorie n ° 1 la plus courante) / (catégorie n ° 2 la plus courante). Aussi (catégorie la plus courante) / (toutes les autres catégories), comme la règle 80/20.
Vous pouvez également attribuer des numéros à vos catégories et devenir fou avec toutes les statistiques habituelles. AA = 1, Hisp = 2, etc. Vous pouvez maintenant calculer la moyenne, la médiane, le mode, SD, etc.
la source
J'apprécie les autres réponses, mais il me semble qu'un certain fond topologique donnerait une structure bien nécessaire aux réponses.
Définitions
Commençons par établir les définitions des domaines:
La variable catégorielle est une variable dont le domaine contient des éléments, mais il n'y a pas de relation connue entre eux (nous n'avons donc que des catégories). Les exemples dépendent du contexte, mais je dirais que dans le cas général, il est difficile de comparer les jours de la semaine: le lundi est-il avant le dimanche, si oui, qu'en est-il du lundi prochain? Les vêtements sont peut-être un exemple plus facile, mais moins utilisé: sans fournir un contexte qui donnerait un sens à une commande, il est difficile de dire si les pantalons passent avant les pulls ou vice versa.
La variable ordinale est celle qui a un ordre total défini sur le domaine, c'est-à-dire que pour tous les deux éléments du domaine, nous pouvons dire qu'ils sont identiques ou que l'un est plus grand que l'autre. Une échelle de Likert est un bon exemple de définition d'une variable ordinale. "plutôt d'accord" est certainement plus proche de "fortement d'accord" que de "pas d'accord".
la variable d' intervalle est une, dont le domaine définit les distances entre les éléments (une métrique ), nous permettant ainsi de définir des intervalles.
Exemples de domaine
En tant qu'ensemble le plus courant que nous utilisons, les nombres naturels et réels ont un ordre total et des mesures standard. C'est pourquoi nous devons être prudents lorsque nous attribuons des numéros à nos catégories. Si nous ne faisons pas attention à ne pas tenir compte de l'ordre et de la distance, nous convertissons pratiquement nos données catégorielles en données d'intervalle. Lorsque l'on utilise un algorithme d'apprentissage automatique sans savoir comment il fonctionne, on risque de faire de telles hypothèses à contrecœur, ce qui pourrait invalider ses propres résultats. Par exemple, les algorithmes d'apprentissage en profondeur les plus populaires fonctionnent avec des nombres réels en profitant de leur intervalle et de leurs propriétés continues. Un autre exemple, pensez aux échelles de Likert à 5 points, et comment l'analyse que nous leur appliquons suppose que la distance entre fortement d'accord et d' accordéquivaut à être en désaccord et ni d'accord ni en désaccord . Difficile de justifier une telle relation.
Un autre ensemble avec lequel nous travaillons souvent est celui des cordes . Il existe un certain nombre de métriques de similitude de chaîne qui sont utiles lorsque vous travaillez avec des chaînes. Cependant, ceux-ci ne sont pas toujours utiles. Par exemple, pour les adresses, John Smith Street et John Smith Road sont assez proches en termes de similitude de chaîne, mais représentent évidemment deux entités différentes qui pourraient être éloignées de plusieurs kilomètres.
Statistiques sommaires
Ok, voyons maintenant comment certaines statistiques récapitulatives s'inscrivent dans ce domaine. Comme les statistiques fonctionnent avec des nombres, ses fonctions sont bien définies sur des intervalles. Mais voyons des exemples pour savoir si / comment nous pourrions les généraliser à des données catégorielles ou ordinales:
Exemple de contextualité des données
À la fin, je tiens à souligner à nouveau que l'ordre et les mesures que vous définissez sur vos données sont très contextuels. Cela devrait être évident maintenant, mais permettez-moi de vous donner un dernier exemple: lorsque vous travaillez avec des emplacements géographiques, nous avons beaucoup de façons différentes de les aborder:
la source