Quelles sont les bonnes statistiques de base à utiliser pour les données ordinales?

67

J'ai quelques données ordinales obtenues à partir de questions d'enquête. Dans mon cas, ce sont des réponses de type Likert (fortement en désaccord - en désaccord - neutre - en accord - en parfait accord). Dans mes données, ils sont codés 1-5.

Je ne pense pas que les moyens signifient beaucoup ici, alors quelles statistiques sommaires de base sont considérées utiles?

PaulHurleyuk
la source
2
Les choix courants incluent - les médianes, les modes, les proportions ou les proportions cumulatives dans chaque groupe
Glen_b

Réponses:

29

Une table de fréquences est un bon point de départ. Vous pouvez faire le compte et la fréquence relative pour chaque niveau. En outre, le nombre total et le nombre de valeurs manquantes peuvent être utiles.

Vous pouvez également utiliser un tableau de contingence pour comparer deux variables à la fois. Peut afficher en utilisant un tracé de mosaïque aussi.

Neil McGuigan
la source
32

Je vais faire valoir d'un point de vue appliqué que la moyenne est souvent le meilleur choix pour résumer la tendance centrale d'un élément de Likert. En particulier, je pense à des contextes tels que les enquêtes de satisfaction des étudiants, les échelles d’études de marché, les enquêtes d’opinion des employés, les tests de personnalité et de nombreux éléments d’enquêtes en sciences sociales.

Dans de tels contextes, les consommateurs de recherche veulent souvent des réponses à des questions telles que:

  • Quelles déclarations ont plus ou moins d'accord avec les autres?
  • Quels groupes sont plus ou moins d'accord avec une déclaration donnée?
  • Au fil du temps, l'accord at-il augmenté ou diminué?

À ces fins, la moyenne présente plusieurs avantages:

1. La moyenne est facile à calculer:

  • Il est facile de voir la relation entre les données brutes et la moyenne.
  • C'est pragmatiquement facile à calculer. Ainsi, la moyenne peut être facilement intégrée aux systèmes de reporting.
  • Cela facilite également la comparabilité entre les contextes et les paramètres.

2. La moyenne est relativement bien comprise et intuitive:

  • La moyenne est souvent utilisée pour signaler la tendance centrale des éléments de Likert. Ainsi, les consommateurs de recherche sont plus susceptibles de comprendre le moyen (et donc de lui faire confiance et d’agir en conséquence).
  • Certains chercheurs préfèrent l'option, encore plus intuitive, de rapporter le pourcentage de l'échantillon répondant à 4 ou 5, c'est-à-dire qu'elle a l'interprétation relativement intuitive de "pourcentage d'accord". En substance, il ne s’agit que d’une forme alternative de la moyenne, avec 0, 0, 0, 1, 1codage.
  • De plus, avec le temps, les consommateurs de recherche construisent des cadres de référence. Par exemple, lorsque vous comparez vos performances d'enseignement d'une année à l'autre ou d'une matière à l'autre, vous créez une idée nuancée de ce que signifie une moyenne de 3,7, 3,9 ou 4,1.

3. La moyenne est un nombre unique:

  • Un numéro unique est particulièrement utile lorsque vous souhaitez faire des affirmations telles que "les étudiants étaient plus satisfaits de la matière X que de la matière Y".
  • De manière empirique, j’ai également constaté qu’un seul nombre est en réalité la principale information intéressante d’un élément de Likert. L’écart type tend à être lié au degré auquel la moyenne est proche du score central (par exemple, 3,0). Bien sûr, empiriquement, cela peut ne pas s'appliquer dans votre contexte. Par exemple, j'ai lu quelque part que, lorsque You Tube avait le système en étoile, il y avait un grand nombre d’évaluations les plus basses ou les plus élevées. Pour cette raison, il est important d'inspecter les fréquences de catégorie.

4. Cela ne fait pas beaucoup de différence

  • Bien que je ne l'aie pas formellement testé, je suppose que, dans le but de comparer les évaluations de tendance centrales d'un élément ou d'un groupe de participants à un autre, ou au fil du temps, tout choix raisonnable d'échelle pour générer la moyenne conduirait à des conclusions similaires.
Jeromy Anglim
la source
4
Belle publication! Avez-vous des idées sur la manière dont les différentes cultures / pays pourraient utiliser des échelles de type Likert qui auraient un impact considérable sur ce type de résultats?
Chase
@chase Des recherches sont en cours à ce sujet, mais cela fait longtemps que je ne les ai pas examinées. Voici un exemple de recherche sur Google scholar scholar.google.com.au/…
Jeromy Anglim
Je suis d' accord avec M. Jeromy justification de Anglim sur l'utilisation de la moyenne (c. -à- moyenne pondérée pour être exact) comme le plus fiable impartiale interprétation plus descriptive des variables ordonnées telles que l'utilisation de l' échelle Likert où chacun des points de données contribuent à la moyenne finale.
28

En ce qui concerne les résumés de base, je conviens que les tableaux de fréquence de notification et certaines indications sur la tendance centrale sont satisfaisants À titre de déduction, un article récent publié dans PARE traitait du test t vs MWW, des éléments de Likert à cinq points: test t versus Mann-Whitney-Wilcoxon .

Pour un traitement plus élaboré, je recommanderais de lire la critique d’Agresti sur les variables catégorielles ordonnées:

Liu, Y et Agresti, A (2005). L'analyse des données catégorielles ordonnées: un aperçu et une enquête sur les développements récents . Test de la Sociedad de Estadística e Investigación Operativa , 14 (1), 1-73.

Il va largement au-delà des statistiques habituelles, comme le modèle basé sur des seuils (par exemple, le rapport de cotes proportionnel), et mérite d'être lu à la place du livre CDA d'Agresti .

Ci-dessous, je montre une image de trois façons différentes de traiter un article Likert; de haut en bas, la vue "fréquence" (nominale), la vue "numérique" et la vue "probabiliste" ( modèle de crédit partiel ):

texte alternatif

Les données proviennent des Sciencedonnées du ltmpaquet, dans lesquelles l'élément concerné concernait la technologie ("Les nouvelles technologies ne dépendent pas de la recherche scientifique fondamentale", avec une réponse "totalement en désaccord" sur "fortement d'accord", sur une échelle de quatre points)

chl
la source
14

La pratique conventionnelle consiste à utiliser la somme et le rang moyen des statistiques non paramétriques pour décrire les données ordinales.

Voici comment ils fonctionnent:

Rank Sum

  • attribuer un rang à chaque membre de chaque groupe;

  • Par exemple, supposons que vous cherchiez des buts pour chaque joueur de deux équipes de football adverses, puis que chaque membre des deux équipes soit classé dans l'ordre des buts ;

  • calculer la somme des rangs en additionnant les rangs par groupe ;

  • l'ampleur de la somme de rangs vous indique à quel point les rangs sont rapprochés pour chaque groupe

Rang moyen

M / R est une statistique plus sophistiquée que R / S car elle compense les tailles inégales dans les groupes que vous comparez. Par conséquent, en plus des étapes ci-dessus, vous divisez chaque somme par le nombre de membres du groupe.

Une fois que vous avez ces deux statistiques, vous pouvez, par exemple, z-tester la somme de rang pour voir si la différence entre les deux groupes est statistiquement significative (je crois que cela s'appelle le test de Wilcoxon rank sum , qui est interchangeable, c'est-à-dire équivalent au test U de Mann-Whitney).

R Fonctions pour ces statistiques (celles que je connais, en tout cas):

wilcox.test dans l'installation standard de R

meanranks dans le pédaliers Package

doug
la source
3

Basé sur le résumé Cet article peut être utile pour comparer plusieurs variables qui sont à l’échelle de Likert. Il compare deux types de tests de comparaison multiples non paramétriques: l'un basé sur les rangs et l'autre sur un test de Chacko. Il comprend des simulations.

Peter Flom - Rétablir Monica
la source
À l'heure actuelle, cela ressemble presque à un commentaire, @PeterFlom. Bien que la bibliothèque numérique ACM soit probablement moins exposée à la pourriture de liens, pourriez-vous nous dire quelque chose au sujet de l'article, peut-être en quelques mots sur les informations utiles qu'il fournit?
gung - Réintégrez Monica
2
Bonjour @gung Je ne savais pas trop où mettre le commentaire dans ce long fil. J'ai ajouté la cite ici car la question posée aujourd'hui était close et cet article semble utile (et couvre des problèmes que je n'ai jamais vus ailleurs)
Peter Flom - Réintégrer Monica
2

J'aime généralement utiliser l'intrigue en mosaïque. Vous pouvez les créer en incorporant d'autres covariables d'intérêt (telles que: sexe, facteurs stratifiés, etc.).

Théorie de Galois
la source
2

Je suis d'accord avec l'évaluation de Jeromy Anglim. N'oubliez pas que les réponses de Likert sont des estimations: vous n'utilisez pas de règle parfaitement fiable pour mesurer un objet physique dont les dimensions sont stables. La moyenne est une mesure puissante lorsqu’on utilise des échantillons de taille raisonnable.

Dans la R & D des entreprises et des produits, la moyenne est de loin la statistique la plus utilisée avec les échelles de Likert. Lors de l'utilisation des échelles de Likert, j'ai généralement choisi une mesure qui correspond parfaitement à la question de recherche. Par exemple, si vous parlez de "préférence" ou d '"attitudes", vous pouvez utiliser plusieurs indicateurs basés sur Likert, chaque indicateur fournissant un aperçu légèrement différent.

iX

VARNOLD
la source
1

Les "scores en boîte" sont souvent utilisés pour résumer des données ordinales, en particulier lorsqu'il s'agit d'ancres verbaux significatifs. En d'autres termes, vous pouvez indiquer "2 cases supérieures", le pourcentage ayant choisi "d'accord" ou "tout à fait d'accord".

Jonathan
la source