Comment puis-je déterminer si les données catégorielles sont normalement distribuées?

Les données catégorielles ne proviennent pas d'une distribution normale.

La distribution normale n'a de sens que si vous traitez au moins des données d'intervalle, et la distribution normale est continue et sur toute la ligne réelle. Si l'une de ces affirmations n'est pas vraie, vous n'avez pas besoin d'examiner la distribution des données pour conclure qu'elle n'est pas conforme à la normalité.

[Notez que si ce n'est pas un intervalle, vous avez des problèmes plus importants que ceux associés en supposant une forme de distribution, car même le calcul d'une moyenne implique que vous avez une échelle d'intervalle. Pour dire que "High" + "Very Low" = "Medium" + "Low" et "Very High" + "Medium" = "High" + "High" (c'est-à-dire exactement le genre de chose que vous devez tenir pour commencer même en ajoutant des valeurs en premier lieu), vous êtes obligé de supposer une échelle d'intervalle à ce point.]

Il serait quelque peu rare d'avoir des échantillons d'apparence normale même raisonnablement approximatifs avec des données de rapport réelles, car les données de rapport sont généralement non négatives et généralement quelque peu asymétriques.

Lorsque vos mesures sont catégoriques, ce n'est pas tant que vous ne pouvez pas les «vérifier» car cela n'a généralement aucun sens de le faire - vous savez déjà que ce n'est pas un échantillon d'une distribution normale. En effet, l'idée d'essayer même n'a aucun sens dans le cas de données nominales, puisque les catégories n'ont même pas d'ordre! [La seule distribution invariante à un réarrangement arbitraire de l'ordre serait un uniforme discret.]

Si vos données sont classées par catégorie, les intervalles sont arbitraires, et encore une fois, nous nous retrouvons avec une notion avec laquelle nous ne pouvons pas vraiment faire grand-chose; des notions encore plus simples comme la symétrie ne résistent pas vraiment aux changements arbitraires des intervalles.

Pour commencer à envisager une normalité même approximative, nous devons au moins supposer que nos catégories sont des intervalles / ont des «scores» fixes et connus.

Mais en tout cas, la question "est-ce normal?" n'est pas vraiment une question utile de toute façon - depuis quand des données réelles sont-elles vraiment échantillonnées à partir d'une distribution normale ?

[Il peut y avoir des situations dans lesquelles il pourrait être utile de considérer si les catégories ordonnées ont une variable sous-jacente (latente) avec (disons) une distribution normale, mais c'est un tout autre type de considération.]

George Box suggère une question plus utile:

N'oubliez pas que tous les modèles sont faux; la question pratique est de savoir à quel point elles doivent être erronées pour ne pas être utiles.

(Je crois que c'est dans Box and Draper, avec son aphorisme plus connu.)

Si vous aviez des données discrètes qui étaient au moins à intervalles et avaient un bon nombre de catégories, il pourrait être judicieux de vérifier qu'elles n'étaient pas fortement asymétriques, par exemple, mais vous ne croiriez pas qu'elles proviennent d'une population normale - ça ne peut pas être.

Pour certaines procédures inférentielles, la normalité réelle peut ne pas être particulièrement importante, en particulier pour des échantillons de plus grande taille.

Glen_b -Reinstate Monica
la source

Mais comment puis-je vérifier la normalité des données catégorielles nominales requises pour le test z pour les proportions? Ici, il est indiqué que la distribution normale devrait être normale: newonlinecourses.science.psu.edu/stat414/node/268

vasili111

Ne confondez pas les catégories avec le nombre de valeurs dans ces catégories. Un ensemble de réponses catégoriques comme "rouge, bleu, rose, bleu ..." ne peut pas être normal. Cependant, le décompte dans les catégories est une autre histoire. Un ensemble spécifique de dénombrements dans les catégories peut (compte tenu de quelques hypothèses simples) être modélisé comme une distribution multinomiale qui, si les dénombrements attendus ne sont pas trop faibles, peut être bien approchée comme une normale multivariée (dégénérée). Avec un test z pour les proportions - 2 résultats - le dénombrement dans l'un ou l'autre résultat (compte tenu des hypothèses) sera binomial (et donc approximativement normal avec un grand n).

Glen_b -Reinstate Monica

Comment puis-je déterminer si les données catégorielles sont normalement distribuées?

Réponses: