Qu'entend-on par distribution catégorique?

11

Est-ce que ce type de distribution distinct (EX: Binomial, bernoulli, Multinomial) ou toute distribution peut être représentée de cette façon. Quelqu'un peut-il élaborer avec un exemple simple

subha
la source

Réponses:

11

La distribution catégorique est la généralisation de la distribution de Bernoulli à un nombre fixe de résultats.2k

De manière équivalente, c'est le cas particulier de la distribution multinomiale où le nombre de "choix" est fixé à un.n

Par conséquent, il a pdf:

je=1kpjeXje(où 0pje et jepje=1)
Xje{0,1}
nje=1kXje=1.

En résumé, Bernoulli a , binomial a , multinomial a et catégorique a .k = 2 , n 1 k 2 , n 1 k 2 , n = 1k=2,n=1k=2,n1k2,n1k2,n=1

Neil G
la source
est-ce nécessaire, xi = 0,1. Ça ne peut pas être plus que ça.
subha
@subha: Ma compréhension de la distribution catégorique est la même. Pour multinomial et binomial, cela peut bien sûr être le cas.
Neil G
5

Les variables catégorielles ont des ensembles finis de valeurs discrètes. Les exemples incluent le sexe (masculin / féminin), le pays, la planète, etc. Comparez cela avec des variables continues, qui peuvent prendre un nombre infini de valeurs différentes. Les exemples incluent le poids, la longitude, la distance, etc.

Notez que des informations similaires peuvent parfois être exprimées de manière catégorique et continue; par exemple, planet = earthpourrait être exprimé comme distance to sun = 1 astronomical unit ≈ 150 million kilometers. Cependant, il n'y a vraiment aucun moyen d'exprimer 200 millions de kilomètres du soleil en termes de planètes, car il n'y a pas de planète là-bas (Mars est à 228 millions de kilomètres du soleil). Idem pour 201 millions de km, 202, etc. Tout ce que vous pourriez dire sur ces distances en termes de planètes est planet = none; vous ne pourriez pas dire planet = 4/3×earthou .88×Mars, car il n'y a aucun moyen significatif de multiplier une planète ou toute autre variable catégorielle. En termes de planètes, ces distances seraient indiscernables, mais bien sûr, elles ont un sens en tant que distances distinctes du soleil lorsqu'elles sont exprimées en tant que telles - en tant que variable continue.

On peut également exprimer des variables continues avec une précision arbitraire (par exemple, une unité astronomique est 149 597 871 km, pas exactement 150 millions de km). Inversement, il n'y a aucun moyen d'exprimer planet = earthplus précisément; La terre est exactement la terre, ni plus ni moins. En outre, il ne serait pas logique de dire qu'une autre planète est "plus" ou "moins" que la Terre si elle planetest une variable nominale. Il pourrait être codé comme une variable ordonnée (ordinale) - les planètes sont ordonnées en termes de distance au soleil, de volume, de nombre de lunes, etc. mais pas catégorique), mais pas en termes de planètes. Par exemple, si les planètes sont commandées par la distance du soleil ou par le nombre de lunes, mars > earth > venus. Si les planètes sont ordonnées par volume,earth > venus > mars. Il n'est pas nécessaire de classer les variables catégorielles, et certaines ne peuvent peut-être pas être classées, mais l'ajout de l'ordre ne les rend pas moins catégoriques.

Comme le dit Wikipedia, les distributions catégorielles sont des généralisations de la distribution de Bernoulli à plus de deux valeurs possibles (la distribution de Bernoulli est strictement binaire). La distribution de Bernoulli est également un cas spécial de la distribution binomiale, mais je n'appellerais pas la distribution binomiale catégorique (elle est discrète, mais une variable de comptage, donc les distances entre les valeurs sont définies). Les distributions multinomiales peuvent être confondues avec des distributions catégorielles, mais Wikipedia met en garde contre cela .

Nick Stauner
la source