«Variable fictive» versus «variable indicatrice» pour les données nominales / catégorielles

«Variable factice» et «variable indicatrice» sont des termes fréquemment utilisés pour décrire l'appartenance à une catégorie avec un codage 0/1; généralement 0: pas un membre de la catégorie, 1: membre de la catégorie.

Le 26/11/2014, une recherche rapide sur scholar.google.com (avec guillemets inclus) révèle que "variable fictive" est utilisée dans environ 318 000 articles, et "variable indicatrice" est utilisée dans environ 112 000 articles. Le terme "variable fictive" a également une signification dans les mathématiques non statistiques de " variable liée " qui contribue probablement à une plus grande utilisation de "variable fictive" dans les articles indexés.

Mes questions liées à l'actualité:

Ces termes sont-ils toujours synonymes (dans les statistiques)?
Sont l' un de ces termes jamais appliquées à d' autres acceptablement formes de codage catégoriques (par exemple , effectuer le codage , le codage Helmert, etc. )?
Quelles sont les raisons statistiques ou disciplinaires de préférer un terme à l'autre?

categorical-data terminology categorical-encoding Alexis
la source

J'ai tendance à utiliser "variable indicatrice" pour les conditions binaires, par exemple le sexe peut être codé comme maleavec des valeurs 1ou 0. S'il existe une variable catégorielle avec plus de 2 catégories qui est ensuite développée en variables d'indicateur pour l'appartenance à chaque niveau, j'utiliserais des "variables factices" pour décrire cet ensemble de variables d'indicateur.

Gregor - réintègre Monica

Je pense que vous voulez dire que le sexe peut être codé comme 1 ou 0, le genre est une construction beaucoup plus compliquée. (d'ailleurs le sexe peut aussi être plus compliqué);)

Alexis

point bien pris, édité en sex.

Gregor - réintègre Monica

J'ai tendance à appeler une telle variable indicatrice male, où 1 signifie vrai (dans ce cas, masculin) et 0 signifie faux (dans ce cas, féminin). Si j'utilise le nom de la variable, sexje devrai chercher comment j'ai codé cette variable chaque fois que je reviens à cet ensemble de données.

Maarten Buis

J'ai entendu diverses histoires de "variable fictive" être sauvagement et malheureusement mal interprétées par des publics non techniques comme impliquant le dédain ou le dénigrement. Ils étaient assez embarrassants et convaincants pour me retourner contre le terme. "indicateur" est pour moi clair et simple.

Nick Cox

Réponses:

Je dirais que «variable fictive» est une façon plus générale de faire référence à (une des) variable (s) numérique (s) qui représentent (représentent ensemble) un prédicteur catégorique; par conséquent, le terme s'applique également à ceux utilisés dans le codage Helmert & effect ^† . Cela est principalement dû à l'utilisation générale de "factice" pour signifier "stand-in". «Variable d'indicateur» Je me rapporte aux fonctions d'indicateur ^‡ — donc celles-ci ne peuvent être qu'un ou zéro pour indiquer avoir ou non une propriété; par conséquent, le terme ne s'applique qu'à ceux utilisés dans le codage de niveau de référence ^※ . Bien sûr, certaines personnes utilisent "codage factice" pour signifier "codage au niveau de référence"; ils ont vraisemblablement une définition plus restreinte des "variables muettes", ou du moins devraient avoir.

† Et si vous n'appelez pas ces "nuls", comment les appelez-vous?

$x_i$ $i$ $u_i$ $M$

x_{i} = 1_{M} (u_{i}) = {\begin{cases} 1 & w h e n u_{i} \in M \\ 0 & w h e n u_{i} \notin M \end{cases}

$x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$

$\boldsymbol{1}_M(\cdot)$ $M$

※ Ou, comme l'a souligné @gung, le codage de niveau signifie.

Scortchi - Réintégrer Monica
la source

Huh ... pouvez-vous fournir des liens vers des ressources motivant cela? D'après mon expérience, la "variable factice" est beaucoup utilisée pour le codage 0/1. Je ne suis pas sûr d'avoir vu un mannequin utilisé comme vous le suggérez et je sais que d'autres l'utilisent dans un sens opposé. Par exemple, Alkharusi, H. (2012) «Variables catégorielles dans l'analyse de régression: une comparaison du codage factice et des effets», International Journal of Education 4 (2): 202–210.

Alexis

Je n'ai pas dit que "variable fictive" n'est pas utilisée pour le codage 0/1, mais simplement qu'elle peut être utilisée dans un sens plus général.

Scortchi - Réintégrer Monica

En effet, le document même que vous citez dit qu'en utilisant le codage par effet, "les variables factices prennent les valeurs 1, 0 et -1". (Bien sûr, je pense qu'ils auraient dû appeler «codage factice» quelque chose d'autre s'ils voulaient dire cela.)

Scortchi - Réintégrer Monica

Vous avez ... quant à la question de votre exposant poignardé, j'ai tendance à les appeler "variables catégoriques utilisant le codage XXX".

Alexis

Le point est mieux fait par Knuth dans arxiv.org/abs/math/9205211 Il attribue l'idée à KE Iverson. En bref, nous n'avons pas besoin d'inventer ou d'invoquer une fonction d'indicateur mais suivons dans une discussion formelle ce que notre logiciel fait pour nous.

Nick Cox

$k$ $k$ $1$ ) Lorsqu'il n'y a qu'une seule variable catégorielle, cela donne une sortie de modèle d'une manière qui est simple et peut être préférée par certaines personnes. (Pour un exemple où l'utilisation de ce schéma facilite les comparaisons d'intérêts, voir ma réponse ici: pourquoi les valeurs estimées d'un meilleur prédicteur linéaire sans biais (BLUP) diffèrent-elles d'un meilleur estimateur linéaire sans biais (BLUE)? )

gung - Réintégrer Monica
la source