J'ai remarqué en bricolant avec un modèle de régression multivariée qu'il y avait un effet de multicolinéarité petit mais notable, mesuré par les facteurs d'inflation de la variance, dans les catégories d'une variable catégorielle (après avoir exclu la catégorie de référence, bien sûr).
Par exemple, supposons que nous ayons un ensemble de données avec une variable continue y et une variable catégorielle nominale x qui a k possibles valeurs mutuellement exclusives. Nous codons ces valeurs possibles en tant que variables factices 0/1 . Ensuite, nous exécutons un modèle de régression y = b_0 + b_1x_1 + b_2x_2 + \ dots + b_ {k-1} x_ {k-1} . Les scores VIF pour les variables fictives se révèlent être non nuls. En fait, à mesure que le nombre de catégories augmente, les VIF augmentent. Le centrage des variables factices ne semble pas modifier les VIF.
L'explication intuitive semble être que la condition mutuellement exclusive des catégories au sein de la variable catégorielle provoque cette légère multicolinéarité. Est-ce une constatation triviale ou est-ce un problème à considérer lors de la construction de modèles de régression avec des variables catégorielles?