Je fais des calculs sur différentes matrices (principalement dans la régression logistique) et je reçois généralement l'erreur "Matrix is singular", où je dois revenir en arrière et supprimer les variables corrélées. Ma question est la suivante: que considéreriez-vous comme une matrice "fortement" corrélée? Existe-t-il une valeur seuil de corrélation pour représenter ce mot? Comme si une variable avait une corrélation de 0,97 avec une autre, est-ce assez élevé pour rendre une matrice singulière?
Excuses si la question est très basique, je n’ai trouvé aucune référence parlant de cette question (une allusion à une référence serait un gros plus!).
regression
correlation
matrix
multicollinearity
singular
Erreur 404
la source
la source
Réponses:
Quelle est la matrice singulière?
Une matrice carrée est singulière, c'est-à-dire que son déterminant est égal à zéro si elle contient des lignes ou des colonnes proportionnellement interdépendantes; en d'autres termes, une ou plusieurs de ses lignes (colonnes) peuvent être exactement exprimées sous la forme d'une combinaison linéaire de tout ou partie de ses autres lignes (colonnes), la combinaison étant sans terme constant.
La matrice singulière ou quasi-singulière est souvent appelée matrice "mal conditionnée" car elle pose des problèmes dans de nombreuses analyses de données statistiques.
Quelles données produisent une matrice de corrélation singulière de variables?
À quelles données multivariées doivent ressembler pour que leur matrice de corrélation ou de covariance soit une matrice singulière décrite ci-dessus? C'est quand il y a des interdépendances linéaires entre les variables. Si une variable est une combinaison linéaire exacte des autres variables, le terme constant étant autorisé, les matrices de corrélation et de covariance des variables seront singulières. La dépendance observée dans une telle matrice entre ses colonnes correspond en fait à la même dépendance que la dépendance entre les variables observées après que les variables ont été centrées (leur moyenne est ramenée à 0) ou normalisées (si on utilise la corrélation plutôt que la matrice de covariance).
Certaines situations particulières fréquentes où la matrice de corrélation / covariance des variables est singulière sont les suivantes: (1) le nombre de variables est égal ou supérieur au nombre d'observations; (2) Deux variables ou plus se résument à une constante; (3) Deux variables sont identiques ou ne diffèrent que par la moyenne (niveau) ou la variance (échelle).
De plus, la duplication d'observations dans un jeu de données mènera la matrice vers la singularité. Plus vous clonez un cas, plus la singularité est proche. Ainsi, lors de l'imputation de valeurs manquantes, il est toujours avantageux (du point de vue statistique et mathématique) d'ajouter du bruit aux données imputées.
La singularité comme colinéarité géométrique
Du point de vue géométrique, la singularité est (multi) colinéarité (ou "complanarité"): les variables affichées sous forme de vecteurs (flèches) dans l’espace se situent dans l’espace de la dimensionnalité inférieur au nombre de variables - dans un espace réduit. (Cette dimensionnalité est connue sous le nom de rang de la matrice; elle est égale au nombre de valeurs propres non nulles de la matrice.)
Dans une vue géométrique plus lointaine ou "transcendantale", la singularité ou la définition zéro (présence de valeur propre nulle) est le point de flexion entre la définition positive et la définition non positive d'une matrice. Lorsque certains des vecteurs-variables (qui est la matrice de corrélation / covariance) "vont au-delà" même dans l'espace euclidien réduit - de sorte qu'ils ne peuvent plus "converger" ou "parfaitement couvrir" l' espace euclidien , une définition non positive apparaît , c’est-à-dire que certaines valeurs propres de la matrice de corrélation deviennent négatives. (Voir à propos de la matrice définie non positive, alias non-gramian ici .) La matrice définie non positive est également "mal conditionnée" pour certains types d'analyse statistique.
La colinéarité en régression: une explication géométrique et ses implications
Colinéarité en fonction de la matrice entière
Même une forte corrélation entre deux variables, si elle est inférieure à 1, ne rend pas nécessairement toute la matrice de corrélation singulière; cela dépend aussi des corrélations de repos. Par exemple cette matrice de corrélation:
a déterminant
.00950
qui est encore suffisamment différent de 0 pour être considéré comme éligible dans de nombreuses analyses statistiques. Mais cette matrice:a déterminant
.00010
, un degré plus proche de 0.Diagnostic de la colinéarité: lecture complémentaire
Les analyses de données statistiques, telles que les régressions, intègrent des indices et des outils spéciaux pour détecter une colinéarité suffisamment puissante pour envisager de supprimer certaines variables ou certains cas de l'analyse, ou pour mettre en œuvre d'autres moyens de guérison. Veuillez rechercher (y compris ce site) des "diagnostics de colinéarité", "multicolinéarité", "tolérance de singularité / colinéarité", "indices de condition", "proportions de décomposition de la variance", "facteurs de variance de l'inflation (VIF)".
la source