Quel est un exemple de colinéarité parfaite en termes de matrice de conception ?
Je voudrais un exemple où β = ( X ' X ) - 1 X ' Y ne peut pas être estimée parce que ( X ' X ) n'est pas inversible.
regression
multicollinearity
matrix
matrix-inverse
TsTeaTime
la source
la source
Réponses:
Voici un exemple avec 3 variables,y , x1 et x2 , liées par l'équation
oùε∼N(0,1)
Les données particulières sont
Il est donc évident quex2 est un multiple de x1 nous avons donc une colinéarité parfaite.
Nous pouvons écrire le modèle comme
où:
Nous avons donc
Nous calculons maintenant le déterminant deXX′ :
Dans R, nous pouvons montrer ceci comme suit:
créer
x2
, un multiple dex1
créer y, une combinaison linéaire de
x1
,x2
et une certaine aléatoireObserve ceci
ne parvient pas à estimer une valeur pour le
x2
coefficient:La matrice modèle est:X
Alors estXX′
qui n'est pas inversible, comme le montre
Ou:
la source
Voici quelques scénarios assez courants produisant une multicolinéarité parfaite, c'est-à-dire des situations dans lesquelles les colonnes de la matrice de conception sont linéairement dépendantes. Rappelons de l'algèbre linéaire que cela signifie qu'il existe une combinaison linéaire de colonnes de la matrice de conception (dont les coefficients ne sont pas tous nuls) qui est égal à zéro. J'ai inclus quelques exemples pratiques pour aider à expliquer pourquoi ce piège frappe si souvent - je les ai rencontrés presque tous!
Une variable est un multiple d'une autre , qu'il y ait ou non un terme d'interception: peut-être parce que vous avez enregistré deux fois la même variable en utilisant des unités différentes (par exemple, "la longueur en centimètres" est précisément 100 fois plus grande que la "longueur en mètres") ou parce que vous avez enregistré une variable une fois sous forme de nombre brut et une fois sous forme de proportion ou de pourcentage, lorsque le dénominateur est fixe (par exemple, "superficie de la boîte de Pétri colonisée" et "pourcentage de la boîte de Pétri colonisée" seront des multiples exacts l'un de l'autre si la zone de chaque boîte de Pétri est le même). Nous avons une colinéarité parce que si où et sont des variables (colonnes de votre matrice de conception) et est une constante scalaire, w x awi=axi w x a 1(w⃗ )−a(x⃗ ) est une combinaison linéaire de variables qui est égale à zéro.
Il existe un terme d'interception et une variable diffère d'une autre par une constante : cela se produira si vous centrez une variable ( ) et incluez à la fois brut et centré dans votre régression. Cela se produira également si vos variables sont mesurées dans différents systèmes d'unités qui diffèrent par une constante, par exemple si est "température en degrés kelvin" et comme "température en ° C" alors . Si nous considérons le terme d'interception comme une variable qui est toujours (représentée comme une colonne d' , , dans la matrice de conception), alors avoir pour une constantewi=xi−x¯ x w w x wi=xi+273.15 1 1⃗ n wi=xi+k k signifie que est une combinaison linéaire des colonnes , et de la matrice de conception qui est égale à zéro.1(w⃗ )−1(x⃗ )−k(1⃗ n) w x 1
Il existe un terme d'interception et une variable est donnée par une transformation affine d'une autre : c'est-à-dire que vous avez des variables et , liées par où et sont des constantes. Par exemple, cela se produit si vous standardisez une variable en tant que et incluez à la fois des variables brutes et normalisées dans votre régression. Cela se produit également si vous enregistrez comme "température en ° F" et comme "température en ° C", car ces systèmes unitaires ne partagent pas un zéro commun mais sont liés parw x wi=axi+b a b zi=xi−x¯sx x z w x wi=1.8xi+32 . Ou dans un contexte commercial, supposons qu'il y ait un coût fixe (par exemple couvrant la livraison) pour chaque commande, ainsi qu'un coût par unité vendue; alors si est le coût de la commande et est le nombre d'unités commandées, nous avons . La combinaison linéaire d'intérêt est . Notez que si , alors (3) inclut (2) comme cas spécial; si , (3) inclut (1) comme cas spécial.b $a $wi i xi wi=axi+b 1(w⃗ )−a(x⃗ )−b(1⃗ n)=0⃗ a=1 b=0
Il existe un terme d'interception et la somme de plusieurs variables est fixe (par exemple dans le fameux "piège variable factice") : par exemple si vous avez "pourcentage de clients satisfaits", "pourcentage de clients insatisfaits" et "pourcentage de clients non satisfaits" ni insatisfait ", ces trois variables totaliseront toujours (sauf erreur d'arrondi) à 100. L'une de ces variables - ou alternativement, le terme d'interception - doit être supprimée de la régression pour éviter la colinéarité. Le «piège des variables muettes» se produit lorsque vous utilisez des variables indicatrices (plus couramment mais moins utilement appelées «variables muettes») pour chaque niveau possible d'une variable catégorielle. Par exemple, supposons que les vases soient produits dans des jeux de couleurs rouge, vert ou bleu. Si vous avez enregistré la variable catégorielle "
red
green
etblue
seraient des variables binaires, stockées comme1
pour "oui" et0
pour "non"), alors pour chaque vase, une seule des variables serait une, et doncred + green + blue = 1
. Puisqu'il existe un vecteur d'un pour le terme d'interception, la combinaison linéaire1(red) + 1(green) + 1(blue) - 1(1) = 0
. Le remède habituel ici est soit de supprimer l'interception, soit de supprimer l'un des indicateurs (par exemple, laisser de côtéred
) qui devient une ligne de base ou un niveau de référence. Dans ce cas, le coefficient de régression pourgreen
indiquerait le changement de la réponse moyenne associée au passage d'un vase rouge à un vase vert, en maintenant les autres variables explicatives constantes.Il existe au moins deux sous-ensembles de variables, chacune ayant une somme fixe , qu'il existe ou non un terme d'interception: supposons que les vases dans (4) ont été produits en trois tailles, et que la variable catégorielle pour la taille a été stockée sous forme de trois variables indicatrices supplémentaires . Nous aurionsu,v,w,x ui+vi=k1 xi+yi=k2 k2(u⃗ )+k2(v⃗ )−k1(w⃗ )−k1(x⃗ )=0⃗
large + medium + small = 1
. Ensuite, nous avons la combinaison linéaire1(large) + 1(medium) + 1(small) - 1(red) - 1(green) - 1(blue) = 0
, même lorsqu'il n'y a pas de terme d'interception. Les deux sous-ensembles n'ont pas besoin de partager la même somme, par exemple si nous avons des variables explicatives telles que chaque et puis .Une variable est définie comme une combinaison linéaire de plusieurs autres variables : par exemple, si vous enregistrez la longueur , la largeur et le périmètre de chaque rectangle, alors nous avons donc la combinaison linéaire . Un exemple avec un terme d'interception: supposons qu'une entreprise de vente par correspondance possède deux lignes de produits, et nous enregistrons que la commande composait de du premier produit au coût unitaire et du second au coût unitaire , avec frais de livraison fixes . Si nous incluons également le coût de la commandel w p pi=2li+2wi 1(p⃗ )−2(l⃗ )−2(w⃗ )=0⃗ i ui $a vi $b $c $x comme variable explicative, alors et ainsi . Il s'agit d'une généralisation évidente de (3). Cela nous donne également une façon différente de penser (4): une fois que nous connaissons toutes les barres d'un des sous-ensembles de variables dont la somme est fixe, alors la dernière est leur complément et peut donc être exprimée comme une combinaison linéaire entre elles et leur somme . Si nous savons que 50% des clients étaient satisfaits et 20% étaient insatisfaits, alors 100% - 50% - 20% = 30% ne doivent être ni satisfaits ni insatisfaits; si nous savons que le vase n'est pas rouge ( ) et qu'il est vert ( ), alors nous savons qu'il n'est pas bleu ( ).xi=aui+bvi+c 1(x⃗ )−a(u⃗ )−b(v⃗ )−c(1⃗ n)=0⃗
red=0
green=1
blue = 1(1) - 1(red) - 1(green) = 1 - 0 - 1 = 0
Une variable est constante et nulle , qu'il y ait ou non un terme d'interception: dans une étude observationnelle, une variable sera constante si votre échantillon ne présente pas (tout!) De variation suffisante. Il peut y avoir des variations dans la population qui ne sont pas capturées dans votre échantillon, par exemple s'il existe une valeur modale très courante: peut-être que votre taille d'échantillon est trop petite et qu'il était donc peu probable qu'elle inclue des valeurs qui différaient du mode, ou vos mesures étaient insuffisamment précis pour détecter de petites variations du mode. Alternativement, il peut y avoir des raisons théoriques pour le manque de variation, en particulier si vous étudiez une sous-population. Dans une étude des nouvelles constructions à Los Angeles, il ne serait pas surprenant que chaque point de données aitx 1(x⃗ ) 0⃗
AgeOfProperty = 0
etState = California
! Dans une étude expérimentale, vous avez peut-être mesuré une variable indépendante qui est sous contrôle expérimental. Si l'une de vos variables explicatives est à la fois constante et nulle, alors nous avons immédiatement que la combinaison linéaire (avec le coefficient zéro pour toutes les autres variables) est .Il existe un terme d'interception et au moins une variable est constante : si est constant de sorte que chaque , alors la combinaison linéaire .x xi=k≠0 1(x⃗ )−k(1⃗ n)=0⃗
Au moins deux variables sont constantes , qu'il existe ou non un terme d'interception: si chaque et , alors la combinaison linéaire .wi=k1≠0 xi=k2≠0 k2(w⃗ )−k1(x⃗ )=0⃗
Le nombre de colonnes de la matrice de conception, , dépasse le nombre de lignes,k n : même en l'absence de relation conceptuelle entre vos variables, il est mathématiquement nécessaire que les colonnes de votre matrice de conception soient linéairement dépendantes lorsque . Il n'est tout simplement pas possible d'avoir vecteurs linéairement indépendants dans un espace avec un nombre de dimensions inférieur à : par exemple, alors que vous pouvez dessiner deux vecteurs indépendants sur une feuille de papier (un plan bidimensionnel,k>n k k R2 ), tout autre vecteur dessiné sur la page doit se situer dans leur étendue, et donc être une combinaison linéaire d'entre eux. Notez qu'un terme d'interception contribue une colonne de uns à la matrice de conception, donc compte comme l'une de vos colonnes. (Ce scénario est souvent appelé le problème "grand , petit ": voir aussi cette question CV connexe .)k p n
Exemples de données avec code R
Chaque exemple donne une matrice de conception , la matrice (notez qu'elle est toujours carrée et symétrique) et . Notez que si est singulier (déterminant zéro, donc non inversible) alors nous ne pouvons pas estimer . La condition que soit non singulier est équivalente à la condition que ait un rang complet donc ses colonnes sont linéairement indépendantes: voir cette question Math SE , ou celle-ci et son inverse .X X′X det(X′X) X′X β^=(X′X)−1X′y X′X X
(1) Une colonne est multiple d'une autre
(2) Terme d'interception et une variable diffère d'une autre par une constante
(3) Terme d'interception et une variable est la transformation affine d'une autre
(4) Le terme d'interception et la somme de plusieurs variables sont fixes
(4a) Terme d'interception avec piège variable factice
(5) Deux sous-ensembles de variables à somme fixe
(6) Une variable est une combinaison linéaire d'autres
(7) Une variable est constante et nulle
(8) Terme d'interception et une variable constante
(9) Deux variables constantes
(10)k>n
la source
Quelques exemples triviaux pour aider l'intuition:
Il existe une multitude de façons telles qu'une colonne de données sera une fonction linéaire de vos autres données. Certains d'entre eux sont évidents (par exemple, les mètres par rapport aux centimètres) tandis que d'autres peuvent être plus subtils (par exemple, l'âge et les années de scolarité pour les jeunes enfants).
Notes de notation: Soit dénoter la première colonne de , la deuxième colonne etc ..., et dénote un vecteur de ceux qui est inclus dans la matrice de conception X si vous incluez une constante dans votre régression. X x 2 1x1 X x2 1
la source