Multicolinéarité lorsque les régressions individuelles sont significatives, mais que les VIF sont faibles

13

J'ai 6 variables ( x1...X6 ) que j'utilise pour prédire y . Lors de l'analyse de mes données, j'ai d'abord essayé une régression linéaire multiple. De là, seules deux variables étaient significatives. Cependant, lorsque j'ai effectué une régression linéaire comparant chaque variable individuellement à y , toutes sauf une étaient significatives ( p allant de moins de 0,01 à moins de 0,001). Il a été suggéré que cela était dû à la multicolinéarité.

Ma recherche initiale à ce sujet suggère de vérifier la multicolinéarité en utilisant des VIF . J'ai téléchargé le package approprié à partir de R et je me suis retrouvé avec les VIF résultants: 3,35, 3,59, 2,64, 2,24 et 5,56. Selon diverses sources en ligne, le point que vous devriez vous inquiéter de la multicolinéarité avec vos VIF est à 4 ou 5.

Je suis maintenant perplexe quant à ce que cela signifie pour mes données. Ai-je ou non un problème de multicolinéarité? Si je le fais, comment dois-je procéder? (Je ne peux pas collecter plus de données, et les variables sont des parties d'un modèle qui ne sont pas évidemment liées) Si je n'ai pas ce problème, alors que dois-je prendre de mes données, en particulier le fait que ces variables sont très importantes individuellement, mais pas du tout significatif lorsqu'ils sont combinés.

Edit: Certaines questions ont été posées concernant l'ensemble de données, et je voudrais donc développer ...

Dans ce cas particulier, nous cherchons à comprendre comment des signaux sociaux spécifiques (geste, regard, etc.) affectent la probabilité qu'une personne produise un autre signal. Nous aimerions que notre modèle inclue tous les attributs importants, donc je suis mal à l'aise d'en supprimer certains qui semblent redondants.

Il n'y a aucune hypothèse à ce sujet en ce moment. Au contraire, le problème n'est pas étudié et nous cherchons à mieux comprendre quels attributs sont importants. Pour autant que je sache, ces attributs devraient être relativement indépendants les uns des autres (vous ne pouvez pas simplement dire que le regard et les gestes sont les mêmes, ou l'un le sous-ensemble d'un autre). Ce serait bien de pouvoir rapporter des valeurs de p pour tout, car nous aimerions que d'autres chercheurs comprennent ce qui a été examiné.

Edit 2: Depuis qu'il est apparu quelque part en dessous, mon est 24.n

cryptic_star
la source
En supposant que vous n'avez multicolinéarité, pouvez - vous développer, comme @ rolando2 suggère, sur le but recherché du modèle? Est-il vrai que tous les prédicteurs sont importants pour les autres enquêteurs (auquel cas vous souhaitez signaler les niveaux de signification pour chacun d'eux), ou pourriez-vous simplement en supprimer un ou deux?
@jlovegren J'ai ajouté quelques informations ci-dessus - faites-moi savoir si vous avez besoin de plus d'informations.
cryptic_star
Les variables explicatives sont-elles mesurées sur une échelle continue? Dans ce cas, il existe des méthodes de résidualisation qui ne sont pas trop difficiles. S'ils sont catégoriques, je ne sais pas mais j'espère que quelqu'un d'autre le ferait (j'ai posé une question similaire sur ce site).
@jlovegren Cinq des six variables sont des nombres.
cryptic_star
encore une chose, juste pour être sûr. les comptages ont-ils une limite supérieure claire qui est fréquemment atteinte, ou si la valeur maximale du comptage est illimitée en principe?

Réponses:

18

Pour comprendre ce qui peut se passer, il est instructif de générer (et d'analyser) des données qui se comportent de la manière décrite.

Pour simplifier, oublions cette sixième variable indépendante. Ainsi, la question décrit les régressions d'une variable dépendante contre cinq variables indépendantes x 1 , x 2 , x 3 , x 4 , x 5 , dans lesquellesyx1,x2,x3,x4,x5

  • Chaque régression ordinaire est significative à des niveaux de 0,01 à moins de 0,001 .yxi0.010.001

  • La régression multiple donne des coefficients significatifs uniquement pour x 1 et x 2 .yx1++x5x1x2

  • Tous les facteurs d'inflation de la variance (VIF) sont faibles, ce qui indique un bon conditionnement dans la matrice de conception (c'est-à-dire un manque de colinéarité entre les ).xi

Faisons en sorte que cela se produise comme suit:

  1. Générez valeurs normalement distribuées pour x 1 et x 2 . (Nous choisirons n plus tard.)nx1x2n

  2. Soit ε est une erreur normale indépendante de la moyenne 0 . Quelques essais et erreurs sont nécessaires pour trouver un écart-type approprié pour ε ; 1 / 100 fonctionne très bien (et est assez spectaculaire: y est très bien corrélé avec x 1 et x 2 , même si elle est modérément corrélée avec x 1 et x 2 individuellement).y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Soit = x une / 5 + δ , j = 3 , 4 , 5 , où δ est l' erreur normale norme indépendante. Cela fait que x 3 , x 4 , x 5 ne dépendent que légèrement de x 1 . Cependant, via la corrélation étroite entre x 1 et y , cela induit une minuscule corrélation entre y et ces x j .xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Voici le hic: si nous faisons assez grand, ces légères corrélations se traduiront par des coefficients significatifs, même si y est presque entièrement "expliqué" par seulement les deux premières variables.ny

J'ai trouvé que fonctionne très bien pour reproduire les valeurs de p rapportées. Voici une matrice de nuage de points des six variables:n=500

spm

En inspectant la colonne de droite (ou la ligne du bas), vous pouvez voir que a une bonne corrélation (positive) avec x 1 et x 2 mais peu de corrélation apparente avec les autres variables. En inspectant le reste de cette matrice, vous pouvez voir que les variables indépendantes x 1 , , x 5 semblent être non corrélées mutuellement (le δ aléatoireyx1x2x1,,x5δmasquer les minuscules dépendances que nous savons être là.) Il n'y a pas de données exceptionnelles - rien de très éloigné ou de fort effet de levier. Soit dit en passant, les histogrammes montrent que les six variables sont réparties approximativement normalement: ces données sont aussi ordinaires et "banales que l'on pourrait souhaiter".

Dans la régression de contre x 1 et x 2 , les valeurs de p sont essentiellement de 0. Dans les régressions individuelles de y contre x 3 , puis de y contre x 4 et de y contre x 5 , les valeurs de p sont 0,0024, 0,0083 et 0,00064, respectivement: c'est-à-dire qu'ils sont "hautement significatifs". Mais dans la régression multiple complète, les valeurs de p correspondantes gonflent respectivement à 0,46, 0,36 et 0,52: pas du tout significatives. La raison en est qu'une fois que y a été régressé contre x 1 et xyx1x2yx3yx4yx5yx1 , la seule chose qui reste à "expliquer" est la petite quantité d'erreur dans les résidus, qui se rapprochera de ε , et cette erreur est presque complètement indépendante des x i restants. ("Presque" est correct: il y a une très petite relation induite par le fait que les résidus ont été calculés en partie à partir des valeurs de x 1 et x 2 et les x i , i = 3 , 4 , 5 , ont quelques faibles relation à x 1 et x 2. Cette relation résiduelle est cependant pratiquement indétectable, comme nous l'avons vu.)x2εxix1x2xii=3,4,5x1x2

Le nombre de conditionnement de la matrice de conception n'est que de 2,17: c'est très faible, ne montrant aucune indication de multicolinéarité élevée. (Un manque parfait de colinéarité se refléterait dans un nombre de conditionnement de 1, mais dans la pratique, cela n'est vu qu'avec des données artificielles et des expériences conçues. Ceci termine la simulation: il a réussi à reproduire tous les aspects du problème.

Les informations importantes que cette analyse offre incluent

  1. Les valeurs de p ne nous disent rien directement sur la colinéarité. Ils dépendent fortement de la quantité de données.

  2. Les relations entre les valeurs de p dans les régressions multiples et les valeurs de p dans les régressions connexes (impliquant des sous-ensembles de la variable indépendante) sont complexes et généralement imprévisibles.

Par conséquent, comme d'autres l'ont fait valoir, les valeurs de p ne devraient pas être votre seul guide (ou même votre principal guide) pour la sélection du modèle.


Éditer

Il n'est pas nécessaire que soit aussi grand que 500 pour que ces phénomènes apparaissent. n500 Inspiré par des informations supplémentaires dans la question, ce qui suit est un ensemble de données construit de manière similaire avec (dans ce cas, x j = 0,4 x 1 + 0,4 x 2 + δ pour jn=24xj=0.4x1+0.4x2+δ ). Cela crée des corrélations de 0,38 à 0,73 entre x 1 - 2 et x 3 - 5j=3,4,5x12x35. Le nombre de conditions de la matrice de conception est de 9,05: un peu élevé, mais pas terrible. (Certaines règles empiriques disent que des nombres de condition aussi élevés que 10 sont corrects.) Les valeurs de p des régressions individuelles contre sont 0,002, 0,015 et 0,008: significatif à très significatif. Ainsi, une certaine multicolinéarité est impliquée, mais elle n'est pas si grande que l'on pourrait travailler pour la changer. La vision de base reste la mêmex3,x4,x5: la signification et la multicolinéarité sont des choses différentes; seules de légères contraintes mathématiques y tiennent; et il est possible que l'inclusion ou l'exclusion même d'une seule variable ait des effets profonds sur toutes les valeurs de p même sans qu'une multicolinéarité sévère ne soit un problème.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185
whuber
la source
Étant donné que je travaille à expliquer les relations entre ces variables et leur importance dans la prévision du y, le manque de colinéarité me dit-il essentiellement ce que la régression linéaire multiple initiale m'a dit: que seules deux variables sont importantes? Si les variables présentaient une colinéarité, cela signifierait-il que plusieurs sont importantes, mais fournissent des informations similaires? Veuillez me faire savoir si je manque complètement le point - je ne suis en aucun cas un expert en statistiques.
cryptic_star
Oh, et je vais ajouter cela dans mon message d'origine, mais mon n est 24 (les sujets humains fonctionnent, donc c'est assez élevé). Sur la base de votre message, je peux supposer que c'est pourquoi les personnes multicolinéaires suggèrent d'obtenir plus de données - pour mieux mettre en évidence les différences.
cryptic_star
Je fournis un nouvel exemple montrant comment vos phénomènes peuvent se produire même lorsque . Il pourrait facilement être modifié de manière à ce que tous les nombres impliqués soient des nombres entiers positifs: c'est-à-dire les nombres. n=24
whuber
1
Concernant votre premier commentaire: la colinéarité suggère que certaines des variables explicatives (IV) peuvent être redondantes, mais ce n'est pas nécessairement le cas. Ce qui compte, ce sont les relations entre les IV et la variable dépendante (DV). Il est possible que l'un des IV dépende fortement des autres IV, tout en contenant des informations particulièrement utiles concernant le DV. Il s'agit d'un concept essentiel: aucune analyse des relations entre les IV ne pourra à elle seule vous dire quelles variables expliquent le mieux la DV. Le manque de colinéarité - une propriété uniquement des IV - ne révèle rien sur le DV.
whuber
9

Ai-je ou non un problème de multicolinéarité? Si je le fais, comment dois-je procéder?

Ce n'est pas une situation ou. Et je suis sceptique quant à la directive "4 ou 5". Pour chacun de vos prédicteurs, l'erreur-type du coefficient est comprise entre 2,2 et 5,6 fois plus grande qu'elle le serait si le prédicteur n'était pas corrélé avec les autres. Et la partie d'un prédicteur donné qui ne peut pas être expliquée par les autres varie de 1 / 2,2 à 1 / 5,6, soit 18% à 45%. Dans l'ensemble, cela semble une assez grande colinéarité.

Mais reculons un instant. Essayez-vous vraiment de prédire * Y *, plutôt que de l' expliquer ? Dans le premier cas, je ne suppose pas que vous ayez besoin de savoir si le niveau de signification d'une variable donnée change lorsque d'autres sont présentes dans le modèle. Votre travail est vraiment beaucoup plus facile qu'il ne le serait si une véritable explication était nécessaire.

Si l'explication est votre objectif, vous devrez considérer la façon dont ces variables interagissent - quelque chose qui nécessite plus que des informations statistiques. De toute évidence , ils se chevauchent dans la façon dont ils se rapportent à Y , et ce colinéarité , il sera difficile d'établir, par exemple, leur ordre de rang d'importance en ce qui représente Y . Dans cette situation, il n'y a pas de chemin clair à suivre.

En tout cas, j'espère que vous envisagez des méthodes de validation croisée.

rolando2
la source
Cette réponse, comme celle de John, semble confondre des valeurs de p faibles avec une corrélation élevée. Rappelez-vous: les erreurs standard des coefficients diminuent avec l'augmentation des quantités de données ( caeteris paribus ), de sorte que les faibles valeurs de p peuvent être atteintes avec des données n'ayant presque aucune corrélation, à condition que suffisamment d'observations soient présentes.
whuber
Confondre de faibles valeurs de p avec une corrélation élevée? Pas du tout!
rolando2
Veuillez ensuite expliquer comment un concept strictement de valeur p ("l'erreur standard du coefficient est entre 2,2 et 5,6 fois plus grande qu'elle le serait si le prédicteur n'était pas corrélé avec les autres") vous amène à conclure "cela semble assez substantiel quantité de colinéarité ", qui est fortement liée à la corrélation (les mesures de colinéarité sont des propriétés de la matrice de corrélation lorsque les variables sont normalisées).
whuber
Je le regarde de cette façon. Lorsque VIF est de 5,6, 82% de la variance de ce prédicteur peut être expliqué par les autres prédicteurs. Je ne vois pas comment cela pourrait dépendre de N.
rolando2
1
En contrepoint de cette évaluation pessimiste (qui se justifie par des règles empiriques comme nécessitant 5 à 10 fois plus d'observations que de variables), il est à noter que des domaines entiers de modélisation et d'analyse de données se sont développés autour de problèmes peu nombreux. observations et de nombreux prédicteurs, comme DACE (conception et analyse d'expériences informatiques). Voir ressources-actuarielles.net/EXT/ISFA/1226.nsf/… pour un article fondateur.
whuber
6

Vous avez la multicolinéarité. Votre analyse initiale l'a démontré. En ce qui concerne le problème, c'est une autre question qui semble avoir de nombreuses réponses dans votre cas.

Peut-être que si vous amélioriez le problème de base, il serait plus évident de savoir quoi faire? ...

Avec la multicolinéarité, vos coefficients de régression concernent les contributions uniques (bien plus proches de l'unique) de chaque variable à votre modèle. Si certains sont corrélés entre eux, alors la contribution unique de chacun est corrélée. C'est probablement en partie pourquoi aucun n'est significatif lorsqu'ils sont tous là ensemble, mais lorsqu'ils sont utilisés seuls, ils peuvent l'être.

La première chose que vous devrez probablement faire est de réfléchir à la signification de l'intercorrélation entre vos variables. Par exemple, avez-vous un tas de variables qui représentent simplement la même chose? Vous est-il arrivé de mesurer vos prédicteurs sur une mauvaise échelle et d'obtenir des corrélations fortuites? N'essayez pas de corriger la régression, essayez de comprendre vos variables.

Considérons X1 et X2 avec une très forte corrélation entre eux, disons r = 0,90. Si vous mettez X1 dans le modèle et que c'est un prédicteur significatif, alors un autre modèle avec X2 seul sera très probablement significatif aussi parce que c'est presque la même chose. Si vous les mettez ensemble dans le modèle, au moins l'un d'entre eux doit souffrir car la régression multiple va résoudre leurs contributions uniques. Ils peuvent tous deux être non significatifs. Mais ce n'est pas le but, le fait est de reconnaître pourquoi ils se chevauchent tellement et s'ils disent même quelque chose de différent les uns des autres et si vous en avez besoin ou non? Peut-être que l'un exprime une idée de manière plus significative et plus liée à votre variable de réponse que l'autre. Peut-être conclurez-vous qu'il s'agit de la même chose avec différents niveaux de variabilité.

De plus, lorsque vous regardez des modèles de toute sorte, mais surtout avec des prédicteurs intercorrélés, les valeurs de p sont un terrible moyen de savoir si un nouveau prédicteur apporte une contribution significative (si c'est ce que vous essayez de faire ... vous ne savez pas ce que vous essayez de faire, car il semble que vous essayez simplement de rendre la régression soit A) simple, soit B) comme vous le souhaitez ... aucun des deux n'est faisable). Vous feriez probablement mieux de consulter AIC pour vous aider à déterminer quels prédicteurs vous devez conserver et lesquels ne contribuent pas.

John
la source
Comment les faibles valeurs de p démontrent-elles la multicolinéarité? Les deux concepts sont complètement différents. Avec suffisamment de données, vous pouvez avoir de faibles valeurs de p et presque aucune colinéarité.
whuber
C'est exactement ce que je conteste, John: vous avez conclu dans votre première phrase que ce que le PO décrit implique "Vous avez la multicolinéarité". Mais c'est exactement ce que l'OP veut savoir: "est-ce que j'ai ou non un problème de multicolinéarité"? Je soutiens que la bonne réponse est "vous ne nous avez pas donné suffisamment d'informations, mais probablement pas" parce que les phénomènes décrits dans la question sont parfaitement cohérents avec des problèmes bien conditionnés. En effet, les faibles VIF signalés par le PO suggèrent que votre affirmation est fausse.
whuber
Je n'ai dit ça nulle part. Peut-être voulez-vous dire ce que j'ai dit au sujet de l'analyse initiale. L'analyse initiale était que les effets changent beaucoup en fonction des autres effets ajoutés. Cela était dû à la multi-colinéarité (bien qu'elle ne le quantifie pas). Bien sûr, la signification est une question différente. Je ne sais vraiment pas où tu veux en venir?
John
Désolé Whuber pour la mise à jour du commentaire, mais le tien fonctionne bien quand même .... lecteurs, les deux derniers ci-dessus sont inversés et c'est ma faute. Whuber, j'étais juste concentré sur le mot "problème". La multicollinéarité est quelque chose que vous quantifiez. Il y en a. Cela suggère de bien réfléchir aux variables. Cela suggère également que la raison pour laquelle les prédicteurs additifs changent lorsqu'ils sont ajoutés ou supprimés est due à cette multicolinéarité. Je n'ai pas eu l'impression que le questionneur voulait vraiment une réponse à ce sujet étant un "problème" de calcul.
John
Il est possible que nous interprétions la question de différentes manières, John. Parce que je ne veux pas laisser le problème confus par mes commentaires ici, j'ai ajouté une réponse pour expliquer mon point.
whuber
2

Personnellement, j'utiliserais des indices de condition et le tableau d'explication de la variance pour analyser la colinéarité.

Je n'utiliserais pas non plus les valeurs de p comme critère pour la construction de modèles, et lorsque je comparais des modèles avec 6 IV à des modèles avec 1, j'examinais les changements dans la taille d'effet du paramètre pour la variable qui est à la fois.

Mais vous pouvez certainement obtenir les résultats que vous mentionnez sans colinéarité. La colinéarité concerne uniquement les variables X et leur relation. Mais deux variables pourraient toutes deux être fortement liées à Y sans être étroitement liées l'une à l'autre.

Peter Flom - Réintégrer Monica
la source
1
Cela ne me semble pas intuitif, que deux variables pourraient être fortement liées à Y sans être fortement liées l'une à l'autre. Y a-t-il un exemple que vous pourriez me citer ou une explication plus longue?
cryptic_star
@Peter - avec 1- (1 / 5,6) = 82% de la variance de ce dernier prédicteur expliqué par les autres, pourquoi dites-vous qu'il pourrait ne pas y avoir de colinéarité?
rolando2
3
x1x2y=x1+x2yx1x2x1x2
0

En ce qui concerne la multicolinéarité, il existe plusieurs seuils mentionnés qui convergent généralement autour d'un VIF de 10 correspondant à une valeur R Square sous-jacente de 0,90 entre la variable testée et les autres variables indépendantes. Les VIF de vos variables semblent passables et vous pouvez techniquement les conserver dans un modèle.

Pourtant, j'utiliserais une méthode de régression pas à pas pour voir quelle est la meilleure combinaison de variables et combien d'explications supplémentaires (augmentation incrémentielle de R Square) vous obtenez en ajoutant des variables. La référence d'arbitrage doit être la valeur R carré ajusté qui ajuste la valeur R carré vers le bas en pénalisant le modèle pour l'ajout de variables.

Vos variables sont quelque peu corrélées entre elles. C'est inévitable, c'est juste une question de degré. Compte tenu des VIF que vous mentionnez, je soupçonne intuitivement que vous obtiendrez la grande majorité des informations / bits d'explication de la meilleure combinaison de 2 variables. Et, que l'ajout de variables peut ajouter seulement une valeur incrémentielle marginale.

Lorsque j'examine la combinaison de variables sélectionnées par le processus de régression pas à pas, j'examine également les variables sélectionnées et si leurs signes de coefficient de régression sont cohérents avec leur corrélation avec y. Si ce n'est pas le cas, cela peut être dû à une interaction légitime entre les variables. Mais, cela pourrait également être le résultat d'un surajustement du modèle et du fait que les coefficients de régression sont faux. Ils reflètent un ajustement mathématique, mais n'ont aucun sens en termes de causalité sous-jacente.

Une autre façon de sélectionner vos variables est de décider d'un point de vue logique quelles sont les 2 ou 3 variables principales qui devraient être dans le modèle. Commencez par ceux-ci, puis vérifiez combien d'informations supplémentaires obtenez-vous en ajoutant une variable. Vérifiez le carré R ajusté, la cohérence du coefficient de régression par rapport à la régression d'origine, et évidemment testez tous les modèles avec période d'attente. Bientôt, il sera évident quel est votre meilleur modèle.

Sympa
la source
4
Je ne pense pas qu'une procédure de sélection automatique par étapes serait préférable. Dans un tel cas, vous sélectionneriez en fonction d'une variable aléatoire, ce qui pose beaucoup de problèmes. Je discute de ce phénomène ici . Si la sélection par étapes était appliquée de toute façon, je recommanderais d'utiliser l'AIC, au lieu deRunej2, car une sanction plus sévère serait plus appropriée; cependant, je ne recommande pas d'utiliser la sélection pas à pas.
gung - Réintégrer Monica
Bon nombre des problèmes que vous décrivez sont communs au modèle de régression linéaire en général. Je ne suis pas sûr que ces problèmes techniques soient des raisons de rejeter toutes les méthodes de régression pas à pas et la régression linéaire en général. Je ne comprends pas pourquoi la régression pas à pas "sélectionne sur la base d'une variable aléatoire, ce qui cause beaucoup de problèmes." Stepwise trouve le meilleur ajustement, comme n'importe quel modèle. Je pense que ce qui est plus important, c'est de s'assurer que l'ajustement mathématique correspond à la théorie ou à la logique sous-jacente du problème pour lequel vous résolvez.
Sympa
3
Je peux le modifier si besoin est, mais les problèmes cités ne concernent pas les modèles linéaires en général, juste une sélection pas à pas. Je ne préconise pas de lancer une régression linéaire. Les algorithmes pas à pas renvoient des bêtas très biaisés et des CI inexacts qui sont en grande partie impossibles à corriger.R2, Runej2, F, p, etc. sont des variables aléatoires: si vous obtenez plus de données du même processus de génération de données et ajustez un modèle identique à plusieurs reprises, ces valeurs varieront. La sélection d'un modèle basé sur eux incorpore l'erreur de manière à éliminer la valeur du modèle. Je suis d'accord avec la théorie et la logique pour sélectionner un modèle.
gung - Réintégrer Monica
gung, je ne suis pas sûr que nous parlons de la même chose. J'utilise la régression pas à pas de deux manières. L'une est manuelle, vous construisez un modèle en utilisant le meilleur régresseur. Et vous y ajoutez en utilisant la 2ème meilleure variable qui explique le mieux l'erreur du premier modèle. Et, vous continuez jusqu'à ce que votre score AIC se détériore. La 2ème méthode que j'ai utilisée est d'utiliser le logiciel XLStat qui automatise le processus et a été développée par Thierry Fahmy et son équipe. Il a je comprends un doctorat en mathématiques avec d'autres membres de son équipe. Et je ne suis pas sûr qu'ils seraient tombés dans tous les pièges que vous avez mentionnés.
Sympa
2
Gaetan, I think what @gung is trying to say is that stepwise methods may cause severe damage to the initial statistical regression framework (loss function, p-values, etc.). See Frank Harrell's response and comments here. Penalized regression, as discussed in several threads, might be a good alternative. "(...) software that automates the process" reminds me of R fortune(224): no troll here, just want to highlight that you don't necessarily need to trust what software automagically gives (or offers) you as an option.
chl
0

If your explanatory variables are count data, and it is not unreasonable to assume that they are normally distributed, you can transform them into standard normal variates using the R scale command. Doing this can reduce the collinearity. But that will probably not solve the whole problem.

A useful batch of R commands for analyzing and dealing with collinearity are found on Florian Jaeger's blog, including:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

La z.fonction convertit un vecteur en une variable normale standard. La r.fonction renvoie des résidus standardisés pour régresser un prédicteur contre un autre. Vous pouvez l'utiliser pour diviser efficacement la déviance du modèle en différentes tranches afin que seules certaines variables aient accès à la tranche la plus ancienne, la tranche suivante sera alors proposée aux variables résiduelles. (Désolé pour ma terminologie homepun) Donc, si un modèle du formulaire

Y ~ A + B

souffre de multicolinéarité, vous pouvez alors exécuter

Y ~ A + r.(B)
Y ~ r.(A) + B

de sorte que seuls les résidus de la variable "tranche junior" (en régression par rapport à la variable "tranche senior") sont ajustés au modèle. De cette façon, vous êtes protégé de la multicolinéarité, mais vous avez un ensemble de paramètres plus compliqué à signaler.


la source