Pourquoi avons-nous besoin d'une régression multivariée (par opposition à un tas de régressions univariées)?

28

Je viens de parcourir ce merveilleux livre: Analyse statistique multivariée appliquée par Johnson et Wichern . L'ironie est que je ne suis toujours pas en mesure de comprendre la motivation pour utiliser des modèles multivariés (régression) au lieu de modèles univariés (régression) séparés. J'ai parcouru les publications stats.statexchange 1 et 2 qui expliquent (a) la différence entre la régression multiple et multivariée et (b) l'interprétation des résultats de la régression multivariée, mais je ne suis pas en mesure de modifier l'utilisation des modèles statistiques multivariés à partir de toutes les informations que je obtenir en ligne à leur sujet.

Mes questions sont:

  1. Pourquoi avons-nous besoin d'une régression multivariée? Quel est l'avantage de considérer les résultats simultanément plutôt qu'individuellement, afin de tirer des conclusions.
  2. Quand utiliser des modèles multivariés et quand utiliser plusieurs modèles univariés (pour plusieurs résultats).
  3. Prenons un exemple donné sur le site UCLA avec trois résultats: lieu de contrôle, concept de soi et motivation. En ce qui concerne 1. et 2., pouvons-nous comparer l'analyse lorsque nous effectuons trois régressions multiples univariées contre une régression multiple multivariée? Comment se justifier l'un sur l'autre?
  4. Je n'ai pas rencontré de nombreux articles savants qui utilisent des modèles statistiques multivariés. Est-ce à cause de l'hypothèse de normalité multivariée, de la complexité de l'ajustement / de l'interprétation du modèle ou pour toute autre raison spécifique?
KarthikS
la source
18
Les modèles univariés séparés ignorent les corrélations.
jwimberley
3
Oui, il existe de nombreux phénomènes dans le monde qui ne peuvent pas être modélisés par des variables aléatoires indépendantes.
Michael R. Chernick
2
@jwimberley Pourriez-vous développer les conséquences de l'ignorance de ces corrélations dans une réponse?
Jake Westfall
2
Juste une note sur le titre: la réduction de la dimensionnalité (ACP, analyse factorielle, toute méthode non linéaire, etc.) et le clustering sont généralement considérés comme des méthodes "multivariées" également. Il semble que votre question se concentre spécifiquement sur la régression multivariée (par rapport à un tas de régressions univariées), donc je vous suggère de l'intégrer directement dans votre titre. +1 btw.
amibe dit Réintégrer Monica le
2
Un exemple simple de la façon dont MANOVA peut être bénéfique par rapport aux ANOVA: stats.stackexchange.com/questions/129123 . Une situation opposée où MANOVA est toujours bénéfique mais pour une raison différente: stats.stackexchange.com/questions/61921 . La MANOVA peut donc: (i) donner plus de puissance, (ii) contrôler le taux d'erreur global.
amibe dit Réintégrer Monica le

Réponses:

22

Avez-vous lu l'exemple complet sur le site UCLA que vous avez lié?

Concernant 1: L'
utilisation d'un modèle multivarié vous aide (formellement, inférentiellement) à comparer les coefficients entre les résultats.
Dans cet exemple lié, ils utilisent le modèle multivarié pour tester si le writecoefficient est significativement différent pour le locus_of_controlrésultat vs pour le self_conceptrésultat. Je ne suis pas psychologue, mais il est probablement intéressant de se demander si votre capacité d'écriture affecte / prédit deux variables psychiques différentes de la même manière. (Ou, si nous ne croyons pas la valeur nulle, il est toujours intéressant de se demander si vous avez collecté suffisamment de données pour démontrer de manière convaincante que les effets diffèrent vraiment.)
Si vous avez effectué des analyses univariées distinctes, il serait plus difficile de comparer leswritecoefficient entre les deux modèles. Les deux estimations proviendraient du même ensemble de données, elles seraient donc corrélées. Le modèle multivarié tient compte de cette corrélation.

En outre, concernant 4:
Il existe des modèles multivariés très couramment utilisés, tels que les mesures répétées ANOVA . Avec une conception d'étude appropriée, imaginez que vous donnez chacun de plusieurs médicaments à chaque patient et mesurez la santé de chaque patient après chaque médicament. Ou imaginez que vous mesurez le même résultat au fil du temps, comme avec les données longitudinales, par exemple la taille des enfants au fil du temps. Ensuite, vous avez plusieurs résultats pour chaque unité (même lorsqu'ils ne sont que des répétitions du "même" type de mesure). Vous voudrez probablement faire au moins quelques contrastes simples: comparer les effets du médicament A contre le médicament B, ou les effets moyens des médicaments A et B contre le placebo. Pour cela, l'ANOVA à mesures répétées est un modèle / analyse statistique multivarié approprié.

civilstat
la source
1
Vous avez donné une excellente réponse. J'étais vraiment conscient qu'il y avait un monde d'autres exemples et arguments qui pouvaient être avancés. J'aime que vous ayez pris des informations du lien UCLA pour montrer l'OP. Franchement, j'ai d'abord été offensé par la question, mais j'ai décidé d'apporter une réponse quand j'ai réalisé que le PO voulait sincèrement ici de bons arguments et ne poussait pas l'idée d'ignorer les méthodes multivariées. Mon choix a été de montrer des exemples où ignorer la corrélation a eu des résultats vraiment dévastateurs et fatals.
Michael R. Chernick
1
Je me réjouis de votre réponse et, espérons-le, de réponses plus réfléchies qui en feront un fil de discussion précieux.
Michael R. Chernick
Merci pour la bonne réponse, @civilstat. Au point 1, si nous exécutons deux modèles univariés indépendants, vous avez mentionné que le coefficient variable d'entrée (pour le writecoefficient par exemple) serait corrélé et que le modèle multivarié en serait le même. Voici où j'aimerais mieux comprendre. locus_of_control et self_concept peuvent être fusionnés en une seule mesure en utilisant l'analyse factorielle ou d'autres techniques et la mesure résultante peut être modélisée, si la motivation est appropriée. Si les deux mesurent deux psyc différents. phénomènes, que gagnons-nous à les modéliser simultanément?
KarthikS
2
@ManuelFazio Voir la phrase suivante sur le site de l'UCLA: "Alors pourquoi effectuer une régression multivariée? Comme nous l'avons mentionné précédemment, l'un des avantages de l'utilisation de mvreg est que vous pouvez effectuer des tests des coefficients sur les différentes variables de résultat." Si vous exécutiez des régressions distinctes, vous obtiendriez le même coefficient et SE pour chaque résultat , mais vous n'obtiendrez pas d'estimation de la corrélation entre les coefficients entre les résultats . Vous auriez besoin de cette corrélation si, par exemple, vous vouliez obtenir un IC pour la différence de coefficients de lecture pour le résultat de la motivation par rapport au résultat self_concept.
civilstat
1
@civilstat Ah, honte à moi, l'hypothèse d'indépendance était tellement ancrée dans mon esprit qu'elle n'a pas cliqué même après avoir lu cette phrase. Merci pour l'explication détaillée!
zipzapboing
11

Pensez à toutes les conclusions fausses et parfois dangereuses qui proviennent de la simple multiplication des probabilités, les événements de pensée sont indépendants. En raison de toutes les garanties redondantes intégrées, nous avons mis dans nos centrales nucléaires des experts en utilisant l'hypothèse d'indépendance nous a dit que la probabilité d'un accident nucléaire majeur était infinitésimale. Mais comme nous l'avons vu à Three Mile Island, les humains font des erreurs corrélées, surtout lorsqu'ils sont dans la panique à cause d'une erreur initiale qui peut rapidement s'aggraver. Il peut être difficile de construire un modèle multivarié réaliste qui caractérise le comportement humain, mais la réalisation de l'effet d'un modèle horrible (erreurs indépendantes) est claire.

Il existe de nombreux autres exemples possibles. Je prendrai la catastrophe de la navette Challenger comme un autre exemple possible. La question était de savoir s'il fallait ou non lancer à basse température. Certaines données suggèrent que les joints toriques pourraient se rompre à basse température. Mais il n'y avait pas beaucoup de données sur les missions passées pour indiquer clairement le niveau de risque. La NASA a toujours été soucieuse de la sécurité des astronautes et de nombreuses redondances ont été intégrées aux vaisseaux spatiaux et aux lanceurs pour sécuriser les missions.

Pourtant, avant 1986, il y avait eu quelques défaillances du système et des quasi-défaillances, probablement en raison de la non-identification de tous les modes de défaillance possibles (une tâche difficile). La modélisation de la fiabilité est une entreprise difficile. Mais c'est une autre histoire. Dans le cas de la navette, le fabricant des joints toriques (Morton Thiokol) avait effectué des tests sur les joints toriques qui indiquaient la possibilité d'une défaillance à basse température.

Mais les données sur un nombre limité de missions ont montré une certaine relation entre la température et la défaillance, mais comme la redondance a amené certains administrateurs à penser que plusieurs défaillances de joints toriques ne se produiraient pas, ils ont fait pression sur la NASA pour qu'elle se lance.

Bien sûr, de nombreux autres facteurs ont conduit à la décision. Rappelez-vous comment le président Reagan était si soucieux de mettre un enseignant dans l'espace afin de démontrer qu'il était désormais suffisamment sûr pour que des gens ordinaires qui n'étaient pas des astronautes puissent voyager en toute sécurité dans la navette. La pression politique a donc été un autre facteur important affectant la décision. Dans ce cas, avec suffisamment de données et un modèle multivarié, le risque aurait pu être mieux démontré. La NASA utilise pour essayer de pécher par excès de prudence. Dans ce cas, reporter le lancement de quelques jours jusqu'à ce que le temps se réchauffe en Floride aurait été prudent.

Les commissions post-catastrophe, les ingénieurs, les scientifiques et les statisticiens ont fait beaucoup d'analyses et des articles ont été publiés. Leurs opinions peuvent différer des miennes. Edward Tufte a montré dans une de ses séries de livres sur le graphisme que de bons graphismes auraient pu être plus convaincants. Mais au final, bien que ces analyses aient toutes du mérite, je pense que la politique aurait quand même gagné.

La morale de ces histoires n'est pas que ces catastrophes ont motivé l'utilisation de méthodes multivariées, mais plutôt que de mauvaises analyses qui ont ignoré la dépendance conduisent parfois à de grosses sous-estimations du risque. Cela peut conduire à une confiance excessive qui peut être dangereuse. Comme l'a souligné jwimberley dans le premier commentaire de ce fil "Les modèles univariés séparés ignorent les corrélations."

Michael R. Chernick
la source
Merci pour votre merveilleux exemple, @MichaelChernick. L'hypothèse d'indépendance est préoccupante, je comprends. Je suis plus curieux de l'interrelation entre les résultats et la nécessité de les modéliser simultanément.
KarthikS
Prenons l'exemple de la catastrophe de la navette Challenger. Ici, le résultat univarié est binaire - qu'il soit sûr ou non de lancer la navette spatiale. Considérez le modèle essayant de faire beaucoup de choses, telles que prédire la sécurité, mesurer les écarts de trajectoire et prédire la pression intérieure de la navette. Une approche pourrait être de construire des modèles séparés pour chacun d'eux, et l'autre pourrait être de considérer un modèle pour tous qui non seulement essaie de capturer les effets des intrants (température, humidité, etc.), mais vérifie également la simultanéité effets sur les résultats.
KarthikS
1
Merci @MichaelChernick. Je ne sais pas si je comprends parfaitement vos arguments. Je comprends que beaucoup d'entre nous utilisent une régression univariée et multivariée pour une régression linéaire simple avec une seule entrée et plus d'une variable d'entrée (où les effets simultanés de plus d'une entrée sont examinés dans ce cas). Mais j'ai encadré cette question pour les modèles avec un résultat (univarié) ou plus d'un résultat (multivarié). Si le cas Challenger ne fait pas allusion à un cas d'utilisation de résultat multivarié, pouvez-vous faire allusion à un cas valide. Merci d'avoir poursuivi la discussion.
KarthikS
Je suis surpris que vous ayez mis une prime sur cette question. Les primes sont plus souvent faites quand elle n'a reçu que peu de commentaires et si elle contient des réponses, elles ne couvrent pas un aspect important des questions. Ce fil a eu trois bonnes réponses et des tonnes de commentaires (vraiment bons aussi comme le premier de jwimberley.
Michael R. Chernick
Je ne sais pas trop ce que tu veux. La question est très large et semble être davantage une discussion qu'une question technique. Il me semble presque que vous essayez de faire dire à quelqu'un que l'analyse univariée est acceptable dans des situations complexes. Je ne vais pas essayer pour la prime et il sera intéressant de voir dans les sept prochains jours que quelqu'un essaiera et si c'est le cas, l'accepterez-vous. La catastrophe de Challenger peut être considérée comme un résultat univarié, mais je ne pense pas que par un effort d'imagination puisse être complètement répondu par des méthodes univariées uniquement.
Michael R. Chernick
7

Considérez cette citation de la p. 36 du livre de Darcy Olsen The Right to Try [1]:

Mais environ seize semaines après le début des perfusions [eteplirsen], Jenn a commencé à remarquer des changements dans [son fils] Max. "Le gamin a cessé de vouloir utiliser son fauteuil roulant", dit-elle. Quelques semaines plus tard, il demandait à jouer dehors - ce qu'il n'avait pas fait depuis des années. Puis Max a commencé à retrouver sa motricité fine. Il a pu ouvrir à nouveau des conteneurs - une compétence qu'il avait perdue au fil de sa [dystrophie musculaire de Duchenne].

La mère de Max, Jenn, construit une image cohérente de son amélioration, en rassemblant des preuves de plusieurs résultats qui pourraient être considérés individuellement comme du `` bruit '', mais qui ensemble sont assez convaincants. (Ce principe de synthèse des preuves fait partie des raisons pour lesquelles les pédiatres ne rejettent généralement pas les déductions instinctives d'un parent selon lesquelles «quelque chose ne va pas avec mon enfant». Les parents ont accès à une «analyse longitudinale multivariée» de leurs enfants beaucoup plus riche que «l'oligovarié» analyse transversale accessible à un clinicien lors d'une seule et unique rencontre clinique.)

p>0,05

La réalisation d'une telle synthèse de données probantes est la justification fondamentale de l'analyse des résultats multivariés dans les essais cliniques. Méthodes statistiques en recherche médicale avait un numéro spécial il y a quelques années [2] consacré à la «modélisation conjointe» des résultats multivariés.

  1. Olsen, Darcy. Le droit d'essayer: comment le gouvernement fédéral empêche les Américains d'obtenir les traitements vitaux dont ils ont besoin. Première édition. New York, NY: Harper, une empreinte de HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris et Emmanuel Lesaffre. «Introduction au numéro spécial sur les techniques de modélisation conjointe». Méthodes statistiques en recherche médicale 23, no. 1 (1er février 2014): 3–10. doi: 10.1177 / 0962280212445800.
David C. Norris
la source
6

Faisons une analogie simple, car c'est tout ce que je peux vraiment essayer de contribuer. Au lieu de régression univariée versus multivariée, considérons les distributions univariées (marginales) versus multivariées (conjointes). Disons que j'ai les données suivantes et que je veux trouver des "valeurs aberrantes". Dans une première approche, je pourrais utiliser les deux distributions marginales ("univariées") et tracer des lignes aux 2,5% inférieurs et 2,5% supérieurs de chacune indépendamment. Les points tombant en dehors des lignes résultantes sont considérés comme des valeurs aberrantes.

Mais deux choses: 1) que pensons-nous des points qui sont en dehors des lignes pour un axe mais à l'intérieur des lignes pour l'autre axe? S'agit-il de «valeurs aberrantes partielles» ou de quelque chose? Et 2) la boîte résultante ne semble pas vraiment faire ce que nous voulons. La raison est, bien sûr, que les deux variables sont corrélées, et ce que nous voulons intuitivement est de trouver des valeurs aberrantes qui sont inhabituelles compte tenu des variables combinées.

Dans ce cas, nous examinons la distribution conjointe, et j'ai codé par couleur les points selon que leur distance entre Mahalanobis et le centre se situe dans les 5% supérieurs ou non. Les points noirs ressemblent beaucoup plus à des valeurs aberrantes, même si certaines valeurs aberrantes se situent dans les deux ensembles de lignes vertes et que certaines non aberrantes (rouges) se trouvent à l'extérieur des deux ensembles de lignes vertes.

Dans les deux cas, nous délimitons les 95% contre les 5%, mais la deuxième technique tient compte de la distribution conjointe. Je crois que la régression multivariée est comme ça, où vous substituez "régression" à "distribution". Je ne comprends pas totalement, et je n'ai pas eu besoin (ce que je comprends) de faire moi-même une régression multivariée, mais c'est ainsi que j'y pense.

[L'analogie a des problèmes: la distance de Mahalanobis réduit deux variables à un seul nombre - quelque chose comme la façon dont une régression univariée prend un ensemble de variables indépendantes et peut, avec les bonnes techniques, prendre en compte les covariances entre les variables indépendantes et les résultats dans une seule variable dépendante - tandis qu'une régression multivariée entraîne plusieurs variables dépendantes. C'est donc en quelque sorte en arrière, mais avec un peu de chance en avant-assez pour donner une certaine intuition.]

entrez la description de l'image ici

Wayne
la source
1
J'aime ça. J'utiliserais les ellipses extérieures pour définir les valeurs aberrantes. Comme je vois votre illustration, un point peut être loin de la moyenne dans la direction x ou y mais toujours dans une ellipse qui n'est pas loin de la ligne de régression.
Michael R. Chernick
3

1) La nature n'est pas toujours simple. En fait, la plupart des phénomènes (résultats) que nous étudions dépendent de plusieurs variables et de manière complexe. Un modèle inférentiel basé sur une variable à la fois aura très probablement un biais élevé.

2) Les modèles univariés sont le modèle le plus simple que vous puissiez construire, par définition. C'est bien si vous étudiez un problème pour la première fois et que vous voulez saisir sa caractéristique la plus essentielle. Mais si vous voulez une compréhension plus approfondie de celle-ci, une compréhension que vous pouvez réellement exploiter parce que vous avez confiance en ce que vous faites, vous utiliserez des analyses multivariées. Et parmi les multivariés, vous devriez préférer ceux qui comprennent les modèles de corrélation, si vous vous souciez de la précision du modèle.

3) Désolé, pas le temps de lire celui-ci.

4) Les articles utilisant des techniques multivariées sont très courants de nos jours - même extrêmement courants dans certains domaines. Aux expériences du CERN utilisant les données du Grand collisionneur de hadrons (pour prendre un exemple de la physique des particules), plus de la moitié des centaines d'articles publiés chaque année utilisent d'une manière ou d'une autre des techniques multivariées

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

famargar
la source
Je pense que vous voulez dire, le modèle univarié est un modèle avec une seule entrée et le modèle multivarié est un modèle avec plusieurs entrées. Ma question portait sur plusieurs résultats analysés simultanément dans un modèle.
KarthikS
1
Vous avez mélangé une régression multivariée / univariée avec une régression multiple / unique.
Firebug
1

Ma réponse dépend de ce que vous voulez faire avec la régression. Si vous essayez de comparer l'effet de différents coefficients, la régression n'est peut-être pas le bon outil pour vous. Si vous essayez de faire des prédictions en utilisant différents coefficients dont vous avez prouvé qu'ils sont indépendants, alors vous devriez peut-être utiliser une régression multiple.

Les facteurs sont-ils corrélés? Si c'est le cas, une régression multivariée peut vous donner un mauvais modèle et vous devez utiliser une méthode comme les VIF ou la régression de crête pour couper les corrélations croisées. Vous ne devez pas comparer les coefficients tant que les facteurs de corrélation croisée ne sont pas éliminés. Cela entraînerait un désastre. S'ils ne sont pas corrélés entre eux, les coefficients multivariés devraient être aussi comparables que les coefficients univariés, et cela ne devrait pas être surprenant.

Le résultat peut également dépendre du progiciel que vous utilisez. Je ne rigole pas. Différents progiciels ont différentes méthodes pour calculer la régression multivariée. (Ne me croyez pas? Découvrez comment le package de régression R standard calcule R 2 avec et sans forcer l'origine comme interception. Votre mâchoire doit toucher le sol.) Vous devez comprendre comment le package logiciel effectue la régression. Comment compense-t-il les corrélations croisées? Existe-t-il une solution séquentielle ou matricielle? J'ai eu des frustrations avec cela dans le passé. Je suggère d'effectuer votre régression multiple sur différents progiciels et de voir ce que vous obtenez.

Un autre bon exemple ici:

Notez que dans cette équation, les coefficients de régression (ou coefficients B) représentent les contributions indépendantes de chaque variable indépendante à la prédiction de la variable dépendante. Une autre façon d'exprimer ce fait est de dire que, par exemple, la variable X1 est corrélée avec la variable Y, après contrôle de toutes les autres variables indépendantes. Ce type de corrélation est également appelé corrélation partielle (ce terme a été utilisé pour la première fois par Yule, 1907). Peut-être que l'exemple suivant clarifiera ce problème. Vous trouveriez probablement une corrélation négative significative entre la longueur et la hauteur des cheveux dans la population (c'est-à-dire que les personnes courtes ont des cheveux plus longs). Au début, cela peut sembler étrange; cependant, si nous devions ajouter la variable Sexe dans l'équation de régression multiple, cette corrélation disparaîtrait probablement. En effet, les femmes ont en moyenne des cheveux plus longs que les hommes; ils sont également plus courts en moyenne que les hommes. Ainsi, après avoir supprimé cette différence de genre en entrant le genre dans l'équation, la relation entre la longueur et la hauteur des cheveux disparaît car la longueur des cheveux ne contribue pas de manière unique à la prédiction de la taille, au-delà de ce qu'elle partage dans la prédiction avec la variable Gender . Autrement dit, après avoir contrôlé la variable Sexe, la corrélation partielle entre la longueur et la hauteur des cheveux est nulle. la relation entre la longueur et la hauteur des cheveux disparaît car la longueur des cheveux n'apporte aucune contribution unique à la prédiction de la taille, au-delà de ce qu'elle partage dans la prédiction avec la variable Sexe. Autrement dit, après avoir contrôlé la variable Sexe, la corrélation partielle entre la longueur et la hauteur des cheveux est nulle. la relation entre la longueur et la hauteur des cheveux disparaît car la longueur des cheveux n'apporte aucune contribution unique à la prédiction de la taille, au-delà de ce qu'elle partage dans la prédiction avec la variable Sexe. Autrement dit, après avoir contrôlé la variable Sexe, la corrélation partielle entre la longueur et la hauteur des cheveux est nulle. http://www.statsoft.com/Textbook/Multiple-Regression

Il y a tellement de pièges à utiliser la régression multiple que j'essaie d'éviter de l'utiliser. Si vous deviez l'utiliser, soyez très prudent avec les résultats et revérifiez-les. Vous devez toujours tracer visuellement les données pour vérifier la corrélation. (Ce n'est pas parce que votre logiciel a dit qu'il n'y avait pas de corrélation qu'il n'y en a pas. Corrélations intéressantes ) Vérifiez toujours vos résultats par rapport au bon sens. Si un facteur présente une forte corrélation dans une régression univariée, mais aucun dans une régression multivariée, vous devez comprendre pourquoi avant de partager les résultats (le facteur genre ci-dessus est un bon exemple).

Maddenker
la source
" Découvrez comment le package de régression R standard calcule R2 avec et sans forcer l'origine comme interception. " Bien que cela puisse être source de confusion pour ceux qui ne s'y attendent pas, ce que R fait dans cette situation est l'approche standard qui est implémentée dans littéralement tous les logiciels de statistiques paquet où j'ai vérifié cela.
Jake Westfall
Intéressant. J'ai vu des articles publiés par des analystes qui ne comprenaient pas cette différence. Avez-vous vu une bonne discussion en ligne sur le sujet? Dois-je soumettre une nouvelle question à CV à ce sujet?
Maddenker