Je viens de parcourir ce merveilleux livre: Analyse statistique multivariée appliquée par Johnson et Wichern . L'ironie est que je ne suis toujours pas en mesure de comprendre la motivation pour utiliser des modèles multivariés (régression) au lieu de modèles univariés (régression) séparés. J'ai parcouru les publications stats.statexchange 1 et 2 qui expliquent (a) la différence entre la régression multiple et multivariée et (b) l'interprétation des résultats de la régression multivariée, mais je ne suis pas en mesure de modifier l'utilisation des modèles statistiques multivariés à partir de toutes les informations que je obtenir en ligne à leur sujet.
Mes questions sont:
- Pourquoi avons-nous besoin d'une régression multivariée? Quel est l'avantage de considérer les résultats simultanément plutôt qu'individuellement, afin de tirer des conclusions.
- Quand utiliser des modèles multivariés et quand utiliser plusieurs modèles univariés (pour plusieurs résultats).
- Prenons un exemple donné sur le site UCLA avec trois résultats: lieu de contrôle, concept de soi et motivation. En ce qui concerne 1. et 2., pouvons-nous comparer l'analyse lorsque nous effectuons trois régressions multiples univariées contre une régression multiple multivariée? Comment se justifier l'un sur l'autre?
- Je n'ai pas rencontré de nombreux articles savants qui utilisent des modèles statistiques multivariés. Est-ce à cause de l'hypothèse de normalité multivariée, de la complexité de l'ajustement / de l'interprétation du modèle ou pour toute autre raison spécifique?
Réponses:
Avez-vous lu l'exemple complet sur le site UCLA que vous avez lié?
Concernant 1: L'
utilisation d'un modèle multivarié vous aide (formellement, inférentiellement) à comparer les coefficients entre les résultats.
Dans cet exemple lié, ils utilisent le modèle multivarié pour tester si le
write
coefficient est significativement différent pour lelocus_of_control
résultat vs pour leself_concept
résultat. Je ne suis pas psychologue, mais il est probablement intéressant de se demander si votre capacité d'écriture affecte / prédit deux variables psychiques différentes de la même manière. (Ou, si nous ne croyons pas la valeur nulle, il est toujours intéressant de se demander si vous avez collecté suffisamment de données pour démontrer de manière convaincante que les effets diffèrent vraiment.)Si vous avez effectué des analyses univariées distinctes, il serait plus difficile de comparer les
write
coefficient entre les deux modèles. Les deux estimations proviendraient du même ensemble de données, elles seraient donc corrélées. Le modèle multivarié tient compte de cette corrélation.En outre, concernant 4:
Il existe des modèles multivariés très couramment utilisés, tels que les mesures répétées ANOVA . Avec une conception d'étude appropriée, imaginez que vous donnez chacun de plusieurs médicaments à chaque patient et mesurez la santé de chaque patient après chaque médicament. Ou imaginez que vous mesurez le même résultat au fil du temps, comme avec les données longitudinales, par exemple la taille des enfants au fil du temps. Ensuite, vous avez plusieurs résultats pour chaque unité (même lorsqu'ils ne sont que des répétitions du "même" type de mesure). Vous voudrez probablement faire au moins quelques contrastes simples: comparer les effets du médicament A contre le médicament B, ou les effets moyens des médicaments A et B contre le placebo. Pour cela, l'ANOVA à mesures répétées est un modèle / analyse statistique multivarié approprié.
la source
write
coefficient par exemple) serait corrélé et que le modèle multivarié en serait le même. Voici où j'aimerais mieux comprendre. locus_of_control et self_concept peuvent être fusionnés en une seule mesure en utilisant l'analyse factorielle ou d'autres techniques et la mesure résultante peut être modélisée, si la motivation est appropriée. Si les deux mesurent deux psyc différents. phénomènes, que gagnons-nous à les modéliser simultanément?Pensez à toutes les conclusions fausses et parfois dangereuses qui proviennent de la simple multiplication des probabilités, les événements de pensée sont indépendants. En raison de toutes les garanties redondantes intégrées, nous avons mis dans nos centrales nucléaires des experts en utilisant l'hypothèse d'indépendance nous a dit que la probabilité d'un accident nucléaire majeur était infinitésimale. Mais comme nous l'avons vu à Three Mile Island, les humains font des erreurs corrélées, surtout lorsqu'ils sont dans la panique à cause d'une erreur initiale qui peut rapidement s'aggraver. Il peut être difficile de construire un modèle multivarié réaliste qui caractérise le comportement humain, mais la réalisation de l'effet d'un modèle horrible (erreurs indépendantes) est claire.
Il existe de nombreux autres exemples possibles. Je prendrai la catastrophe de la navette Challenger comme un autre exemple possible. La question était de savoir s'il fallait ou non lancer à basse température. Certaines données suggèrent que les joints toriques pourraient se rompre à basse température. Mais il n'y avait pas beaucoup de données sur les missions passées pour indiquer clairement le niveau de risque. La NASA a toujours été soucieuse de la sécurité des astronautes et de nombreuses redondances ont été intégrées aux vaisseaux spatiaux et aux lanceurs pour sécuriser les missions.
Pourtant, avant 1986, il y avait eu quelques défaillances du système et des quasi-défaillances, probablement en raison de la non-identification de tous les modes de défaillance possibles (une tâche difficile). La modélisation de la fiabilité est une entreprise difficile. Mais c'est une autre histoire. Dans le cas de la navette, le fabricant des joints toriques (Morton Thiokol) avait effectué des tests sur les joints toriques qui indiquaient la possibilité d'une défaillance à basse température.
Mais les données sur un nombre limité de missions ont montré une certaine relation entre la température et la défaillance, mais comme la redondance a amené certains administrateurs à penser que plusieurs défaillances de joints toriques ne se produiraient pas, ils ont fait pression sur la NASA pour qu'elle se lance.
Bien sûr, de nombreux autres facteurs ont conduit à la décision. Rappelez-vous comment le président Reagan était si soucieux de mettre un enseignant dans l'espace afin de démontrer qu'il était désormais suffisamment sûr pour que des gens ordinaires qui n'étaient pas des astronautes puissent voyager en toute sécurité dans la navette. La pression politique a donc été un autre facteur important affectant la décision. Dans ce cas, avec suffisamment de données et un modèle multivarié, le risque aurait pu être mieux démontré. La NASA utilise pour essayer de pécher par excès de prudence. Dans ce cas, reporter le lancement de quelques jours jusqu'à ce que le temps se réchauffe en Floride aurait été prudent.
Les commissions post-catastrophe, les ingénieurs, les scientifiques et les statisticiens ont fait beaucoup d'analyses et des articles ont été publiés. Leurs opinions peuvent différer des miennes. Edward Tufte a montré dans une de ses séries de livres sur le graphisme que de bons graphismes auraient pu être plus convaincants. Mais au final, bien que ces analyses aient toutes du mérite, je pense que la politique aurait quand même gagné.
La morale de ces histoires n'est pas que ces catastrophes ont motivé l'utilisation de méthodes multivariées, mais plutôt que de mauvaises analyses qui ont ignoré la dépendance conduisent parfois à de grosses sous-estimations du risque. Cela peut conduire à une confiance excessive qui peut être dangereuse. Comme l'a souligné jwimberley dans le premier commentaire de ce fil "Les modèles univariés séparés ignorent les corrélations."
la source
Considérez cette citation de la p. 36 du livre de Darcy Olsen The Right to Try [1]:
La mère de Max, Jenn, construit une image cohérente de son amélioration, en rassemblant des preuves de plusieurs résultats qui pourraient être considérés individuellement comme du `` bruit '', mais qui ensemble sont assez convaincants. (Ce principe de synthèse des preuves fait partie des raisons pour lesquelles les pédiatres ne rejettent généralement pas les déductions instinctives d'un parent selon lesquelles «quelque chose ne va pas avec mon enfant». Les parents ont accès à une «analyse longitudinale multivariée» de leurs enfants beaucoup plus riche que «l'oligovarié» analyse transversale accessible à un clinicien lors d'une seule et unique rencontre clinique.)
La réalisation d'une telle synthèse de données probantes est la justification fondamentale de l'analyse des résultats multivariés dans les essais cliniques. Méthodes statistiques en recherche médicale avait un numéro spécial il y a quelques années [2] consacré à la «modélisation conjointe» des résultats multivariés.
la source
Faisons une analogie simple, car c'est tout ce que je peux vraiment essayer de contribuer. Au lieu de régression univariée versus multivariée, considérons les distributions univariées (marginales) versus multivariées (conjointes). Disons que j'ai les données suivantes et que je veux trouver des "valeurs aberrantes". Dans une première approche, je pourrais utiliser les deux distributions marginales ("univariées") et tracer des lignes aux 2,5% inférieurs et 2,5% supérieurs de chacune indépendamment. Les points tombant en dehors des lignes résultantes sont considérés comme des valeurs aberrantes.
Mais deux choses: 1) que pensons-nous des points qui sont en dehors des lignes pour un axe mais à l'intérieur des lignes pour l'autre axe? S'agit-il de «valeurs aberrantes partielles» ou de quelque chose? Et 2) la boîte résultante ne semble pas vraiment faire ce que nous voulons. La raison est, bien sûr, que les deux variables sont corrélées, et ce que nous voulons intuitivement est de trouver des valeurs aberrantes qui sont inhabituelles compte tenu des variables combinées.
Dans ce cas, nous examinons la distribution conjointe, et j'ai codé par couleur les points selon que leur distance entre Mahalanobis et le centre se situe dans les 5% supérieurs ou non. Les points noirs ressemblent beaucoup plus à des valeurs aberrantes, même si certaines valeurs aberrantes se situent dans les deux ensembles de lignes vertes et que certaines non aberrantes (rouges) se trouvent à l'extérieur des deux ensembles de lignes vertes.
Dans les deux cas, nous délimitons les 95% contre les 5%, mais la deuxième technique tient compte de la distribution conjointe. Je crois que la régression multivariée est comme ça, où vous substituez "régression" à "distribution". Je ne comprends pas totalement, et je n'ai pas eu besoin (ce que je comprends) de faire moi-même une régression multivariée, mais c'est ainsi que j'y pense.
[L'analogie a des problèmes: la distance de Mahalanobis réduit deux variables à un seul nombre - quelque chose comme la façon dont une régression univariée prend un ensemble de variables indépendantes et peut, avec les bonnes techniques, prendre en compte les covariances entre les variables indépendantes et les résultats dans une seule variable dépendante - tandis qu'une régression multivariée entraîne plusieurs variables dépendantes. C'est donc en quelque sorte en arrière, mais avec un peu de chance en avant-assez pour donner une certaine intuition.]
la source
1) La nature n'est pas toujours simple. En fait, la plupart des phénomènes (résultats) que nous étudions dépendent de plusieurs variables et de manière complexe. Un modèle inférentiel basé sur une variable à la fois aura très probablement un biais élevé.
2) Les modèles univariés sont le modèle le plus simple que vous puissiez construire, par définition. C'est bien si vous étudiez un problème pour la première fois et que vous voulez saisir sa caractéristique la plus essentielle. Mais si vous voulez une compréhension plus approfondie de celle-ci, une compréhension que vous pouvez réellement exploiter parce que vous avez confiance en ce que vous faites, vous utiliserez des analyses multivariées. Et parmi les multivariés, vous devriez préférer ceux qui comprennent les modèles de corrélation, si vous vous souciez de la précision du modèle.
3) Désolé, pas le temps de lire celui-ci.
4) Les articles utilisant des techniques multivariées sont très courants de nos jours - même extrêmement courants dans certains domaines. Aux expériences du CERN utilisant les données du Grand collisionneur de hadrons (pour prendre un exemple de la physique des particules), plus de la moitié des centaines d'articles publiés chaque année utilisent d'une manière ou d'une autre des techniques multivariées
https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
la source
Ma réponse dépend de ce que vous voulez faire avec la régression. Si vous essayez de comparer l'effet de différents coefficients, la régression n'est peut-être pas le bon outil pour vous. Si vous essayez de faire des prédictions en utilisant différents coefficients dont vous avez prouvé qu'ils sont indépendants, alors vous devriez peut-être utiliser une régression multiple.
Les facteurs sont-ils corrélés? Si c'est le cas, une régression multivariée peut vous donner un mauvais modèle et vous devez utiliser une méthode comme les VIF ou la régression de crête pour couper les corrélations croisées. Vous ne devez pas comparer les coefficients tant que les facteurs de corrélation croisée ne sont pas éliminés. Cela entraînerait un désastre. S'ils ne sont pas corrélés entre eux, les coefficients multivariés devraient être aussi comparables que les coefficients univariés, et cela ne devrait pas être surprenant.
Le résultat peut également dépendre du progiciel que vous utilisez. Je ne rigole pas. Différents progiciels ont différentes méthodes pour calculer la régression multivariée. (Ne me croyez pas? Découvrez comment le package de régression R standard calcule R 2 avec et sans forcer l'origine comme interception. Votre mâchoire doit toucher le sol.) Vous devez comprendre comment le package logiciel effectue la régression. Comment compense-t-il les corrélations croisées? Existe-t-il une solution séquentielle ou matricielle? J'ai eu des frustrations avec cela dans le passé. Je suggère d'effectuer votre régression multiple sur différents progiciels et de voir ce que vous obtenez.
Un autre bon exemple ici:
Il y a tellement de pièges à utiliser la régression multiple que j'essaie d'éviter de l'utiliser. Si vous deviez l'utiliser, soyez très prudent avec les résultats et revérifiez-les. Vous devez toujours tracer visuellement les données pour vérifier la corrélation. (Ce n'est pas parce que votre logiciel a dit qu'il n'y avait pas de corrélation qu'il n'y en a pas. Corrélations intéressantes ) Vérifiez toujours vos résultats par rapport au bon sens. Si un facteur présente une forte corrélation dans une régression univariée, mais aucun dans une régression multivariée, vous devez comprendre pourquoi avant de partager les résultats (le facteur genre ci-dessus est un bon exemple).
la source