Expliquer la différence entre la régression multiple et la régression multivariée, avec une utilisation minimale de symboles / mathématiques

Réponses:

54

Très rapidement, je dirais que «multiple» s'applique au nombre de prédicteurs qui entrent dans le modèle (ou de manière équivalente la matrice de conception) avec un seul résultat (réponse Y), tandis que «multivarié» fait référence à une matrice de vecteurs de réponse. Je ne me souviens pas de l'auteur qui a commencé sa section d'introduction à la modélisation multivariée avec cet aspect, mais je pense que c'est Brian Everitt dans son manuel An R et S-Plus Companion to Multivariate Analysis . Pour une discussion approfondie à ce sujet, je suggère de consulter son dernier livre, Modélisation multivariée et analyse multivariée pour les sciences du comportement .

Pour « variate », je dirais que c'est une façon courante de faire référence à une variable aléatoire qui suit une distribution connue ou émis l' hypothèse, par exemple , on parle de gaussienne Taxipost comme une série d'observations tirées d'une distribution normale (avec les paramètres et ). En termes probabilistes, nous avons dit qu'il s'agissait de réalisations aléatoires de X, avec l'espérance mathématique , et qu'environ 95% d'entre elles se situeraient dans l'intervalle . μ σ 2Xjeμσ2[ μ - 2 σ ; μ + 2 σ ]μ[μ2σ;μ+2σ]

chl
la source
1
Même coursera.org/learn/machine-learning/home/week/2 utilise le terme de régression multivariée au lieu de régression multiple…
Franck Dernoncourt
Je pense que la même confusion se produit lorsque les gens utilisent le terme GLM pour modèle linéaire général (par exemple, dans les études de neuroimagerie) et modèle linéaire généralisé. J'ai vu de nombreux cas de "régression logistique multivariée" où il n'y a qu'un seul résultat, et je ne pense pas que cela compte autant tant que le terme est clairement défini par l'auteur.
chl
39

Voici deux exemples étroitement liés qui illustrent les idées. Les exemples sont un peu centrés sur les États-Unis, mais les idées peuvent être extrapolées à d’autres pays.

Exemple 1

Supposons qu'une université souhaite affiner ses critères d'admission de manière à admettre les «meilleurs» étudiants. Supposons également que l’université souhaite utiliser la moyenne pondérée cumulative (MPC) comme indicateur de performance pour les étudiants. Ils ont plusieurs critères en tête, tels que le GPA pour les études secondaires (HSGPA), les scores au SAT (SAT), le sexe, etc., et souhaiteraient savoir lequel de ces critères compte pour GPA.

Solution: Régression multiple

Dans le contexte ci-dessus, il existe une variable dépendante (GPA) et plusieurs variables indépendantes (HSGPA, SAT, genre, etc.). Vous voulez savoir laquelle des variables indépendantes est un bon prédicteur pour votre variable dépendante. Vous utiliseriez la régression multiple pour effectuer cette évaluation.

Exemple 2

Au lieu de la situation ci-dessus, supposons que le bureau des admissions souhaite suivre les performances des étudiants dans le temps et souhaite déterminer lequel de leurs critères détermine les performances des étudiants dans le temps. En d'autres termes, ils ont des scores GPA pour les quatre années de scolarisation d'un élève (par exemple, GPA1, GPA2, GPA3, GPA4) et veulent savoir laquelle des variables indépendantes prédisent le mieux les scores de GPA année après année. année. Le bureau des admissions espère découvrir que les mêmes variables indépendantes permettent de prédire les performances sur les quatre années, de sorte que le choix des critères d’admission garantit que les performances des étudiants sont systématiquement élevées toutes les quatre années.

Solution: régression multivariée

Dans l'exemple 2, nous avons plusieurs variables dépendantes (c'est-à-dire GPA1, GPA2, GPA3, GPA4) et plusieurs variables indépendantes. Dans une telle situation, vous utiliseriez une régression multivariée.


la source
2
Il y en a toujours un qui répond correctement à la question par des exemples :)
Tjorriemorrie
100% la meilleure réponse que vous puissiez réellement comprendre
Alvis
21

La régression simple concerne une variable dépendante ( ) et une variable indépendante ( ):yXy=F(X)

La régression multiple (ou régression multivariable) concerne une variable dépendante et plusieurs variables indépendantes:y=F(X1,X2,...,Xn)

La régression multivariée concerne plusieurs variables dépendantes et plusieurs variables indépendantes: . Vous pouvez rencontrer des problèmes lorsque les variables dépendantes et indépendantes sont organisées en matrices de variables (par exemple, et ). l'expression peut être écrite sous la forme , les lettres majuscules désignant des matrices.y 11 , y 12 , . . . x 11 , x 12 , . . . Y = f ( X )y1,y2,...,ym=F(X1,X2,...,Xn)y11,y12,...X11,X12,...Y=F(X)

Lectures complémentaires:

stackoverflowuser2010
la source
Je comprends la définition. Mais quel est l’effet de traiter une régression multivariée comme un système de régressions univariées?
LKS
@ LKS: Vous voudrez peut-être poser cette question dans une question complètement distincte.
stackoverflowuser2010
Est-ce que la réponse dans le Quora faisant référence à cette page? : P
Habeeb Perwad
4

En dehors du nombre de variables de part et d'autre de l'équation, je pense que la compréhension clé (et le différenciateur) est que, dans le cas d'une régression multivariée, l'objectif est d'utiliser le fait qu'il existe (généralement) une corrélation entre les variables de réponse (ou résultats). Par exemple, dans un essai médical, les prédicteurs peuvent être le poids, l'âge et la race, et les variables de résultat sont la pression artérielle et le cholestérol. Nous pourrions, en théorie, créer deux modèles de "régression multiple", l'un régressant la pression artérielle sur le poids, l'âge et la race, et un deuxième modèle régressant le cholestérol sur ces mêmes facteurs. Cependant, nous pourrions aussi créer un seul modèle de régression multivarié qui prédit à la foisla pression artérielle et le cholestérol simultanément sur la base des trois variables prédictives. L'idée étant que le modèle de régression multivariée peut être meilleur (plus prédictif) dans la mesure où il peut en apprendre davantage sur la corrélation entre la pression artérielle et le cholestérol chez les patients.

thecity2
la source
Excellent point. Je me demandais si la régression multivariée était réalisable avec R. À l'aide de Manova, je suis capable de faire une ANOVA multivariée, mais je ne peux pas obtenir de coefficients comme la régression univariée.
KarthikS
1

Dans la régression multivariée, il existe plus d'une variable dépendante avec différentes variances (ou distributions). Les variables prédictives peuvent être plus d'un ou plusieurs. Il peut donc s'agir d'une régression multiple avec une matrice de variables dépendantes, c'est-à-dire de variances multiples. Mais quand on parle de régression multiple, on entend seulement une variable dépendante avec une distribution ou variance unique. Les variables prédictives sont plusieurs. Pour résumer, plusieurs font référence à plusieurs variables prédictives, mais multivarié, à plusieurs variables dépendantes.

Bhabesh Mahanta
la source