Différence entre les hypothèses sous-jacentes à une corrélation et un test de pente de régression significatif

21

Ma question est née d'une discussion avec @whuber dans les commentaires d'une autre question .

Plus précisément, le commentaire de @whuber était le suivant:

Une des raisons pour lesquelles cela pourrait vous surprendre est que les hypothèses sous-jacentes à un test de corrélation et à un test de pente de régression sont différentes - même si nous comprenons que la corrélation et la pente mesurent vraiment la même chose, pourquoi leurs valeurs de p devraient-elles être les mêmes? Cela montre comment ces problèmes vont plus loin que simplement si et doivent être numériquement égaux.βrβ

Cela m'a fait réfléchir et je suis tombé sur une variété de réponses intéressantes. Par exemple, j'ai trouvé cette question " Hypothèses de coefficient de corrélation " mais je ne vois pas comment cela clarifierait le commentaire ci-dessus.

J'ai trouvé des réponses plus intéressantes sur la relation entre le de Pearson et la pente dans une simple régression linéaire (voir ici et ici par exemple) mais aucune d'entre elles ne semble répondre à ce à quoi @whuber faisait référence dans son commentaire (du moins pas apparent tome).βrβ

Question 1: Quelles sont les hypothèses sous-tendant un test de corrélation et un test de pente de régression?

Pour ma 2e question, considérez les sorties suivantes dans R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Et la sortie de la cor.test()fonction:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Comme le montrent les résultats lm()et cov.test(), le coefficient de corrélation de Pearson et l'estimation de la pente ( ) sont largement différents, 0,96 contre 0,485, respectivement, mais la valeur t et les valeurs p sont les mêmes.β 1rβ1

Ensuite, j'ai également essayé de voir si je pouvais calculer la valeur t pour et , qui sont les mêmes malgré que et soient différents. Et c'est là que je suis coincé, au moins pour :β 1 r β 1 rrβ1rβ1r

Calculez la pente ( ) dans une régression linéaire simple en utilisant les sommes totales des carrés de et : x yβ1Xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Calculez l'estimation des moindres carrés de la pente de régression, (une preuve en est donnée dans Crawley's R Book 1st edition , page 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Calculez l'erreur standard pour :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

Et la valeur t et la valeur p pour :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Ce que je ne sais pas à ce stade, et c'est la question 2 , est de savoir comment calculer la même valeur t en utilisant au lieu de (peut-être par étapes)?β 1rβ1

Je suppose que puisque cor.test()l'hypothèse alternative de est de savoir si la vraie corrélation n'est pas égale à 0 (voir la cor.test()sortie ci-dessus), je m'attendrais à quelque chose comme le coefficient de corrélation de Pearson divisé par «l'erreur standard du coefficient de corrélation de Pearson» (similaire à la au dessus)?! Mais quelle serait cette erreur standard et pourquoi?rb1/se.b1

Peut-être que cela a quelque chose à voir avec les hypothèses susmentionnées qui sous-tendent un test de corrélation et un test de pente de régression ?!

EDIT (27-Jul-2017): Alors que @whuber a fourni une explication très détaillée pour la question 1 (et en partie la question 2 , voir les commentaires sous sa réponse), j'ai creusé un peu plus et j'ai constaté que ces deux messages ( ici et ici ) ne montrer une erreur standard spécifique pour , qui fonctionne bien pour répondre à la question 2 , c'est-à-dire reproduire la valeur t donnée r :rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Stefan
la source
2
C'est le même test ou au moins un test équivalent. Si vous rejetez l'hypothèse selon laquelle la corrélation n'est pas nulle, le test rejette également l'hypothèse selon laquelle la pente n'est pas nulle.
Michael R. Chernick
6
@Michael Right - mais il existe de nombreux modèles potentiels ici, et ils sont très différents. L'un d'eux est un modèle standard de corrélation, dont le plus simple est que les données sont un échantillon d'une distribution normale bivariée inconnue. Une autre est une version d'un modèle OLS pour la régression de contre X - en deux versions, régresseurs fixes et régresseurs aléatoires. Un autre inverse les rôles de X et Y . Si vous avez le sentiment que ceux-ci devraient produire les mêmes valeurs de p pour des tests d'hypothèse comparables, ce n'est probablement que par une familiarité approfondie, mais ce n'est pas intuitivement évident! OuiXXOui
whuber
1
@whuber Voyant que ce Q est si bien voté mais manque de réponse satisfaisante, j'ai commencé une prime qui s'est terminée plus tôt dans la journée; c'est maintenant dans la période de grâce. Une nouvelle réponse a été publiée et elle explique bien les calculs de corrélation en tant que pente, mais prétend qu'il n'y a pas de différence d'hypothèses, contrairement à votre déclaration citée. Ma prime sera automatiquement attribuée à cette nouvelle réponse à moins qu'une autre n'apparaisse. Je vous préviens au cas où vous envisageriez également de publier votre propre réponse.
amibe dit Réintégrer Monica le
1
@amoeba Merci; Je n'avais pas remarqué la prime. J'ai publié un compte rendu partiel de ce que j'avais en tête lorsque j'ai écrit la remarque qui a déclenché cette question. J'espère que cela représente un progrès dans la direction que vous avez suggérée.
whuber

Réponses:

5

introduction

Cette réponse répond à la motivation sous-jacente à cet ensemble de questions:

Quelles sont les hypothèses sous-tendant un test de corrélation et un test de pente de régression?

À la lumière du contexte fourni dans la question, je voudrais suggérer d'élargir un peu cette question: explorons les différents objectifs et conceptions de la corrélation et de la régression.

La corrélation est généralement invoquée dans les situations où

  • Les données sont bivariées: exactement deux valeurs d'intérêt distinctes sont associées à chaque «sujet» ou «observation».

  • Les données sont observationnelles: aucune des valeurs n'a été fixée par l'expérimentateur. Les deux ont été observés ou mesurés.

  • L'intérêt réside dans l'identification, la quantification et le test d'une sorte de relation entre les variables.

La régression est utilisée lorsque

  • Les données sont bivariées ou multivariées: il peut y avoir plus de deux valeurs d'intérêt distinctes.

  • L'intérêt se concentre sur la compréhension de ce qui peut être dit sur un sous-ensemble de variables - les variables "dépendantes" ou "réponses" - sur la base de ce que l'on pourrait savoir sur l'autre sous-ensemble - les variables "indépendantes" ou "régresseurs".

  • Des valeurs spécifiques des régresseurs peuvent avoir été fixées par l'expérimentateur.

Ces objectifs et situations différents conduisent à des approches distinctes. Parce que ce fil est préoccupé par leurs similitudes, concentrons-nous sur le cas où ils sont les plus similaires: les données bivariées. Dans les deux cas, ces données seront généralement modélisées comme des réalisations d'une variable aléatoire . De manière très générale, les deux formes d'analyse recherchent des caractérisations relativement simples de cette variable.(X,Oui)

Corrélation

Je crois que "l'analyse de corrélation" n'a jamais été définie de manière générale. Doit-elle être limitée au calcul des coefficients de corrélation, ou pourrait-elle être considérée plus largement comme comprenant l'ACP, l'analyse en grappes et d'autres formes d'analyse qui relient deux variables? Que votre point de vue soit étroitement circonscrit ou large, vous conviendrez peut-être que la description suivante s'applique:

La corrélation est une analyse qui fait des hypothèses sur la distribution de , sans privilégier aucune variable, et utilise les données pour tirer des conclusions plus spécifiques sur cette distribution.(X,Oui)

Par exemple, vous pouvez commencer par supposer que a une distribution normale bivariée et utiliser le coefficient de corrélation de Pearson des données pour estimer l'un des paramètres de cette distribution. C'est l'une des conceptions les plus étroites (et les plus anciennes) de la corrélation.(X,Oui)

Comme autre exemple, vous pourriez être en supposant que pourrait avoir n'importe quelle distribution et utiliser une analyse en grappes pour identifier k «centres». On pourrait interpréter cela comme le début d'une résolution de la distribution de ( X , Y ) en un mélange de distributions bivariées unimodales, une pour chaque cluster.(X,Oui)k(X,Oui)

Une chose commune à toutes ces approches est un traitement symétrique de et Y : aucune n'est privilégiée par rapport à l'autre. Les deux jouent des rôles équivalents.XOui

Régression

La régression jouit d'une définition claire et universellement comprise:

La régression caractérise la distribution conditionnelle de (la réponse) étant donné X (le régresseur).OuiX

Historiquement, la régression trouve ses racines dans la découverte de Galton (C 1885). Bidimensionnelles que des données normales bénéficient d' un linéaire de régression: l'espérance conditionnelle de Y est une fonction linéaire de X . A l' un des pôles du spectre spécial général est moindres carrés ordinaires (OLS) régression où la distribution conditionnelle de Y est supposée être normale ( β 0 + β 1 X , σ 2 ) pour les paramètres fixes β 0 , β 1 , et σ(X,Oui)OuiXOui(β0+β1X,σ2)β0,β1,σ à estimer à partir des données.

À l'extrémité extrêmement générale de ce spectre se trouvent les modèles linéaires généralisés, les modèles additifs généralisés et d'autres de leur acabit qui relâchent tous les aspects de l'OLS: l'attente, la variance et même la forme de la distribution conditionnelle de peuvent varier non linéairement. avec X . Le concept qui survit à toute cette généralisation est que les restes d'intérêt porté sur la compréhension Y dépend de X . Cette asymétrie fondamentale est toujours là.OuiXOuiX

Correlation et regression

Une situation très particulière est commune aux deux approches et est fréquemment rencontrée: le modèle Normal bivarié. Dans ce modèle, un nuage de points de données prendra une forme classique de «football», ovale ou de cigare: les données sont réparties de manière elliptique autour d'une paire d'axes orthogonaux.

  • Une analyse de corrélation se concentre sur la «force» de cette relation, dans le sens où un écart relativement faible autour du grand axe est «fort».

  • Comme indiqué ci-dessus, la régression de sur X (et, également, la régression de X sur Y ) est linéaire : l'attente conditionnelle de la réponse est une fonction linéaire du régresseur.OuiXXOui

(Il vaut la peine de réfléchir aux différences géométriques claires entre ces deux descriptions: elles éclairent les différences statistiques sous-jacentes.)

Parmi les cinq paramètres normaux bivariés (deux moyennes, deux écarts et un de plus qui mesure la dépendance entre les deux variables), un est d'intérêt commun: le cinquième paramètre, . Elle est directement (et simplement) liée àρ

  1. Le coefficient de dans la régression de Y sur X .XOuiX

  2. Le coefficient de dans la régression de X sur Y .OuiXOui

  3. Les variances conditionnelles dans l'une ou l'autre des régressions et ( 2 ) .(1)(2)

  4. (X,Oui)

(4)XOui

(1)(3)

H0:ρ=0OuiXrβ^

Cette application commune, qui est la première que tout le monde apprenne, peut rendre difficile de reconnaître à quel point la corrélation et la régression sont différentes dans leurs concepts et leurs objectifs. Ce n'est que lorsque nous apprenons leurs généralisations que les différences sous-jacentes sont exposées. Il serait difficile d'interpréter un GAM comme donnant beaucoup d'informations sur la «corrélation», tout comme il serait difficile de définir une analyse de cluster comme une forme de «régression». Les deux sont des familles de procédures différentes avec des objectifs différents, chacune utile en soi lorsqu'elle est appliquée de manière appropriée.


rβ^

whuber
la source
r
1
r(X,Oui)r
Je laisserai cette boîte de vers pour une autre fois alors :) Merci pour ton commentaire @whuber!
Stefan
3

Comme le suggère la réponse de @ whuber, il existe un certain nombre de modèles et de techniques qui peuvent tomber sous le parapluie de corrélation et qui n'ont pas d'analogues clairs dans un monde de régression et vice versa. Cependant, dans l'ensemble, lorsque les gens réfléchissent, comparent et contrastent la régression et la corrélation, ils envisagent en fait les deux faces d'une même pièce mathématique (généralement une régression linéaire et une corrélation de Pearson). La question de savoir s'ils devraient avoir une vision plus large des deux familles d'analyses est un débat distinct, et un débat auquel les chercheurs devraient au moins lutter de manière minimale.

Xy(x,y)

Dans cette vue étroite de la régression et de la corrélation, les explications suivantes devraient aider à élucider comment et pourquoi leurs estimations, les erreurs-types et les valeurs de p sont essentiellement des variantes l'une de l'autre.

Le cadre de données datétant l' longleyensemble de données référencé ci-dessus, nous obtenons ce qui suit pour le cor.test. (Il n'y a rien de nouveau ici, sauf si vous avez sauté la question ci-dessus et que vous êtes allé directement à la lecture des réponses):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Et ce qui suit pour le modèle linéaire (également le même que ci-dessus):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Maintenant, pour le nouveau composant de cette réponse. Créez d'abord deux nouvelles versions standardisées des variables Employedet Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Deuxième relancez la régression:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! La pente de régression est égale au coefficient de corrélation ci-dessus. La réponse à la question 1 est alors que les hypothèses pour les deux tests sont essentiellement les mêmes:

  1. Indépendance des observations
  2. xy
  3. eN(0,σe2)
  4. Les termes d'erreur sont distribués de façon similaire à chaque valeur prédite de la droite de régression (c.-à-d. Homogénéité de la variance d'erreur)

Xy

Pour la question 2 , commençons par l'erreur standard de la formule de la pente de régression utilisée ci-dessus (implicite dans le code R - mais énoncée directement ci-dessous):

b=(Xje-X¯)(Ouije-Oui¯)(Xje-X¯)2

bVuner(b)Xje=(Xje-X¯)Ouije=(Ouije-Oui¯)

Vuner(b)=Vuner((XjeOuije)(Xje2))

À partir de cette formule, vous pouvez accéder à l'expression suivante, condensée et plus utile ( voir ce lien étape par étape ):

Vuner(b)=σe2(Xje-X¯)2
SE(b)=Vuner(b)=σe2(Xje-X¯)2

σe2

Je pense que vous constaterez que si vous résolvez cette équation pour les modèles linéaires non normalisés et normalisés (c.-à-d. Corrélation), vous obtiendrez les mêmes valeurs p et t pour vos pentes. Les deux tests reposent sur une estimation des moindres carrés ordinaires et font les mêmes hypothèses. En pratique, de nombreux chercheurs ignorent les hypothèses pour vérifier à la fois les modèles de régression linéaire simples et les corrélations, bien que je pense qu'il soit encore plus courant de le faire pour les corrélations car de nombreuses personnes ne les reconnaissent pas comme des cas particuliers de régressions linéaires simples. (Remarque: ce n'est pas une bonne pratique à adopter)

Matt Barstead
la source
2
Cette réponse ne répond pas à la citation de @whuber reproduite dans la question, où il affirme que les hypothèses sont différentes. Voulez-vous dire que cette déclaration était fausse?
amibe dit Réintégrer Monica le
Si vous suivez ces équations, la corrélation de Pearson a les mêmes hypothèses de base d'une simple régression linéaire. Je peux modifier ma réponse pour le dire plus clairement.
Matt Barstead
1
Merci pour votre réponse! Je savais que le coefficient de corrélation est égal à la pente de régression lorsqu'il est normalisé. Cela a été montré dans le lien 3 et 4 dans ma question. J'étais également au courant des hypothèses générales que vous avez énumérées et c'est pourquoi le commentaire de @whuber m'a fait réfléchir, ce qui a conduit à cette question. J'aurais dû dire explicitement quelles hypothèses je connais - mes excuses.
Stefan
1
rrr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
0

Voici une explication de l'équivalence du test, montrant également comment r et b sont liés.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Pour effectuer OLS, vous devez créer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

De plus, OLS et corr nécessitent l'hypothèse d'un échantillonnage aléatoire.

La construction d'un test corr suppose:

Nous avons un "échantillon aléatoire et suffisamment grand" de la population de (x, y).

ivankomarov
la source
0

Concernant la question 2

comment calculer la même valeur t en utilisant r au lieu de β1

trFr

F=r2/k(1-r2)/(n-k)

k=2n=unetunepojents

Avec la restriction que

... le rapport F ne peut pas être utilisé lorsque le modèle n'a pas d'interception

Source: Test d'hypothèse dans le modèle de régression multiple

Harry Salmon
la source
1
J'ai regardé le message d'origine pour identifier à quelle question vous pourriez répondre. J'en ai trouvé deux, numérotées 1 (sur les hypothèses) et 2 (sur le calcul d'une valeur t), mais aucune ne semble être abordée par cette réponse. Pourriez-vous nous dire plus explicitement à quelle question vous répondez?
whuber
1
r
1
Je pense que je comprends, peut-être que je répondais à la question dans le cas spécifique plutôt que le général. Je pense qu'il serait utile de pouvoir poser la question en termes d'hypothèse générale nulle et alternative pour pouvoir considérer ce cas général, comme je m'efforce de le faire.
Harry Salmon
Je suis d'accord: montrer des modèles et des critères de décision clairs pour les analyses de corrélation et de régression serait d'une grande aide pour les distinguer. Parfois, une bonne réponse consiste à recadrer ou à clarifier la question, et souvent les meilleures réponses commencent par des reformulations efficaces de la question, alors n'ayez pas peur d'aller dans cette direction.
whuber