Ma question est née d'une discussion avec @whuber dans les commentaires d'une autre question .
Plus précisément, le commentaire de @whuber était le suivant:
Une des raisons pour lesquelles cela pourrait vous surprendre est que les hypothèses sous-jacentes à un test de corrélation et à un test de pente de régression sont différentes - même si nous comprenons que la corrélation et la pente mesurent vraiment la même chose, pourquoi leurs valeurs de p devraient-elles être les mêmes? Cela montre comment ces problèmes vont plus loin que simplement si et doivent être numériquement égaux.β
Cela m'a fait réfléchir et je suis tombé sur une variété de réponses intéressantes. Par exemple, j'ai trouvé cette question " Hypothèses de coefficient de corrélation " mais je ne vois pas comment cela clarifierait le commentaire ci-dessus.
J'ai trouvé des réponses plus intéressantes sur la relation entre le de Pearson et la pente dans une simple régression linéaire (voir ici et ici par exemple) mais aucune d'entre elles ne semble répondre à ce à quoi @whuber faisait référence dans son commentaire (du moins pas apparent tome).β
Question 1: Quelles sont les hypothèses sous-tendant un test de corrélation et un test de pente de régression?
Pour ma 2e question, considérez les sorties suivantes dans R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
Et la sortie de la cor.test()
fonction:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Comme le montrent les résultats lm()
et cov.test()
, le coefficient de corrélation de Pearson et l'estimation de la pente ( ) sont largement différents, 0,96 contre 0,485, respectivement, mais la valeur t et les valeurs p sont les mêmes.β 1
Ensuite, j'ai également essayé de voir si je pouvais calculer la valeur t pour et , qui sont les mêmes malgré que et soient différents. Et c'est là que je suis coincé, au moins pour :β 1 r β 1 r
Calculez la pente ( ) dans une régression linéaire simple en utilisant les sommes totales des carrés de et : x y
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Calculez l'estimation des moindres carrés de la pente de régression, (une preuve en est donnée dans Crawley's R Book 1st edition , page 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Calculez l'erreur standard pour :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
Et la valeur t et la valeur p pour :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
Ce que je ne sais pas à ce stade, et c'est la question 2 , est de savoir comment calculer la même valeur t en utilisant au lieu de (peut-être par étapes)?β 1
Je suppose que puisque cor.test()
l'hypothèse alternative de est de savoir si la vraie corrélation n'est pas égale à 0 (voir la cor.test()
sortie ci-dessus), je m'attendrais à quelque chose comme le coefficient de corrélation de Pearson divisé par «l'erreur standard du coefficient de corrélation de Pearson» (similaire à la au dessus)?! Mais quelle serait cette erreur standard et pourquoi?b1/se.b1
Peut-être que cela a quelque chose à voir avec les hypothèses susmentionnées qui sous-tendent un test de corrélation et un test de pente de régression ?!
EDIT (27-Jul-2017): Alors que @whuber a fourni une explication très détaillée pour la question 1 (et en partie la question 2 , voir les commentaires sous sa réponse), j'ai creusé un peu plus et j'ai constaté que ces deux messages ( ici et ici ) ne montrer une erreur standard spécifique pour , qui fonctionne bien pour répondre à la question 2 , c'est-à-dire reproduire la valeur t donnée r :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Réponses:
introduction
Cette réponse répond à la motivation sous-jacente à cet ensemble de questions:
À la lumière du contexte fourni dans la question, je voudrais suggérer d'élargir un peu cette question: explorons les différents objectifs et conceptions de la corrélation et de la régression.
La corrélation est généralement invoquée dans les situations où
Les données sont bivariées: exactement deux valeurs d'intérêt distinctes sont associées à chaque «sujet» ou «observation».
Les données sont observationnelles: aucune des valeurs n'a été fixée par l'expérimentateur. Les deux ont été observés ou mesurés.
L'intérêt réside dans l'identification, la quantification et le test d'une sorte de relation entre les variables.
La régression est utilisée lorsque
Les données sont bivariées ou multivariées: il peut y avoir plus de deux valeurs d'intérêt distinctes.
L'intérêt se concentre sur la compréhension de ce qui peut être dit sur un sous-ensemble de variables - les variables "dépendantes" ou "réponses" - sur la base de ce que l'on pourrait savoir sur l'autre sous-ensemble - les variables "indépendantes" ou "régresseurs".
Des valeurs spécifiques des régresseurs peuvent avoir été fixées par l'expérimentateur.
Ces objectifs et situations différents conduisent à des approches distinctes. Parce que ce fil est préoccupé par leurs similitudes, concentrons-nous sur le cas où ils sont les plus similaires: les données bivariées. Dans les deux cas, ces données seront généralement modélisées comme des réalisations d'une variable aléatoire . De manière très générale, les deux formes d'analyse recherchent des caractérisations relativement simples de cette variable.( X, Y)
Corrélation
Je crois que "l'analyse de corrélation" n'a jamais été définie de manière générale. Doit-elle être limitée au calcul des coefficients de corrélation, ou pourrait-elle être considérée plus largement comme comprenant l'ACP, l'analyse en grappes et d'autres formes d'analyse qui relient deux variables? Que votre point de vue soit étroitement circonscrit ou large, vous conviendrez peut-être que la description suivante s'applique:
Par exemple, vous pouvez commencer par supposer que a une distribution normale bivariée et utiliser le coefficient de corrélation de Pearson des données pour estimer l'un des paramètres de cette distribution. C'est l'une des conceptions les plus étroites (et les plus anciennes) de la corrélation.( X, Y)
Comme autre exemple, vous pourriez être en supposant que pourrait avoir n'importe quelle distribution et utiliser une analyse en grappes pour identifier k «centres». On pourrait interpréter cela comme le début d'une résolution de la distribution de ( X , Y ) en un mélange de distributions bivariées unimodales, une pour chaque cluster.( X, Y) k ( X, Y)
Une chose commune à toutes ces approches est un traitement symétrique de et Y : aucune n'est privilégiée par rapport à l'autre. Les deux jouent des rôles équivalents.X Oui
Régression
La régression jouit d'une définition claire et universellement comprise:
Historiquement, la régression trouve ses racines dans la découverte de Galton (C 1885). Bidimensionnelles que des données normales bénéficient d' un linéaire de régression: l'espérance conditionnelle de Y est une fonction linéaire de X . A l' un des pôles du spectre spécial général est moindres carrés ordinaires (OLS) régression où la distribution conditionnelle de Y est supposée être normale ( β 0 + β 1 X , σ 2 ) pour les paramètres fixes β 0 , β 1 , et σ( X, Y) Oui X Oui ( β0+ β1X, σ2) β0, β1, σ à estimer à partir des données.
À l'extrémité extrêmement générale de ce spectre se trouvent les modèles linéaires généralisés, les modèles additifs généralisés et d'autres de leur acabit qui relâchent tous les aspects de l'OLS: l'attente, la variance et même la forme de la distribution conditionnelle de peuvent varier non linéairement. avec X . Le concept qui survit à toute cette généralisation est que les restes d'intérêt porté sur la compréhension Y dépend de X . Cette asymétrie fondamentale est toujours là.Oui X Oui X
Correlation et regression
Une situation très particulière est commune aux deux approches et est fréquemment rencontrée: le modèle Normal bivarié. Dans ce modèle, un nuage de points de données prendra une forme classique de «football», ovale ou de cigare: les données sont réparties de manière elliptique autour d'une paire d'axes orthogonaux.
Une analyse de corrélation se concentre sur la «force» de cette relation, dans le sens où un écart relativement faible autour du grand axe est «fort».
Comme indiqué ci-dessus, la régression de sur X (et, également, la régression de X sur Y ) est linéaire : l'attente conditionnelle de la réponse est une fonction linéaire du régresseur.Oui X X Oui
(Il vaut la peine de réfléchir aux différences géométriques claires entre ces deux descriptions: elles éclairent les différences statistiques sous-jacentes.)
Parmi les cinq paramètres normaux bivariés (deux moyennes, deux écarts et un de plus qui mesure la dépendance entre les deux variables), un est d'intérêt commun: le cinquième paramètre, . Elle est directement (et simplement) liée àρ
Le coefficient de dans la régression de Y sur X .X Oui X
Le coefficient de dans la régression de X sur Y .Oui X Oui
Les variances conditionnelles dans l'une ou l'autre des régressions et ( 2 ) .( 1 ) ( 2 )
Cette application commune, qui est la première que tout le monde apprenne, peut rendre difficile de reconnaître à quel point la corrélation et la régression sont différentes dans leurs concepts et leurs objectifs. Ce n'est que lorsque nous apprenons leurs généralisations que les différences sous-jacentes sont exposées. Il serait difficile d'interpréter un GAM comme donnant beaucoup d'informations sur la «corrélation», tout comme il serait difficile de définir une analyse de cluster comme une forme de «régression». Les deux sont des familles de procédures différentes avec des objectifs différents, chacune utile en soi lorsqu'elle est appliquée de manière appropriée.
la source
Comme le suggère la réponse de @ whuber, il existe un certain nombre de modèles et de techniques qui peuvent tomber sous le parapluie de corrélation et qui n'ont pas d'analogues clairs dans un monde de régression et vice versa. Cependant, dans l'ensemble, lorsque les gens réfléchissent, comparent et contrastent la régression et la corrélation, ils envisagent en fait les deux faces d'une même pièce mathématique (généralement une régression linéaire et une corrélation de Pearson). La question de savoir s'ils devraient avoir une vision plus large des deux familles d'analyses est un débat distinct, et un débat auquel les chercheurs devraient au moins lutter de manière minimale.
Dans cette vue étroite de la régression et de la corrélation, les explications suivantes devraient aider à élucider comment et pourquoi leurs estimations, les erreurs-types et les valeurs de p sont essentiellement des variantes l'une de l'autre.
Le cadre de données
dat
étant l'longley
ensemble de données référencé ci-dessus, nous obtenons ce qui suit pour le cor.test. (Il n'y a rien de nouveau ici, sauf si vous avez sauté la question ci-dessus et que vous êtes allé directement à la lecture des réponses):Et ce qui suit pour le modèle linéaire (également le même que ci-dessus):
Maintenant, pour le nouveau composant de cette réponse. Créez d'abord deux nouvelles versions standardisées des variables
Employed
etPopulation
:Deuxième relancez la régression:
Voila! La pente de régression est égale au coefficient de corrélation ci-dessus. La réponse à la question 1 est alors que les hypothèses pour les deux tests sont essentiellement les mêmes:
Pour la question 2 , commençons par l'erreur standard de la formule de la pente de régression utilisée ci-dessus (implicite dans le code R - mais énoncée directement ci-dessous):
À partir de cette formule, vous pouvez accéder à l'expression suivante, condensée et plus utile ( voir ce lien étape par étape ):
Je pense que vous constaterez que si vous résolvez cette équation pour les modèles linéaires non normalisés et normalisés (c.-à-d. Corrélation), vous obtiendrez les mêmes valeurs p et t pour vos pentes. Les deux tests reposent sur une estimation des moindres carrés ordinaires et font les mêmes hypothèses. En pratique, de nombreux chercheurs ignorent les hypothèses pour vérifier à la fois les modèles de régression linéaire simples et les corrélations, bien que je pense qu'il soit encore plus courant de le faire pour les corrélations car de nombreuses personnes ne les reconnaissent pas comme des cas particuliers de régressions linéaires simples. (Remarque: ce n'est pas une bonne pratique à adopter)
la source
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Voici une explication de l'équivalence du test, montrant également comment r et b sont liés.
http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/
Pour effectuer OLS, vous devez créer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions
De plus, OLS et corr nécessitent l'hypothèse d'un échantillonnage aléatoire.
La construction d'un test corr suppose:
Nous avons un "échantillon aléatoire et suffisamment grand" de la population de (x, y).
la source
Concernant la question 2
Avec la restriction que
Source: Test d'hypothèse dans le modèle de régression multiple
la source