Test de signification de trois corrélations ou plus à l'aide de la transformation de Fisher

9

À la suite de mes articles précédents, pour autant que je puisse comprendre, si j'ai trois coefficients de corrélation, je devrai les tester par paires pour voir s'il y a une différence significative entre eux.

Cela signifie que je devrais utiliser la transformation Fishers pour calculer le score z de r, puis la valeur p de z (ce que les calculatrices recommandées dans les articles précédents font, heureusement), puis vérifier si la valeur p est supérieure ou inférieure à ma valeur alpha (0,05) pour chaque paire.

c.-à-d. si les 21 à 30 ans sont du groupe d'âge 1, 31 à 40 ans du groupe d'âge 2 et 41 à 50 ans du groupe d'âge 2, ma comparaison des corrélations entre leurs habitudes d'achat et la perte de poids serait:

  • Groupe 1 vs Groupe 2
  • Groupe 1 vs Groupe 3
  • Groupe 2 vs Groupe 3

Au lieu de faire trois calculs distincts, existe-t-il un moyen de faire tous ces calculs en une seule étape?

Adhesh Josh
la source
1
Pourriez-vous s'il vous plaît être un peu plus détaillé? Comme dans - quelle est votre réponse, vos variables explicatives et quelles sont les corrélations qui vous intéressent? Il se peut que vous ne transformiez pas Fisher pour tester la corrélation, un simple test t peut suffire.
suncoolsu
@suncoolsu Je teste la corrélation entre les habitudes d'achat et la prise de poids pour ces trois groupes. Mes résultats sont les suivants: Groupe 1: r = 0,8978, n = 105; Groupe 2: r = 0,5678, n = 95; et groupe 3: r = 0,7865, n = 120.
Adhesh Josh
Je pense que vos données passent l'IOTT. C'est le test de traumatisme interoculaire - il vous frappe entre les yeux. Si les corrélations de .9, .6 et .8 ne sont pas différentes les unes des autres, qu'est-ce que c'est? Mais si vous êtes vraiment intéressé
Peter Flom

Réponses:

4

Votre question est un parfait exemple de modèles de régression avec des prédicteurs quantitatifs et qualitatifs . Plus précisément, les trois groupes d'âge - - sont les variables qualitatives et les variables quantitatives sont les habitudes d'achat et la perte de poids (je suppose que c'est parce que vous calculez les corrélations).1,2,&3

Je dois souligner que c'est une bien meilleure façon de modéliser que de calculer des corrélations séparées par groupe, car vous avez plus de données à modéliser, donc vos estimations d'erreur (valeurs p, etc.) seront plus fiables. Une raison plus technique est les degrés de liberté plus élevés qui en résultent dans la statistique du test t pour tester la signification des coefficients de régression.

Fonctionnant selon la règle selon laquelle les prédicteurs qualitatifs peuvent être gérés par variables d'indicateur, seules deux variables d'indicateur, , sont nécessaires ici et sont définies comme suit:cc1X1,X2

X1=1 if person belongs to group 1;0 otherwise.
X2=1 if person belongs to group 2;0 otherwise.

Cela implique que le groupe est représenté par ; représenter votre réponse - habitude achats en et la perte de poids variable explicative quantitative comme . Vous êtes maintenant adapté à ce modèle linéaire3X1=0,X2=0YW

E[Y]=β0+β1X1+β2X2+β3W.
La question évidente est la suivante: est-ce important de changer et (parce que j'ai choisi au hasard les habitudes d'achat comme variable de réponse). La réponse est oui - les estimations des coefficients de régression changeront, mais le test de "l'association" entre conditionnés sur les groupes (ici le test t, mais c'est la même chose que le test de corrélation pour une variable prédictive unique) ne changera pas changement. Plus précisément,WY

E[Y]=β0+β3W -- for third group,
E[Y]=(β0+β2)+β3W -- for second group,
E[Y]=(β0+β1)+β3W -- for first group,
ce qui équivaut à avoir 3 lignes distinctes, en fonction des groupes, si vous tracer vs . C'est un bon moyen de visualiser ce pour quoi vous testez est logique (essentiellement une forme d'EDA et de vérification de modèle, mais vous devez distinguer correctement les observations groupées). Trois lignes parallèles indiquent qu'il n'y a pas d'interaction entre les trois groupes et , et beaucoup d'interaction implique que ces lignes vont se croiser.YWW

Comment font les tests que vous demandez. Fondamentalement, une fois que vous avez ajusté le modèle et obtenu les estimations, vous devez tester certains contrastes. Spécifiquement pour vos comparaisons:

Group 2 vs Group 3: β2+β0β0=0,
Group 1 vs Group 3: β1+β0β0=0,
Group 2 vs Group 1: β2+β0(β0+β1)=0.
suncoolsu
la source
Le test d'équivalence des pentes est différent du test d'équivalence des corrélations. Voir, par exemple: jessicagrahn.com/uploads/6/0/8/5/6085172/comparecorrcoeff.doc
Wolfgang
Je suis d'accord, mais pour une seule variable prédictive, elles devraient être identiques en raison de cette relation . t=ρn21ρ2tn2
suncoolsu
De plus, votre document parle de comparer différentes populations, ce qui n'est pas le cas d'un seul prédicteur.
suncoolsu
Le fait est que pourrait être vrai, tandis que pourrait être faux (et vice-versa). La corrélation entre X et Y dépend non seulement de , mais aussi de la variance de X et de la variance des erreurs. Si la variance de X et / ou les erreurs diffèrent entre les 3 groupes, alors vous testez différentes hypothèses. H0:β1=β2=β3H0:ρ1=ρ2=ρ3β
Wolfgang
Oui, vous avez raison (comme je l'ai déjà dit), mais ma réponse suppose que le PO était intéressé à déterminer la relation entre la perte de poids et les habitudes d'achat en fonction des groupes (pas nécessairement une corrélation). Je suppose que j'avais tort parce que le PO a accepté l'autre réponse. Néanmoins, cette réponse est une alternative utile (j'espère).
suncoolsu
1

Le test par paire dans cette situation n'est pas (encore) justifié par la description des données. Vous devez utiliser des méthodes de régression à variables multiples. Un appel R peut être:

lm( weight_end ~ shop_habit + age_grp + weight_begin)

La construction de 3 catégories n'est pas la meilleure méthode pour contrôler l'âge (ou analyser sa contribution si telle est la question principale), car la catégorisation peut fausser les relations continues et les termes splines éliminent la nécessité de choisir des points de partage arbitraires. Une fois qu'il y aura suffisamment de preuves d'une association de changement de poids après une analyse appropriée, des options de test ad hoc pourront être déployées.

(Je suis d'accord avec la plupart de ce que @whuber a exprimé dans un commentaire, et je trouve généralement son commentaire faisant autorité, mais je ne comprends pas sa position concernant les approches de régression.)

DWin
la source