Seuil du coefficient de corrélation pour indiquer la signification statistique d'une corrélation dans une matrice de corrélation

10

J'ai calculé une matrice de corrélation d'un ensemble de données qui contient 455 points de données, chaque point de données contenant 14 caractéristiques. La dimension de la matrice de corrélation est donc de 14 x 14.

Je me demandais s'il existe un seuil pour la valeur du coefficient de corrélation qui indique qu'il existe une corrélation significative entre deux de ces caractéristiques.

J'ai une valeur allant de -0,2 à 0,85, et je pensais que les plus importantes sont celles qui sont supérieures à 0,7.

  • Existe-t-il une valeur générale pour le coefficient de corrélation qui devrait être prise en compte pour le seuil ou dépend-elle uniquement du contexte du type de données que j'étudie?
Simon
la source
1
avez-vous vérifié stats.stackexchange.com/questions/5750/… ?
user603
@ user603 Bonne prise: c'est pratiquement la même question. L'innovation ici consiste à se demander si les tests de corrélation significative peuvent dépendre du "type de données" (lire: distribution des données). Espérons que les réponses se concentrent sur cet aspect au lieu d'aller sur de vieux terrains.
whuber

Réponses:

8

Tests de signification des corrélations

Il existe des tests de signification statistique qui peuvent être appliqués aux corrélations individuelles, qui indiquent la probabilité d'obtenir une corrélation aussi grande ou plus grande que la corrélation de l'échantillon en supposant que l'hypothèse nulle est vraie.

Le point clé est que ce qui constitue un coefficient de corrélation statistiquement significatif dépend:

  • Taille de l'échantillon : des tailles d'échantillon plus grandes entraîneront des seuils plus petits
  • alpha : souvent fixé à 0,05, des alphas plus petits entraîneront des seuils de signification statistique plus élevés
  • test unilatéral / bilatéral : je suppose que vous utiliseriez un système bilatéral, donc cela n'a probablement pas d'importance
  • type de coefficient de corrélation : je suppose que vous utilisez Pearson
  • hypothèses de distribution de x et y

Dans des circonstances courantes, où alpha est 0,05, en utilisant un test bilatéral, avec la corrélation de Pearson, et où la normalité est au moins une approximation adéquate, le principal facteur influençant le seuil est la taille de l'échantillon.

Seuil d'importance

Une autre façon d'interpréter votre question est de considérer que vous ne vous intéressez pas à la question de savoir si une corrélation est statistiquement significative, mais plutôt si elle est pratiquement importante.

Certains chercheurs ont proposé des règles empiriques pour interpréter la signification des coefficients de corrélation, mais ces règles empiriques sont spécifiques au domaine.

Test de signification multiple

Cependant, étant donné que vous souhaitez signaler des corrélations significatives dans une matrice, cela modifie le contexte inférentiel. Vous avez corrélations où est le nombre de variables (c.-à-d. Si l'hypothèse nulle était vraie pour toutes les corrélations dans la matrice, alors les tests de signification les plus importants que vous exécutez , alors plus vous êtes susceptible de commettre une erreur de type I. Par exemple, dans votre cas, vous feriez en moyenne erreurs de type I si l'hypothèse nulle était vraie pour toutes les corrélations.k(k-1)/2k14(13)/2=9191.05=4,55

Comme @ user603 l'a souligné, ces questions ont été bien discutées dans cette question précédente .

En général, je trouve utile lors de l'interprétation d'une matrice de corrélation de se concentrer sur une structure de niveau supérieur. Cela peut être fait de manière informelle en examinant les modèles généraux de la matrice de corrélation. Cela peut être fait de manière plus formelle en utilisant des techniques telles que l'ACP et l'analyse factorielle. De telles approches évitent bon nombre des problèmes associés aux tests de signification multiple.

Jeromy Anglim
la source
1

Une option serait les tests de simulation ou de permutation. Si vous connaissez la distribution d'où proviennent vos données, vous pouvez simuler à partir de cette distribution, mais avec toutes les observations indépendantes. Si vous ne connaissez pas la distribution, vous pouvez permuter chacune de vos variables indépendamment les unes des autres et cela vous donnera la même distribution marginale générale de chaque variable, mais avec toute corrélation supprimée.

Faites l'une des choses ci-dessus (en gardant la taille de l'échantillon et les dimensions de la matrice les mêmes) un tas de fois (10 000 environ) et examinez la corrélation absolue maximale, ou un autre quantile élevé qui peut être intéressant. Cela vous donnera la distribution de l'hypothèse nulle que vous pouvez ensuite comparer le maximum de vos corrélations réelles observées à (et les autres quantiles élevés d'intérêt).

Greg Snow
la source
0

n-2ncorr>>n-2

Hrobjartur
la source