J'ai calculé une matrice de corrélation d'un ensemble de données qui contient 455 points de données, chaque point de données contenant 14 caractéristiques. La dimension de la matrice de corrélation est donc de 14 x 14.
Je me demandais s'il existe un seuil pour la valeur du coefficient de corrélation qui indique qu'il existe une corrélation significative entre deux de ces caractéristiques.
J'ai une valeur allant de -0,2 à 0,85, et je pensais que les plus importantes sont celles qui sont supérieures à 0,7.
- Existe-t-il une valeur générale pour le coefficient de corrélation qui devrait être prise en compte pour le seuil ou dépend-elle uniquement du contexte du type de données que j'étudie?
Réponses:
Tests de signification des corrélations
Il existe des tests de signification statistique qui peuvent être appliqués aux corrélations individuelles, qui indiquent la probabilité d'obtenir une corrélation aussi grande ou plus grande que la corrélation de l'échantillon en supposant que l'hypothèse nulle est vraie.
Le point clé est que ce qui constitue un coefficient de corrélation statistiquement significatif dépend:
Dans des circonstances courantes, où alpha est 0,05, en utilisant un test bilatéral, avec la corrélation de Pearson, et où la normalité est au moins une approximation adéquate, le principal facteur influençant le seuil est la taille de l'échantillon.
cor.test
va calculer la signification statistique d'une corrélation dans RSeuil d'importance
Une autre façon d'interpréter votre question est de considérer que vous ne vous intéressez pas à la question de savoir si une corrélation est statistiquement significative, mais plutôt si elle est pratiquement importante.
Certains chercheurs ont proposé des règles empiriques pour interpréter la signification des coefficients de corrélation, mais ces règles empiriques sont spécifiques au domaine.
Test de signification multiple
Cependant, étant donné que vous souhaitez signaler des corrélations significatives dans une matrice, cela modifie le contexte inférentiel. Vous avez corrélations où est le nombre de variables (c.-à-d. Si l'hypothèse nulle était vraie pour toutes les corrélations dans la matrice, alors les tests de signification les plus importants que vous exécutez , alors plus vous êtes susceptible de commettre une erreur de type I. Par exemple, dans votre cas, vous feriez en moyenne erreurs de type I si l'hypothèse nulle était vraie pour toutes les corrélations.k ( k - 1 ) / 2 k 14 ( 13 ) / 2 = 91 91 ∗ 0,05 = 4,55
Comme @ user603 l'a souligné, ces questions ont été bien discutées dans cette question précédente .
En général, je trouve utile lors de l'interprétation d'une matrice de corrélation de se concentrer sur une structure de niveau supérieur. Cela peut être fait de manière informelle en examinant les modèles généraux de la matrice de corrélation. Cela peut être fait de manière plus formelle en utilisant des techniques telles que l'ACP et l'analyse factorielle. De telles approches évitent bon nombre des problèmes associés aux tests de signification multiple.
la source
Une option serait les tests de simulation ou de permutation. Si vous connaissez la distribution d'où proviennent vos données, vous pouvez simuler à partir de cette distribution, mais avec toutes les observations indépendantes. Si vous ne connaissez pas la distribution, vous pouvez permuter chacune de vos variables indépendamment les unes des autres et cela vous donnera la même distribution marginale générale de chaque variable, mais avec toute corrélation supprimée.
Faites l'une des choses ci-dessus (en gardant la taille de l'échantillon et les dimensions de la matrice les mêmes) un tas de fois (10 000 environ) et examinez la corrélation absolue maximale, ou un autre quantile élevé qui peut être intéressant. Cela vous donnera la distribution de l'hypothèse nulle que vous pouvez ensuite comparer le maximum de vos corrélations réelles observées à (et les autres quantiles élevés d'intérêt).
la source
la source