Y a-t-il un problème sérieux avec la suppression des observations avec des valeurs manquantes lors du calcul de la matrice de corrélation?

J'ai cet énorme ensemble de données avec comme 2500 variables et comme 142 observations.

Je veux exécuter une corrélation entre la variable X et le reste des variables. Mais pour de nombreuses colonnes, il manque des entrées.

J'ai essayé de le faire dans R en utilisant l'argument "pairwise-complete" ( use=pairwise.complete.obs) et cela a produit un tas de corrélations. Mais ensuite, quelqu'un sur StackOverflow a publié un lien vers cet article http://bwlewis.github.io/covar/missing.html et cela rend la méthode "pairwise-complete" dans R inutilisable.

Ma question: comment savoir quand il est approprié d'utiliser l'option "pairwise-complete"?

Mon use = complete.obsretour no complete element pairs, donc si vous pouviez expliquer ce que cela signifie aussi, ce serait génial.

r correlation missing-data correlation-matrix Stan Shunpike
la source

Une histoire classique à connaître est l' histoire d'Abraham Wald et la question de savoir où ajouter une armure aux avions pendant la Seconde Guerre mondiale . Il est important de comprendre pourquoi vos données sont manquantes.

Matthew Gunn

Réponses:

Le problème des corrélations sur les observations complètes par paire

Dans le cas que vous décrivez, le principal problème est l'interprétation. Étant donné que vous utilisez des observations complètes par paire, vous analysez en fait des ensembles de données légèrement différents pour chacune des corrélations, en fonction des observations manquantes.

Prenons l'exemple suivant:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)

Trois variables dans l'ensemble de données, a, bet c, chacun a des valeurs manquantes. Si vous calculez ici des corrélations sur des paires de variables, vous ne pourrez utiliser que des cas qui n'ont pas de valeurs manquantes pour les deux variables en question. Dans ce cas, cela signifie que vous analyserez uniquement les 3 derniers cas pour la corrélation entre aet b, juste les trois premiers cas pour la corrélation entre bet c, etc.

Le fait que vous analysez des cas complètement différents lorsque vous calculez chaque corrélation signifie que le modèle de corrélations résultant peut sembler absurde. Voir:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Cela ressemble à une contradiction logique --- aet bsont fortement corrélés positivement, et bet csont fortement corrélés positivement, de sorte que vous attendez aet cd'être corrélées positivement aussi bien, mais il est en fait une association forte dans la direction opposée. Vous pouvez voir pourquoi beaucoup d'analystes n'aiment pas cela.

Modifier pour inclure des clarifications utiles de whuber:

Notez qu'une partie de l'argument dépend de ce que pourrait signifier une corrélation "forte". Il est tout à fait possible aet baussi bien que bet cà « une forte corrélation positive » alors qu'il existe une « forte association dans la direction opposée » entre aet c, mais pas tout à fait aussi extrême que dans cet exemple. Le nœud du problème est que la matrice de corrélation (ou covariance) estimée n'est peut-être pas définie positivement: c'est ainsi qu'il faut quantifier «fort».

Le problème du type de disparition

Vous vous demandez peut-être: "Eh bien, n'est-il pas acceptable de supposer simplement que le sous-ensemble de cas dont je dispose pour chaque corrélation suit plus ou moins le même schéma que j'obtiendrais si j'avais des données complètes?" Et oui, c'est vrai --- il n'y a rien de fondamentalement mal à calculer une corrélation sur un sous-ensemble de vos données (bien que vous perdiez de la précision et de la puissance, bien sûr, en raison de la plus petite taille de l'échantillon), tant que les données disponibles sont aléatoires échantillon de toutes les données qui auraient été là si vous n'aviez pas manqué.

Lorsque le manque est purement aléatoire, cela s'appelle MCAR (complètement absent au hasard). Dans ce cas, l'analyse du sous-ensemble de données qui ne manque pas ne biaisera pas systématiquement vos résultats, et il serait peu probable (mais pas impossible) d'obtenir le type de modèle de corrélation fou que j'ai montré dans l'exemple ci-dessus.

Lorsque votre absence est systématique d'une manière ou d'une autre (souvent abrégé MAR ou NI, délimitant deux types différents de disparition systématique), vous avez des problèmes beaucoup plus graves, à la fois en termes d'introduction potentielle de biais dans vos calculs et en termes de votre capacité à généraliser votre résultats à la population d'intérêt (car l'échantillon que vous analysez n'est pas un échantillon aléatoire de la population, même si votre ensemble de données complet l'aurait été).

Il y a beaucoup de grandes ressources disponibles pour en apprendre davantage sur les données manquantes et comment y faire face, mais ma recommandation est Rubin: un classique , et un article plus récent

Rose Hartman
la source

+1. Notez qu'une partie de votre argument dépend de la signification d'une corrélation "forte". Il est tout à fait possible que et ainsi que et soient "fortement positivement corrélés" alors qu'il existe une "forte association en sens inverse" entre et . Cependant, il n'est pas possible que les trois coefficients de corrélation soient aussi extrêmes que dans votre exemple, vous êtes donc d'accord. Le nœud du problème est que la matrice de corrélation (ou covariance) estimée n'est peut-être pas définie positivement: c'est ainsi qu'il faut quantifier «fort».

a

$a$

b

$b$

b

$b$

c

$c$

a

$a$

c

$c$

whuber

@whuber Merci, c'est un point important. J'ai mis à jour cette section de la réponse pour inclure cette clarification.

Rose Hartman

Une grande préoccupation est de savoir si les données manquent d'une manière systématique qui pourrait corrompre votre analyse. Vos données peuvent manquer, pas au hasard.

Cela a été évoqué dans les réponses précédentes, mais je pensais que j'apporterais un exemple.

Exemple financier: les retours manquants peuvent être de mauvais retours

Contrairement aux fonds communs de placement, les fonds de capital-investissement (et autres fonds privés) ne sont pas tenus par la loi de déclarer leurs rendements dans une base de données centrale.
Par conséquent, une préoccupation majeure est que la déclaration est endogène, plus précisément, que certaines entreprises ne signalent pas de mauvais rendements.
Si oui, votre moyenne des rendements de fonds ont fait état sera surestiment la moyenne vraie parce que la faible ont tendance à manquer. $\frac{1}{n} \sum_i R_i$ $R_i$

Tout n'est pas nécessairement perdu dans ces situations (il y a des choses que vous pouvez faire), mais exécuter naïvement une régression (ou calculer des corrélations) sur les données non manquantes peut conduire à des estimations sérieusement biaisées et incohérentes des vrais paramètres de la population.

Matthew Gunn
la source

La corrélation par paire est appropriée si vos données manquantes sont manquantes complètes au hasard (MCAR). Le livre Missing Data de Paul Allison est un bon point de départ pour savoir pourquoi.

Vous pouvez tester cela en utilisant le test MCAR de Little (1988), qui est dans le BaylorEdPsychpackage.

Tim
la source

Il y a toujours lieu de s'inquiéter: même avec les données MCAR, la matrice de corrélation estimée via la corrélation par paires peut ne pas être définie positive.

whuber

Bien sûr, mais la question porte sur la corrélation, elle ne fait aucune mention de l'utilisation de la matrice de corrélation résultante comme entrée pour un autre algorithme. Et, compte tenu de la taille de l'échantillon, MCAR est assez peu probable de toute façon.

Tim

Si la matrice n'est pas définie positive, c'est une estimation invalide. Nous devons au moins nous inquiéter de cette incohérence. J'ai peur de ne pas voir comment la probabilité de MCAR (qui est un mécanisme de manque) pourrait être liée à la taille de l'échantillon.

whuber

Le demandeur s'intéresse à une seule ligne de la matrice de corrélation. Avez-vous une preuve qui montre que les corrélations d'une ligne sont toutes invalides si la matrice n'est pas définie positive? J'aimerais voir une preuve de cela et gagner en sagesse. MCAR est, en général, peu probable avec des données réelles. Avec un échantillon de grande taille, la puissance du test de Little augmente, il y a donc de bonnes chances de rejeter l'hypothèse nulle de MCAR. Ne vous méprenez pas ici: je n'utiliserais jamais une matrice de corrélation de données partielles comme entrée dans une méthode multivariée, mais ce n'est pas ce que la question pose.

Tim

Permettez-moi de clarifier: je n'ai pas prétendu que les corrélations étaient «toutes invalides». J'ai affirmé que la collecte d'estimations de corrélation (c'est-à-dire la matrice) peut être invalide. C'est incontestable (ne nécessitant aucune preuve), car il suffit de montrer une instance d'une estimation non valide, ce que @RoseHartman a déjà fait dans ce fil. Je ne contesterai pas votre affirmation selon laquelle MCAR pourrait être improbable - à condition qu'elle soit comprise dans un sens personnel: selon votre expérience, avec les types de données que vous connaissez, MCAR est rare. Je ne vois pas comment vous pouvez justifier une interprétation plus large de cette affirmation.

whuber