J'ai cet énorme ensemble de données avec comme 2500 variables et comme 142 observations.
Je veux exécuter une corrélation entre la variable X et le reste des variables. Mais pour de nombreuses colonnes, il manque des entrées.
J'ai essayé de le faire dans R en utilisant l'argument "pairwise-complete" ( use=pairwise.complete.obs
) et cela a produit un tas de corrélations. Mais ensuite, quelqu'un sur StackOverflow a publié un lien vers cet article http://bwlewis.github.io/covar/missing.html et cela rend la méthode "pairwise-complete" dans R inutilisable.
Ma question: comment savoir quand il est approprié d'utiliser l'option "pairwise-complete"?
Mon use = complete.obs
retour no complete element pairs
, donc si vous pouviez expliquer ce que cela signifie aussi, ce serait génial.
la source
Réponses:
Le problème des corrélations sur les observations complètes par paire
Dans le cas que vous décrivez, le principal problème est l'interprétation. Étant donné que vous utilisez des observations complètes par paire, vous analysez en fait des ensembles de données légèrement différents pour chacune des corrélations, en fonction des observations manquantes.
Prenons l'exemple suivant:
Trois variables dans l'ensemble de données,
a
,b
etc
, chacun a des valeurs manquantes. Si vous calculez ici des corrélations sur des paires de variables, vous ne pourrez utiliser que des cas qui n'ont pas de valeurs manquantes pour les deux variables en question. Dans ce cas, cela signifie que vous analyserez uniquement les 3 derniers cas pour la corrélation entrea
etb
, juste les trois premiers cas pour la corrélation entreb
etc
, etc.Le fait que vous analysez des cas complètement différents lorsque vous calculez chaque corrélation signifie que le modèle de corrélations résultant peut sembler absurde. Voir:
Cela ressemble à une contradiction logique ---
a
etb
sont fortement corrélés positivement, etb
etc
sont fortement corrélés positivement, de sorte que vous attendeza
etc
d'être corrélées positivement aussi bien, mais il est en fait une association forte dans la direction opposée. Vous pouvez voir pourquoi beaucoup d'analystes n'aiment pas cela.Modifier pour inclure des clarifications utiles de whuber:
Notez qu'une partie de l'argument dépend de ce que pourrait signifier une corrélation "forte". Il est tout à fait possible
a
etb
aussi bien queb
etc
à « une forte corrélation positive » alors qu'il existe une « forte association dans la direction opposée » entrea
etc
, mais pas tout à fait aussi extrême que dans cet exemple. Le nœud du problème est que la matrice de corrélation (ou covariance) estimée n'est peut-être pas définie positivement: c'est ainsi qu'il faut quantifier «fort».Le problème du type de disparition
Vous vous demandez peut-être: "Eh bien, n'est-il pas acceptable de supposer simplement que le sous-ensemble de cas dont je dispose pour chaque corrélation suit plus ou moins le même schéma que j'obtiendrais si j'avais des données complètes?" Et oui, c'est vrai --- il n'y a rien de fondamentalement mal à calculer une corrélation sur un sous-ensemble de vos données (bien que vous perdiez de la précision et de la puissance, bien sûr, en raison de la plus petite taille de l'échantillon), tant que les données disponibles sont aléatoires échantillon de toutes les données qui auraient été là si vous n'aviez pas manqué.
Lorsque le manque est purement aléatoire, cela s'appelle MCAR (complètement absent au hasard). Dans ce cas, l'analyse du sous-ensemble de données qui ne manque pas ne biaisera pas systématiquement vos résultats, et il serait peu probable (mais pas impossible) d'obtenir le type de modèle de corrélation fou que j'ai montré dans l'exemple ci-dessus.
Lorsque votre absence est systématique d'une manière ou d'une autre (souvent abrégé MAR ou NI, délimitant deux types différents de disparition systématique), vous avez des problèmes beaucoup plus graves, à la fois en termes d'introduction potentielle de biais dans vos calculs et en termes de votre capacité à généraliser votre résultats à la population d'intérêt (car l'échantillon que vous analysez n'est pas un échantillon aléatoire de la population, même si votre ensemble de données complet l'aurait été).
Il y a beaucoup de grandes ressources disponibles pour en apprendre davantage sur les données manquantes et comment y faire face, mais ma recommandation est Rubin: un classique , et un article plus récent
la source
Une grande préoccupation est de savoir si les données manquent d'une manière systématique qui pourrait corrompre votre analyse. Vos données peuvent manquer, pas au hasard.
Cela a été évoqué dans les réponses précédentes, mais je pensais que j'apporterais un exemple.
Exemple financier: les retours manquants peuvent être de mauvais retours
Tout n'est pas nécessairement perdu dans ces situations (il y a des choses que vous pouvez faire), mais exécuter naïvement une régression (ou calculer des corrélations) sur les données non manquantes peut conduire à des estimations sérieusement biaisées et incohérentes des vrais paramètres de la population.
la source
La corrélation par paire est appropriée si vos données manquantes sont manquantes complètes au hasard (MCAR). Le livre Missing Data de Paul Allison est un bon point de départ pour savoir pourquoi.
Vous pouvez tester cela en utilisant le test MCAR de Little (1988), qui est dans le
BaylorEdPsych
package.la source