Quelqu'un peut-il illustrer, comme le fait Greg, mais plus en détail, comment les variables aléatoires peuvent être dépendantes, mais ont une covariance nulle? Greg, une affiche ici, donne un exemple en utilisant un cercle ici .
Quelqu'un peut-il expliquer ce processus plus en détail en utilisant une séquence d'étapes qui illustrent le processus à plusieurs étapes?
De plus, si vous connaissez un exemple de psychologie, veuillez illustrer ce concept avec un exemple connexe. Veuillez être très précis et séquentiel dans votre explication, et indiquer également quelles pourraient être les conséquences.
random-variable
covariance
independence
user11883
la source
la source
Réponses:
L'idée de base ici est que la covariance ne mesure qu'un type particulier de dépendance , donc les deux ne sont pas équivalents. Plus précisément,
La covariance est une mesure de la relation linéaire entre deux variables. Si deux variables sont liées de façon non linéaire, cela ne sera pas reflété dans la covariance. Une description plus détaillée peut être trouvée ici .
La dépendance entre les variables aléatoires fait référence à tout type de relation entre les deux qui les amène à agir différemment «ensemble» qu’elles ne le font «seules». Plus précisément, la dépendance entre des variables aléatoires subsume toute relation entre les deux qui fait que leur distribution conjointe n'est pas le produit de leurs distributions marginales. Cela inclut les relations linéaires ainsi que de nombreuses autres.
Si deux variables sont liées de façon non linéaire , elles peuvent potentiellement avoir 0 covariance mais sont toujours dépendantes - de nombreux exemples sont donnés ici et ce graphique ci-dessous de wikipedia donne quelques exemples graphiques dans la rangée du bas:
Un exemple où la covariance nulle et l'indépendance entre les variables aléatoires sont des conditions équivalentes est lorsque les variables sont distribuées normalement conjointement conjointement (c'est-à-dire que les deux variables suivent une distribution normale bivariée , ce qui n'est pas équivalent aux deux variables étant normalement distribuées individuellement). Un autre cas particulier est que les paires de variables bernoulli ne sont pas corrélées si et seulement si elles sont indépendantes (merci @cardinal). Mais, en général, les deux ne peuvent pas être considérés comme équivalents.
Par conséquent, on ne peut pas, en général, conclure que deux variables sont indépendantes simplement parce qu'elles semblent non corrélées (par exemple, n'a pas manqué de rejeter l'hypothèse nulle de non corrélation). On est bien avisé de tracer des données pour déduire si les deux sont liés, et pas seulement de s'arrêter à un test de corrélation. Par exemple, (merci @ gung), si l'on devait exécuter une régression linéaire (c'est-à-dire tester une corrélation non nulle) et trouver un résultat non significatif, on pourrait être tenté de conclure que les variables ne sont pas liées, mais vous '' ai seulement étudié une relation linéaire .
Je ne connais pas grand-chose à la psychologie, mais il est logique qu'il puisse y avoir des relations non linéaires entre les variables. À titre d'exemple de jouet, il semble possible que la capacité cognitive soit liée de manière non linéaire à l'âge - les très jeunes et les très vieux ne sont pas aussi tranchants que les 30 ans. Si l'on devait tracer une certaine mesure de l'aptitude cognitive par rapport à l'âge, on pourrait s'attendre à voir que la capacité cognitive est la plus élevée à un âge modéré et se dégrade autour de cela, ce qui serait un modèle non linéaire.
la source
Une manière standard d'enseigner / visualiser une corrélation ou une covariance consiste à tracer les données, à tracer des lignes à la moyenne de 'x' et 'y', puis à tracer des rectangles du point des 2 moyennes aux points de données individuels, comme ceci:
Les rectangles (points) dans les quadrants supérieur droit et inférieur gauche (rouge dans l'exemple) contribuent à des valeurs positives pour la corrélation / covariance, tandis que les rectangles (points) dans les quadrants supérieur gauche et inférieur droit (bleu dans l'exemple) contribuent négativement valeurs à la corrélation / covariance. Si l'aire totale des rectangles rouges est égale à l'aire totale des rectangles bleus, les positifs et les négatifs s'annulent et vous obtenez une covariance nulle. S'il y a plus d'aire dans le rouge alors la covariance sera positive et s'il y a plus d'aire dans le bleu alors la covariance sera négative.
Voyons maintenant un exemple de la discussion précédente:
Les points individuels suivent une parabole, ils sont donc dépendants, si vous connaissez 'x' alors vous savez exactement 'y', mais vous pouvez également voir que pour chaque rectangle rouge il y a un rectangle bleu correspondant, donc la covariance finale sera 0 .
la source
R
Existe- t-il un package qui crée ces tracés (je me souviens avoir affiché un tracé comme celui-ci une fois) ou l'avez-vous fait à partir de zéro?polygon
ourect
et d'un périphérique prenant en charge la transparence alpha.TeachingDemos
paquet très bientôt. Ma première pensée a été de raccourcir l'expression "rectangles de corrélation" pour "corriger" comme nom de la fonction, puis après un peu réalisé que le nom peut être facilement compris comme faisant quelque chose de tout à fait différent. Je dois donc trouver un meilleur nom, ajouter quelques options et le télécharger sur R-Forge.Un test simple si si les données suivent essentiellement un modèle symétrique autour d'un axe vertical ou horizontal passant par les moyennes, la co-variance sera assez proche de zéro. Par exemple, si la symétrie est autour de l'axe des y, cela signifie que pour chaque valeur avec un y donné, il y a une différence positive x de la moyenne x et une différence négative de la moyenne x. L'addition de y * x pour ces valeurs sera nulle. Vous pouvez le voir bien illustré dans la collection d'exemples de graphiques dans les autres réponses. Il existe d'autres modèles qui donneraient une co-variance nulle mais pas d'indépendance, mais de nombreux exemples sont facilement évalués en recherchant ou non la symétrie.
la source
Un exemple de Wikipedia :
"Si les variables sont indépendantes, le coefficient de corrélation de Pearson est 0, mais l'inverse n'est pas vrai car le coefficient de corrélation ne détecte que les dépendances linéaires entre deux variables. Par exemple, supposons que la variable aléatoire X soit symétriquement distribuée autour de zéro, et Y = X ^ 2. Alors Y est complètement déterminé par X, de sorte que X et Y sont parfaitement dépendants, mais leur corrélation est nulle; ils ne sont pas corrélés. Cependant, dans le cas spécial où X et Y sont conjointement normaux, la non-corrélation équivaut à l'indépendance. "
la source