Quelle est la meilleure façon de visualiser la relation entre les variables discrètes et continues?

19

Quelle est la meilleure façon de montrer une relation entre:

  • variable continue et discrète,
  • deux variables discrètes?

Jusqu'à présent, j'ai utilisé des diagrammes de dispersion pour examiner la relation entre les variables continues. Cependant, dans le cas de variables discrètes, les points de données sont cumulés à certains intervalles. Ainsi, la ligne de meilleur ajustement pourrait être biaisée.

débutant
la source
4
Pour le cas discret-discret, cette réponse à une question quelque peu connexe ici , sur le traçage des données catégorielles ordonnées peut aider (bien que probablement sans les cases dans votre cas). Je ne sais vraiment pas comment vous pensez que ce «biais» apparaît; cela affecterait l'impression visuelle des points de données (conduisant à utiliser l'attente que la ligne aille ailleurs que là où elle devrait) mais pas les données réelles elles-mêmes. Pouvez-vous expliquer votre raisonnement ici?
Glen_b -Reinstate Monica

Réponses:

26

Ci-dessous: Le tracé d'origine peut être trompeur car la nature discrète des variables fait que les points se chevauchent:

entrez la description de l'image ici

Une façon de contourner ce problème consiste à introduire une certaine transparence dans le symbole de données:

entrez la description de l'image ici

Une autre façon consiste à déplacer légèrement l'emplacement du symbole pour créer un frottis. Cette technique est appelée "tremblement:"

entrez la description de l'image ici

Les deux solutions vous permettront toujours d'ajuster une ligne droite pour évaluer la linéarité.

Code R pour votre référence:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
Penguin_Knight
la source
1
Bonne réponse. Qu'en est-il des diagrammes de diffusion de bulles avec un nombre d'instances variable? J'ai essayé d'utiliser ces techniques sur un ensemble de données massif et le rendu des alphas a pris trop de temps.
josh
14

J'utiliserais des boîtes à moustaches pour afficher la relation entre une variable discrète et une variable continue. Vous pouvez rendre vos boîtes à moustaches verticales ou horizontales avec un logiciel statistique standard, il est donc facile de les visualiser en IV ou DV. Il est possible d'utiliser un nuage de points avec une variable discrète et continue, il suffit d'attribuer un numéro à la variable discrète (par exemple, 1 et 2) et de giguez ces valeurs (notez le graphique du haut à droite ici ).

En ce qui concerne votre commentaire selon lequel la ligne de meilleur ajustement pourrait être biaisée, cela dépend de ce que vous avez. Par exemple, si vous avez une variable discrète avec deux niveaux comme IV et une variable continue comme DV, vous pouvez tracer une ligne à travers les deux moyens et cela ne sera pas biaisé. (Nous pensons généralement que cette situation est appropriée pour un test t, mais c'est en fait une forme - c'est-à-dire un cas simple - de régression, voir ma réponse ici .) D'un autre côté, si vous avez un discret variable avec deux niveaux comme DV, la régression standard (OLS) serait inappropriée (une régression logistique serait nécessaire) et la ligne de meilleur ajustement serait biaisée, mais vous pourriez ajuster (et tracer) une ligne plus basse dans le cadre de votre initiale exploration de données.

Pour visualiser la relation entre deux variables discrètes, j'utiliserais un graphique en mosaïque . Vous pouvez également utiliser un tracé de tamis , un tracé d'association ou un tracé de pression dynamique avec une certaine programmation.

gung - Réintégrer Monica
la source
8

Lorsque l'on considère la relation entre une variable de résultat binaire et un facteur prédictif continue, j'utiliser le plus lisse de loess (avec le cas particulier de détection mis hors tension, par exemple, en R lowess(x, y, iter=0).

Dans la prochaine version du Hmiscpackage R , vous pouvez facilement créer un latticegraphique unique qui place ces courbes dans un affichage à plusieurs panneaux pour plusieurs prédicteurs, par exemple

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)
Frank Harrell
la source
1

Si vous n'êtes pas satisfait des diagrammes de dispersion simples, vous souhaiterez peut-être ajouter les fréquences des points de données à chaque valeur de la variable discrète. Comment faire cela dépend alors simplement du programme statistique que vous utilisez. Voici un exemple pour Stata. Vous pouvez également l'appliquer au nuage de points de deux variables catégorielles. Sinon, un diagramme à barres ou des graphiques à barres superposés peut convenir, mais cela dépend vraiment de la façon dont vous souhaitez présenter ces variables.

Andy
la source
1

J'ai trouvé un article applicable sur l'association entre deux variables binaires sur http://www.boekboek.com/xb130929113026 - ici, dans cet article, il est montré et prouvé que la force d'association entre deux variables binaires peut être exprimée comme une fraction de association parfaite. Il devient donc possible et préférable de dire: l'association entre la variable A et la variable B est par exemple de 50% au lieu de l'indiquer de façon contemporaine: OR = 9 (pas facile à interpréter) ou le risque immobilier = 2 (en même temps le risque relatif est considéré aussi être une mesure d’association, bien qu’en fait elle soit fonction de l’association, de la prévalence ou de l’incidence et de la positivité).

Erik
la source