Comment interpréter ce diagramme de dispersion?

12

J'ai un nuage de points dont la taille de l'échantillon est égale au nombre de personnes sur l'axe des x et au salaire médian sur l'axe des y, j'essaie de savoir si la taille de l'échantillon a un effet sur le salaire médian.

Voici l'intrigue:

entrez la description de l'image ici

Comment interpréter ce complot?

Sameed
la source
3
Si vous le pouvez, je suggère de travailler avec une transformation des deux variables. Si aucune variable n'a de zéros exacts, jetez un œil à l'échelle log-log
Glen_b -Reinstate Monica
@Glen_b désolé, je ne connais pas les termes que vous avez énoncés, juste en regardant l'intrigue, pouvez-vous faire une relation entre les deux variables? ce que je peux deviner, c'est que pour la taille d'échantillon jusqu'à 1000, il n'y a pas de relation car pour les mêmes valeurs de taille d'échantillon, il y a plusieurs valeurs médianes. Pour les valeurs supérieures à 1 000, le salaire médian semble diminuer. Qu'est-ce que tu penses ?
Sameed
Je ne vois aucune preuve claire de cela, cela me semble assez plat; s'il y a des changements clairs, cela se passe probablement dans la partie inférieure de la taille de l'échantillon. Avez-vous les données, ou seulement l'image de l'intrigue?
Glen_b -Reinstate Monica
4
Si vous voyez la médiane comme la médiane de n variables aléatoires, il est logique que la variation de la médiane diminue à mesure que la taille de l'échantillon augmente. Cela expliquerait la grande dispersion sur le côté gauche de l'intrigue.
JAD
2
Votre déclaration "pour une taille d'échantillon jusqu'à 1 000, il n'y a pas de relation car pour les mêmes valeurs de taille d'échantillon, il existe plusieurs valeurs médianes" est incorrecte.
Peter Flom - Réintègre Monica

Réponses:

9

"Découvrir" indique que vous explorez les données. Des tests formels seraient superflus et suspects. Au lieu de cela, appliquez des techniques d'analyse exploratoire des données (EDA) standard pour révéler ce qui peut être dans les données.

Ces techniques standard incluent la ré-expression , l' analyse résiduelle , les techniques robustes (les "trois R" de l'EDA) et le lissage des données comme décrit par John Tukey dans son livre classique EDA (1977). Comment mener à bien certaines d'entre elles sont décrites dans mon post à Box-Cox comme transformation pour les variables indépendantes? et en régression linéaire, quand il est approprié d'utiliser le journal d'une variable indépendante au lieu des valeurs réelles? , entre autres .

Le résultat est que beaucoup peut être vu en passant aux axes log-log (ré-exprimant efficacement les deux variables), en lissant les données pas trop agressivement et en examinant les résidus du lissage pour vérifier ce qu'il aurait pu manquer, comme je vais l'illustrer.

Voici les données présentées avec un lissage qui - après avoir examiné plusieurs lissages avec différents degrés de fidélité aux données - semble être un bon compromis entre trop et trop peu de lissage. Il utilise Loess, une méthode robuste bien connue (elle n'est pas fortement influencée par les points éloignés verticalement).

Diagramme de dispersion log-log

La grille verticale est par pas de 10 000. La douceur ne fait suggérer une certaine variation de la Grad_mediantaille échantillon: il semble tomber comme la taille des échantillons (approche 1000. Les extrémités de la lisse ne sont pas dignes de confiance - en particulier pour les petits échantillons, où l' erreur d' échantillonnage devrait être relativement importante - alors ne ne les lisez pas trop.) Cette impression d'une véritable baisse est soutenue par les bandes de confiance (très grossières) tracées par le logiciel autour du lisse: ses "ondulations" sont plus grandes que les largeurs des bandes.

Pour voir ce que cette analyse aurait pu manquer, la figure suivante examine les résidus. (Ce sont des différences de logarithmes naturels, mesurant directement les écarts verticaux entre les données du lissage précédent. Comme ce sont de petits nombres, ils peuvent être interprétés comme des différences proportionnelles; par exemple, reflète une valeur de données qui est environ inférieure au lissage correspondant. valeur.)20 %0.220%

Nous souhaitons (a) s'il existe des modèles de variation supplémentaires à mesure que la taille de l'échantillon change et (b) si les distributions conditionnelles de la réponse - les distributions verticales des positions des points - sont vraisemblablement similaires pour toutes les valeurs de la taille de l'échantillon, ou si certains de leurs aspects (comme leur propagation ou leur symétrie) pourraient changer.

! [Figure 2 Graphique des résidus

Ce lisse essaie de suivre les points de données encore plus étroitement qu'auparavant. Néanmoins, il est essentiellement horizontal (dans le cadre des bandes de confiance, qui couvrent toujours une valeur y de ), suggérant qu'aucune autre variation ne peut être détectée. La légère augmentation de la propagation verticale près du milieu (tailles d'échantillon de 2000 à 3000) ne serait pas significative si elle était testée formellement, et elle n'est donc certainement pas remarquable à ce stade exploratoire. Il n'y a pas d'écart clair et systématique de ce comportement global apparent dans aucune des catégories séparées (distinguées, pas trop bien, par la couleur - je les ai analysées séparément dans des figures non montrées ici).0.0

Par conséquent, ce simple résumé:

le salaire médian est inférieur d'environ 10 000 pour des tailles d'échantillon proches de 1 000

capture adéquatement les relations apparaissant dans les données et semble se maintenir uniformément dans toutes les grandes catégories. Que cela soit significatif - c'est-à-dire qu'il résiste face à des données supplémentaires - ne peut être évalué qu'en collectant ces données supplémentaires.


Pour ceux qui voudraient vérifier ce travail ou aller plus loin, voici le Rcode.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)
whuber
la source
7

Glen_b vous suggère de prendre le logarithme de la taille de l'échantillon et du salaire médian pour voir si le redimensionnement des données est logique.

Je ne sais pas si je serais d'accord avec votre conviction que le salaire médian diminue une fois que la taille de l'échantillon dépasse 1000. Je serais plus enclin à dire qu'il n'y a aucune relation du tout. Votre théorie prévoit-elle qu'il devrait y avoir une relation?

Une autre façon d'évaluer une relation possible consiste à ajuster une ligne de régression aux données. Alternativement, vous pouvez également utiliser une courbe plus basse. Tracez les deux lignes à vos données et voyez si quelque chose peut être révélé (je doute qu'il y ait quelque chose de trop substantiel, cependant).

ZAP
la source
3
Le nuage de points est très similaire à un graphique en entonnoir utilisé dans les méta-analyses. Voir un exemple similaire . Le tracé des bandes en entonnoir montrera plus clairement s'il y a une relation, il pourrait y en avoir une légèrement positive dans cet exemple.
Andy W
6

Je suis également d'accord qu'il n'y a pas de relation. J'ai reproduit votre nuage de points d'origine (à gauche) et créé le diagramme de dispersion log-log suggéré par glen_b (à droite).

entrez la description de l'image ici

On dirait qu'il n'y a pas de relation non plus. La corrélation entre les données transformées en logarithme est faible (Pearson R = -.13) et insignifiante (p = 0,09). Selon la quantité d'informations supplémentaires dont vous disposez, il peut y avoir une raison de voir une faible corrélation négative, mais cela semble être un étirement. Je suppose que tout modèle apparent que vous voyez est le même effet que celui observé ici .

R=0.0022p=0.98

R Greg Stacey
la source
Merci d'avoir examiné la corrélation entre la médiane des diplômés et la taille de l'échantillon des diplômés; J'ai été profondément perplexe devant la différence entre les chiffres!
famargar
0

Essayer une régression linéaire vous apprendra quelque chose sur cette relation, comme suggéré dans la première réponse. Comme il semble que vous utilisiez python plus matplotlib pour ce tracé, vous êtes à une ligne de code de la solution.

Vous pouvez utiliser le tracé conjoint seaborn, qui affichera également la droite de régression linéaire, le coefficient de corrélation de Pearson et sa valeur de p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

entrez la description de l'image ici

comme vous pouvez le voir, il n'y a pas de corrélation. En regardant ce dernier graphique, il semble que la transformation logarithmique de la variable x serait utile. Essayons:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

entrez la description de l'image ici

Vous pouvez clairement voir que - transformation logarithmique ou non - la corrélation est faible, et la valeur de p et les intervalles de confiance disent tous deux qu'elle n'est pas statistiquement significative.

famargar
la source
3
Les indications de distributions conditionnelles fortement asymétriques suggèrent que ce n'est pas une bonne approche. Lorsque vous observez également que l'asymétrie de la distribution de la taille de l'échantillon amènera les quelques plus grands échantillons à contrôler l'apparition d'une tendance dans la régression, vous verrez pourquoi d'autres recommandent des transformations préliminaires des données.
whuber
1
Je ne devine ni ne spécule: l'intrigue dans la question montre clairement ces caractéristiques. Voir également les tracés créés par R Greg Stacey , qui - en appliquant les transformations log-log suggérées - démontrent ce qu'ils accomplissent.
whuber
Je viens de trouver les données et j'ai fait l'étude moi-même - veuillez voir la réponse mise à jour.
famargar
Votre étude a succombé aux deux problèmes que j'ai notés: l'apparition "d'aucune corrélation" découle en grande partie des réponses conditionnelles asymétriques et de l'effet de levier des valeurs élevées du régresseur. En particulier, ni la ligne ajustée ni ses bandes d'erreur ne sont fiables.
whuber
Veuillez voir l'intrigue que je viens d'ajouter; J'espère que je ne manque de rien dans cette dernière itération.
famargar
-1

Ce graphique fonctionne comme une démonstration du théorème de la limite centrale, où la variabilité entre les échantillons diminue à mesure que la taille de l'échantillon augmente. C'est aussi la forme que vous attendez avec une variable fortement asymétrique comme le salaire.

Barton Poulson
la source
3
Ce ne sont pas des échantillons indépendants d'une population commune. Cela rend la pertinence du CLT assez problématique.
whuber