J'ai un nuage de points dont la taille de l'échantillon est égale au nombre de personnes sur l'axe des x et au salaire médian sur l'axe des y, j'essaie de savoir si la taille de l'échantillon a un effet sur le salaire médian.
Voici l'intrigue:
Comment interpréter ce complot?
Réponses:
"Découvrir" indique que vous explorez les données. Des tests formels seraient superflus et suspects. Au lieu de cela, appliquez des techniques d'analyse exploratoire des données (EDA) standard pour révéler ce qui peut être dans les données.
Ces techniques standard incluent la ré-expression , l' analyse résiduelle , les techniques robustes (les "trois R" de l'EDA) et le lissage des données comme décrit par John Tukey dans son livre classique EDA (1977). Comment mener à bien certaines d'entre elles sont décrites dans mon post à Box-Cox comme transformation pour les variables indépendantes? et en régression linéaire, quand il est approprié d'utiliser le journal d'une variable indépendante au lieu des valeurs réelles? , entre autres .
Le résultat est que beaucoup peut être vu en passant aux axes log-log (ré-exprimant efficacement les deux variables), en lissant les données pas trop agressivement et en examinant les résidus du lissage pour vérifier ce qu'il aurait pu manquer, comme je vais l'illustrer.
Voici les données présentées avec un lissage qui - après avoir examiné plusieurs lissages avec différents degrés de fidélité aux données - semble être un bon compromis entre trop et trop peu de lissage. Il utilise Loess, une méthode robuste bien connue (elle n'est pas fortement influencée par les points éloignés verticalement).
La grille verticale est par pas de 10 000. La douceur ne fait suggérer une certaine variation de la
Grad_median
taille échantillon: il semble tomber comme la taille des échantillons (approche 1000. Les extrémités de la lisse ne sont pas dignes de confiance - en particulier pour les petits échantillons, où l' erreur d' échantillonnage devrait être relativement importante - alors ne ne les lisez pas trop.) Cette impression d'une véritable baisse est soutenue par les bandes de confiance (très grossières) tracées par le logiciel autour du lisse: ses "ondulations" sont plus grandes que les largeurs des bandes.Pour voir ce que cette analyse aurait pu manquer, la figure suivante examine les résidus. (Ce sont des différences de logarithmes naturels, mesurant directement les écarts verticaux entre les données du lissage précédent. Comme ce sont de petits nombres, ils peuvent être interprétés comme des différences proportionnelles; par exemple, reflète une valeur de données qui est environ inférieure au lissage correspondant. valeur.)20 %- 0,2 20 %
Nous souhaitons (a) s'il existe des modèles de variation supplémentaires à mesure que la taille de l'échantillon change et (b) si les distributions conditionnelles de la réponse - les distributions verticales des positions des points - sont vraisemblablement similaires pour toutes les valeurs de la taille de l'échantillon, ou si certains de leurs aspects (comme leur propagation ou leur symétrie) pourraient changer.
Ce lisse essaie de suivre les points de données encore plus étroitement qu'auparavant. Néanmoins, il est essentiellement horizontal (dans le cadre des bandes de confiance, qui couvrent toujours une valeur y de ), suggérant qu'aucune autre variation ne peut être détectée. La légère augmentation de la propagation verticale près du milieu (tailles d'échantillon de 2000 à 3000) ne serait pas significative si elle était testée formellement, et elle n'est donc certainement pas remarquable à ce stade exploratoire. Il n'y a pas d'écart clair et systématique de ce comportement global apparent dans aucune des catégories séparées (distinguées, pas trop bien, par la couleur - je les ai analysées séparément dans des figures non montrées ici).0,0
Par conséquent, ce simple résumé:
capture adéquatement les relations apparaissant dans les données et semble se maintenir uniformément dans toutes les grandes catégories. Que cela soit significatif - c'est-à-dire qu'il résiste face à des données supplémentaires - ne peut être évalué qu'en collectant ces données supplémentaires.
Pour ceux qui voudraient vérifier ce travail ou aller plus loin, voici le
R
code.la source
Glen_b vous suggère de prendre le logarithme de la taille de l'échantillon et du salaire médian pour voir si le redimensionnement des données est logique.
Je ne sais pas si je serais d'accord avec votre conviction que le salaire médian diminue une fois que la taille de l'échantillon dépasse 1000. Je serais plus enclin à dire qu'il n'y a aucune relation du tout. Votre théorie prévoit-elle qu'il devrait y avoir une relation?
Une autre façon d'évaluer une relation possible consiste à ajuster une ligne de régression aux données. Alternativement, vous pouvez également utiliser une courbe plus basse. Tracez les deux lignes à vos données et voyez si quelque chose peut être révélé (je doute qu'il y ait quelque chose de trop substantiel, cependant).
la source
Je suis également d'accord qu'il n'y a pas de relation. J'ai reproduit votre nuage de points d'origine (à gauche) et créé le diagramme de dispersion log-log suggéré par glen_b (à droite).
On dirait qu'il n'y a pas de relation non plus. La corrélation entre les données transformées en logarithme est faible (Pearson R = -.13) et insignifiante (p = 0,09). Selon la quantité d'informations supplémentaires dont vous disposez, il peut y avoir une raison de voir une faible corrélation négative, mais cela semble être un étirement. Je suppose que tout modèle apparent que vous voyez est le même effet que celui observé ici .
la source
Essayer une régression linéaire vous apprendra quelque chose sur cette relation, comme suggéré dans la première réponse. Comme il semble que vous utilisiez python plus matplotlib pour ce tracé, vous êtes à une ligne de code de la solution.
Vous pouvez utiliser le tracé conjoint seaborn, qui affichera également la droite de régression linéaire, le coefficient de corrélation de Pearson et sa valeur de p:
comme vous pouvez le voir, il n'y a pas de corrélation. En regardant ce dernier graphique, il semble que la transformation logarithmique de la variable x serait utile. Essayons:
Vous pouvez clairement voir que - transformation logarithmique ou non - la corrélation est faible, et la valeur de p et les intervalles de confiance disent tous deux qu'elle n'est pas statistiquement significative.
la source
Ce graphique fonctionne comme une démonstration du théorème de la limite centrale, où la variabilité entre les échantillons diminue à mesure que la taille de l'échantillon augmente. C'est aussi la forme que vous attendez avec une variable fortement asymétrique comme le salaire.
la source