J'ai un échantillon de 1 449 points de données qui ne sont pas corrélés (r au carré 0,006).
En analysant les données, j'ai découvert qu'en divisant les valeurs des variables indépendantes en groupes positifs et négatifs, il semble y avoir une différence significative dans la moyenne des variables dépendantes pour chaque groupe.
En divisant les points en 10 cases (déciles) en utilisant les valeurs des variables indépendantes, il semble y avoir une corrélation plus forte entre le nombre de déciles et les valeurs variables dépendantes moyennes (r au carré 0,27).
Je ne connais pas grand chose aux statistiques alors voici quelques questions:
- Est-ce une approche statistique valable?
- Existe-t-il une méthode pour trouver le meilleur nombre de bacs?
- Quel est le terme approprié pour cette approche afin que je puisse la rechercher sur Google?
- Quelles sont les ressources d'introduction pour en savoir plus sur cette approche?
- Quelles autres approches puis-je utiliser pour trouver des relations dans ces données?
Voici les données de décile pour référence: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
EDIT: Voici une image des données:
Le momentum de l'industrie est la variable indépendante, la qualité du point d'entrée dépend
Réponses:
0. La corrélation (0,0775) est petite mais (statistiquement) significativement différente de 0. Autrement dit, il semble qu'il y ait vraiment une corrélation, elle est juste très faible / faible (de manière équivalente, il y a beaucoup de bruit autour de la relation).
1. Ce que la moyenne dans les cases fait est de réduire la variation des données (le effet pour l'erreur standard d'une moyenne), ce qui signifie que vous gonflez artificiellement la faible corrélation. Voir égalementce problème (quelque peu) connexe.σ/ n--√
3. Oui. Commencez éventuellement par cette recherche , puis essayez peut-être des synonymes.
4. C'est un bon point de départ; c'est un livre très populaire destiné aux non-statisticiens.
5. (plus sérieusement :) Je suggère le lissage (par exemple via la régression polynomiale locale / le lissage du noyau, par exemple) comme un moyen d'étudier les relations. Cela dépend de ce que vous voulez, exactement, mais cela peut être une approche valable lorsque vous ne connaissez pas la forme d'une relation, tant que vous évitez le problème du dragage de données.
Il y a une citation populaire, dont l'auteur semble être Ronald Coase :
la source
Vous pourriez peut-être bénéficier d'un outil exploratoire. La division des données en déciles de la coordonnée x semble avoir été effectuée dans cet esprit. Avec les modifications décrites ci-dessous, c'est une approche parfaitement fine.
De nombreuses méthodes exploratoires bivariées ont été inventées. Un simple proposé par John Tukey ( EDA , Addison-Wesley 1977) est son «intrigue schématique errante». Vous divisez la coordonnée x en compartiments, érigez un diagramme à boîtes vertical des données y correspondantes à la médiane de chaque bac, et connectez les parties clés des diagrammes à boîtes (médianes, charnières, etc.) dans des courbes (éventuellement en les lissant). Ces «traces errantes» fournissent une image de la distribution bivariée des données et permettent une évaluation visuelle immédiate de la corrélation, de la linéarité des relations, des valeurs aberrantes et des distributions marginales, ainsi qu'une estimation robuste et une évaluation de la qualité de l'ajustement de toute fonction de régression non linéaire .
Pour afficher les différentes populations de cases, nous pouvons rendre la largeur de chaque boxplot proportionnelle à la quantité de données qu'il représente.
L'intrigue schématique errante résultante ressemblerait à ceci. Les données, développées à partir du résumé des données, sont représentées par des points gris en arrière-plan. Au-dessus de cela, l'intrigue schématique errante a été dessinée, avec les cinq traces en couleur et les boîtes à moustaches (y compris les valeurs aberrantes illustrées) en noir et blanc.
Des outils exploratoires alternatifs ayant des objectifs similaires comprennent des lissages robustes des quantiles fenêtrés des données et des ajustements de régressions quantiles utilisant une gamme de quantiles. Avec la disponibilité immédiate de logiciels pour effectuer ces calculs, ils sont peut-être devenus plus faciles à exécuter qu'une trace schématique errante, mais ils ne bénéficient pas de la même simplicité de construction, de facilité d'interprétation et d'une large applicabilité.
Le
R
code suivant a produit la figure et peut être appliqué aux données d'origine avec peu ou pas de changement. (Ignorez les avertissements produits parbplt
(appelé parbxp
): il se plaint quand il n'a pas de valeurs aberrantes à tirer.)la source
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, est-il généré et dépend-il des données (x
)? Vous mentionnez le2^*(-k)
mais ce n'est pas lié.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Je ne pense pas que le binning soit une approche scientifique du problème. C'est une perte d'informations et arbitraire. Les méthodes de classement (ordinales; semi-paramétriques) sont bien meilleures et ne perdent pas d'informations. Même si l'on devait se contenter du décile binning, la méthode est encore arbitraire et non reproductible par d'autres, simplement en raison du grand nombre de définitions utilisées pour les quantiles dans le cas de liens dans les données. Et comme mentionné dans le commentaire sur la torture des données ci-dessus, Howard Wainer a un beau document montrant comment trouver des bacs qui peuvent produire une association positive, et trouver des bacs qui peuvent produire une association négative, à partir du même ensemble de données:
la source
Le fractionnement des données en déciles sur la base du X observé («qualité du point d'entrée») semble être une généralisation d'une ancienne méthode d'abord proposée par Wald puis par d'autres pour des situations dans lesquelles X et Y sont sujets à l'erreur. (Wald a divisé les données en deux groupes. Nair et Shrivastava et Bartlett les ont divisées en trois.) Il est décrit dans la section 5C de Comprendre l'analyse robuste et exploratoire des données , éditée par Hoaglin, Mosteller et Tukey (Wiley, 1983). Cependant, beaucoup de travail sur de telles "Erreur de mesure" ou "Erreur dans les modèles de variables" a été fait depuis lors. Les manuels que j'ai consultés sont : Erreur de mesure: modèles, méthodes et applications par John Buonaccorsi (CRC Press,
Votre situation peut être quelque peu différente car votre nuage de points m'amène à soupçonner que les deux observations sont des variables aléatoires et je ne sais pas si elles contiennent chacune une erreur de mesure. Que représentent les variables?
la source
J'ai trouvé le paquet localgauss très utile pour cela. https://cran.r-project.org/web/packages/localgauss/index.html
Le paquet contient
Exemple:
Résultat:
la source