Nous avons mesuré deux variables et le nuage de points semble suggérer plusieurs modèles "linéaires". Y a-t-il un moyen d'essayer de distiller ces modèles? L'identification d'autres variables indépendantes s'est avérée difficile.
Les deux variables sont fortement biaisées vers la gauche (vers les petits nombres), c'est une distribution attendue dans notre domaine. L'intensité du point représente la quantité de points de données (sur une échelle ) à cette <x, y> .
Sinon, existe-t-il un moyen de regrouper les points?
Dans notre domaine, on prétend que ces deux variables sont en corrélation linéaire. Nous essayons de comprendre / expliquer pourquoi ce n'est pas le cas dans nos données.
(notez que nous avons 17 millions de points de données)
mise à jour: merci pour toutes les réponses, voici quelques précisions demandées:
- Les deux variables sont uniquement entières, ce qui explique certains des modèles du nuage de points du journal.
- Heureusement, par définition, la valeur minimale des deux variables est 1.
- 7M points sont à ("expliqués" par l'asymétrie gauche des données)
Voici les parcelles demandées:
diagramme de dispersion log-log:
(les blancs sont causés par les valeurs entières)
log-log polaire:
Histogramme du rapport:
La fréquence est sur une échelle logarithmique, car la barre est de 7 millions de points et masquerait les autres barres.
la source
Réponses:
Vous pouvez avoir des artefacts résultant de restrictions sur ce qui est physiquement possible ou sur ce qui est enregistré (au plus simple, des entiers uniquement). et complètement anonymes ne suggèrent aucune supposition confiante sur la façon dont cela se produit, mais il semble que certains soient favorisés et je regarderais certainement la distribution de ce rapport. De plus, si tel est le cas, selon mon expérience, il n'est pas utile de rechercher des modèles distincts, sauf si vous mélangez vraiment des situations très différentes. (Pour "physiquement" lire "biologiquement" ou tout adverbe qui a du sens.)X Y / XY X Y/X
Plus je regarde cela, plus je suppose que des lignes telles que ou sont évidentes pour l'entier , car les valeurs elles-mêmes sont des entiers.k X kX/k kX k
Un point différent mais peut-être lié est que pour moi ces données appellent des transformations. S'ils sont tous positifs, des logarithmes sont indiqués. Je crains que vous ayez des zéros, auquel cas quoi faire est ouvert à la discussion. Par exemple, une ligne à peut être devinée à partir de votre graphique. S'il y a des zéros, certains jurent par ou la racine du cube devrait aider. Tout ce qui vous aide à voir plus clairement les modèles est défendable.log ( Y + constante )Y=0 log(Y+constant)
Un point de terminologie: l'asymétrie statistique est décrite en référence à la queue plus allongée. Vous êtes libre de considérer cette terminologie comme à l'envers. Ici, les deux variables sont asymétriques à des valeurs élevées ou positivement ou asymétriquement à droite.
MISE À JOUR: Merci pour les graphiques supplémentaires, qui sont très utiles. Presque toutes les suppositions semblent confirmées. (La ligne de fond, pour ainsi dire, est , pas ) Les rayures sont des artefacts ou des effets secondaires de l'utilisation d'entiers, qui peuvent très bien être le seul, ou du moins le plus pratique, moyen de mesurer ce que vous mesurent (dont la question reste discrète). Le log-log et d'autres graphiques mettent en évidence la discrétion. Donc malgré la discrétion, la discrétion est confirmée. Il existe des modes prononcés (pics de distribution) pour les rapports 1/4, 1/2, 1/1 et 2/1.Y = 0Y=1 Y=0
Comme auparavant, je ne conseillerais pas de modéliser différemment différentes bandes sans une raison scientifique pour les distinguer ou les traiter séparément. Vous devriez juste faire la moyenne de ce que vous avez. (Il peut y avoir des méthodes connues avec ce type de données pour supprimer le caractère discret. Si les gens de votre domaine mesurent régulièrement des millions de points pour chaque parcelle, il est difficile de croire que cela n'a jamais été vu auparavant.)
La corrélation devrait certainement être positive. Mis à part un test de signification formel, qui serait ici tout à fait inutile car des corrélations minuscules seront qualifiées de significatives avec cette taille d'échantillon, qu'il soit déclaré fort est une question d'attentes et de normes dans votre domaine. La comparaison quantitative de votre corrélation avec les résultats des autres est une voie à suivre.
Détail: l'asymétrie est toujours décrite dans le mauvais sens selon la convention statistique. Ces variables sont asymétriques à droite; ce jargon s'adapte lorsque l'on regarde un histogramme avec un axe de magnitude horizontal et que l'on note que l'asymétrie est nommée pour la queue la plus longue, pas la concentration avec plus de valeurs.
la source
L'outil que vous voulez, je pense, s'appelle la régression de commutation. L'idée est qu'il existe plusieurs lignes de régression et que chaque point de données est affecté à l'une d'entre elles. Par exemple, l'équation de la première ligne de régression serait: L'équation de la ligne de régression serait: Au total, il y a différentes lignes de régression, disons. Pour tout point de données donné, nous ne voyons qu'une des lignes de régression. Ainsi, il doit y avoir un mécanisme pour décider quelle ligne de régression nous voyons pour chaque point. Le mécanisme le plus simple n'est que la distribution multinomiale. Autrement dit, nous voyons la mth Y i
Le modèle est généralement estimé par maximum de vraisemblance. En supposant que les sont distribués , la fonction de vraisemblance que vous maximiseriez serait: La fonction est la densité normale standard. Vous maximisez cela dans les paramètres , sous réserve des contraintes . C'est généralement un problème de maximisation quelque peu grincheux si vous allez utiliser des méthodes quasi-Newton pour le résoudre. Vous ne pouvez pas simplement démarrer tous les et à zéro et leϵ N(0,σ2)
Il existe un certain nombre de façons de rendre cela plus impliqué si vous le souhaitez. Vous avez peut-être une variable qui, selon vous, influence , c'est-à-dire qui influence la régression choisie. Eh bien, vous pouvez utiliser une fonction logit multinomiale pour que soit une fonction de :Zi pm pm Zi
Il y a maintenant paramètres. En fait, il y a paramètres car il y a une normalisation requise sur le --- lisez sur le logit multinomial pour une explication.5 M - 1 δ , γ5M+1 5M−1 δ,γ
Une autre façon de l'impliquer davantage est d'utiliser une méthode pour choisir , le nombre de lignes de régression. Je suis assez décontracté à propos de ce genre de choix dans mon propre travail, alors peut-être que quelqu'un d'autre peut vous indiquer la meilleure façon de le choisir.M
la source
J'ai observé un comportement similaire dans certains de mes ensembles de données. Dans mon cas, les lignes multiples étaient dues à une erreur de quantification dans l'un de mes algorithmes de traitement.
Autrement dit, nous avons examiné des diagrammes de dispersion des données traitées, et l'algorithme de traitement a eu certains effets de quantification, qui ont causé des dépendances dans les données qui ressemblaient exactement à celles que vous avez ci-dessus.
La correction des effets de quantification a rendu notre sortie beaucoup plus fluide et moins groupée.
Quant à votre commentaire "corrélation linéaire". Ce que vous avez présenté est insuffisant pour déterminer si ces données sont corrélées linéairement ou non. Autrement dit, dans certains domaines, un coefficient de corrélation> 0,7 est considéré comme une forte corrélation linéaire. Étant donné que la plupart de vos données sont proches de l'origine, il est tout à fait concevable que vos données soient corrélées linéairement par rapport à ce que la «sagesse conventionnelle» dirait. La corrélation vous en dit très peu sur un ensemble de données.
la source