J'ai un ensemble de données recueillies empiriquement qui relie deux variables. Sur une petite plage, la relation semble linéaire, mais sur une plus grande plage, il existe clairement une relation polynomiale de second ordre comme on peut le voir sur l'image à http://imgur.com/W7f9p .
J'essaie d'obtenir une mesure de linéarité pour différentes gammes considérées. Par exemple, à 20 <x <60 ou 100 <x <120, il est très linéaire, mais à 20 <x <180, il n'est pas très linéaire. J'ai essayé d'ajuster une ligne droite aux données et de calculer les données R ^ 2 (qualité de l'ajustement), mais cela montre que la ligne droite sur la plage la plus large a un meilleur ajustement que sur la plage plus petite. Bien que cela puisse être vrai avec MS Excel, à partir de l'image, il est clair que la plus grande plage est moins linéaire ... si vous tenez le côté d'un morceau de papier contre les points.
Existe-t-il une meilleure façon de mesurer la "linéarité" d'un ensemble de données?
la source
Réponses:
Ajustez une fonction quadratique au lieu d'une fonction linéaire. La valeur absolue de l'estimation du coefficient le plus élevé du quadratique sert de mesure sensible de la linéarité, qui est nulle si les données se trouvent exactement sur une ligne. De plus, si les données proviennent d'un modèle linéaire avec bruit gaussien, le théorème de Gauss-Markov garantit que les estimations de coefficient ne sont pas biaisées, donc sous répétition de l'ajustement avec plusieurs données de la même distribution de modèle, la valeur attendue du coefficient sera zéro.
Bien sûr, dans un seul ajustement, on n'obtient généralement pas zéro, il faudrait donc utiliser un test pour la signification des coefficients.
la source
Une façon de procéder serait d'exécuter une régression hiérarchique avec votre variable d'axe Y comme résultat / critère. À l'étape / bloc 1, vous entrez votre variable X comme prédicteur, et à l'étape / bloc 2, entrez un terme de produit (X au carré ou multiplié par rapport à lui-même). Le terme au carré X représente votre composante quadratique. Les poids de régression normalisés (bêtas) pour X et X au carré vous donneraient une idée de la «force» des composantes linéaires et quadratiques les unes par rapport aux autres, et du changement du R au carré de l'étape / bloc 1 à l'étape / bloc 2 indique à quel point le modèle s'adapte mieux aux données lorsque vous avez ajouté le composant quadratique.
Voir Ch. 8 dans Keith, TZ (2005). Régression multiple et au-delà. Allyn & Bacon. 978-0205326440
la source
La meilleure mesure de la linéarité entre deux variables x et y est le coefficient de corrélation du moment du produit Pearson. Plus il est proche de 1 en valeur absolue, plus l'ajustement est proche d'une ligne droite parfaite. Maintenant, si vous pensez qu'il y a une bonne linéarité dans une sous-région, calculez la corrélation uniquement pour ces paires dans la sous-région. S'il y a un changement de forme en dehors de cette région, il devrait apparaître dans une baisse de la corrélation lorsque toutes les données sont incluses.
la source
Les outils statistiques standard sont le coefficient de corrélation (voir la réponse de Michael Chernick) qui est une valeur entre [-1,1] et est indépendant de l'unité. La covariance est liée au coefficient de corrélation. La covariance est affectée par les unités mais peut être plus facile à interpréter. Cependant, je n'aime aucune de ces options dans le cas général. Je ne les aime pas car ils ne sont pas indépendants de la transformation conforme. Considérez qu'une ligne droite horizontale ou verticale est considérée comme non linéaire par ces deux mesures.
Une meilleure option sans unité consiste à utiliser une décomposition en valeurs singulières (SVD). Le SVD décompose les données en éléments classés par ordre d'importance de leur contribution à l'ensemble. Le rapport du plus grand nombre singulier au deuxième plus grand nombre singulier est donc une métrique de linéarité. Notez que pour utiliser cette méthode, vous devez d'abord centraliser les données (rendre les coordonnées moyennes X, Y, Z, etc. égales à zéro).
Exemple: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;
Pts centralisés: 9,792639127 0,656480018; -0,340591673 -1,68817349; -4,519928343 -1,801499913; -4,932119113 2,833193384;
SVD, matrice D: 11.86500017 0; 0 3.813448344
Rapport des valeurs singulières 3.111357
Le rapport ci-dessus peut être interprété grossièrement comme les données étant trois fois plus longues dans la direction de la ligne la mieux ajustée que transversales.
Pour une solution avec des unités qui a des unités et ne nécessite pas de SVD. Faites un ajustement de ligne dont le centre de la ligne est l'un des paramètres. L'utilisation des données centralisées ci-dessus est simple: ligne pt = 0 0 (toujours le cas pour les données centralisées) direction de la ligne = -0,999956849 -0,009289783
Les vecteurs du centre de la ligne à chaque point sont les coordonnées centralisées des points. Trouvez les longueurs de la projection de ces vecteurs sur la ligne (valeur absolue du vecteur point la direction de la ligne), et la longueur de la composante vectorielle perpendiculaire (longueur de la direction transversale du vecteur). Longueur parallèle, longueur perpendiculaire 9.798315123, 0.565480194; 0,356259742, 1,684936621; 4,536468847, 1,759433021; 4,905586534, 2,878889448;
Le maximum de projections parallèles est l'étirement des données le long de la ligne. La longueur maximale de la projection perpendiculaire est une mesure de la non-linéarité. Le rapport des deux est une approximation du rapport des valeurs singulières ci-dessus.
Notes 1. L'invariance affine de la linéarité n'est pas possible. Considérez que, dans une transformation affine, nous pourrions mettre à l'échelle tous les axes de coordonnées, sauf un, près de zéro (ce qui rend tout ensemble de points linéaire). L'invariance conforme est donc la meilleure chose que nous puissions faire. 2. Ces méthodes NE SONT PAS ROBUSTES pour les données aberrantes. 3. Les exemples sont 2D mais généralisés à N dimensions.
la source