test statistique pour voir si la relation est linéaire ou non linéaire

J'ai un exemple de jeu de données comme suit:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

entrez la description de l'image ici

D'après la figure, on peut suggérer qu'entre une certaine plage de «volume» et de «puissance», la relation est linéaire, puis lorsque le «volume» devient relativement faible, la relation devient non linéaire. Existe-t-il un test statistique pour illustrer cela?

En ce qui concerne certaines des recommandations figurant dans les réponses au PO:

L'exemple montré ici est simplement un exemple, le jeu de données que j'ai ressemble à la relation vue ici bien que plus bruyant. L'analyse que j'ai menée jusqu'à présent montre que lorsque j'analyse un volume d'un liquide spécifique, la puissance d'un signal augmente considérablement lorsqu'il y a un faible volume. Donc, disons que je n'avais qu'un environnement où le volume était compris entre 15 et 20, cela ressemblerait presque à une relation linéaire. Cependant, en augmentant la plage de points, c'est-à-dire ayant des volumes plus petits, nous voyons que la relation n'est pas linéaire du tout. Je cherche maintenant des conseils statistiques sur la façon de montrer statistiquement cela. J'espère que cela a du sens.

r hypothesis-testing nonlinear-regression goodness-of-fit heteroscedasticity KatyB
la source

Il se passe plusieurs choses ici. Tout d'abord, bien sûr, une relation sera linéaire à condition que les plages des variables soient convenablement restreintes. Deuxièmement, l' hétéroscédasticité des données est une caractéristique presque aussi importante que la relation non linéaire: la dispersion est plus grande à des volumes élevés et à des puissances faibles qu'à des volumes et des puissances faibles. Quoi qu'il en soit, que voulez-vous précisément tester? La linéarité de la relation sur toute la gamme?

whuber

En fait, je voudrais reprendre la remarque sur l'hétéroscédasticité: l'intrigue en donne l' apparence , mais c'est une illusion causée par les pentes relativement raides à des volumes plus faibles. (Le volume en termes de puissance, cependant, a une relation extrêmement hétéroscédastique.) Une fois que nous déterminons que la variation de puissance n'est pas hétéroscédastique, cela exclut certains types d'analyses (nous ne voudrions pas appliquer des transformations non linéaires de la puissance) et suggère privilégier les autres (comme les moindres carrés non linéaires ou un modèle linéaire généralisé), une fois la non-linéarité clairement établie.

whuber

J'ai maintenant ajouté une brève description du problème à portée de main. Merci pour vos commentaires jusqu'à présent, ceux-ci sont vraiment appréciés et m'aident à réfléchir au problème.

KatyB

Pourquoi ne pas tester l'effet quadratique?

AdamO

@Simon Je n'ai utilisé aucun test, mais néanmoins vous pouvez voir que c'est homoscédastique en traçant la taille typique des résidus par rapport au volume. Voici quelques Rcode:

plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10),          function(d) summary(lm(Power ~ Volume, data=d))$sigma),      xlab="Volume range", ylab="Residual SD",      ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")

. Il montre une taille résiduelle presque constante sur toute la plage.

whuber

Réponses:

Il s'agit essentiellement d'un problème de sélection de modèle. Je vous encourage à sélectionner un ensemble de modèles physiquement plausibles (linéaire, exponentiel, peut-être une relation linéaire discontinue) et utilise le critère d'information d'Akaike ou le critère d'information bayésien pour sélectionner le meilleur - en gardant à l'esprit le problème d'hétéroscédasticité que @whuber souligne.

Drew Steen
la source

Avez-vous essayé de googler cela!? Pour ce faire, vous pouvez adapter une puissance supérieure ou d'autres termes non linéaires à votre modèle et tester si leurs coefficients sont sensiblement différents de 0.

Il y a quelques exemples ici http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

Dans votre cas, vous souhaiterez peut-être diviser votre ensemble de données en deux sections pour tester la non-linéarité pour le volume <5 et la linéarité pour le volume> 5.

L'autre problème que vous rencontrez est que vos données sont hétéroscédastiques, ce qui viole l'hypothèse de normalité pour les données de régression. Le lien fourni donne également des exemples de tests pour cela.

Simon Hayward
la source

Le lien est rompu.

Jatin

Je suggère d'utiliser une régression non linéaire pour adapter un modèle à toutes vos données. Quel est l'intérêt de choisir un volume arbitraire et d'adapter un modèle à des volumes inférieurs à cela et un autre modèle à des volumes plus importants? Y a-t-il une raison, au-delà de l'apparence de la figure, pour utiliser 5 comme seuil précis? Croyez-vous vraiment qu'après un seuil de volume particulier, la courbe idéale est linéaire? N'est-il pas plus probable qu'il s'approche de l'horizontale à mesure que le volume augmente, mais n'est jamais tout à fait linéaire?

Bien sûr, la sélection de l'outil d'analyse doit dépendre des questions scientifiques auxquelles vous essayez de répondre et de votre connaissance préalable du système.

Harvey Motulsky
la source