J'ai un exemple de jeu de données comme suit:
Volume <- seq(1,20,0.1)
var1 <- 100
x2 <- 1000000
x3 <- 30
x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)
Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))
Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)
D'après la figure, on peut suggérer qu'entre une certaine plage de «volume» et de «puissance», la relation est linéaire, puis lorsque le «volume» devient relativement faible, la relation devient non linéaire. Existe-t-il un test statistique pour illustrer cela?
En ce qui concerne certaines des recommandations figurant dans les réponses au PO:
L'exemple montré ici est simplement un exemple, le jeu de données que j'ai ressemble à la relation vue ici bien que plus bruyant. L'analyse que j'ai menée jusqu'à présent montre que lorsque j'analyse un volume d'un liquide spécifique, la puissance d'un signal augmente considérablement lorsqu'il y a un faible volume. Donc, disons que je n'avais qu'un environnement où le volume était compris entre 15 et 20, cela ressemblerait presque à une relation linéaire. Cependant, en augmentant la plage de points, c'est-à-dire ayant des volumes plus petits, nous voyons que la relation n'est pas linéaire du tout. Je cherche maintenant des conseils statistiques sur la façon de montrer statistiquement cela. J'espère que cela a du sens.
R
code:plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")
. Il montre une taille résiduelle presque constante sur toute la plage.Réponses:
Il s'agit essentiellement d'un problème de sélection de modèle. Je vous encourage à sélectionner un ensemble de modèles physiquement plausibles (linéaire, exponentiel, peut-être une relation linéaire discontinue) et utilise le critère d'information d'Akaike ou le critère d'information bayésien pour sélectionner le meilleur - en gardant à l'esprit le problème d'hétéroscédasticité que @whuber souligne.
la source
Avez-vous essayé de googler cela!? Pour ce faire, vous pouvez adapter une puissance supérieure ou d'autres termes non linéaires à votre modèle et tester si leurs coefficients sont sensiblement différents de 0.
Il y a quelques exemples ici http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf
Dans votre cas, vous souhaiterez peut-être diviser votre ensemble de données en deux sections pour tester la non-linéarité pour le volume <5 et la linéarité pour le volume> 5.
L'autre problème que vous rencontrez est que vos données sont hétéroscédastiques, ce qui viole l'hypothèse de normalité pour les données de régression. Le lien fourni donne également des exemples de tests pour cela.
la source
Je suggère d'utiliser une régression non linéaire pour adapter un modèle à toutes vos données. Quel est l'intérêt de choisir un volume arbitraire et d'adapter un modèle à des volumes inférieurs à cela et un autre modèle à des volumes plus importants? Y a-t-il une raison, au-delà de l'apparence de la figure, pour utiliser 5 comme seuil précis? Croyez-vous vraiment qu'après un seuil de volume particulier, la courbe idéale est linéaire? N'est-il pas plus probable qu'il s'approche de l'horizontale à mesure que le volume augmente, mais n'est jamais tout à fait linéaire?
Bien sûr, la sélection de l'outil d'analyse doit dépendre des questions scientifiques auxquelles vous essayez de répondre et de votre connaissance préalable du système.
la source