Comment faire une régression linéaire par morceaux avec plusieurs nœuds inconnus?

14

Existe-t-il des packages pour effectuer une régression linéaire par morceaux, qui peut détecter automatiquement les nœuds multiples? Merci. Lorsque j'utilise le package strucchange. Je n'ai pas pu détecter les points de changement. Je ne sais pas comment il détecte les points de changement. À partir des parcelles, je pouvais voir qu'il y avait plusieurs points que je voulais, cela pourrait m'aider à les choisir. Quelqu'un pourrait-il donner un exemple ici?

Honglang Wang
la source
1
Cela semble être la même question que stats.stackexchange.com/questions/5700/… . Si cela diffère de manière substantielle, veuillez nous en informer en modifiant votre question pour refléter les différences; sinon, nous le fermerons en double.
whuber
1
J'ai édité la question.
Honglang Wang
1
Je pense que vous pouvez le faire comme un problème d'optimisation non linéaire. Écrivez simplement l'équation de la fonction à ajuster, avec les coefficients et les emplacements des nœuds comme paramètres.
mark999
1
Je pense que le segmentedpackage est ce que vous recherchez.
AlefSin
1
J'ai eu un problème identique, je l'ai résolu avec le segmentedpackage de R : stackoverflow.com/a/18715116/857416
un autre ben

Réponses:

8

Would MARS être applicable? R a le package earthqui l'implémente.

Wayne
la source
8

En général, il est un peu étrange de vouloir ajuster quelque chose comme linéaire par morceaux. Cependant, si vous le souhaitez vraiment, l'algorithme MARS est le plus direct. Il créera une fonction un nœud à la fois; puis taille généralement le nombre de nœuds pour lutter contre les arbres de décision ala sur-ajustés. Vous pouvez accéder à l'algorithme MARS dans R via earthou mda. En général, il est compatible avec GCV qui n'est pas si éloigné des autres critères d'information (AIC, BIC etc.)

MARS ne vous donnera pas vraiment un ajustement "optimal" car les nœuds sont développés un à la fois. Il serait vraiment assez difficile d'ajuster un nombre de nœuds vraiment «optimal», car les permutations possibles des emplacements de nœuds exploseraient rapidement.

Généralement, c'est pourquoi les gens se tournent vers les splines de lissage. La plupart des splines de lissage sont cubiques afin que vous puissiez tromper un œil humain en manquant les discontinuités. Il serait cependant tout à fait possible de faire une spline de lissage linéaire. Le gros avantage du lissage des splines est leur seul paramètre à optimiser. Cela vous permet d'atteindre rapidement une solution vraiment "optimale" sans avoir à chercher dans les bouffées de permutations. Cependant, si vous voulez vraiment rechercher des points d'inflexion et que vous avez suffisamment de données pour le faire, alors quelque chose comme MARS serait probablement votre meilleur pari.

Voici un exemple de code pour les splines de lissage linéaire pénalisées dans R:

require(mgcv);data(iris);
gam.test <- gam(Sepal.Length ~ s(Petal.Width,k=6,bs='ps',m=0),data=iris)
summary(gam.test);plot(gam.test);

Cependant, les nœuds réels choisis ne seraient pas nécessairement en corrélation avec de véritables points d'inflexion.

Parkes de karité
la source
3

J'ai programmé cela à partir de zéro une fois il y a quelques années, et j'ai un fichier Matlab pour faire une régression linéaire par morceaux sur mon ordinateur. Environ 1 à 4 points d'arrêt sont calculables pour environ 20 points de mesure. 5 ou 7 points de rupture commencent à être vraiment trop.

L'approche mathématique pure telle que je la vois est d'essayer toutes les combinaisons possibles comme suggéré par l'utilisateur mbq dans la question liée au commentaire ci-dessous votre question.

Puisque les lignes ajustées sont toutes consécutives et adjacentes (pas de chevauchements), la combinatoire suivra le triangle de Pascals. S'il y avait des chevauchements entre les points de données utilisés par les segments de ligne, je crois que la combinatoire suivrait plutôt les nombres de Stirling du deuxième type.

La meilleure solution dans mon esprit est de choisir la combinaison de lignes ajustées qui présente l'écart type le plus faible des valeurs de corrélation R ^ 2 des lignes ajustées. Je vais essayer d'expliquer avec un exemple. Gardez à l'esprit que demander combien de points de rupture on devrait trouver dans les données revient à poser la question "Quelle est la longueur de la côte de la Grande-Bretagne?" comme dans l'un des articles de Benoit Mandelbrots (un mathématicien) sur les fractales. Et il y a un compromis entre le nombre de points de rupture et la profondeur de régression.

Passons maintenant à l'exemple.

yXXy

xyR2line1R2line2sumofR2valuesstandarddeviationofR2111,0000,04001,04000,6788221,0000,01181,01180,6987331,0000,00041,00040,7067441,0000,00311,00310,7048551,0000,01351,01350,6974661,0000,02381,02380,6902771,0000,02771,02770,6874881,0000,02221,02220,6913991,0000,00931,00930,700410101,0001,9781,0000,70711190,97090,02710,99800,66731280,89510,11391,00900,55231370,77340,25581,02920,36591460,61340,43211,04550,12811550,43210,61341,04550,12821640,25580,77331,02910,36591730,11390,89511,00900,55231820,02720,97080,99800,667219101,0001,0000,70712020,00941,0001,00940,70042130,02221,0001,02220,69142240,02781,0001,02780,68742350,02391,0001,02390,69022460,01361,0001,01360,69742570,00321,0001,00320,70482680,00041,0001,00040,70682790,01181,0001,01180,698728100,041,0001,040,6788

These y values have the graph:

idealized data

Which clearly has two break points. For the sake of argument we will calculate the R^2 correlation values (with the Excel cell formulas (European dot-comma style)):

=INDEX(LINEST(B1:$B$1;A1:$A$1;TRUE;TRUE);3;1)
=INDEX(LINEST(B1:$B$28;A1:$A$28;TRUE;TRUE);3;1)

for all possible non-overlapping combinations of two fitted lines. All the possible pairs of R^2 values have the graph:

R^2 values

The question is which pair of R^2 values should we choose, and how do we generalize to multiple break points as asked in the title? One choice is to pick the combination for which the sum of the R-square correlation is the highest. Plotting this we get the upper blue curve below:

sum of R squared and standard deviation of R squared

The blue curve, the sum of the R-squared values, is the highest in the middle. This is more clearly visible from the table with the value 1,0455 as the highest value. However it is my opinion that the minimum of the red curve is more accurate. That is, the minimum of the standard deviation of the R^2 values of the fitted regression lines should be the best choice.

Piece wise linear regression - Matlab - multiple break points

Mats Granvik
la source
1

There is a pretty nice algorithm described in Tomé and Miranda (1984).

The proposed methodology uses a least-squares approach to compute the best continuous set of straight lines that fit a given time series, subject to a number of constraints on the minimum distance between breakpoints and on the minimum trend change at each breakpoint.

The code and a GUI are available in both Fortran and IDL from their website: http://www.dfisica.ubi.pt/~artome/linearstep.html

arkaia
la source
0

... first of all you must to do it by iterations, and under some informative criterion, like AIC AICc BIC Cp; because you can get an "ideal" fit, if number of knots K = number od data points N, ok. ... first put K = 0; estimate L = K + 1 regressions, calculate AICc, for instance; then assume minimal number of data points at a separate segment, say L = 3 or L = 4, ok ... put K = 1; start from L-th data as the first knot, calculate SS or MLE, ... and step by step the next data point as a knot, SS or MLE, up to the last knot at the N - L data; choose the arrangement with the best fit (SS or MLE) calculate AICc ... ... put K = 2; ... use all previous regressions (that is their SS or MLE), but step by step divide a single segment into all possible parts ... choose the arrangement with the best fit (SS or MLE) calculate AICc ... if the last AICc occurs greater then the previous one: stop the iterations ! This is an optimal solution under AICc criterion, ok

Maciek
la source
AIC, BIC can't be used because they penalised for extra parameters, which is clearly not the case here.
HelloWorld
0

I once came across a program called Joinpoint. On their website they say it fits a joinpoint model where "several different lines are connected together at the 'joinpoints'". And further: "The user supplies the minimum and maximum number of joinpoints. The program starts with the minimum number of joinpoint (e.g. 0 joinpoints, which is a straight line) and tests whether more joinpoints are statistically significant and must be added to the model (up to that maximum number)."

The NCI uses it for trend modelling of cancer rates, maybe it fits your needs as well.

psj
la source
0

In order to fit to data a piecewise function :

enter image description here

where a1,a2,p1,q1,p2,q2,p3,q3 are unknown parameters to be approximately computed, there is a very simple method (not iterative, no initial guess, easy to code in any math computer language). The theory given page 29 in paper : https://fr.scribd.com/document/380941024/Regression-par-morceaux-Piecewise-Regression-pdf and from page 30 :

enter image description here

For example, with the exact data provided by Mats Granvik the result is :

enter image description here

Without scattered data, this example is not very signifiant. Other examples with scattered data are shown in the referenced paper.

JJacquelin
la source
0

You can use the mcp package if you know the number of change points to infer. It gives you great modeling flexibility and a lot of information about the change points and regression parameters, but at the cost of speed.

The mcp website contains many applied examples, e.g.,

library(mcp)

# Define the model
model = list(
  response ~ 1,  # plateau (int_1)
  ~ 0 + time,    # joined slope (time_2) at cp_1
  ~ 1 + time     # disjoined slope (int_3, time_3) at cp_2
)

# Fit it. The `ex_demo` dataset is included in mcp
fit = mcp(model, data = ex_demo)

Then you can visualize:

plot(fit)

enter image description here

Or summarise:

summary(fit)

Family: gaussian(link = 'identity')
Iterations: 9000 from 3 chains.
Segments:
  1: response ~ 1
  2: response ~ 1 ~ 0 + time
  3: response ~ 1 ~ 1 + time

Population-level parameters:
    name match  sim  mean lower  upper Rhat n.eff
    cp_1    OK 30.0 30.27 23.19 38.760    1   384
    cp_2    OK 70.0 69.78 69.27 70.238    1  5792
   int_1    OK 10.0 10.26  8.82 11.768    1  1480
   int_3    OK  0.0  0.44 -2.49  3.428    1   810
 sigma_1    OK  4.0  4.01  3.43  4.591    1  3852
  time_2    OK  0.5  0.53  0.40  0.662    1   437
  time_3    OK -0.2 -0.22 -0.38 -0.035    1   834

Disclaimer: I am the developer of mcp.

Jonas Lindeløv
la source
The use of "detect" in the question indicates the number--and even the existence--of changepoints are not known beforehand.
whuber