Un modèle de régression dont la variable de réponse est le jour de l'année où un événement annuel se produit (généralement)

13

Dans ce cas particulier, je fais référence au jour où un lac gèle. Cette date "glacée" n'a lieu qu'une fois par an, mais parfois elle ne se produit pas du tout (si l'hiver est chaud). Ainsi, sur une année, le lac peut geler le jour 20 (20 janvier) et une autre année, il peut ne pas geler du tout.

Le but est de déterminer les conducteurs de la date de départ sur glace.

Les prédicteurs seraient des choses comme la température de l'air automne / hiver chaque année. L'année pourrait être un prédicteur de la tendance linéaire à long terme.

1) Le nombre entier "jour de l'année" est-il une variable de réponse raisonnable (sinon, qu'est-ce que c'est?)?

2) Comment gérer les années où le lac n'a jamais gelé?

Éditer:

Je ne sais pas quelle est l'étiquette ici, mais j'ai pensé publier le résultat des suggestions que j'ai reçues. Voici le papier, en accès libre . J'ai eu de bons retours sur l'approche utilisée, merci @pedrofigueira et @cboettig. Bien sûr, les erreurs sont les miennes.

rbatt
la source
quel type de données avez-vous? Des mesures pendant tous les jours de l'année?
Donbeo
@Donbeo, le gel survient une fois par an, la variable de réponse est donc à une résolution annuelle. Les autres données arrivent également à une fréquence annuelle, mais dans certains cas, elles pourraient être converties en données à fréquence plus élevée.
rbatt
Dans quel but souhaitez-vous envisager la date de mise en service? Je pose cette question car la modélisation statistique n'est jamais vraie ou fausse mais utile ou inutile. Ainsi, l'utilisation pour les résultats statistiques est importante, ainsi que la perspicacité si la variable cible est utile du tout. Par exemple, que se passe-t-il si le lac gèle avec un mince bouclier de glace déjà en octobre mais fond la même semaine et ne gèle plus cet hiver? Peut-être faites-vous votre analyse pour prédire quand commencer à utiliser quelque chose comme des pneus d'hiver? Cela pourrait donner un indice pour une réponse utile à votre 2e question.
Horst Grünbusch
Merci pour vos réflexions, @ HorstGrünbusch. Je veux savoir comment les variations climatiques ont affecté la glace, car mettre un couvercle sur un système aquatique affecte beaucoup de choses (échange de gaz, lumière, etc.). Les seules données disponibles sur la glace sont ces dates de glace (pas d'épaisseur, etc.).
rbatt

Réponses:

4

Je pense que l'on peut considérer le «jour de l'année» comme une variable de réponse à une régression multivariée. Afin de gérer les années où le lac n'a jamais gelé, je considérerais simplement que le jour de gel est plus grand qu'une limite inférieure observable qui correspond, par exemple, au jour où la teneur en glace commence à fondre (ou fond complètement, si vous le souhaitez). être très conservateur). Théoriquement, il devrait geler après cela, ou peut geler après cela, mais nous ne le savons pas. De cette façon, vous pouvez utiliser les données que vous avez collectées sur les différents paramètres pour comprendre comment le jour de congélation en dépend, s'il était autorisé à être postérieur à la dernière date observable. Vous pouvez ensuite utiliser un modèle Tobitpour gérer simultanément des jours de congélation (correspondant à des points de données "normaux") et des limites inférieures (correspondant à des limites et donc une régression censurée).

Afin d'inclure correctement les limites inférieures mesurées dans l'analyse, vous pouvez utiliser un modèle de régression censuré dans lequel la variable dépendante a un seuil à la valeur de la limite inférieure. Le modèle Tobit mentionné ci-dessus est approprié pour ce cas; il suppose l'existence d'une variable dépendante inobservable (latente) qui dans notre cas correspond à la date de congélation si l'hiver se prolongeait indéfiniment. La variable dépendante observable y i (c'est-à-dire la limite inférieure mesurée à la date de congélation) est alors considérée comme égale à la variable latente en l'absence de limite inférieure L i , et égale à la limite inférieure sinonyiyiLi

yi={yiif¯Li(i.e.yi<Li)LiifyiLi

L'application du modèle Tobit pour gérer la censure observation par observation se traduit par une fonction log-vraisemblance de la forme

L=jeyje<Ljeln[ϕ(yje-Xjejβjσ)/σ]+jeyjeLjeln[Φ(Lje-Xjejβjσ)]

ϕ(.)Φ(.)jejβj

pedrofigueira
la source
3
1365011365
1
Je dirais que le concept de limite inférieure conserve son sens si chaque année peut être considérée comme une expérience indépendante, c'est-à-dire si l'expérience n'a pas de mémoire et que la date de gel dans une année peut être supposée être complètement indépendante de la date la précédente; il ne devrait alors dépendre que des paramètres de l'année en question. Si tel est le cas, à ma connaissance, la variable n'est pas circulaire.
pedrofigueira
1
Oui, dans certaines circonstances, ces techniques ad hoc peuvent fonctionner. Lorsque (a) l'événement se produit toujours chaque année et (b) les événements sont étroitement dispersés autour d'une date prévisible, vous serez bien en choisissant l'origine de l'année de manière appropriée. Mais avec de plus grandes quantités de dispersion (ce qui est probablement le cas ici) - ou dans les cas les plus drastiques où l'événement peut être totalement absent - vous devez vraiment appliquer les méthodes de statistiques circulaires ("directionnelles"). BTW, la corrélation série ou l'indépendance est une préoccupation distincte.
whuber
2
Je pense que la limite supérieure devrait être définie le plus précisément possible par année; si l'on peut le faire, l'analyse Tobit devient plus pertinente. Je suggérerais comme limite inférieure (le gel pourrait se produire avant, mais n'a pas été observé / observable) le DoY au-delà duquel vous considérez que vous ne pouvez plus détecter de fusion. Peut-être que cela peut être fait en examinant le (P, T) requis pour que l'eau gèle, et en supposant une pression constante, choisissez les derniers minima locaux de l'année, ou similaire. Je crois que la question à ce stade devient plus une question physique que statistique (mais très intéressante de toute façon).
pedrofigueira
2
@rbatt Je pense que cette réponse est sensée. La date de début est arbitraire, vous pouvez partir d'une autre date ou utiliser des nombres négatifs; Je ne vois aucun problème. La circularité prend soin d'elle-même en numérotant par jour de l'année.
cboettig
1

Le jour de l'année est une variable prédictive sensible, et pour cela, je pense qu'il est judicieux de la traiter comme le suggère @pedrofigueira.

Pour les autres variables prédictives, vous devrez peut-être faire attention à la façon dont vous représentez le temps. Par exemple, imaginez que vous avez des températures de l'air par jour - comment pourriez-vous modéliser la température de l'air comme un prédicteur du jour de glace? Je ne pense pas que la comparaison des mêmes échantillons d'un jour de l'année soit suffisante.

Dans une telle analyse, je pense qu'il est utile d'écrire ce que vous pensez être un modèle (ou des modèles) de génération plausible des données, (où une partie de la physique pourrait être disponible comme guide). Par exemple, un modèle raisonnable pourrait consister à intégrer le nombre de jours sous le point de congélation, et lorsque cette intégrale franchit un seuil (par exemple lié à la masse thermique du lac), la glace se produit. À partir d'un tel modèle, vous pouvez alors demander ce qu'est une approximation raisonnable et ce qui ne l'est pas.

Par exemple, le jour de l'année en tant que prédicteur n'a d'importance pour ce modèle que dans la mesure où le jour de l'année est un bon prédicteur de la température. Ainsi, connaissant uniquement le jour de l'année, on aurait juste un jour de l'année moyen correspondant au seuil de glace, avec peut-être une distribution normale à ce sujet résultant des variations de température interannuelles, et donc à la recherche d'une tendance du jour- de l'année est parfaitement justifiée.

Mais si vous connaissez d'autres variables comme la température de l'air le jour, vous devrez probablement traiter plus directement un modèle un peu plus compliqué. Si vous utilisez simplement les valeurs annuelles (minimums? Moyennes?), La variable comme prédicteur du jour de glace semble également raisonnable (selon le même argument que ci-dessus).

cboettig
la source
+1 pour pointer vers la physique. Si vous ne pouvez pas expliquer le résultat statistique par la raison, il peut être faux, même s'il s'est révélé significatif.
Horst Grünbusch
Juste pour être clair, le jour de l'année pour la glace est la variable de réponse ... c'est ce que j'essaie de "prédire" (dans votre réponse, vous vous y référez comme le "prédicteur" à quelques endroits). Avez-vous une suggestion pour gérer les années sans gel (autre la suggestion Tobit ci-dessous)?
rbatt
1
@rbatt, désolé pour la confusion. Le modèle le plus simple est 1D, en utilisant le jour de l'année où la glace s'est produite dans le passé comme prédicteur. Mais si vous voulez détecter les tendances de la date de mise sous glace, vous avez la DATE complète, pas le jour de l'année, comme la chose que vous voulez prédire, car la prédiction pour, disons, 2020 pourrait alors différer de celle pour 2050.
cboettig
0

Pour ce problème, vous avez besoin de deux variables de réponse. Une réponse booléenne qui indique si le lac a gelé ou non, et une réponse entière donnant le jour de l'année, à condition que l'indicateur soit vrai. Les années où le lac a gelé, le booléen et l'entier sont observés. Les années où le lac n'a pas gelé, le booléen est observé et l'entier ne l'est pas. Vous pouvez utiliser une régression logistique pour le booléen. La régression pour le jour de l'année pourrait être une régression linéaire ordinaire.

La nature circulaire du jour de l'année ne devrait pas être un problème tant que vous numérotez les jours de gel possibles consécutivement au cours d'une période donnée. Si vous vous demandez où commencer la numérotation, je suggère le jour où les prédicteurs ont été mesurés. Si vous voulez que le modèle représente les effets causaux, il doit être vrai que tous les prédicteurs ont été mesurés avant tout gel possible.

Pour gérer la nature entière et bornée du jour de l'année, pourrait utiliser un modèle de discrétisation. Autrement dit, il existe une valeur latente réelle qui génère une observation de la manière suivante: si la valeur est dans les limites, alors l'observation est égale à la valeur latente arrondie à l'entier le plus proche, sinon la valeur est tronquée aux limites. La valeur latente elle-même peut ensuite être modélisée comme une fonction linéaire des prédicteurs plus le bruit.

Tom Minka
la source
Je comprends la prémisse de l'approche, mais je ne sais pas comment la mettre en œuvre. Comment puis-je organiser les données et estimer l'influence des candidats conducteurs du booléen / date? Je travaille chez R.
rbatt
Placez les données dans un bloc de données où une colonne est le booléen et une autre est la date. Ensuite, utilisez: fit1 = glm (gelé ~ x, cadre, famille = "binomial") fit2 = lm (date ~ x, cadre)
Tom Minka
Désolé, puis-je comprendre "fit2 = lm (date ~ x, frame, subset = Boolean == TRUE)"?
Sergio
Ce seraient deux modèles distincts. Dans le modèle où "date" est la réponse, que dois-je faire avec les années où l'eau n'a jamais gelé? Si je supprime simplement ces années, je biaiserais les résultats (ou réduirais sévèrement ma gamme de réponses observée) parce que je supprime sélectivement les observations les plus extrêmes de la réponse (c.-à-d., Jamais le gel est la date la plus extrême de la glace). Donc, les années où l'eau ne gèle jamais devraient nous dire quelque chose sur l'influence de ces conducteurs sur la glace. Il semble que les informations des deux modèles devraient être combinées.
rbatt
Je suis mal à l'aise de traiter le gel comme une variable booléenne car le processus sous-jacent est sans aucun doute plus continu que cela.
cboettig
0

Ce que vous avez, ce sont des données sur la durée de l'événement, également appelées analyse de survie. Ce n'est pas vraiment mon domaine, donc je ne donne pas de réponse détaillée ici. La recherche de «données sur les événements» ou d '«analyse de survie» vous donnera beaucoup de succès!

Un bon point de départ pourrait être le chapitre (13) sur l'analyse de survie dans Venables / Ripley: MASS, ou le classique "The Statistical Analysis of Failure Time Data, Second Edition" de John D. Kalbfleisch, Ross L. Prentice (auth.)

MODIFIER, RÉPONDRE PROLONGÉ

Comme alternative à l'analyse de survie, vous pouvez l'approcher par régression logistique ordinale. Par exemple, dans votre cas d'exemple de première date de gel, définissez certaines dates pour lesquelles vous indiquez l'état "ont gelé au plus tard", 0 (pas de gel), 1 (gel). Cela s'adapte bien aux années sans geler, vous avez simplement un vecteur de réponse tout à zéro. Si vos dates choisies sont, disons,

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

et, en général, tous les vecteurs de réponse auront un bloc initial de zéros, suivi d'un bloc de uns. Ensuite, vous pouvez l'utiliser avec une régression logistique ordinale, obtenant une probabilité estimée de gel pour chaque date. Le tracé de cette courbe donnera une approximation pour une courbe de survie (la survie, dans ce contexte, devient "n'ayant pas encore gelé").

EDIT

On pourrait également voir vos données comme des événements récurrents, car la rivière gèle (presque) chaque année. Voir ma réponse ici: Trouver des prédicteurs significatifs des réadmissions psychiatriques

kjetil b halvorsen
la source