Dans ce cas particulier, je fais référence au jour où un lac gèle. Cette date "glacée" n'a lieu qu'une fois par an, mais parfois elle ne se produit pas du tout (si l'hiver est chaud). Ainsi, sur une année, le lac peut geler le jour 20 (20 janvier) et une autre année, il peut ne pas geler du tout.
Le but est de déterminer les conducteurs de la date de départ sur glace.
Les prédicteurs seraient des choses comme la température de l'air automne / hiver chaque année. L'année pourrait être un prédicteur de la tendance linéaire à long terme.
1) Le nombre entier "jour de l'année" est-il une variable de réponse raisonnable (sinon, qu'est-ce que c'est?)?
2) Comment gérer les années où le lac n'a jamais gelé?
Éditer:
Je ne sais pas quelle est l'étiquette ici, mais j'ai pensé publier le résultat des suggestions que j'ai reçues. Voici le papier, en accès libre . J'ai eu de bons retours sur l'approche utilisée, merci @pedrofigueira et @cboettig. Bien sûr, les erreurs sont les miennes.
Réponses:
Je pense que l'on peut considérer le «jour de l'année» comme une variable de réponse à une régression multivariée. Afin de gérer les années où le lac n'a jamais gelé, je considérerais simplement que le jour de gel est plus grand qu'une limite inférieure observable qui correspond, par exemple, au jour où la teneur en glace commence à fondre (ou fond complètement, si vous le souhaitez). être très conservateur). Théoriquement, il devrait geler après cela, ou peut geler après cela, mais nous ne le savons pas. De cette façon, vous pouvez utiliser les données que vous avez collectées sur les différents paramètres pour comprendre comment le jour de congélation en dépend, s'il était autorisé à être postérieur à la dernière date observable. Vous pouvez ensuite utiliser un modèle Tobitpour gérer simultanément des jours de congélation (correspondant à des points de données "normaux") et des limites inférieures (correspondant à des limites et donc une régression censurée).
Afin d'inclure correctement les limites inférieures mesurées dans l'analyse, vous pouvez utiliser un modèle de régression censuré dans lequel la variable dépendante a un seuil à la valeur de la limite inférieure. Le modèle Tobit mentionné ci-dessus est approprié pour ce cas; il suppose l'existence d'une variable dépendante inobservable (latente) qui dans notre cas correspond à la date de congélation si l'hiver se prolongeait indéfiniment. La variable dépendante observable y i (c'est-à-dire la limite inférieure mesurée à la date de congélation) est alors considérée comme égale à la variable latente en l'absence de limite inférieure L i , et égale à la limite inférieure sinony∗je yje Lje
L'application du modèle Tobit pour gérer la censure observation par observation se traduit par une fonction log-vraisemblance de la forme
la source
Le jour de l'année est une variable prédictive sensible, et pour cela, je pense qu'il est judicieux de la traiter comme le suggère @pedrofigueira.
Pour les autres variables prédictives, vous devrez peut-être faire attention à la façon dont vous représentez le temps. Par exemple, imaginez que vous avez des températures de l'air par jour - comment pourriez-vous modéliser la température de l'air comme un prédicteur du jour de glace? Je ne pense pas que la comparaison des mêmes échantillons d'un jour de l'année soit suffisante.
Dans une telle analyse, je pense qu'il est utile d'écrire ce que vous pensez être un modèle (ou des modèles) de génération plausible des données, (où une partie de la physique pourrait être disponible comme guide). Par exemple, un modèle raisonnable pourrait consister à intégrer le nombre de jours sous le point de congélation, et lorsque cette intégrale franchit un seuil (par exemple lié à la masse thermique du lac), la glace se produit. À partir d'un tel modèle, vous pouvez alors demander ce qu'est une approximation raisonnable et ce qui ne l'est pas.
Par exemple, le jour de l'année en tant que prédicteur n'a d'importance pour ce modèle que dans la mesure où le jour de l'année est un bon prédicteur de la température. Ainsi, connaissant uniquement le jour de l'année, on aurait juste un jour de l'année moyen correspondant au seuil de glace, avec peut-être une distribution normale à ce sujet résultant des variations de température interannuelles, et donc à la recherche d'une tendance du jour- de l'année est parfaitement justifiée.
Mais si vous connaissez d'autres variables comme la température de l'air le jour, vous devrez probablement traiter plus directement un modèle un peu plus compliqué. Si vous utilisez simplement les valeurs annuelles (minimums? Moyennes?), La variable comme prédicteur du jour de glace semble également raisonnable (selon le même argument que ci-dessus).
la source
Pour ce problème, vous avez besoin de deux variables de réponse. Une réponse booléenne qui indique si le lac a gelé ou non, et une réponse entière donnant le jour de l'année, à condition que l'indicateur soit vrai. Les années où le lac a gelé, le booléen et l'entier sont observés. Les années où le lac n'a pas gelé, le booléen est observé et l'entier ne l'est pas. Vous pouvez utiliser une régression logistique pour le booléen. La régression pour le jour de l'année pourrait être une régression linéaire ordinaire.
La nature circulaire du jour de l'année ne devrait pas être un problème tant que vous numérotez les jours de gel possibles consécutivement au cours d'une période donnée. Si vous vous demandez où commencer la numérotation, je suggère le jour où les prédicteurs ont été mesurés. Si vous voulez que le modèle représente les effets causaux, il doit être vrai que tous les prédicteurs ont été mesurés avant tout gel possible.
Pour gérer la nature entière et bornée du jour de l'année, pourrait utiliser un modèle de discrétisation. Autrement dit, il existe une valeur latente réelle qui génère une observation de la manière suivante: si la valeur est dans les limites, alors l'observation est égale à la valeur latente arrondie à l'entier le plus proche, sinon la valeur est tronquée aux limites. La valeur latente elle-même peut ensuite être modélisée comme une fonction linéaire des prédicteurs plus le bruit.
la source
Ce que vous avez, ce sont des données sur la durée de l'événement, également appelées analyse de survie. Ce n'est pas vraiment mon domaine, donc je ne donne pas de réponse détaillée ici. La recherche de «données sur les événements» ou d '«analyse de survie» vous donnera beaucoup de succès!
Un bon point de départ pourrait être le chapitre (13) sur l'analyse de survie dans Venables / Ripley: MASS, ou le classique "The Statistical Analysis of Failure Time Data, Second Edition" de John D. Kalbfleisch, Ross L. Prentice (auth.)
MODIFIER, RÉPONDRE PROLONGÉ
Comme alternative à l'analyse de survie, vous pouvez l'approcher par régression logistique ordinale. Par exemple, dans votre cas d'exemple de première date de gel, définissez certaines dates pour lesquelles vous indiquez l'état "ont gelé au plus tard", 0 (pas de gel), 1 (gel). Cela s'adapte bien aux années sans geler, vous avez simplement un vecteur de réponse tout à zéro. Si vos dates choisies sont, disons,
et, en général, tous les vecteurs de réponse auront un bloc initial de zéros, suivi d'un bloc de uns. Ensuite, vous pouvez l'utiliser avec une régression logistique ordinale, obtenant une probabilité estimée de gel pour chaque date. Le tracé de cette courbe donnera une approximation pour une courbe de survie (la survie, dans ce contexte, devient "n'ayant pas encore gelé").
On pourrait également voir vos données comme des événements récurrents, car la rivière gèle (presque) chaque année. Voir ma réponse ici: Trouver des prédicteurs significatifs des réadmissions psychiatriques
la source