Séries chronologiques très irrégulières

10

J'ai des données pour la population d'un certain nombre de poissons différents, échantillonnés sur une période d'environ 5 ans, mais de façon très irrégulière. Parfois, il y a des mois entre les échantillons, parfois il y a plusieurs échantillons en un mois. Il y a aussi beaucoup de 0 comptes

Comment gérer ces données?

Je peux le représenter assez facilement en R, mais les graphiques ne sont pas particulièrement éclairants, car ils sont très bosselés.

En termes de modélisation - avec des espèces modélisées en fonction de diverses choses - peut-être un modèle mixte (aka modèle à plusieurs niveaux).

Toutes les références ou idées sont les bienvenues

Quelques détails en réponse aux commentaires

Il y a environ 15 espèces.

J'essaie à la fois de me faire une idée des tendances ou de la saisonnalité de chaque poisson et de voir comment les espèces sont liées les unes aux autres (mon client voulait à l'origine un simple tableau de corrélations)

L'objectif est descriptif et analytique, pas prédictif

Contrôles supplémentaires: J'ai trouvé cet article de K. Rehfield et al., Qui suggère d'utiliser des noyaux gaussiens pour estimer l'ACF pour des séries chronologiques très irrégulières

http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf

Peter Flom - Réintégrer Monica
la source
1
Je ne suis pas le bon type pour répondre à votre question, mais un modèle à plusieurs niveaux semble raisonnable. Avez-vous des indications sur la taille des échantillons, le nombre d'espèces et la façon dont le comptage zéro se produit? (Sur le dernier point, les échantillons sont-ils des tentatives d'échantillons aléatoires, ou sont-ils biaisés, comme si vous veniez d'obtenir les chiffres d'un concours de pêche à l'achigan qui ne donnera probablement pas de poisson-chat?)
Wayne
1
"Traiter" signifie quoi, exactement? Pour des idées sur la façon de faire face aux heures irrégulières, recherchez ce site sur "+ irrégulier + temps"
whuber
Pouvez-vous clarifier l'échantillonnage et l'objectif? Par exemple, cette capture-recapture? S'agit-il d'un filet placé dans un flux pendant une période donnée, sans libération? Essayez-vous d'estimer la taille future des échantillons ou la population plus importante à partir de laquelle un échantillon est tiré? Les échantillons proviennent-ils d'un ou de plusieurs emplacements? Il n'y a rien de mal avec des séries chronologiques irrégulières, mais il est un peu difficile de comprendre le lien entre les événements d'échantillonnage et entre les échantillons et une variable cible (par exemple, une réponse du modèle). De plus, l'objectif est-il de nature prédictive ou descriptive?
Iterator
2
Pourquoi quelqu'un a-t-il voté contre cette question? Pourquoi ne pas essayer de développer une meilleure question ou réponse?
Iterator
2
@Iterator Parce que même maintenant, après "d'autres modifications", il n'y a pas de question claire ici. Le downvote (délivré après qu'aucune réponse n'a été observée à mon premier commentaire) a été placé pour encourager le PO à apporter les améliorations nécessaires, ainsi qu'un signal du seul état partiellement formé de la question en l'état. Ce n'est pas le travail de chaque lecteur (ni des mods d'ailleurs) de deviner ce qui est prévu!
whuber

Réponses:

10

J'ai passé pas mal de temps à construire un cadre général pour des séries chronologiques à intervalles inégaux: http://www.eckner.com/research.html

De plus, j'ai écrit un article sur l'estimation des tendances et de la saisonnalité pour les séries chronologiques à intervalles irréguliers.

J'espère que vous trouverez les résultats utiles!

Andreas Eckner
la source
5
Merci! Cette analyse a été faite il y a longtemps et je ne le fais plus, mais des choses similaires peuvent se reproduire; et d'autres recherchent beaucoup ces fils, donc votre commentaire n'est pas perdu.
Peter Flom - Réintègre Monica
Merci pour l'information (et en effet des années plus tard, quelqu'un sur Internet la recherche!), Mais le lien est mort.
accroché le
2

Je ne sais pas si un modèle mixte est très approprié (en utilisant les packages standard où la structure d'effet aléatoire est un prédicteur linéaire), à ​​moins que vous ne pensiez que les données à tout moment devraient être échangeables les unes avec les autres dans un certain sens (auquel cas les intervalles irréguliers ne sont pas un problème) - ce ne serait pas vraiment modéliser l'autocorrélation temporelle d'une manière raisonnable. Il est possible que vous puissiez inciter lmer () à faire quelque chose d'autogressif, mais comment exactement vous feriez cela m'échappe en ce moment (je ne pense peut-être pas droit). De plus, je ne suis pas sûr de ce que serait la "variable de regroupement" qui induit l'autocorrélation dans le scénario de modèle mixte.

Si l'autocorrélation temporelle est un paramètre gênant et que vous ne vous y attendez pas tropgrande, vous pouvez alors regrouper les données dans des époques qui sont essentiellement disjointes les unes des autres en termes de corrélation (par exemple, séparer les séries chronologiques aux points où il y a des mois sans données) et les visualiser comme des répliques indépendantes. Vous pourriez alors faire quelque chose comme un GEE sur cet ensemble de données modifié où le "cluster" est défini par quelle époque vous vous trouvez, et les entrées de la matrice de corrélation de travail sont fonction de la distance à laquelle les observations ont été faites. Si votre fonction de régression est correcte, vous obtiendrez toujours des estimations cohérentes des coefficients de régression, même si la structure de corrélation est mal spécifiée. Cela vous permettrait également de le modéliser en tant que données de comptage en utilisant, par exemple, le log-link (comme on le ferait habituellement dans la régression poisson). Vous pouvez également créer une corrélation différentielle entre les espèces, où chaque point temporel est considéré comme un vecteur multivarié d'espèces compte avec une certaine association temporellement décroissante entre les points temporels. Cela nécessiterait un certain prétraitement pour inciter les packages GEE standard à le faire.

Ouis,Ouitu,v

cov(Ouis,Ouit)=Fθ(s,t,u,v)

Fθ

Macro
la source
Merci @macro. Je pense qu'un modèle mixte pourrait être OK car ils sont souvent utilisés pour des données imbriquées dans le temps; Je ne suis pas tellement intéressé par la modélisation de l'autocorrélation - c'est-à-dire que c'est une nuisance. Je suis d'accord que le temps ne sera pas linéaire, mais je peux ajouter des effets de temps (je ne sais pas encore lesquels, mais je peux l'explorer). Je n'ai pas MPLUS, mais j'ai R et SAS.
Peter Flom - Réintègre Monica
1
Je dis seulement qu'un modèle mixte standard pourrait ne pas être approprié dans une telle situation. L'interception aléatoire est inutile si vous ne pensez pas que les points temporels sont échangeables en termes de corrélation (c'est-à-dire qu'elle n'offrirait qu'une approximation dans le monde de la «corrélation échangeable» à votre véritable structure de corrélation). L'inclusion de pentes aléatoires dans le temps indique que vous pensez que la trajectoire "se dirige quelque part" dans le temps - puisque l'intrigue n'était pas très éclairante pour vous, cela ne se produit probablement pas. Je dois admettre que vous pourrez peut-être amener lmer () à faire quelque chose de plus approprié.
Macro du
2
+1 Une bonne réponse concise abordant tous les points majeurs que je pensais aborder et plus encore. En ce qui concerne les packages dans R, une recherche Google de CRAN, pour [poisson regression temporal] fait apparaître plusieurs packages. Le surveillancepackage peut avoir la fonctionnalité souhaitée. Ce type de modélisation n'est pas rare dans les études écologiques, il est donc préférable de trouver un bon package dans les recoins écologiques du CRAN.
Iterator