J'ai des données pour la population d'un certain nombre de poissons différents, échantillonnés sur une période d'environ 5 ans, mais de façon très irrégulière. Parfois, il y a des mois entre les échantillons, parfois il y a plusieurs échantillons en un mois. Il y a aussi beaucoup de 0 comptes
Comment gérer ces données?
Je peux le représenter assez facilement en R, mais les graphiques ne sont pas particulièrement éclairants, car ils sont très bosselés.
En termes de modélisation - avec des espèces modélisées en fonction de diverses choses - peut-être un modèle mixte (aka modèle à plusieurs niveaux).
Toutes les références ou idées sont les bienvenues
Quelques détails en réponse aux commentaires
Il y a environ 15 espèces.
J'essaie à la fois de me faire une idée des tendances ou de la saisonnalité de chaque poisson et de voir comment les espèces sont liées les unes aux autres (mon client voulait à l'origine un simple tableau de corrélations)
L'objectif est descriptif et analytique, pas prédictif
Contrôles supplémentaires: J'ai trouvé cet article de K. Rehfield et al., Qui suggère d'utiliser des noyaux gaussiens pour estimer l'ACF pour des séries chronologiques très irrégulières
http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf
la source
Réponses:
J'ai passé pas mal de temps à construire un cadre général pour des séries chronologiques à intervalles inégaux: http://www.eckner.com/research.html
De plus, j'ai écrit un article sur l'estimation des tendances et de la saisonnalité pour les séries chronologiques à intervalles irréguliers.
J'espère que vous trouverez les résultats utiles!
la source
Je ne sais pas si un modèle mixte est très approprié (en utilisant les packages standard où la structure d'effet aléatoire est un prédicteur linéaire), à moins que vous ne pensiez que les données à tout moment devraient être échangeables les unes avec les autres dans un certain sens (auquel cas les intervalles irréguliers ne sont pas un problème) - ce ne serait pas vraiment modéliser l'autocorrélation temporelle d'une manière raisonnable. Il est possible que vous puissiez inciter lmer () à faire quelque chose d'autogressif, mais comment exactement vous feriez cela m'échappe en ce moment (je ne pense peut-être pas droit). De plus, je ne suis pas sûr de ce que serait la "variable de regroupement" qui induit l'autocorrélation dans le scénario de modèle mixte.
Si l'autocorrélation temporelle est un paramètre gênant et que vous ne vous y attendez pas tropgrande, vous pouvez alors regrouper les données dans des époques qui sont essentiellement disjointes les unes des autres en termes de corrélation (par exemple, séparer les séries chronologiques aux points où il y a des mois sans données) et les visualiser comme des répliques indépendantes. Vous pourriez alors faire quelque chose comme un GEE sur cet ensemble de données modifié où le "cluster" est défini par quelle époque vous vous trouvez, et les entrées de la matrice de corrélation de travail sont fonction de la distance à laquelle les observations ont été faites. Si votre fonction de régression est correcte, vous obtiendrez toujours des estimations cohérentes des coefficients de régression, même si la structure de corrélation est mal spécifiée. Cela vous permettrait également de le modéliser en tant que données de comptage en utilisant, par exemple, le log-link (comme on le ferait habituellement dans la régression poisson). Vous pouvez également créer une corrélation différentielle entre les espèces, où chaque point temporel est considéré comme un vecteur multivarié d'espèces compte avec une certaine association temporellement décroissante entre les points temporels. Cela nécessiterait un certain prétraitement pour inciter les packages GEE standard à le faire.
la source
surveillance
package peut avoir la fonctionnalité souhaitée. Ce type de modélisation n'est pas rare dans les études écologiques, il est donc préférable de trouver un bon package dans les recoins écologiques du CRAN.