Quel modèle pour un ensemble de données difficile? (des centaines de séries chronologiques avec beaucoup d'imbrication)

9

J'ai un ensemble de données assez compliqué à analyser, et je ne peux pas trouver une bonne solution pour cela.

Voici la chose:

1. les données brutes sont essentiellement des enregistrements de chants d'insectes. Chaque chanson est composée de plusieurs rafales et chaque rafale est constituée de sous-unités. Tous les individus ont été enregistrés pendant 5 minutes. Le nombre de rafales et leur position dans l'enregistrement peuvent être très différents entre les individus, ainsi que le nombre de sous-unités par rafale.

2. J'ai la fréquence porteuse (fréquence fondamentale) de chaque sous-unité, et c'est ce que je veux analyser.

Mes problèmes:

1. Les fréquences dans une rafale ne sont évidemment pas indépendantes (bien que ce soit assez stable, mais la fréquence de la sous-unité n-1 aura une influence sur la sous-unité n).

2. Les rafales ne sont pas non plus indépendantes, au sein d'un enregistrement.

3. Ils sont d'autant moins indépendants que la fréquence diminue avec le temps (l'individu se lasse de chanter donc la fréquence de la chanson diminue de plus en plus). La baisse semble être linéaire.

4. Nidification = J'ai 3 populations répliquées pour deux emplacements A et B. J'ai donc A1, A2, A3 & B1, B2, B3.

Ce que je voudrais faire:

1. Caractérisez la différence de fréquence entre mes deux emplacements (testez-la statistiquement)

2. Caractérisez la baisse de fréquence entre les deux emplacements (voyez si elle chute plus rapidement dans l'un d'eux)

Comment faire:

C'est pour ça que j'ai besoin d'aide: je ne sais pas. Il semble que mon cas combine des problèmes qui ne sont généralement pas vus ensemble. J'ai lu sur les modèles mixtes, sur GAM, sur ARIMA, les effets aléatoires et fixes, mais je ne peux pas vraiment être sûr de la meilleure façon de le faire. Cependant, quand je le représente graphiquement (fréquence ~ numéro de sous-unité n ), la différence est très claire entre les deux emplacements. Je dois également prendre en compte d'autres variables, comme la température (rend la fréquence plus élevée), etc.

Je pensais à:

  • Imbrication des individus dans la réplique dont ils proviennent et imbriquer la réplication dans l'emplacement (individu / réplique / emplacement).

  • Utilisez un effet de «rafale» aléatoire, donc je prends en compte la variabilité au sein de chaque rafale.

  • Utilisez un effet fixe de «position de rafale dans l'enregistrement» pour mesurer la baisse de fréquence (en espérant qu'elle soit réellement linéaire).

Serait-ce correct?

Existe-t-il un type de modèle spécial que je pourrais utiliser pour ce type de scénario?

Joe
la source
Bienvenue sur ce site, Joe. Inutile de vous connecter à votre message, votre nom apparaîtra toujours sous votre gravatar :)
chl
D'accord, et merci! C'est un très beau site web, très bien fait.
Joe
«Imbriquer les individus dans la réplique dont ils sont issus et imbriquer la réplique dans l'emplacement (individu / répliquer / emplacement)» semble être une bonne idée, si on le compare aux formes non imbriquées. À quoi ressemble un LOESS de vos six sous-populations?
Fr.
1
Merci beaucoup pour vos réponses, vraiment apprécié. Eh bien, cela m'a pris du temps, mais j'ai réussi à analyser cet ensemble de données (sanglant). J'étais trop ambitieux je pense, voulant tout modéliser en même temps. J'ai donc divisé le travail en plusieurs modèles, pour chaque problème (différence de fréquence moyenne, augmentation de fréquence, etc.). Conclusion: il est parfois préférable de partager le travail!
Joe

Réponses:

2

Ce ne sont que quelques suggestions générales que vous pourriez trouver utiles, plus une feuille de route qu'une recette.

  • Mon instinct serait de construire un modèle hiérarchique bayésien, car il se prête au développement de modèles itératifs - je ne pense pas que vous trouverez un modèle existant qui a toutes les cloches et les sifflets que vous recherchez. Mais cela rend le test d'hypothèse plus difficile, je ne sais pas à quel point le test d'hypothèse est nécessaire pour vous.
  • Il semble que vous ayez dans votre tête un petit modèle informel sur le comportement des insectes; vous dites des choses comme "se fatiguer" et vous savez que la température augmente la fréquence, probablement parce que l'animal a plus d'énergie. Il semble que vous ayez en tête un petit modèle génératif sur la façon dont les insectes composent leurs chansons.
  • Le problème semble bien trop complexe pour être modélisé "en une seule fois". Je pense que vous devrez construire quelque chose au coup par coup. Je commencerais par quelques "hypothèses simplificatrices fortes" - c'est-à-dire que nous jetterions la majeure partie de la complexité de l'ensemble de données, avec un plan pour l'ajouter plus tard une fois que vous aurez un modèle simple qui fonctionne.

Donc, pour commencer, je ferais quelque chose comme prétraiter les fréquences des sous-unités rafale par rafale en quelque chose comme une paire (fréquence moyenne, tendance de fréquence) - le faire avec OLS, et modéliser simplement la moyenne et la tendance de fréquence de un éclat plutôt que les sous-unités elles-mêmes. Ou vous pouvez le faire (moyenne, tendance, nombre de sous-unités), si le nombre de sous-unités est lié à la fatigue de l'insecte. Construisez ensuite un modèle hiérarchique bayésien où la distribution de la moyenne et de la tendance d'une rafale est déterminée par la moyenne, la tendance de l'enregistrement, et celle-ci est à son tour déterminée par la moyenne, la tendance de l'emplacement.

Ajoutez ensuite la température comme facteur pour la moyenne / tendance d'enregistrement.

Ce modèle simple devrait vous permettre de voir la moyenne et la tendance des rafales individuelles dans un enregistrement, déterminées par la température et l'emplacement. Essayez de faire fonctionner cela.

Ensuite, j'essaierais d'estimer la différence entre la fréquence moyenne des rafales (ou tendance, en divisant le temps calme entre les rafales) en ajoutant cela comme une variable déterminée par l'emplacement et l'enregistrement. L'étape suivante est un modèle AR de la moyenne de rafale dans un enregistrement.

Compte tenu de certains antérieurs et de certaines hypothèses très fortes sur la nature des rafales (que toutes les informations sont données par moyenne et tendance), ce modèle de base vous dira:

  • comment est la fréquence moyenne d'une rafale emplacement différent par emplacement et temp par temp
  • comment la tendance intra-rafale est-elle différente emplacement par emplacement et température par température
  • comment la tendance à l'éclatement extérieur est-elle différente emplacement par emplacement et température par température

Une fois que vous avez quelque chose comme ça pour fonctionner, il peut être temps de modéliser les sous-unités elles-mêmes et de jeter l'estimation OLS d'origine. J'examinerais les données à ce stade pour avoir une idée du type de modèle de série chronologique qui pourrait convenir, et modéliser les paramètres du modèle de série chronologique plutôt que les paires (moyennes, tendances).

Patrick Caldon
la source