Les courtes séries temporelles valent-elles la modélisation?

14

Voici un peu de contexte. Je souhaite déterminer comment deux variables environnementales (température, niveaux de nutriments) affectent la valeur moyenne d'une variable de réponse sur une période de 11 ans. Chaque année, des données proviennent de plus de 100 000 emplacements.

Le but est de déterminer si, au cours de la période de 11 ans, la valeur moyenne des variables de réponse a répondu aux changements des variables environnementales (par exemple, une température plus chaude + plus de nutriments = une plus grande réponse).

Malheureusement, comme la réponse est la valeur moyenne (sans regarder la moyenne, seule une variation interannuelle régulière submergera le signal), la régression sera de 11 points de données (1 valeur moyenne par an), avec 2 variables explicatives. Pour moi, même une régression positive linéaire sera difficile à considérer comme significative étant donné que l'ensemble de données est si petit (ne répond même pas aux 40 points / variables nominaux, sauf si la relation est super forte).

Ai-je raison de faire cette supposition? Quelqu'un peut-il offrir d'autres pensées / perspectives qui pourraient me manquer?

PS: quelques mises en garde: il n'y a aucun moyen d'obtenir plus de données sans attendre des années supplémentaires. Les données disponibles sont donc celles avec lesquelles nous devons vraiment travailler.

Maiasaura
la source
Avez-vous essayé de tracer les données? Je dirais que la force de la corrélation entre vos variables environnementales et votre variable de réponse affectera la réponse.
rm999
« Chaque année, des données proviennent de plus de 100 000 emplacements. » Observez-vous réellement tous les emplacements ou seulement la valeur moyenne basée sur eux? Si oui, alors vous pouvez opter pour des modèles de données de panel comme @crayola l'a suggéré dans un contexte linéaire. Bien que certains modèles écologiques spéciaux, comme @GaBorgulya l'a mentionné, puissent nécessiter beaucoup moins d'informations pour les paramètres à calibrer plutôt qu'à estimer.
Dmitrij Celov

Réponses:

8

Le petit nombre de points de données limite les types de modèles que vous pouvez adapter à vos données. Cependant, cela ne signifie pas nécessairement que cela n'aurait aucun sens de commencer la modélisation. Avec peu de données, vous ne pourrez détecter des associations que si les effets sont forts et la dispersion faible.

C'est une autre question de savoir quel type de modèle convient à vos données. Vous avez utilisé le mot «régression» dans le titre. Le modèle devrait dans une certaine mesure refléter ce que vous savez du phénomène. Cela semble être un cadre écologique, donc l'année précédente peut également être influente.

GaBorgulya
la source
4

J'ai vu des ensembles de données écologiques avec moins de 11 points, donc je dirais que si vous êtes très prudent, vous pouvez tirer des conclusions limitées avec vos données limitées.

Vous pouvez également effectuer une analyse de puissance pour déterminer la taille d'un effet détectable, compte tenu des paramètres de votre conception expérimentale.

Vous n'aurez peut-être pas non plus besoin de supprimer la variation supplémentaire par an si vous effectuez une analyse minutieuse

Zach
la source
4
Soyez prudent avec la puissance observée: nottinghamtrent.academia.edu/ThomBaguley/Papers/212458/…
GaBorgulya
4

Fondamentalement, la modélisation des données (en particulier pour les séries chronologiques) suppose que vous avez collecté des données à une fréquence suffisante pour capturer les phénomènes d'intérêt. L'exemple le plus simple est pour une onde sinusoïdale - si vous collectez des données à une fréquence de n * pi où n est un entier, vous ne verrez rien d'autre que des zéros et vous manquerez complètement le motif sinusoïdal. Il existe des articles sur la théorie de l'échantillonnage qui discutent de la fréquence de collecte des données.


la source
3

Je ne suis pas sûr de comprendre ce bit: "Malheureusement, puisque la réponse est la valeur moyenne (sans regarder la moyenne, juste une variation interannuelle régulière submergera le signal)"

Avec une modélisation minutieuse, il me semble que vous pourriez gagner beaucoup en modélisant cela sous forme de données de panneau. Selon l'étendue spatiale de vos données, il peut y avoir de grandes différences dans les températures auxquelles vos points de données ont été exposés au cours d'une année donnée. La moyenne de toutes ces variations semble coûteuse.

crayola
la source
3

Je dirais que la validité du test a moins à voir avec le nombre de points de données et plus à voir avec la validité de l'hypothèse que vous avez le bon modèle.

Par exemple, l'analyse de régression utilisée pour générer une courbe standard peut être basée sur seulement 3 standards (bas, moyen et élevé) mais le résultat est très valide car il existe des preuves solides que la réponse est linéaire entre les points.

D'un autre côté, même une régression avec des milliers de points de données sera défectueuse si le mauvais modèle est appliqué aux données.

Dans le premier cas, toute variation entre les prévisions du modèle et les données réelles est due à une erreur aléatoire. Dans le deuxième cas, une partie de la variation entre les prévisions du modèle et les données réelles est due au biais du choix du mauvais modèle.

DQdlM
la source
1

Le nombre d'observations requis pour identifier un modèle dépend du rapport signal / bruit dans les données et de la forme du modèle. Si on me donne les nombres, 1, 2, 3, 4, 5, je prédirai 6, 7, 8, ... L'identification du modèle de Box-Jenkins est une approche pour déterminer le terme général sous-jacent un peu comme le test de " intelligence numérique "que nous donnons aux enfants. Si le signal est fort, nous avons besoin de moins d'observations et vice-versa. Si la fréquence observée suggère une possible "structure saisonnière", alors nous avons besoin de répétitions de ce phénomène, par exemple au moins 3 saisons (de préférence plus) en règle générale pour extraire (identifier cela à partir des statistiques descriptives de base (l'acf / pacf).

IrishStat
la source
-1

Vous pouvez peut-être essayer de gérer votre série temporelle comme un système d'équations linéaires et de la résoudre par élimination de Gauss. Bien sûr, dans ce cas, vous vous limitez aux données disponibles, mais c'est le seul prix à payer.


la source