Comparaison des séries de séries chronologiques

10

J'ai trois ensembles de données chronologiques que je cherche à comparer. Ils ont été pris sur 3 périodes distinctes d'environ 12 jours. Il s'agit de la moyenne, du maximum et du minimum de dénombrements effectués dans une bibliothèque du collège pendant les semaines de finales. J'ai dû faire la moyenne, le max et le min parce que les dénombrements horaires n'étaient pas continus (voir Écarts de données réguliers dans une série chronologique ).

Maintenant, l'ensemble de données ressemble à ceci. Il y a un point de données (moyenne, max ou min) par soirée, pour 12 soirées. Il y a 3 semestres pour lesquels les données ont été prises, pour les périodes de 12 jours seulement. Ainsi, par exemple, le printemps 2010, l'automne 2010 et mai 2011 ont chacun un ensemble de 12 points. Voici un exemple de graphique:

entrez la description de l'image ici

J'ai superposé les semestres parce que je veux voir comment les modèles changent d'un semestre à l'autre. Cependant, comme on m'a dit dans le fil lié , ce n'est pas une bonne idée de gifler les semestres en tête-à-tête car il n'y a pas de données entre les deux.

La question est alors: Quelle technique mathématique puis-je utiliser pour comparer le modèle de fréquentation pour chaque semestre? Y a-t-il quelque chose de spécial aux séries chronologiques que je dois faire, ou puis-je simplement prendre les différences en pourcentage? Mon objectif est de dire que l'utilisation des bibliothèques au cours de ces jours augmente ou diminue; Je ne suis tout simplement pas sûr de la ou des techniques à utiliser pour le montrer.

induvidyul
la source

Réponses:

8

L'ANOVA à effets fixes (ou son équivalent de régression linéaire) fournit une puissante famille de méthodes pour analyser ces données. Pour illustrer, voici un ensemble de données cohérent avec les tracés de HC moyen par soirée (un tracé par couleur):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA de countcontre dayet colorproduit ce tableau:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

La modelvaleur de p de 0,0000 montre que l'ajustement est très significatif. La dayvaleur de p de 0,0000 est également très significative: vous pouvez détecter les changements quotidiens. Cependant, la colorvaleur de p (semestre) de 0,2001 ne doit pas être considérée comme significative: vous ne pouvez pas détecter une différence systématique entre les trois semestres, même après avoir contrôlé la variation au jour le jour.

Le test HSD («différence significative honnête») de Tukey identifie les changements significatifs suivants (entre autres) dans les moyennes quotidiennes (indépendamment du semestre) au niveau 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Cela confirme ce que l'œil peut voir dans les graphiques.

Parce que les graphiques sautent un peu, il n'y a aucun moyen de détecter les corrélations au jour le jour (corrélation série), qui est toute l'analyse des séries chronologiques. En d'autres termes, ne vous embêtez pas avec les techniques de séries chronologiques: il n'y a pas assez de données ici pour qu'elles fournissent un meilleur aperçu.

Il faut toujours se demander dans quelle mesure croire les résultats de toute analyse statistique. Divers diagnostics d'hétéroscédasticité (tels que le test de Breusch-Pagan ) ne montrent rien de fâcheux. Les résidus ne semblent pas très normaux - ils se regroupent en certains groupes - donc toutes les valeurs p doivent être prises avec un grain de sel. Néanmoins, ils semblent fournir des conseils raisonnables et aider à quantifier le sens des données que nous pouvons obtenir en regardant les graphiques.

Vous pouvez effectuer une analyse parallèle sur les minima quotidiens ou sur les maxima quotidiens. Assurez-vous de commencer avec un graphique similaire comme guide et de vérifier la sortie statistique.

whuber
la source
+1, pour la démonstration de techniques simples mais puissantes. Je suis le plus curieux mais comment avez-vous réussi à extraire les valeurs du graphique? Un logiciel, ou une punition pour un étudiant qui se comporte mal? :)
mpiktas
1
@mp J'ai numérisé des points en haut d'une capture d'écran du graphique, extrait leurs coordonnées avec un logiciel SIG, transformé les coordonnées avec une feuille de calcul, puis importé dans un package de statistiques. Cela ne prend que quelques minutes. Cette méthode peut être utile lorsque les seules données dont vous disposez se présentent sous la forme d'un graphique ou d'une carte.
whuber
@whuber C'est cool! Je n'étais pas au courant de ça.
suncoolsu
@whuber Je me demande quel est l'effet d'avoir 3 séries de 12 lectures autocorrélées contre 36 observations indépendantes. Je pense que nous n'avons vraiment pas 35 degrés de liberté pour morceler. Les probabilités auxquelles vous réfléchissez sont fondées sur le rapport entre une variable chi carré non centrale et une variable chi carré centrale. Y a-t-il quelque chose qui me manque ici? Beau travail pour extraire les chiffres de l'intrigue. Y a-t-il un programme particulier auquel vous pouvez vous référer afin de nous aider à cet égard.
IrishStat
1
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0
0

Sarah, prenez vos 36 nombres (12 valeurs par cycle; 3 cycles) et construisez un modèle de régression avec 11 indicateurs reflétant l'effet possible de la semaine du semestre, puis identifiez toutes les séries d'intervention nécessaires (impulsions, changements de niveau) nécessaires pour rendre le la moyenne des résidus doit être de 0,0 partout ou du moins ne pas être statistiquement significativement différente de 0,0. Par exemple, si vous identifiez un changement de niveau à la période 13, cela pourrait suggérer une différence statistiquement significative entre la moyenne du premier semestre, c'est-à-dire les 12 premières valeurs) et la moyenne des deux derniers semestres (24 dernières valeurs). Vous pourriez être en mesure de tirer des conclusions ou de tester l'hypothèse d'une semaine sans effet semestre. Un bon ensemble de séries chronologiques pourrait vous être utile à cet égard. À défaut, vous devrez peut-être trouver quelqu'un pour vous aider dans ce domaine analytique.

IrishStat
la source
1
Cela ressemble à une description de l'ANOVA bidirectionnelle (jours par cycles) suivie par des tests prévus de 11 paires de jours. Un vieux logiciel de statistiques sera probablement plus flexible et plus puissant à utiliser qu'un logiciel de séries chronologiques spécialisé; ce sera certainement plus facile. BTW, les index sont des jours (dans la période d'examen), pas une semaine du semestre.
whuber
Puis-je également utiliser l'ANOVA pour comparer les maximums et les minimums par jour? Ou cela ne s'applique-t-il qu'aux moyens?
induvidyul
@Sarah Il pourrait s'appliquer aux minima et maxima. Cependant, ces statistiques ont tendance à être beaucoup plus variables que les moyennes, il est donc moins probable que vous puissiez en détecter les changements dans le temps ou entre les semestres. Votre graphique montre clairement que les moyens diffèrent considérablement. Si vous le pouvez, effectuez l'ANOVA à trois en intégrant l'heure du jour et en utilisant les comptages horaires d'origine plutôt que leurs moyens quotidiens.
whuber
@whuber: On m'a dit que l'enchaînement des données horaires n'est pas utilisable, car elles n'ont été enregistrées que de 12h à 6h. Voir ma question précédente Écarts de données réguliers dans une série chronologique .
induvidyul
@Sarah, je parle de quelque chose de différent: modéliser la dépendance en fonction de trois facteurs: période (3 d'entre eux), jour dans la période (12 d'entre eux) et heure de la journée (6 d'entre eux). Vous pourriez même tenir compte des corrélations entre les heures, mais cela pourrait ne pas être nécessaire pour vos besoins. Quoi qu'il en soit, je ne préconise pas de considérer chaque période comme une série interrompue de 12 * 24 comptes: il y a trop de données manquantes.
whuber