J'ai deux séries de données qui tracent l'âge médian au décès au fil du temps. Les deux séries montrent une augmentation de l'âge au décès au fil du temps, mais beaucoup plus basse que l'autre. Je veux déterminer si l'augmentation de l'âge au décès de l'échantillon inférieur est significativement différente de celle de l'échantillon supérieur.
Voici les données , classées par année (de 1972 à 2009 inclus), arrondies à la troisième décimale:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Les deux séries ne sont pas stationnaires - comment comparer les deux s'il vous plaît? J'utilise STATA. Tout conseil serait grandement apprécié.
time-series
correlation
stata
Matt Hurley
la source
la source
Réponses:
Il s'agit d'une situation simple; gardons-le ainsi. La clé est de se concentrer sur ce qui compte:
Obtention d'une description utile des données.
Évaluer les écarts individuels par rapport à cette description.
Évaluer le rôle et l'influence possibles du hasard dans l'interprétation.
Maintenir l'intégrité intellectuelle et la transparence.
Il y a encore beaucoup de choix et de nombreuses formes d'analyse seront valides et efficaces. Illustrons ici une approche qui peut être recommandée pour son adhésion à ces principes clés.
Pour maintenir l'intégrité, divisons les données en deux: les observations de 1972 à 1990 et celles de 1991 à 2009 (19 ans chacune). Nous ajusterons les modèles à la première moitié et verrons ensuite dans quelle mesure les ajustements fonctionnent dans la projection de la seconde moitié. Cela a l'avantage supplémentaire de détecter des changements importants qui peuvent s'être produits au cours du second semestre.
Pour obtenir une description utile, nous devons (a) trouver un moyen de mesurer les changements et (b) adapter le modèle le plus simple possible approprié à ces changements, l'évaluer et adapter itérativement des modèles plus complexes pour tenir compte des écarts par rapport aux modèles simples.
(a) Vous avez plusieurs choix: vous pouvez consulter les données brutes; vous pouvez regarder leurs différences annuelles; vous pouvez faire de même avec les logarithmes (pour évaluer les changements relatifs); vous pouvez évaluer les années de vie perdues ou l'espérance de vie relative (EFR); ou bien d'autres choses. Après réflexion, j'ai décidé de considérer le RLE, défini comme le rapport de l'espérance de vie dans la cohorte B par rapport à celui de la (référence) cohorte A. Heureusement, comme les graphiques le montrent, l'espérance de vie dans la cohorte A augmente régulièrement dans une écurie mode au fil du temps, de sorte que la plupart des variations d’apparence aléatoire dans le RLE seront dues à des changements dans la cohorte B.
(b) Le modèle le plus simple possible pour commencer est une tendance linéaire. Voyons comment cela fonctionne.
Les points bleu foncé dans ce graphique sont les données retenues pour l'ajustement; les points d'or clair sont les données suivantes, non utilisées pour l'ajustement. La ligne noire est l'ajustement, avec une pente de .009 / an. Les lignes en pointillés sont des intervalles de prédiction pour les valeurs futures individuelles.
Dans l'ensemble, l'ajustement semble bon: l' examen des résidus (voir ci-dessous) ne montre aucun changement important dans leur taille au fil du temps (pendant la période de données 1972-1990). (Il semblerait qu'elles aient eu tendance à être plus importantes au début, lorsque l'espérance de vie était faible. Nous pourrions gérer cette complication en sacrifiant une certaine simplicité, mais les avantages pour estimer la tendance ne devraient pas être grands.) de corrélation sérielle (manifestée par certains cycles de résidus positifs et négatifs), mais il est clair que cela n'a pas d'importance. Il n'y a pas de valeurs aberrantes, ce qui serait indiqué par des points au-delà des bandes de prédiction.
La seule surprise est qu'en 2001, les valeurs sont soudainement tombées dans la bande de prédiction inférieure et y sont restées: quelque chose d'assez soudain et de grand s'est produit et a persisté.
Voici les résidus, qui sont les écarts par rapport à la description mentionnée précédemment.
Parce que nous voulons comparer les résidus à 0, les lignes verticales sont tracées au niveau zéro comme aide visuelle. Encore une fois, les points bleus montrent les données utilisées pour l'ajustement. Les or clair sont les résidus des données se rapprochant de la limite de prédiction inférieure, après 2000.
À partir de ce chiffre, nous pouvons estimer que l'effet du changement 2000-2001 était d'environ -0,07 . Cela reflète une baisse soudaine de 0,07 (7%) d'une durée de vie complète au sein de la cohorte B. Après cette baisse, le schéma horizontal des résidus montre que la tendance précédente s'est poursuivie, mais au nouveau niveau inférieur. Cette partie de l'analyse doit être considérée comme exploratoire : elle n'a pas été spécifiquement planifiée, mais est due à une comparaison surprenante entre les données retenues (1991-2009) et l'adéquation avec le reste des données.
Une autre chose - même en utilisant seulement les 19 premières années de données, l'erreur standard de la pente est petite: elle n'est que de 0,0009, juste un dixième de la valeur estimée de .009. La statistique t correspondante de 10, avec 17 degrés de liberté, est extrêmement significative (la valeur p est inférieure à ); c'est-à-dire que nous pouvons être certains que la tendance n'est pas due au hasard. Ceci est une partie de notre évaluation du rôle du hasard dans l'analyse. Les autres parties sont les examens des résidus.10−7
Il ne semble pas y avoir de raison d'adapter un modèle plus compliqué à ces données, du moins pas dans le but d'estimer s'il existe une véritable tendance dans le RLE au fil du temps: il y en a une. Nous pourrions aller plus loin et diviser les données en valeurs antérieures à 2001 et postérieures à 2000 afin d'affiner nos estimationsdes tendances, mais il ne serait pas tout à fait honnête de procéder à des tests d'hypothèse. Les valeurs de p seraient artificiellement faibles, car les tests de fractionnement n'étaient pas planifiés à l'avance. Mais comme exercice exploratoire, une telle estimation est très bien. Apprenez tout ce que vous pouvez de vos données! Faites juste attention à ne pas vous tromper avec un sur-ajustement (ce qui est presque sûr de se produire si vous utilisez plus d'une demi-douzaine de paramètres ou si vous utilisez des techniques d'ajustement automatisées), ou l'espionnage des données: restez attentif à la différence entre la confirmation formelle et informelle (mais précieux) exploration de données.
Résumons:
En sélectionnant une mesure appropriée de l'espérance de vie (RLE), en conservant la moitié des données, en ajustant un modèle simple et en testant ce modèle par rapport aux données restantes, nous avons établi avec une grande confiance que : il y avait une tendance cohérente; il a été proche du linéaire sur une longue période de temps; et il y a eu une baisse soudaine et persistante du RLE en 2001.
Notre modèle est étonnamment parcimonieux : il ne nécessite que deux nombres (une pente et une intersection) pour décrire avec précision les premières données. Il en faut un tiers (date de la rupture, 2001) pour décrire un écart évident mais inattendu de cette description. Il n'y a pas de valeurs aberrantes par rapport à cette description à trois paramètres. Le modèle ne va pas être sensiblement amélioré en caractérisant la corrélation sérielle (l'objectif des techniques de séries chronologiques en général), en essayant de décrire les petits écarts individuels (résidus) présentés ou en introduisant des ajustements plus compliqués (comme l'ajout d'une composante temporelle quadratique). ou la modélisation des changements dans la taille des résidus au fil du temps).
La tendance est de 0,009 RLE par an . Cela signifie qu'avec chaque année qui passe, l'espérance de vie au sein de la cohorte B s'est enrichie de 0,009 (près de 1%) d'une durée de vie normale attendue. Au cours de l'étude (37 ans), cela équivaudrait à 37 * 0,009 = 0,34 = un tiers d'une amélioration à vie. Le recul de 2001 a réduit ce gain à environ 0,28 d'une vie entière de 1972 à 2009 (même si pendant cette période l'espérance de vie globale a augmenté de 10%).
Bien que ce modèle puisse être amélioré, il aurait probablement besoin de plus de paramètres et il est peu probable que l'amélioration soit grande (comme l'atteste le comportement quasi aléatoire des résidus). Dans l'ensemble, nous devrions donc nous contenter d'arriver à une description aussi compacte, utile et simple des données pour si peu de travail analytique.
la source
Je pense que la réponse de Whuber est simple et simple à comprendre pour une personne non-chronologique comme moi. Je base le mien sur le sien. Ma réponse est dans R pas Stata car je ne connais pas bien les stata.
Je me demande si la question nous demande réellement de voir si l'augmentation absolue d'une année sur l'autre est la même dans les deux cohortes (plutôt que relative). Je pense que c'est important et l'illustrons comme suit. Prenons l'exemple de jouet suivant:
Ici, nous avons 2 cohortes, dont chacune a une augmentation régulière de 1 an par an de la survie médiane. Ainsi, chaque année, les deux cohortes dans cet exemple augmentent du même montant absolu, mais le RLE donne ce qui suit:
Ce qui a évidemment une tendance à la hausse, et la valeur p pour tester l'hypothèse que le gradient de la ligne 0 est de 2,2e-16. La ligne droite ajustée (ignorons que cette ligne semble courbe) a un gradient de 0,008. Ainsi, même si les deux cohortes ont la même augmentation absolue en un an, le RLE a une pente ascendante.
Donc, si vous utilisez RLE lorsque vous souhaitez rechercher des augmentations absolues, vous rejetterez de manière inappropriée l'hypothèse nulle.
En utilisant les données fournies, calculer la différence absolue entre les cohortes que nous obtenons:
Ce qui implique que la différence absolue entre la survie médiane diminue progressivement (c'est-à-dire que la cohorte avec la mauvaise survie se rapproche progressivement de la cohorte avec la meilleure survie).
la source
Ces deux séries chronologiques semblent avoir une tendance déterministe. C'est une relation que vous souhaitez évidemment supprimer avant une analyse plus approfondie. Personnellement, je procéderais comme suit:
1) Je ferais une régression pour chaque série chronologique par rapport à une constante et à un temps, et je calculerais le résidu pour chaque série chronologique.
2) En prenant les deux séries de résidus, calculées à l'étape ci-dessus, je procéderais à une régression linéaire simple (sans terme constant) et examinerais la statistique t, la valeur p, et déciderais s'il y avait ou non une dépendance supplémentaire entre les deux séries.
Cette analyse suppose le même ensemble d'hypothèses que vous faites dans une régression linéaire.
la source
Dans certains cas, on connaît un modèle théorique qui peut être utilisé pour tester votre hypothèse. Dans mon monde, cette "connaissance" est souvent absente et il faut recourir à des techniques statistiques qui peuvent être classées comme une analyse exploratoire des données qui résume ce qui suit. souvent trompeuse dans la mesure où des faux positifs peuvent être facilement décelés. L'une des premières analyses de cela se trouve dans Yule, GU, 1926, "Pourquoi obtenons-nous parfois des corrélations absurdes entre les séries chronologiques? Une étude sur l'échantillonnage et la nature des séries chronologiques", Journal of the Royal Statistical Society 89, 1– 64. Alternativement lorsqu'une ou plusieurs des séries elles-mêmes ont été effectuées par une activité exceptionnelle (voir whuber " le recul soudain de la cohorte B en 2001) qui peut effectivement cacher des relations significatives. Désormais, la détection d'une relation entre les séries chronologiques s'étend à l'examen non seulement des relations contemporaines, mais aussi des relations retardées possibles. En continuant, si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Désormais, la détection d'une relation entre les séries chronologiques s'étend à l'examen non seulement des relations contemporaines, mais aussi des relations retardées possibles. En continuant, si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Désormais, la détection d'une relation entre les séries chronologiques s'étend à l'examen non seulement des relations contemporaines, mais aussi des relations retardées possibles. En continuant, si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant:
Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA
ce qui suggère une relation contemporaine de 1,2936 et un effet décalé de 1,6523. Notez qu'il y a eu un certain nombre d'années où une activité inhabituelle a été identifiée, à savoir. (1975,2001,1983,1999,1976,1985,1984,1991 et 1989). Les ajustements des années nous permettent d'apprécier plus clairement la relation entre ces deux séries.
En termes de prévision
MODÈLE EXPRIMÉ COMME UN XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ constante
LA CONSTANTE CÔTÉ DROIT EST: -194.45
COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340
COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835
I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963
Quatre coefficients suffisent pour faire une prévision et bien sûr une prédiction pour la cohorte A à la période 39 (78.228616) obtenue à partir du modèle ARIMA pour la cohorte.
la source
Cette réponse contient quelques graphiques
la source