Cela dépend en fait du but de votre recherche. À mon avis, il pourrait y en avoir plusieurs:
- Vous voulez comprendre quels sont les facteurs typiques qui causent des cas et des décès et qui ne sont pas affectés par les périodes épidémiques et les facteurs qui provoquent les épidémies (vous êtes donc intéressé par les probabilités majeures typiques) - dans ce cas, vous devez évidemment supprimer l'épidémie périodes à partir des données, car elles visent à rechercher les valeurs aberrantes par rapport à ce que vous souhaitez conclure
- Vous voudrez peut-être inclure des changements épidémiques dans vos modèles (les modèles de changement de régime, par exemple, tous les bons liens et les suggestions de modèles de la communauté sont les bienvenus ici), car vous voulez connaître la probabilité de survenue de la période épidémique (et aussi combien de temps cela durera), pour tester la stabilité et prévoir - dans ce cas, vous n'excluez pas les périodes épidémiques, mais recherchez des modèles plus compliqués plutôt que d'opter pour l'outil marteau-économétrique ou quelque chose de similaireO L S
- Votre objectif principal est de détecter les périodes épidémiques et de les surveiller en temps réel - c'est un domaine spécial en économétrie avec lequel un certain nombre de mes collègues travaillent à l'Université de Vilnius (certainement, vous aimeriez avoir beaucoup d'observations épidémiques pour traiter )
Donc, si votre objectif principal est quelque chose comme 2, l'effacement des données entraînera des conclusions erronées sur les prévisions futures, c'est-à-dire des performances de prévision inexactes. Il est également vrai que le 2e cas ne fournit pas nécessairement de meilleures prévisions, mais vous pourriez au moins tirer des conclusions sur les probabilités des périodes épidémiques et leur durée. Ceci EST d'une importance vitale pour les mathématiciens actuariels, alors peut-être êtes-vous le seul?
Personnellement, je n'appellerais pas cela "nettoyage des données". Je pense plus au nettoyage des données dans le sens de la modification des données - le nettoyage des incohérences dans l'ensemble de données (par exemple, un enregistrement a signalé l'âge de 1000 ans, ou une personne âgée de 4 ans est monoparentale, etc.).
La présence d'un effet réel dans vos données ne le rend pas "désordonné" (au contraire, la présence d'effets réels le rendrait riche) - même si cela peut rendre votre tâche mathématique plus impliquée. Je suggérerais que les données soient "nettoyées" de cette manière si c'est le seul moyen possible d'obtenir une prédiction. S'il existe un moyen réalisable qui ne jette pas d'informations, utilisez-le.
Il semble que vous puissiez bénéficier d'une sorte d'analyse cyclique, étant donné que vous dites que cet effet se produit périodiquement (un peu comme un «cycle économique»).
De mon point de vue, si vous envisagez de prévoir quelque chose, la suppression d'un effet réel de cette source ne peut qu'aggraver vos prévisions. En effet, vous avez effectivement "jeté" les informations que vous souhaitez prévoir!
L'autre point est qu'il peut être difficile de déterminer quelle proportion d'un ensemble de décès est due à l'épidémie et combien a été causée par les fluctuations ordinaires.
En terminologie statistique, l'épidémie sonne comme ça, de votre point de vue, c'est une "nuisance" pour ce que vous voulez réellement analyser. Vous n'y êtes donc pas particulièrement intéressé, mais vous devez en tenir compte dans votre analyse. Une façon «rapide et sale» de le faire dans un contexte de régression consiste à inclure un indicateur des années / périodes épidémiques comme variable régressive. Cela vous donnera une estimation moyenne de l'effet des épidémies (et suppose implicitement que l'affect est le même pour chaque épidémie). Cependant, cette approche ne fonctionne que pour décrire l'effet, car en prévision, votre variable de régression est inconnue (vous ne savez pas quelles périodes futures seront épidémiques).
Une autre façon de rendre compte de l'épidémie est d'utiliser un modèle de mélange à deux composantes: un modèle pour la partie épidémique et un modèle pour la partie "ordinaire". Le modèle procède ensuite en deux étapes: 1) classer une période comme épidémique ou normale, puis 2) appliquer le modèle auquel elle a été classée.
la source
Pour vous donner une réponse générale à votre question, permettez-moi de paraphraser l'un de mes anciens directeurs généraux: les opportunités de recherche se trouvent dans les valeurs aberrantes du modèle que vous adaptez.
La situation est similaire à l'expérience réalisée par mon Robert Millikan pour déterminer la charge d'un électron. Des décennies après avoir remporté le prix Nobel pour son expérience, ses notes ont été examinées et il a été constaté qu'il a jeté un grand nombre de points de données parce qu'ils n'étaient pas d'accord avec les résultats qu'il recherchait. Est-ce une mauvaise science?
Si vous trouvez quelques valeurs aberrantes, elles sont peut-être dues à des "aberrations statistiques". Cependant, si vous trouvez plus de quelques valeurs aberrantes, vous devez explorer vos données de plus près. Si vous ne pouvez pas attribuer une cause aux aberrations, alors vous ne comprenez pas le processus et un modèle statistique ne résoudra pas votre problème. Le but d'un modèle est de résumer un processus, le modèle ne résumera pas comme par magie un processus que l'expérimentateur ne comprend pas.
la source
Le rôle du "nettoyage des données" est d'identifier quand "nos lois (modèle) ne fonctionnent pas". L'ajustement des valeurs aberrantes ou des points de données anormaux nous permet d'obtenir des «estimations robustes» des paramètres du modèle actuel que nous considérons. Ces «valeurs aberrantes», si elles ne sont pas traitées, permettent une distorsion indésirable dans les paramètres du modèle, car l'estimation est «motivée pour expliquer ces points de données» qui «ne se comportent pas selon notre modèle hypothétique». En d'autres termes, il y a beaucoup de retour sur investissement en termes de somme des carrés expliquée en se concentrant sur les "méchants". Les points identifiés empiriquement qui nécessitent un nettoyage doivent être soigneusement examinés afin de potentiellement développer / suggérer des facteurs de cause qui ne sont pas dans le modèle actuel.
Comment évaluer l'effet d'une intervention dans un État par rapport à un autre en utilisant le taux annuel de létalité?
Faire de la science, c'est rechercher des schémas répétés.
Détecter des anomalies, c'est identifier des valeurs qui ne suivent pas des schémas répétés. Sinon, comment sauriez-vous qu'un point a violé ce modèle? En fait, le processus de croissance, de compréhension, de recherche et d'examen des valeurs aberrantes doit être itératif. Ce n'est pas une nouvelle pensée.
Sir Frances Bacon, écrivant dans Novum Organum il y a environ 400 ans, a déclaré: «Les erreurs de la nature, des sports et des monstres corrigent la compréhension des choses ordinaires et révèlent des formes générales. Car quiconque connaît les voies de la Nature remarquera plus facilement ses déviations; et, d'autre part, quiconque connaît ses écarts décrira plus précisément ses voies. »
Nous changeons nos règles en observant quand les règles actuelles échouent.
Si en effet les valeurs aberrantes identifiées sont toutes des impulsions et ont des effets similaires (taille), nous suggérons ce qui suit (cité d'une autre affiche)
"Une façon" rapide et sale "de le faire dans un cadre de régression consiste à inclure un indicateur des années / périodes épidémiques comme variable régressrice. Cela vous donnera une estimation moyenne de l'effet des épidémies (et suppose implicitement que l'affect est la même chose pour chaque épidémie). Cependant, cette approche ne fonctionne que pour décrire l'effet, car dans la prévision, votre variable de régression est inconnue (vous ne savez pas quelles périodes futures seront épidémiques). "
Ceci, bien sûr, nécessite que les anomalies individuelles (années d'impulsion) aient des effets similaires. S'ils diffèrent, une variable de portemanteau décrite ci-dessus serait incorrecte.
la source
L'une des méthodes les plus couramment utilisées pour trouver des épidémies dans les données rétrospectives est en fait de rechercher des valeurs aberrantes - de nombreux chercheurs sur la grippe, par exemple, se concentrent principalement sur les résidus de leurs modèles ajustés, plutôt que sur les modèles eux-mêmes, pour voir les endroits où le "jour" in, day out "les prédictions du modèle échouent - l'une des façons dont le modèle peut échouer est l'apparition d'une épidémie.
Il est cependant impératif de faire la distinction entre la chasse aux valeurs aberrantes dans vos résultats - probablement pas la meilleure idée jamais - et ce que la plupart des gens appellent le "nettoyage des données". Ici, vous recherchez des valeurs aberrantes non pas parce qu'elles représentent un problème statistique, mais parce qu'elles posent des problèmes de qualité des données.
Par exemple, dans un ensemble de données que j'ai, il y a une variable pour le début de la maladie. Pour un sujet, cette date est en novembre 1929. Est-ce que je pense que c'est exact? Non. Cela indique un problème de qualité des données qui doit être résolu - dans ce cas, corriger la date en fonction d'autres informations sur le sujet. Ce type de nettoyage des données améliorera activement la qualité de vos résultats statistiques.
la source