Il y a un assez vieux billet sur le blog de William Briggs qui examine les pièges du lissage des données et de leur transfert à l'analyse. L'argument clé est à savoir:
Si, dans un moment de folie, vous lissez des données de séries chronologiques et que vous les utilisez comme entrée pour d'autres analyses, vous augmentez considérablement la probabilité de vous tromper! En effet, le lissage induit des signaux parasites, des signaux qui semblent réels aux autres méthodes analytiques. Peu importe ce que vous serez trop certain de vos résultats finaux!
Cependant, j'ai du mal à trouver des discussions approfondies sur le moment de lisser et de ne pas le faire.
Est-il seulement mal vu de lisser lorsque vous utilisez ces données lissées comme entrée pour une autre analyse ou existe-t-il d'autres situations où le lissage n'est pas conseillé? Inversement, y a-t-il des situations où le lissage est conseillé?
la source
Réponses:
Le lissage exponentiel est une technique classique utilisée dans la prévision de séries chronologiques non causales. Tant que vous ne l'utilisez que pour des prévisions simples et que vous n'utilisez pas d' ajustements lissés dans l'échantillon comme entrée dans un autre algorithme d'exploration de données ou statistique, la critique de Briggs ne s'applique pas. (En conséquence, je suis sceptique quant à son utilisation "pour produire des données lissées pour la présentation", comme le dit Wikipédia - cela pourrait bien être trompeur, en masquant la variabilité lissée.)
Voici une introduction au lissage exponentiel.
Et voici un article de synthèse (vieux de 10 ans, mais toujours pertinent).
EDIT: il semble y avoir un doute sur la validité de la critique de Briggs, peut-être quelque peu influencée par son emballage . Je suis entièrement d'accord que le ton de Briggs peut être abrasif. Cependant, j'aimerais illustrer pourquoi je pense qu'il a raison.
Ci-dessous, je simule 10 000 paires de séries chronologiques, de 100 observations chacune. Toutes les séries sont du bruit blanc, sans aucune corrélation. Ainsi, l'exécution d'un test de corrélation standard devrait produire des valeurs de p uniformément réparties sur [0,1]. Comme c'est le cas (histogramme à gauche ci-dessous).
Cependant, supposons que nous lissions d'abord chaque série et appliquons le test de corrélation aux données lissées . Quelque chose de surprenant apparaît: puisque nous avons supprimé beaucoup de variabilité des données, nous obtenons des valeurs de p qui sont beaucoup trop petites . Notre test de corrélation est fortement biaisé. Nous serons donc trop certains de toute association entre la série originale, c'est ce que Briggs dit.
La question dépend vraiment de savoir si nous utilisons les données lissées pour les prévisions, auquel cas le lissage est valide, ou si nous les incluons en tant qu'entrée dans un algorithme analytique, auquel cas la suppression de la variabilité simulera une plus grande certitude dans nos données que ce qui est justifié. Cette certitude injustifiée dans les données d'entrée se poursuit jusqu'aux résultats finaux et doit être prise en compte, sinon toutes les inférences seront trop certaines. (Et bien sûr, nous obtiendrons également des intervalles de prédiction trop petits si nous utilisons un modèle basé sur une "certitude gonflée" pour la prévision.)
la source
Prétendre que le lissage est inapproprié pour une analyse de modélisation la condamne à avoir une erreur quadratique moyenne plus élevée qu'elle ne le ferait autrement. L'erreur quadratique moyenne ou MSE peut être décomposée en trois termes, un carré d'une valeur appelée `` biais '', une variance et une erreur irréductible. (Ceci est illustré dans les citations ci-dessous.) Les modèles excessivement lissés ont un biais élevé, même s'ils ont une faible variance, et des modèles trop approximatifs ont des variances élevées et un faible biais.
Il n'y a rien de philosophique à cela. Il s'agit d'une caractérisation mathématique. Cela ne dépend pas du caractère du bruit ou du caractère du système.
Voir:
http://scott.fortmann-roe.com/docs/BiasVariance.html
https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf
http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Ceci a la dérivation de la décomposition.)
http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei fait de même d'une manière différente, et apporte ce qui se passe quand on essaie de prédire.)
Les statistiques classiques insistaient presque toujours sur des estimations impartiales. En 1955, le statisticien Charles Stein de Stanford a montré qu'il y avait des combinaisons d'estimateurs non biaisés qui avaient un MSE inférieur pour des cas spéciaux importants, notamment ce que l'on a appelé les ESTIMATEURS JAMES-STEIN. Bradley Efron a écrit un texte très accessible sur cette révolution dans Insight: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
la source