Ajustements aux prévisions (de régression linéaire)

11

Divulgation complète: je ne suis pas statisticien et je ne prétends pas l'être. Je suis un administrateur informatique modeste. Veuillez jouer doucement avec moi. :)

Je suis responsable de la collecte et de la prévision de l'utilisation du stockage sur disque pour notre entreprise. Nous collectons mensuellement notre utilisation du stockage et utilisons une simple régression linéaire glissante sur douze mois pour les prévisions (en d'autres termes, seuls les douze mois de données précédents sont pris en compte lors d'une projection). Nous utilisons ces informations pour la répartition et la planification des dépenses en capital, par exemple "Sur la base de ce modèle, nous devrons acheter x montant si le stockage dans y mois pour répondre à nos besoins." Tout cela fonctionne assez bien pour répondre à nos besoins.

Périodiquement, nous avons d'importants mouvements ponctuels dans nos chiffres, ce qui annule les prévisions. Par exemple, quelqu'un trouve 500 Go d'anciennes sauvegardes qui ne sont plus nécessaires et les supprime. Bon pour eux pour récupérer l'espace! Cependant, nos prévisions sont désormais biaisées par cette forte baisse en un mois. Nous avons toujours juste accepté qu'une baisse comme celle-ci prenne 9 à 10 mois pour sortir des modèles, mais cela peut être très long si nous entrons dans la saison de planification des dépenses en capital.

Je me demande s'il existe un moyen de gérer ces variations ponctuelles de sorte que les valeurs prévues ne soient pas autant impactées (par exemple, la pente de la ligne ne change pas de manière aussi spectaculaire), mais elles sont prises en compte (par exemple un changement unique de la valeur y associée à un moment particulier). Nos premières tentatives pour y remédier ont donné de mauvais résultats (par exemple, des courbes de croissance exponentielle). Nous effectuons tout notre traitement dans SQL Server si cela est important.

brun
la source
Excellente question. Juste une petite clarification. Souhaitez-vous prévoir ces événements ou, une fois qu'ils se produisent, ajuster les prévisions du modèle en fonction de vos nouvelles informations?
Matthew Drury
1
À droite, il n'est pas clair si vous essayez de "lisser" ces événements rares comme l'exemple de 500 Go afin qu'ils n'affectent pas autant vos résultats ou si vous essayez d'en rendre compte davantage car vous voulez capturer les ajustements de chienne à stocker sont faits? La différence est subtile: dans le premier, vous voulez presque ignorer le nouveau point (événement rare), mais dans le second, vous voulez souligner le point (événement rare). Si c'est le premier, la régression robuste est probablement une méthode simple pour vous puisque vous utilisez déjà la régression linéaire. Voir ici: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent
De plus, utilisez-vous un logiciel pour faire vos prédictions et utilisez-vous des intervalles de confiance?
StatsStudent
Je peux ajouter un ajustement après coup. En fait, la plupart du temps, je ne connais pas d'écart majeur avant de regarder les chiffres du mois prochain et de voir un grand changement. Je n'utilise aucun logiciel pour faire des prédictions; juste une procédure stockée dans SQL Server pour calculer mes valeurs de régression.
sbrown
Réactions rapides: (a) J'aurais probablement d'abord adapté un AR très basique (1) aux changements d'utilisation du disque de journal? Vous estimez essentiellement un taux de croissance à long terme de l'utilisation du disque et la vitesse à laquelle le taux de croissance de l'utilisation du disque revient à cette tendance après un choc. (aa) Vous pouvez également utiliser d'autres données et ajuster un VAR (autorégression vectorielle). (b) jeter toutes les données> 12 mois peut ne pas être la chose optimale à faire. (c) l'OLS régulier minimise la somme des carrés. Vous pouvez utiliser une fonction de pénalité différente (par exemple, Huber) qui est plus robuste aux valeurs aberrantes.
Matthew Gunn

Réponses:

0

Voici une suggestion simple. Je ne sais pas si cela fonctionne pour vous et j'aurais peut-être dû le faire en tant que commentaire, mais il semble que vous ayez besoin de plus de privilèges pour faire un commentaire que pour répondre.

Si je comprends bien, les chiffres que vous utilisez sont les quantités de stockage que vous utilisez chaque mois. Probablement, ces chiffres augmentent habituellement, et vous voulez prédire quel sera le montant à un moment donné dans le futur si les tendances se poursuivent. Une fois que vous vous rendez compte que votre grand changement s'est produit (par exemple, que 500 Go ont été libérés), pouvez-vous revenir en arrière et modifier les chiffres des mois précédents (par exemple, supprimer 500 Go de chacun d'eux)? Fondamentalement, ce que vous feriez serait d'ajuster les chiffres des mois précédents à ce qu'ils auraient dû être, si vous saviez alors ce que vous savez maintenant.

Bien sûr, je ne le recommande pas, sauf si vous vous assurez de pouvoir revenir aux anciens chiffres. Mais les prévisions que vous voulez faire semblent même pouvoir être faites dans Excel, auquel cas vous pouvez avoir autant de versions que vous le souhaitez.

MikeG
la source