Prophet de Facebook est-il différent d'une régression linéaire?

11

Donc, ce que j'ai lu sur le prophète de Facebook, c'est qu'il décompose essentiellement la série chronologique en tendance et en saisonnalité. Par exemple, un modèle additif s'écrirait comme suit:

y(t)=g(t)+s(t)+h(t)+et

avec

  • t le temps
  • g(t) la tendance (qu'elle soit linéaire ou logistique)
  • s(t) la saisonnalité (quotidienne, hebdomadaire, annuelle ...)
  • h(t) les vacances
  • et l'erreur

Mes questions sont les suivantes: ne pourrait-on pas le faire avec une simple régression linéaire? Quelles seraient les différences en terme de résultats si nous les comparions, et pourquoi?

K.Hua
la source
Oui, vous pouvez le faire avec un modèle linéaire. Je ne connais pas Prophète mais si c'est tout ce qu'il fait alors il n'y a pas de différence.
user2974951

Réponses:

13

Le problème ici est d'arriver à une équation qui analyse les données observées en signal et bruit. Si vos données sont simples, votre approche de régression pourrait fonctionner. Il faut prendre soin de comprendre certaines des hypothèses qu'ils font avec Prophète. Vous devriez mieux comprendre ce que fait Prophet, car il ne convient pas seulement à un modèle simple mais tente d'ajouter une certaine structure.

Par exemple, certaines réflexions que j'ai faites après avoir lu leur introduction bien écrite pourraient vous aider dans votre évaluation. Je m'excuse à l'avance si j'ai mal compris leur approche et j'aimerais être corrigé le cas échéant.

1) Leur exemple principal a deux points de rupture dans la tendance mais ils n'ont capturé que le plus évident.

2) Ils ignorent toute structure ARIMA reflétant des séries stochastiques omises ou la valeur de l'utilisation des valeurs historiques de Y pour guider la prévision.

3) Ils ignorent toute dynamique possible (effets de plomb et de retard) des séries stochastiques et déterministes suggérées par l'utilisateur. Les effets de régression causale du Prophète sont simplement contemporains.

4) Aucune tentative n'est faite pour identifier les changements de pas / niveau dans la série ou les impulsions saisonnières, par exemple un changement de l'EFFET DU LUNDI à mi-parcours en raison d'un événement externe inconnu. Prophet suppose une «croissance linéaire simple» plutôt que de la valider en examinant d'autres possibilités. Pour un exemple possible de cela, voir Prévision des commandes récurrentes pour une entreprise d'abonnement en ligne en utilisant Facebook Prophet et R

5) Les sinus et les cosinus sont un moyen opaque de gérer la saisonnalité, tandis que les effets saisonniers tels que le jour de la semaine, le jour du mois, la semaine du mois, le mois de l'année sont beaucoup plus efficace / informatif lorsqu'il s'agit d'effets anthropiques (avec les humains!).

Suggérer des fréquences de 365,25 pour les schémas annuels n'a pas de sens car nous n'effectuons pas la même action le même jour que l'année dernière, alors que l'activité mensuelle est beaucoup plus persistante, mais Prophet ne semble pas offrir les 11 indicateurs mensuels option. Les fréquences hebdomadaires de 52 n'ont pas beaucoup de sens car nous n'avons pas 52 semaines chaque année.

6) Aucune tentative n'est faite pour valider les processus d'erreur étant gaussiens, des tests significatifs de signification peuvent donc être effectués.

7) Aucun souci que la variance d'erreur du modèle soit homogène, c'est-à-dire ne changeant pas de façon déterministe à des moments particuliers, ce qui suggère des moindres carrés pondérés. Pas de souci pour trouver une transformée de puissance optimale pour traiter la variance d'erreur étant proportionnelle à la valeur attendue Quand (et pourquoi) devriez-vous prendre le log d'une distribution (de nombres)? .

8) L'utilisateur doit prédéfinir tous les effets possibles de plomb et de retard autour des événements / vacances. Par exemple, les ventes quotidiennes commencent souvent à augmenter fin novembre, reflétant un effet à long terme de Noël.

9) Aucune préoccupation quant au fait que les erreurs qui en résultent sont exemptes de structure, ce qui suggère des moyens d'améliorer le modèle via une vérification diagnostique de la suffisance.

10) Apparemment, aucun souci d'améliorer le modèle en supprimant la structure non significative.

11) Il n'est pas possible d'obtenir une famille de prévisions simulées où les limites de confiance ne sont pas nécessairement symétriques en amorçant les erreurs du modèle en tenant compte des éventuelles anomalies.

12) Laisser l'utilisateur faire des hypothèses sur les tendances (nombre de points de rupture de tendance et les points de rupture réels) permet une flexibilité indésirable / inutilisable face à une analyse à grande échelle qui, par son nom, est conçue pour les applications à grande échelle mains libres.

IrishStat
la source
D'accord, mais je dirais que ces choses sont plus proches des fonctionnalités «agréables à avoir», puis «indispensables». Certains modèles de prévisions de haute qualité peuvent en manquer. Mais, comme je l'ai dit, bons points et belle critique.
Tim
Vous avez tout à fait raison dans votre réflexion ... la complexité inhérente des "données" est la question qui nous occupe. Des données simples .. ont besoin de solutions simples .. des données complexes suggèrent que le "bien d'avoir" pourrait devenir "le besoin d'avoir". Seules vos données sont sûres! Le rasoir d'Occam me vient à l'esprit ..
IrishStat
@Tim stats.stackexchange.com/questions/417908/… thread suggère que certaines fonctionnalités qui sont "agréables à avoir" devraient en réalité être "doivent avoir" pour déjouer les hypothèses incorrectes telles que "simple tendance linéaire".
IrishStat
10

Je ne l'ai pas utilisé, mais voici le résumé de leur préimpression (c'est moi qui souligne):

La prévision est une tâche courante de science des données qui aide les organisations à planifier leurs capacités, à fixer des objectifs et à détecter les anomalies. Malgré son importance, la production de prévisions fiables et de haute qualité présente de sérieux défis - en particulier lorsqu'il existe une variété de séries chronologiques et que les analystes spécialisés dans la modélisation de séries chronologiques sont relativement rares . Pour relever ces défis, nous décrivons une approche pratique de la prévision «à grande échelle» qui combine des modèles configurables avec une analyse des performances de l'analyste dans la boucle. Nous proposons un modèle de régression modulaire avec des paramètres interprétables qui peuvent être ajustés intuitivement par des analystes connaissant le domaine des séries chronologiques. Nous décrivons des analyses de performance pour comparer et évaluer les procédures de prévision et signalons automatiquement les prévisions pour un examen et un ajustement manuels. Les outils qui aident les analystes à utiliser leur expertise de la manière la plus efficace permettent une prévision fiable et pratique des séries chronologiques commerciales.

Dans l'introduction:

Nous avons observé deux thèmes principaux dans la pratique de création de prévisions commerciales. Premièrement, les techniques de prévision entièrement automatiques peuvent être difficiles à régler et sont souvent trop rigides pour incorporer des hypothèses ou des heuristiques utiles. Deuxièmement, les analystes responsables des tâches de science des données dans une organisation ont généralement une expertise approfondie du domaine des produits ou services spécifiques qu'ils prennent en charge, mais n'ont souvent pas de formation en prévision de séries chronologiques.

Il me semble donc qu'ils ne prétendent pas avoir fait ici une avancée statistique substantielle (bien qu'il soit capable de bien plus que le simple modèle que vous décrivez). Au lieu de cela, ils affirment que leur système permet à un grand nombre de personnes sans expertise en analyse de séries chronologiques de générer des prévisions tout en appliquant leur propre expertise de domaine et des contraintes spécifiques au système.

Si vous avez déjà une expertise dans l'analyse des séries chronologiques et dans le codage de modèles complexes, cela peut ne pas vous être très utile. Mais si leurs affirmations sont vraies, cela pourrait être extrêmement utile! La science (et le commerce) progresse non seulement à cause de nouvelles idées, mais aussi à cause de nouveaux outils et de leur diffusion (voir ce court article de Freeman Dyson sur le sujet et cette réponse ).

Pour prendre un exemple à partir des statistiques elles-mêmes: Rne représentait pas une avancée statistique, mais elle a été très influente car elle a permis à beaucoup plus de gens de faire des analyses statistiques. C'est l'échafaudage sur lequel une grande compréhension statistique s'est construite. Si nous avons de la chance, Prophète peut jouer un rôle similaire.

Dyson, Freeman J. "La science est-elle principalement motivée par des idées ou des outils?" Science 338, no. 6113 (2012): 1426-1427.

mkt - Réintégrer Monica
la source
0

Il vous manque les points de changement, des splines linéaires par morceaux, qui peuvent être implémentés dans des modèles linéaires.

Vous avez raison, au moins dans le cas limite, il s'agit d'une régression régularisée linéaire (régularisation L1 et L2).

Notez qu'il existe un modèle de prophète distinct, la croissance logistique.

Vous supposez également que les facteurs saisonniers sont additifs, mais ils soutiennent également les effets saisonniers multiplicatifs, ce qui semble plus naturel au moins pour la modélisation de la croissance.

seanv507
la source
L'hypothèse de prophète de prendre les journaux face à mouches de cette discussion précieuse ... stats.stackexchange.com/questions/18844/... où les transformations de puissance sont justifiées basées sur une relation empirique entre la valeur attendue et la variance d'erreur de modèle ou spécifique présomption non linéaire basée sur la connaissance du domaine.
IrishStat
@IrishStat Merci pour ce point (j'avais oublié qu'ils enregistrent la transformation pour implémenter la saisonnalité multiplicative, ils utilisent STAN, donc je pense qu'ils auraient pu utiliser un modèle non linéaire au lieu de prendre des journaux). Pouvez-vous expliquer votre distinction entre l'hypothèse d'une saisonnalité multiplicative et la «présomption non linéaire ..»
seanv507
Si vous regardez la réponse de @ whuber stats.stackexchange.com/questions/298/… il suggère des transformations "lorsque la théorie scientifique l'indique", ce qui serait une hypothèse non linéaire possible basée sur la connaissance du domaine. Les transformations de puissance empirique sont utiles lorsque la variance des erreurs se révèle être proportionnelle à la valeur attendue, sinon il peut s'agir simplement d'un "habillage de fenêtre".
IrishStat
0

Beaucoup peut être fait avec une simple régression linéaire, mais pas tout ce que Prophète fait. Juste un exemple, vous pouvez spécifier votre propre candidat de point de changement pour une tendance, et Prophet l'utilisera comme un préalable.

Aksakal
la source