Je suis actuellement sur un projet où j'ai essentiellement besoin, comme nous tous, de comprendre comment la sortie est liée à l'entrée . La particularité ici est que les données me sont données une pièce à la fois, donc je veux mettre à jour mon analyse chaque fois que je reçois une nouvelle . Je crois que cela s'appelle un traitement "en ligne", par opposition au traitement "par lots", où vous avez toutes les données nécessaires et faites vos calculs en utilisant toutes les données en même temps.x ( y , x ) ( y , x )
J'ai donc cherché des idées et j'ai finalement conclu que le monde était divisé en trois:
La première partie est le pays de la statistique et de l'économétrie. Les gens là-bas font OLS, GLS, variables d'instrument, ARIMA, tests, différence de différences, PCA et ainsi de suite. Ce terrain est majoritairement dominé par la linéarité et ne fait qu'un traitement "batch".
La deuxième partie est l'île de l'apprentissage automatique et d'autres mots comme l'intelligence artificielle, l'apprentissage supervisé et non supervisé, les réseaux de neurones et les SVM. Les traitements "par lots" et "en ligne" sont effectués ici.
La troisième partie est un continent entier que je viens de découvrir, principalement peuplé d'ingénieurs électriciens, semble-t-il. Là, les gens ajoutent souvent le mot "filtre" à leurs outils, et ils ont inventé des trucs formidables comme l'algorithme Widrow-Hoff, les moindres carrés récursifs , le filtre Wiener , le filtre Kalman et probablement d'autres choses que je n'ai pas encore découvertes. Apparemment, ils font surtout du traitement "en ligne" car il correspond mieux à leurs besoins.
Ma question est donc la suivante: avez-vous une vision globale de tout cela? J'ai l'impression que ces trois parties du monde ne se parlent pas trop. Ai-je tort? Existe-t-il une grande théorie unifiée de la compréhension du rapport entre et ? Connaissez-vous des ressources où les bases de cette théorie pourraient être posées?X
Je ne sais pas si cette question a vraiment du sens, mais je suis un peu perdu entre toutes ces théories. J'imagine la réponse à la question "devrais-je utiliser ceci ou cela?" serait "cela dépend de ce que vous voulez faire (et de vos données)". Cependant, j'ai l'impression que ces trois mondes essaient de répondre à la même question ( ?) Et qu'il devrait donc être possible d'avoir une vue plus élevée sur tout cela et de comprendre profondément ce qui rend chaque technique particulière.
la source
Réponses:
En termes de lot par rapport à en ligne, mon expérience me dit que parfois vous combinez les deux. Ce que je veux dire, c'est que vous laissez les tâches lourdes, c'est-à-dire calculer des tâches intensives liées à la formulation de modèles, être effectuées hors ligne, puis utiliser des procédures rapides / adaptatives pour utiliser ces modèles. Nous avons constaté que les «nouvelles données» peuvent être utilisées de trois manières; 1. simplement prévoir; 2. réviser les paramètres du modèle connu et 3. réviser les paramètres et éventuellement réviser le modèle. Ces trois approches ont été utilisées pour une "analyse en direct" et, bien entendu, le temps nécessaire pour effectuer l'une de ces trois étapes dépend à la fois du logiciel utilisé et du matériel disponible.
Passons maintenant à votre autre point concernant la façon de modéliser y vs x. Je préfère utiliser une version étendue de la régression (appelée fonctions de transfert ou modèles ARMAX) comme base pour extraire l'impact de l'historique de y et les valeurs actuelles et pas de x. Il est essentiel de valider les exigences gaussiennes et d'incorporer comme mandataires nécessaires à la fois la structure déterministe omise (via la détection des valeurs aberrantes) et la structure stochastique omise via la composante ARMA. De plus, il faut s'assurer que l'on n'a pas utilisé trop de données (tests de constance des paramètres) et que toute variance d'erreur non constante résultant d'une variance d'erreur déterministe / stochastique et / ou d'un lien entre la valeur attendue de y et la variance de la résidus.
Désormais, historiquement (ou hystériquement si vous le souhaitez), différents silos de pensée ont tenté de formuler des approches. De nombreux modèles ad hoc utilisés par nos ancêtres peuvent être présentés comme des sous-ensembles d'une fonction de transfert, mais il existe des ensembles de données qui peuvent être imaginés qui remettraient en question les hypothèses d'une fonction de transfert. Bien que ces ensembles de données puissent exister, il ne faut pas supposer qu'ils vous affecteront directement, sauf si l'analyse aboutit à cette conclusion.
Des textes comme Wei (Addison-Wessley) ou Box-Jenkins devraient fournir une feuille de route raisonnable pour soutenir mes commnents et vous conduire à d'autres "réponses".
Au fait, c'est une excellente question!
De plus, si vous avez des données que vous souhaitez utiliser, je pourrais démontrer les différentes options décrites ici. Veuillez publier vos données sur le Web pour que tous puissent les voir et les utiliser dans leurs efforts pour associer "y à x".
la source
Breiman aborde cette question dans " Modélisation statistique: deux cultures ". Une première réponse à une excellente question.
la source
Je soupçonne que la réponse à cette question est quelque chose du genre "il n'y a pas de déjeuner gratuit". Peut-être que les statisticiens, les informaticiens et les ingénieurs électriciens ont développé différents algorithmes parce qu'ils sont intéressés à résoudre différents types de problèmes.
la source
Je dirais que ces trois groupes que vous avez indiqués ne sont en effet que deux groupes:
Toutes les branches liées au filtrage du signal reposent sur deux aspects: l'extraction de caractéristiques (ondelettes, Gabor et Fourier) qui appartient à la reconnaissance de formes et la transformation de Fourier discrète qui appartient aux mathématiques dures. En fait, le filtrage numérique est plus proche d'un aspect technique car il essaie de résoudre ce problème de reconnaissance de formes au moyen d'algorithmes simples et à faible coût de calcul. Mais essentiellement, c'est l'apprentissage automatique.
De plus, le filtrage, les ondelettes, Gabor et Fourier sont largement utilisés dans le traitement d'image étant au cœur de la vision artificielle.
La différence existe entre les statistiques et l'apprentissage automatique.
la source