Récemment, je travaillais sur un problème pour faire une analyse des coûts de mes dépenses pour une ressource particulière. Je prends habituellement des décisions manuelles à partir de l'analyse et planifie en conséquence.
J'ai un ensemble de données volumineuses au format Excel et avec des centaines de colonnes, définissant l'utilisation de la ressource dans différents délais et types (autres utilisations détaillées diverses). J'ai également des informations sur mes 4 dernières années de données et l'utilisation réelle des ressources et les coûts encourus en conséquence.
J'espérais former un NN pour prévoir à l'avance mes coûts et planifier avant même de pouvoir effectuer manuellement l'analyse des coûts.
Mais le plus gros problème auquel je suis confronté est la nécessité d'identifier les caractéristiques d'une telle analyse. J'espérais qu'il existe un moyen d'identifier les caractéristiques de l'ensemble de données.
PS - J'ai une idée de l'ACP et de certaines autres techniques de réduction des ensembles de fonctionnalités, ce que je regarde, c'est la façon de les identifier en premier lieu.
la source
C'est une grande question et probablement l'une des tâches les plus difficiles sur ML.
Vous avez quelques options:
J'espère que ça t'as aidé
la source
Il est sage de considérer non seulement la corrélation de l'engagement des ressources avec le coût, mais aussi le retour sur le coût de l'engagement des ressources. Le défi typique est que ces retours sont presque toujours cumulatifs ou retardés. Un cas d'accumulation est lorsque la ressource est le réglage ou l'amélioration continue d'un processus dont l'absence ralentit la génération de revenus. Un cas de retard se produit lorsque les ressources de recherche encourent des coûts sans impact sur les revenus pendant une période de temps mais que la génération de revenus qui commence si la recherche produit des résultats productifs peut être un facteur substantiel supérieur au coût total des résultats fournis.
La raison pour laquelle les données de dépenses en elles-mêmes peuvent conduire à un apprentissage de réseau inadapté est qu'un réseau qui est formé pour réduire, par exemple, les dépenses de marketing les mettra à zéro. Cela entraînerait généralement une tendance à la baisse des ventes jusqu'à ce que l'entreprise se replie. Sans inclure les retours dans les informations de formation, aucun apprentissage utile ne peut se produire.
Un MLP de base (perceptron multicouche) n'apprendra pas les caractéristiques temporelles des données, les aspects d'accumulation et de retard. Vous aurez besoin d'un réseau dynamique. Le type de réseau le plus régulièrement réussi pour ce type d'apprentissage à ce jour est le type de réseau LSTM (mémoire à court terme) ou l'une de ses variantes dérivées. Les données sur les revenus et le solde doivent être utilisées conjointement avec les données sur les dépenses pour former le réseau à prédire les résultats commerciaux pour toute séquence donnée de missions de ressources proposées (plan budgétaire détaillé).
La fonction de perte doit équilibrer correctement le terme de tri avec les objectifs financiers à moyen et long terme. Les liquidités disponibles négatives devraient entraîner une augmentation prononcée de la fonction de perte, de sorte que cette évitement des risques de base pour la réputation et le coût du crédit soit appris.
Les colonnes de vos données qui présentent une forte corrélation avec le retour sur investissement sont difficiles à déterminer à l'avance. Vous pouvez immédiatement exclure des colonnes conformes à l'un des critères suivants.
Les données peuvent être réduites d'autres manières
Les RBM (machines Boltzmann restreintes) peuvent extraire des caractéristiques des données et les PCA peuvent éclairer les colonnes à faible contenu d'information, mais l'importance des colonnes en termes de corrélation avec les revenus ne sera pas identifiée à l'aide de ces appareils dans leur forme de base.
la source