Algorithmes d'apprentissage automatique pour les données de panel

12

Dans cette question - Existe - t-il une méthode pour construire des arbres de décision qui tienne compte des prédicteurs structurés / hiérarchiques / multiniveaux? - ils mentionnent une méthode de données de panel pour les arbres.

Existe-t-il des méthodes de données de panneau spécifiques pour prendre en charge les machines vectorielles et les réseaux de neurones? Si oui, pourriez-vous citer quelques articles pour les algorithmes et (si disponible) les packages R l'implémentant?

Carlos Cinelli
la source
1
Je me demandais ce que vous avez décidé d'utiliser pour cela? Essayer de résoudre un problème similaire.
user0

Réponses:

1

LSTM (Long Short Term Memory) peut être pertinent pour vous. Ce type de modèle peut gérer plusieurs entités en plusieurs points dans le temps, ce qui devrait correspondre aux données du panneau. Voici une très belle explication sur le concept de LSTM, et voici un package qui implémente une version R de LSTM.

Jolis discours
la source
0

Lorsque vous disposez de données de panel, vous pouvez essayer de résoudre différentes tâches, par exemple la classification / régression des séries chronologiques ou les prévisions de panel. Et pour chaque tâche, il existe de nombreuses approches pour la résoudre.

Lorsque vous souhaitez utiliser des méthodes d'apprentissage automatique pour résoudre les prévisions de panel, il existe un certain nombre d'approches:

En ce qui concerne vos données d'entrée (X), en traitant les unités (par exemple les pays, les individus, etc.) comme des échantillons iid, vous pouvez

  • classer les séries chronologiques et traiter chaque groupe comme une colonne distincte, en ignorant tout ordre temporel, avec des groupes égaux pour toutes les unités, la taille du groupe pourrait bien sûr simplement être la mesure de série chronologique observée, ou vous pouvez suréchantillonner et agréger en plus grands groupes, puis utiliser des algorithmes d'apprentissage automatique standard pour les données tabulaires,
  • ou extraire des entités de la série chronologique pour chaque unité, et utiliser chaque entité extraite en tant que colonnes distinctes, combinées à nouveau avec des algorithmes tabulaires standard,
  • ou utiliser des algorithmes de régression / classification de séries chronologiques spécialisés selon que vous observez des données de séries chronologiques continues ou catégorielles, cela inclut des machines à vecteurs de support avec des noyaux spéciaux qui comparent les séries chronologiques avec les séries chronologiques.

En ce qui concerne vos données de sortie (y), si vous souhaitez prévoir plusieurs points dans le futur, vous pouvez

  • adapter un estimateur pour chaque étape à venir que vous souhaitez prévoir, en utilisant toujours les mêmes données d'entrée,
  • ou ajuster un seul estimateur pour la première étape à venir et dans la prédiction, rouler les données d'entrée dans le temps, en utilisant les prédictions de première étape à ajouter aux données d'entrée observées pour faire les prédictions de deuxième étape et ainsi de suite.

Toutes les approches ci-dessus réduisent essentiellement le problème de prévision des panels à un problème de régression de séries chronologiques ou de régression tabulaire. Une fois que vos données sont au format série chronologique ou régression tabulaire, vous pouvez également ajouter des fonctionnalités invariantes dans le temps pour les utilisateurs.

Bien sûr, il existe d'autres options pour résoudre le problème de prévision de panel, comme par exemple en utilisant des méthodes de prévision classiques comme ARIMA adaptées aux données de panel ou des méthodes d'apprentissage approfondi qui vous permettent de faire directement des prédictions de séquence en séquence.

mloning
la source