Traduire un problème d'apprentissage automatique dans un cadre de régression

12

Supposons que j'ai un panel de variables explicatives , pour , , ainsi qu'un vecteur de variables binaires dépendantes du résultat . Donc n'est observé qu'au moment final et pas à un moment antérieur. Le cas tout à fait général est d'avoir plusieurs pour pour chaque unité à chaque instant , mais concentrons-nous sur le cas par souci de concision. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

Les applications de ces paires "déséquilibrées" avec des variables explicatives temporelles corrélées sont par exemple (cours des actions quotidiennes, dividendes trimestriels), (bulletins météorologiques quotidiens, ouragans annuels) ou (caractéristiques de la position des échecs après chaque mouvement, résultat de la victoire / de la perte à la fin du jeu).(X,Y)

Je suis intéressé par les coefficients de régression (éventuellement non linéaires) pour faire la prédiction de , sachant que dans les données d'entraînement, étant donné les premières observations de pour , cela conduit au résultat finalβt X i t t < T Y i TYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Issu d'un contexte d'économétrie, je n'ai pas vu beaucoup de modélisation de régression appliquée à ces données. OTOH, j'ai vu les techniques d'apprentissage automatique suivantes appliquées à ces données:

  1. effectuer un apprentissage supervisé sur l'ensemble des données, par exemple en minimisant

i,t12(Yitf(Xitβt))2

en extrapolant / imputant simplement le observé à tous les points précédents dans le tempsY

YitYiT,t=1...T1

Cela semble "faux" car il ne tiendra pas compte de la corrélation temporelle entre les différents points dans le temps.

  1. faire un apprentissage par renforcement tel que la différence temporelle avec le paramètre d'apprentissage et le paramètre d'actualisation , et résoudre récursivement pour par à partir deλ β t t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

avec le gradient de par rapport à . f ( ) ββY^f()β

Cela semble plus "correct" car il prend en compte la structure temporelle, mais les paramètres et sont plutôt "ad hoc".λαλ

Question : existe-t-il de la littérature sur la façon de mapper les techniques d'apprentissage supervisé / renforcé ci-dessus dans un cadre de régression tel qu'il est utilisé dans les statistiques / économétrie classiques? En particulier, j'aimerais pouvoir estimer les paramètres en une seule fois (c'est-à-dire pour tous les simultanément) en faisant des moindres carrés (non linéaires) ou un maximum de vraisemblance sur des modèles tels que t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Je serais également intéressé de savoir si la différence temporelle d'apprentissage des méta-paramètres et pourrait être récupérée à partir d'une formulation à maximum de vraisemblance.λαλ

TemplateRex
la source
Pourriez-vous clarifier la formulation du troisième paragraphe? Vous écrivez que vous voulez prédire partir de , , mais la formule suivante suggère que vous voulez prédire . X i t t < T Y i tYiTXitt<TYit
NRH
@NRH en fait, je n'observe que , mais ce que j'ai vu dans la littérature sur l'apprentissage supervisé, c'est qu'ils imputent le non observé comme étant égal à , puis font l'ajustement pour expliquer réellement ce faux de (cela se fait dans les applications de jeu, où une fonction d'évaluation pour chaque position est ajustée sur le résultat final du jeu). Désolé si cela ne ressort pas clairement de ma formulation initiale. Dans tous les cas, serait le "résultat" prévu (dans les applications de jeu) compte tenu des événements observés . Y i t Y i T Y i t X i t Y i t X i tYiTYitYiTYitXitY^itXit
TemplateRex
YiT t Y i T Y i tYittYiTYit
ce n'est pas clair pourquoi vous voulez faire ça. Si vous pouvez expliquer l'application pratique réelle, vous pourriez obtenir des réponses plus claires. En général, la meilleure prédiction pour chaque intervalle de temps sera simplement de faire une régression de sur les données disponibles séparément pour chaque t. Il n'est pas évident qu'une approche simultanée présente un quelconque avantage. Je pense que vous devez spécifier le modèle statistique de votre ensemble de données et peut-être que les avantages sont plus clairs. X 1 , , X tYTX1,,Xt
seanv507
@NRH, oui, je veux prédire partir de sachant que cela conduit au résultat dans les données d'entraînement, afin de prendre des mesures optimales pour les données de test où j'observe également mais n'ont pas encore observé le résultat. Va mettre à jour ma formulation. X i t Y i T X i tYitXitYiTXit
TemplateRex

Réponses:

1

La description du problème n'est pas entièrement claire pour moi, donc j'essaie de deviner certaines hypothèses. Si cela ne répond pas à votre question, cela pourrait au moins aider à clarifier davantage les problèmes.

YTt<TXττ>t

YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

X1,,Xtt

t<T

gg
la source
XitYiTY^itYiT
0


α
γγ=1

nsweeney
la source
αγ
αγ