Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?

10

Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si l'objectif est de modéliser une distribution conjointe , alors chaque échantillon d'apprentissage doit être tiré iid de cette distribution.P(X,Y)(xi,yi)

Si l'objectif est plutôt de modéliser une distribution conditionnelle , alors comment l'exigence iid change-t-elle, le cas échéant?P(Y|X)

  1. Faut-il encore tirer chaque échantillon iid de la distribution conjointe?(xi,yi)
  2. Faut-il tirer iid de , puis dessiner iid de ?xiP(X)yiP(Y|X)
  3. Peut-on tirer non iid de (par exemple corrélé dans le temps), puis tirer iid de ?xiP(X)yiP(Y|X)

Pouvez-vous commenter la validité de ces trois approches pour la descente de gradient stochastique? (Ou aidez-moi à reformuler la question si nécessaire.)

J'aimerais faire # 3 si possible. Mon application est en apprentissage par renforcement, où j'utilise un modèle conditionnel paramétré comme politique de contrôle. La séquence des états est fortement corrélée, mais les actions sont échantillonnées iid à partir d'une politique stochastique conditionnée à l'état. Les échantillons résultants (ou un sous-ensemble d'entre eux) sont utilisés pour former la politique. (En d'autres termes, imaginez exécuter une stratégie de contrôle pendant longtemps dans un environnement, en collectant un ensemble de données d'échantillons d'état / d'action. Ensuite, même si les états sont corrélés dans le temps, les actions sont générées indépendamment, conditionnées par l'état.) Ceci est quelque peu similaire à la situation dans ce document .xiyi(xi,yi)

J'ai trouvé un article, Ryabko, 2006, « Pattern Recognition for Conditionally Independent Data », qui semblait à première vue pertinent; cependant, la situation est inversée par rapport à ce dont j'ai besoin, où (l'étiquette / catégorie / action) peut être tirée non iid de , et (l'objet / motif / état) est dessiné iid de .yix i P ( X | Y )P(Y)xiP(X|Y)

Mise à jour: Deux articles ( ici et ici ) mentionnés dans l'article de Ryabko semblent pertinents ici. Ils supposent que le provient d'un processus arbitraire (par exemple pas iid, éventuellement non stationnaire). Ils montrent que les estimateurs du plus proche voisin et du noyau sont cohérents dans ce cas. Mais je suis plus intéressé à savoir si l'estimation basée sur la descente de gradient stochastique est valide dans cette situation.xi

Tyler Streeter
la source
1
Peut-être qu'il me manque quelque chose, et je n'ai pas lu le papier, mais: vous non-iid à partir de et puis échantillonnez iid à partir de . Ryabko (2006) tire non-iid de puis échantillonne iid de . Ceux-ci semblent les mêmes jusqu'à renommer. Y a-t-il quelque chose de fondamentalement différent dans les objets et qui fait que ce n'est pas la même situation? P ( X ) y i P ( Y X ) y i P ( Y ) x i P ( X YxiP(X)yiP(YX)yiP(Y)xix yP(XY)xy
Dougal
@Dougal: La différence est que les modèles de distribution conditionnelle, comme les champs aléatoires conditionnels, traitent différemment et (les "entrées" et les "sorties") ... ils modélisent une seule direction ( mais pas ). Y P ( Y | X )XYP(Y|X)P(X|Y)
Tyler Streeter
2
Je considérerais l'analogie suivante dans ce cas. Supposons que et sont deux séries chronologiques corrélées (corrélation dans le temps). Nous voudrions trouver une fonction , qui équivaut à trouver . Si , qui est le résiduel, est IID (donc stationnaire et non corrélé) alors la procédure d'estimation converge sans biais. Fondamentalement, le traitement des séries chronologiques dans l'ordre chronologique ou tout autre ordre aléatoire ne devrait pas avoir d'importance dans une procédure MLE tant que la vraisemblance conditionnelle est correctement spécifiée et que les résidus sont IID. X i Y i = f ( X i ; θ ) P ( Y i | X i ; θ ) P ( Y i | X i ; θ )YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc

Réponses:

1

Je pense que vous pourriez faire 2 ou 3. Cependant le problème avec 3 est qu'en autorisant des distributions arbitraires pour X, vous incluez des distributions qui auraient concentré tout ou presque toute la probabilité est un petit intervalle dans l'espace x. Cela nuirait à l'estimation globale de P (Y | X) car vous auriez peu ou pas de données pour certaines valeurs de X.

Michael R. Chernick
la source
Alors, dites-vous qu'avec l'approche n ° 3, j'obtiendrais un résultat non biaisé avec une variance potentiellement élevée?
Tyler Streeter
S'il n'y a pas de données à ou près d'un point x vous ne pouvez même pas estimer P (Y | X = x ) et s'il n'y a que quelques points, la variance de l'estimation sera grande. 111
Michael R. Chernick
Oui, cela a du sens que la variance pourrait être importante. Je suppose que ma principale préoccupation est de savoir si le P estimé (Y | X) sera biaisé.
Tyler Streeter
Nous n'avons pas discuté d'une estimation ponctuelle. Si vous avez des estimations non biaisées pour P (X), P (Y) et P (X | Y) et branchez-les dans la formule P (Y | X) = P (X | Y) P (Y) / P (X) vous obtiendrez une estimation biaisée.
Michael R. Chernick
Je dois souligner que je parle d'estimation de P (Y | X) par descente de gradient stochastique, auquel cas l'ordre des échantillons d'apprentissage peut influencer la vitesse ou la convergence vers le modèle correct. Je n'utilise pas seulement des moyennes d'échantillons, où l'ordre des échantillons n'a pas d'importance.
Tyler Streeter