Supervision à distance: supervisée, semi-supervisée ou les deux?

20

La «supervision distante» est un schéma d'apprentissage dans lequel un classificateur est appris en fonction d'un ensemble de formation faiblement étiqueté (les données de formation sont étiquetées automatiquement sur la base d'heuristiques / règles). Je pense que l'apprentissage supervisé et l'apprentissage semi-supervisé peuvent inclure une telle «supervision à distance» si leurs données étiquetées sont étiquetées heuristiquement / automatiquement. Cependant, dans cette page , la «supervision à distance» est définie comme «l'apprentissage semi-supervisé» (c'est-à-dire limité à la «semi-supervision»).

Ma question est donc la suivante: la «supervision à distance» fait-elle exclusivement référence à la semi-supervision? À mon avis, il peut être appliqué à la fois à l'apprentissage supervisé et semi-supervisé. Veuillez fournir toute référence fiable, le cas échéant.

AM2
la source

Réponses:

22

Un algorithme de supervision à distance comporte généralement les étapes suivantes:
1] Il peut avoir des données de formation étiquetées
2] Il "a" accès à un pool de données non étiquetées
3] Il a un opérateur qui lui permet d'échantillonner à partir de ces données non étiquetées et de les étiqueter et cet opérateur devrait être bruyant dans ses étiquettes
4] L'algorithme utilise alors collectivement les données d'apprentissage étiquetées originales s'il en avait et ces nouvelles données étiquetées bruyamment pour donner la sortie finale.

Maintenant, pour répondre à votre question, vous et le site avez tous les deux raison. Vous regardez la 4ème étape de l'algorithme et notez qu'à la 4ème étape, on peut utiliser n'importe quel algorithme auquel l'utilisateur a accès. D'où votre argument, "il peut être appliqué à la fois à l'apprentissage supervisé et semi-supervisé" .

Considérant que le site examine collectivement toutes les étapes 1 à 4 et constate que les données étiquetées bruyamment sont obtenues à partir d'un pool de données non étiquetées (avec ou sans l'utilisation de certaines données de formation étiquetées préexistantes) et ce processus d'obtention d'étiquettes bruyantes est un élément essentiel pour tout algorithme de surveillance à distance, par conséquent , il est un algorithme semi-supervisé.

TenaliRaman
la source