Quelle est la vérité fondamentale

30

Dans le contexte du Machine Learning , j'ai vu le terme Ground Truth beaucoup utilisé. J'ai beaucoup cherché et trouvé la définition suivante dans Wikipedia :

Dans l'apprentissage automatique, le terme «vérité terrain» fait référence à l'exactitude de la classification de l'ensemble d'apprentissage pour les techniques d'apprentissage supervisé. Ceci est utilisé dans les modèles statistiques pour prouver ou infirmer les hypothèses de recherche. Le terme «vérification au sol» fait référence au processus de collecte des données objectives (prouvables) appropriées pour ce test. Comparez avec l'étalon or.

Le filtrage bayésien du spam est un exemple courant d'apprentissage supervisé. Dans ce système, l'algorithme apprend manuellement les différences entre spam et non-spam. Cela dépend de la vérité sur le terrain des messages utilisés pour former l'algorithme - les inexactitudes dans la vérité sur le sol seront corrélées aux inexactitudes dans les verdicts de spam / non-spam résultants.

Le fait est que je ne peux vraiment pas comprendre ce que cela signifie. S'agit-il de l' étiquette utilisée pour chaque objet de données ou de la fonction cible qui donne une étiquette à chaque objet de données , ou peut-être autre chose?

Médias
la source

Réponses:

25

La vérité fondamentale est ce que vous avez mesuré pour votre variable cible pour les exemples de formation et de test.

Presque tout le temps, vous pouvez le traiter en toute sécurité de la même manière que l'étiquette.

Dans certains cas, ce n'est pas exactement la même chose que l'étiquette. Par exemple, si vous augmentez votre ensemble de données, il y a une différence subtile entre la vérité du terrain (vos mesures réelles) et la façon dont les exemples augmentés se rapportent aux étiquettes que vous avez attribuées. Cependant, cette distinction n'est généralement pas un problème.

La vérité fondamentale peut être fausse. C'est une mesure et il peut y avoir des erreurs. Dans certains scénarios ML, il peut également s'agir d'une mesure subjective où il est difficile de définir une vérité objective sous-jacente - par exemple, une opinion ou une analyse d'experts, que vous espérez automatiser. Tout modèle ML que vous entraînez sera limité par la qualité de la vérité terrain utilisée pour l'entraîner et le tester, et cela fait partie de l'explication de la citation de Wikipedia. C'est aussi pourquoi les articles publiés sur le BC devraient inclure une description complète de la façon dont les données ont été collectées.

Neil Slater
la source
Au cours de la formation, gt (par exemple dans les problèmes de segmentation d'instance) peut-il être modifié ou créé compte tenu des informations obtenues (par exemple à partir des cartes de score) à partir des fonctionnalités?
Alex
@Alex: Pas habituellement. Dans certaines circonstances, une sortie révisée ou un processus semi-automatisé peut produire la vérité fondamentale pour le prochain algorithme d'un pipeline. Cependant, si vous faites référence à un algorithme révisant ses propres cibles via une règle, cela n'est généralement pas considéré comme une nouvelle vérité fondamentale - au lieu de cela, la vérité fondamentale serait les segmentations originales fournies pour la formation. Tout raffinement automatisé intelligent ferait plutôt partie du modèle.
Neil Slater
Un raffinement avec une interaction humaine, ou qui renvoyait à des données non-image originales (par exemple, certaines images sources sont générées à l'aide d'un modèle 3D, donc peut créer une meilleure segmentation "vraie") pourrait être une nouvelle vérité fondamentale. Bien que vous souhaitiez peut-être séparer l'idée de vérité fondamentale de génération 1 utilisée pour construire le premier modèle de la vérité fondamentale de génération 2 qui a été soumise à une itération et utilisée pour construire un deuxième modèle, même si le deuxième modèle est la même architecture formé sur la rétroaction.
Neil Slater
«formé sur le feedback» - proche, mais pas exactement. Si vous avez vu le modèle FCN, la dernière couche est la carte de score qui est connectée à la fonction de perte log softmax avec la carte gt. Ce que je fais, c'est prendre la carte des scores, en extraire certaines données (par exemple, le nombre de blobs binaires argmax) et (en quelque sorte) modifier le masque gt avant de le brancher dans la fonction de perte. Est-ce légitime?
Alex
@Alex: Cela fait partie de votre modèle, et non une nouvelle vérité fondamentale. À moins que vous ne décidiez, arbitrairement, que l'objectif d'un nouveau modèle est d'apprendre votre fonction combinée. Dans ce cas, c'est la vérité fondamentale pour le nouveau modèle - cependant, vous devez certainement noter la source complexe de ces données, car elles ont été modifiées à partir de la mesure d'origine de manière automatisée.
Neil Slater
2

Vérité fondamentale: c'est la réalité que vous voulez que votre modèle prédit.

Il peut y avoir du bruit, mais vous voulez que votre modèle apprenne le modèle sous-jacent des données qui est à l'origine de cette vérité fondamentale. En pratique, votre modèle ne sera jamais en mesure de prédire la vérité au sol, car la vérité au sol aura également un peu de bruit et aucun modèle ne donnera une précision à cent pour cent, mais vous voulez que votre modèle soit aussi proche que possible.

Vivek Khetan
la source