Dans le contexte du Machine Learning , j'ai vu le terme Ground Truth beaucoup utilisé. J'ai beaucoup cherché et trouvé la définition suivante dans Wikipedia :
Dans l'apprentissage automatique, le terme «vérité terrain» fait référence à l'exactitude de la classification de l'ensemble d'apprentissage pour les techniques d'apprentissage supervisé. Ceci est utilisé dans les modèles statistiques pour prouver ou infirmer les hypothèses de recherche. Le terme «vérification au sol» fait référence au processus de collecte des données objectives (prouvables) appropriées pour ce test. Comparez avec l'étalon or.
Le filtrage bayésien du spam est un exemple courant d'apprentissage supervisé. Dans ce système, l'algorithme apprend manuellement les différences entre spam et non-spam. Cela dépend de la vérité sur le terrain des messages utilisés pour former l'algorithme - les inexactitudes dans la vérité sur le sol seront corrélées aux inexactitudes dans les verdicts de spam / non-spam résultants.
Le fait est que je ne peux vraiment pas comprendre ce que cela signifie. S'agit-il de l' étiquette utilisée pour chaque objet de données ou de la fonction cible qui donne une étiquette à chaque objet de données , ou peut-être autre chose?
Vérité fondamentale: c'est la réalité que vous voulez que votre modèle prédit.
Il peut y avoir du bruit, mais vous voulez que votre modèle apprenne le modèle sous-jacent des données qui est à l'origine de cette vérité fondamentale. En pratique, votre modèle ne sera jamais en mesure de prédire la vérité au sol, car la vérité au sol aura également un peu de bruit et aucun modèle ne donnera une précision à cent pour cent, mais vous voulez que votre modèle soit aussi proche que possible.
la source