Existe-t-il une méthodologie existante pour appliquer un modèle d'apprentissage supervisé à un ensemble de données incertain? Par exemple, supposons que nous ayons un ensemble de données avec les classes A et B:
+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
| 2 | 3 | A | 50% |
| 3 | 1 | B | 80% |
| 1 | 1 | A | 100% |
+----------+----------+-------+-----------+
Comment pourrait-on former un modèle d'apprentissage automatique à ce sujet? Merci.
Au lieu d'avoir des étiquettes A ou B, vous pouvez les remplacer par des valeurs continues de certitude - par exemple, correspond à quelque chose dont vous êtes sûr que c'est , correspond à quelque chose que vous êtes sûr que c'est et correspond à quelque chose que vous « re 40% est sûr . Ensuite, ayez un modèle qui au lieu de prédire la classe ou génère un score entre et en fonction de ce que vous pensez de l'un ou de l'autre (et définissez ce score en fonction de si son> ou <1/2). Cela transforme votre problème de classification en un problème de régression (que vous limitez pour revenir à un classificateur).1 A 0 B 0.6 A A B 0 1
Par exemple, vous pouvez adapter un modèle linéaire à comme (où est la certitude ci-dessus). Ensuite, lorsque vous souhaitez tester certaines données, branchez-les dans le modèle et étiquette si et sinon.logp(A|x)p(B|x)=logp(A|x)1−P(A|x) β0+βT1x p(A|x) A β0+βT1x>0 B
la source