Dans la régression ordinale et le classement, vous apprenez à partir d'une variable dépendante ordonnée, donc ma question est:
Quelle est la différence de formulation (le cas échéant) entre le problème de régression ordinale et un problème d'apprentissage du classement?
regression
ordinal-data
ranking
Fabian Pedregosa
la source
la source
Réponses:
3 ans après, je réponds à ma propre question.
Pour moi, la principale différence réside dans ce qui est la sortie des modèles dans les différents problèmes. Dans la régression ordinale, la tâche consiste à prédire une étiquette pour un échantillon donné, d'où la sortie d'une prédiction est une étiquette (comme c'est le cas par exemple dans la classification multiclasse). En revanche, dans le problème de l'apprentissage du classement, la sortie est un ordre d'une séquence d'échantillons. En d'autres termes, la sortie d'un modèle de classement peut être considérée comme une permutation qui permet aux échantillons d'avoir des étiquettes aussi ordonnées que possible. Par conséquent, contrairement au modèle de régression ordinale, l'algorithme de classement n'est pas en mesure de prédire une étiquette de classe. Pour cette raison, l'entrée d'un modèle de classement n'a pas besoin de spécifier d'étiquettes de classe, mais seulement un ordre partiel entre les échantillons (voir par exemple [0] pour une application de ceci). En ce sens, le classement est un problème plus facile que la régression ordinale:
Ceci est mieux expliqué avec un exemple. Supposons que nous ayons les paires suivantes (échantillon, étiquette):{ (X1, 1 ) , (X2, 2 ) , (X3, 2 ) } . Compte tenu de cette entrée, un modèle de classement prédira un ordre de cette séquence d'échantillons. Par exemple, pour un algorithme de classement, les permutations( 1 , 2 , 3 ) → ( 1 , 2 , 3 ) et ( 1 , 2 , 3 ) → ( 1 , 3 , 2 ) sont des prédictions avec un score parfait puisque les étiquettes des deux séquences { (X1, 1 ) , (X2, 2 ) , (X3, 2 ) } et { (X1, 1 ) , (X3, 2 ) , (X2, 2 ) } sont commandés. D'un autre côté, une régression ordinale prédirait une étiquette pour chacun des échantillons, et dans ce cas la prédiction (1, 2, 2) donnerait un score parfait, mais pas (1, 2, 3) ou (1, 3, 2).
[0] Optimisation des moteurs de recherche à l'aide des données de clics Thorsten Joachims
la source
C'est une bonne question! En général, la différence entre les statistiques et l'apprentissage automatique ou les approches d'autres domaines à «nos» questions peut être difficile à comprendre, car il existe un zoo de termes associés à chaque domaine.
Ainsi, par exemple, lorsque les gens ont découvert que les réseaux neuronaux backprop faisaient "juste" une régression non linéaire d'une certaine sorte, c'était comme une découverte majeure parmi les chercheurs .
Je pense que c'est le même genre de chose: il y a juste beaucoup de techniques que les gens ont inventées pour attaquer le même problème. La logistique ordinale en est un.
la source