Utilisation d'outils d'apprentissage machine standard sur des données censurées à gauche

Je suis en train de développer une application de prévision dont le but est de permettre à un importateur de prévoir la demande de ses produits à partir de son réseau client de distributeurs. Les chiffres des ventes sont un assez bon indicateur de la demande, tant qu'il existe un stock suffisant pour répondre à la demande. Cependant, lorsque l'inventaire est ramené à zéro (la situation que nous cherchons à aider notre client à éviter), nous ne savons pas grand-chose que nous avons raté l'objectif. Combien de ventes le client aurait-il réalisé s'il avait un approvisionnement suffisant? Les approches standard basées sur la régression ML qui utilisent Sales comme une simple variable cible produiront des estimations incohérentes de la relation entre le temps, mes variables descriptives et la demande.

La modélisation Tobit est la façon la plus évidente d'aborder le problème: http://en.wikipedia.org/wiki/Tobit_model . Je m'interroge sur les adaptations ML des forêts aléatoires, des GBMS, des SVM et des réseaux de neurones qui représentent également une structure censurée gaucher des données.

En bref, comment puis-je appliquer des outils d'apprentissage automatique à des données de régression censurées à gauche pour obtenir des estimations cohérentes des relations entre mes variables dépendantes et indépendantes? La première préférence serait pour les solutions disponibles dans R, suivi de Python.

À votre santé,

Aaron

r regression machine-learning censoring Aaron
la source

J'adorerais voir une réponse par rapport à scikit-learn.

passez le

Dans R, vous pouvez utiliser cran.r-project.org/web/packages/censReg/censReg.pdf . J'appuie @tobip sur scikit-learn en Python

Adrian

Réponses:

En bref, comment puis-je appliquer des outils d'apprentissage automatique à des données de régression censurées à gauche pour obtenir des estimations cohérentes des relations entre mes variables dépendantes et indépendantes?

Si vous pouvez écrire une probabilité et retourner le signe à moins, alors vous avez une fonction de perte qui peut être utilisée pour de nombreux modèles d'apprentissage automatique. Dans le renforcement de gradient, cela est généralement considéré comme un renforcement de modèle . Voir, par exemple, Boosting Algorithms: Regularization, Prediction and Model Fitting .

À titre d'exemple avec le modèle Tobit, consultez l'article Modèles de Tobit boostés par un arbre dégradé pour la prédiction par défaut . La méthode doit être disponible avec la branche scikit-learn mentionnée dans l'article.

La même idée est utilisée pour les données censurées à droite, par exemple, gbmet les mboostpackages dans R pour les données censurées à droite.

$L2$

Benjamin Christoffersen
la source