Valeurs négatives dans les prédictions pour une variable de réponse toujours positive en régression linéaire

8

J'essaie de prédire une variable de réponse en régression linéaire qui devrait toujours être positive (coût par clic). C'est un montant monétaire. Dans AdWords, vous payez Google pour les clics sur vos annonces, et un nombre négatif signifie que Google vous paie lorsque les utilisateurs cliquent sur: P

Les prédicteurs sont tous des valeurs continues. Le Rsquared et le RMSE sont décents par rapport aux autres modèles, même hors échantillon:

  RMSE        Rsquared 
1.4141477     0.8207303

Je ne peux pas redimensionner les prévisions, car c'est de l'argent, donc même un petit facteur de redimensionnement pourrait changer les coûts de manière significative.

Pour autant que je comprends, pour le modèle de régression, il n'y a rien de spécial à propos des nombres nuls et négatifs, donc il trouve le meilleur hyperplan de régression, que la sortie soit en partie négative.

Ceci est une toute première tentative, en utilisant toutes les variables dont je dispose. Il y a donc place à raffinement.

Existe-t-il un moyen de dire au modèle que la sortie ne peut pas être négative?

usillos
la source
6
Vous pouvez garantir des prédictions positives en utilisant un modèle linéaire généralisé avec une fonction de lien logarithmique. Soit dit en passant, bien que votre valeur soit assez encourageante, une meilleure vérification de la conformité du modèle à la forme principale des données est un tracé des valeurs résiduelles par rapport aux prévisions. Les graphiques des observations par rapport aux prévisions peuvent également éclairer votre problème. R2
Nick Cox
1
@NickCox a fait une suggestion. Je tracerais les données de plus de façons que simplement résiduelles vs prévues. Cependant, vous pouvez certainement redimensionner les variables monétaires. Une méthode courante consiste à prendre log (coût) comme variable dépendante. (Je pense que cela revient à la fonction de lien de journal, mais pourrait être plus facile à comprendre). Le journal (coût) peut, bien sûr, être négatif. Et les journaux de variables monétaires sont souvent raisonnables car, par exemple, une différence entre 0,01 et 0,02 par clic est importante, mais pas la différence entre 1,01 et 10,2 par clic.
Peter Flom
@Peter Flom signifiait 1.02 et non 10.2.
Nick Cox
1
Un petit échantillon de données aiderait les gens à illustrer des solutions potentielles.
Glen_b -Reinstate Monica

Réponses:

4

Je suppose que vous utilisez l'estimateur OLS sur ce modèle de régression linéaire. Vous pouvez utiliser l' estimateur des moindres carrés contraint par l' inégalité , qui sera la solution à un problème de minimisation sous des contraintes d'inégalité. En utilisant la notation matricielle standard (les vecteurs sont des vecteurs de colonne), le problème de minimisation est indiqué comme suit:

minβ(yXβ)(yXβ)s.t.Zβ0

... où est , est , est et est la matrice contenant la série de régresseurs hors échantillon de longueur utilisée pour la prédiction. Nous avons contraintes d'inégalité linéaire (et la fonction objectif est convexe, donc les conditions du premier ordre sont suffisantes pour un minimum).yn×1Xn×kβk×1Zm×kmm

Le lagrangien de ce problème est

L=(yXβ)(yXβ)λZβ=yyyXββXy+βXXβλZβ

=yy2βXy+βXXβλZβ

où est un vecteur de colonne de multiplicateurs Karush -Kuhn -Tucker non négatifs. Les conditions du premier ordre sont (vous voudrez peut-être revoir les règles de différenciation matricielle et vectorielle)λm×1

Lβ=02Xy+2XXβZλ

β^R=(XX)1Xy+12(XX)1Zλ=β^OLS+(XX)1Zξ[1]

... où , pour plus de commodité, et est l'estimateur que nous obtiendrions à partir de l'estimation des moindres carrés ordinaires.ξ=12λβ^OLS

La méthode est entièrement élaborée dans Liew (1976) .

Alecos Papadopoulos
la source
3
J'ai voté contre parce que c'est une solution légitime, mais c'est risqué dans la pratique. Après tout, la solution est arbitrairement sensible aux valeurs de : une seule valeur à effet de levier élevé orientera les estimations loin d'un ajustement décent simplement pour imposer la contrainte. Ainsi, au minimum, cette procédure doit être accompagnée d'un test minutieux d'adéquation des données. Z
whuber
@whuber Vous avez raison. Alors, OP, marchez attentivement ici.
Alecos Papadopoulos du