Question d'entrevue de Data Scientist: Régression linéaire faible et que feriez-vous

J'ai fait face à une question d'entrevue pour un emploi où l'intervieweur m'a demandé de supposer que votre est très faible (entre 5 et 10%) pour un modèle d'élasticité-prix. Comment résoudriez-vous cette question? $R^2$

Je ne pouvais penser à rien d'autre que le fait que je ferai des diagnostics de régression pour voir ce qui s'est mal passé ou si une méthode non linéaire devrait être appliquée. D'une certaine manière, je pense que l'intervieweur n'était pas satisfait de ma réponse. Y a-t-il autre chose qui est fait dans un tel scénario pour adapter un modèle et l'utiliser pour la prédiction du niveau de production malgré un faible ? $R^2$

Edit : À un stade ultérieur, ils m'ont donné les données pour modéliser le problème lors de l'entretien et j'ai essayé d'ajouter des variables décalées, l'impact du prix des concurrents, des variables factices pour voir si cela faisait une différence. est passé à 17,6 pour cent et ses performances sur l'échantillon à retenir étaient médiocres. Personnellement, je pense qu'il est contraire à l'éthique de mettre un tel modèle de prédiction dans un environnement réel car cela donnera des résultats erronés et entraînera la perte de clients (imaginez utiliser la recommandation de prix d'un tel modèle sur les revenus de votre entreprise!). Y a-t-il autre chose qui est fait dans de tels scénarios qui est trop évident que tout le monde doit savoir? Quelque chose que je ne connais pas, que je serais tenté de dire «une balle d'argent»? $R^2$

Aussi, imaginons qu'après l'ajout de la variable exogène s'améliore encore de 2%, que peut-on faire dans ce scénario? Faut-il abandonner le projet de modélisation ou il y a encore un peu d'espoir de développer un modèle de qualité de production qui soit indiqué par les performances sur l'échantillon retenu? $R^2$

Edit2 : J'ai posté cette question sur le forum economics.stackexchange.com pour comprendre ce problème du point de vue de l'économie

regression self-study theory Passionné
la source

"supposons que votre soit très faible (entre 5 à 10%) pour un modèle d'élasticité-prix" n'est pas une question . Ma réponse à "supposons que votre soit très faible (entre 5 et 10%) pour un modèle d'élasticité-prix" serait "d'accord, c'est fait". Je peux supposer qu'il n'y a pas de problème, donc il n'y a plus rien à faire. S'ils n'étaient vraiment pas disponibles, je devrais demander quel aspect de cela ils considéraient comme un problème à résoudre. En leur absence, quel est selon vous le problème ici?

R^{2}

$R^2$

R^{2}

$R^2$

Glen_b -Reinstate Monica

Je l'ai tagué pour l'auto-apprentissage @Glen_b, faites-moi savoir si j'ai besoin d'ajouter plus de détails. Merci!

Enthousiaste

Merci, c'est une bonne chose à faire. Mais plus de détails comprendraient la question réelle que vous deviez résoudre. "Supposons que X" présente une situation qui ne vous demande rien de résoudre.

Glen_b -Reinstate Monica

Post-cross sur economics.stackexchange.com/q/16617 . Veuillez essayer de choisir le meilleur site pour une question: si vous pensez que cela vaut la peine d'adapter les variantes à différents sites, toujours les lier.

Scortchi - Réintégrer Monica

@Scortchi, j'ai ajouté le lien comme modification supplémentaire dans les deux forums. Merci!

Enthousiaste

Réponses:

Et si nous regardions le problème sous cet angle. L'élasticité-prix est la relation entre la demande et le prix d'un produit.

Lorsque le r-carré dans cette situation est faible, nous pourrions alors impliquer que la relation entre le prix et la demande pour ce produit particulier n'est pas forte.

D'un point de vue tarifaire, cela pourrait signifier que vous avez trouvé un produit pour lequel vous pouvez fixer un prix arbitrairement sans impact important sur la demande OU que la demande est assez erratique malgré des prix différenciés.

Si vous regardez les produits Veblen , ce sont des exemples où l'élasticité est inverse. À mesure que les prix augmentent, la demande augmente.

Si par contre le r-carré est faible, cela pourrait simplement signifier une catégorie de produit dont le prix est relativement peu important en matière de demande. Du haut de ma tête, un médicament contre le cancer pourrait être quelque chose qui pourrait adhérer à cette propriété. Lorsque l'importance du médicament l'emporte sur le prix qu'il commande et ne peut montrer aucun changement dans la demande.

Et en conclusion, je suppose que l'intention de l'intervieweur aurait pu être de juger si vous saviez ce que signifiait l'implication d'un carré bas au lieu de trouver comment construire un meilleur modèle avec un carré plus élevé.

Arun Jose
la source

+1 pour la conclusion. Je pense également que le but de cette question est d'essayer de voir si le candidat poursuit aveuglément une métrique sans bien la comprendre.

Haitao Du

Je ne suis pas sûr de ce que l'intervieweur recherchait, mais face à un modèle peu performant, ce sont les choses que je considère et une réponse que j'aimerais entendre en tant qu'enquêteur (interviewant depuis quelques années maintenant).

Obtenir plus de données : cela peut ne pas toujours aider, mais il y a peu de choses qui peuvent vous aider à évaluer les effets de cette solution:
- Exécutez le modèle avec différentes tailles d'échantillon - si les résultats s'améliorent avec plus de données, il est raisonnable de supposer que l'obtention de plus de données continuera d'améliorer les performances du modèle.
- Rapport fonctionnalités / échantillon - après avoir sélectionné les fonctionnalités, essayez de comprendre si vous avez suffisamment d'échantillons pour chaque valeur de fonctionnalité. Voir une question répondue à ce sujet .
- Valeurs cibles manquantes - l'élasticité peut ne pas se comporter de manière similaire entre différentes fourchettes de prix. Dans une situation où vous échantillonnez les données est biaisée vers une plage spécifique, il y a de fortes chances que vous ne puissiez pas généraliser (par exemple, 90% des échantillons sont pour des prix entre 0-10 et les 10% restants sont pour des prix entre 1000-10000). Il existe d'autres moyens de résoudre ce problème que d'obtenir plus de données (divisez la formation du modèle, n'utilisez pas de régression).
Meilleure ingénierie des fonctionnalités : si vous avez suffisamment de données et que vous connaissez le deep-learning, alors celui-ci n'est peut-être pas pertinent. Si vous ne répondez pas aux critères mentionnés, concentrez vos efforts sur celui-ci. Dans les modèles de comportement des utilisateurs, il existe de nombreuses relations que notre intuition humaine est mieux comprise qu'un modèle formé par machine.
Comme dans votre cas, où vous avez conçu tellement de fonctionnalités et amélioré les performances du modèle. Cette étape est sujette à des erreurs car elle implique généralement du code basé sur la logique (If Elses / Formules mathématiques).
Meilleure sélection de modèle : comme vous l'avez suggéré, un modèle non linéaire fonctionnera peut-être mieux. Vos données sont-elles homogènes? Avez-vous des raisons de croire que les caractéristiques croisées expliqueront mieux l'élasticité-prix? (saisonnalité * prix concurrent).
Réglage des hyperparamètres : les hyperparamètres du modèle de recherche de grille (+ résultats de validation croisée) sont une bonne pratique, mais d'après mon expérience, cela améliore rarement considérablement les performances (sûrement pas de 5% à 90%).

Il y a plus de choses qui peuvent être faites, mais ces points sont assez génériques.

yoav_aaa
la source

En plus de ce que suggèrent @DaFanat et @Arun, je voudrais ajouter qu'une inspection visuelle pourrait aider.

Par exemple, il peut arriver que certaines valeurs aberrantes aient un impact sur votre . Ayant travaillé sur des problèmes de gestion des revenus, j'ai dû constamment rechercher des points influents . Très souvent, les valeurs aberrantes étaient associées à des événements ponctuels spécifiques tels que des campagnes promotionnelles, des remises, etc. $R^2$

IcannotFixThis
la source

Merci de partager les entrées spécifiques au domaine car il s'agit en effet d'un problème de gestion des revenus

Passionné