Minimiser les biais dans la modélisation explicative, pourquoi? («Pour expliquer ou prédire» de Galit Shmueli)

15

Cette question fait référence à l'article de Galit Shmueli "Expliquer ou prédire" .

Plus précisément, dans la section 1.5, «Expliquer et prédire sont différents», le professeur Shmueli écrit:

Dans la modélisation explicative, l'accent est mis sur la minimisation du biais pour obtenir la représentation la plus précise de la théorie sous-jacente.

Cela m'a intrigué chaque fois que j'ai lu le journal. Dans quel sens minimiser le biais dans les estimations donne-t-il la représentation la plus précise de la théorie sous-jacente?

J'ai également regardé la conférence du professeur Shmueli ici , prononcée au JMP Discovery Summit 2017, et elle déclare:

... des choses qui sont comme des modèles de rétrécissement, des ensembles, vous ne les verrez jamais. Parce que ces modèles, par conception, introduisent un biais afin de réduire le biais / la variance globale. C'est pourquoi ils ne seront pas là, cela n'a aucun sens théorique de le faire. Pourquoi voudriez-vous que votre modèle soit biaisé à dessein?

Cela ne fait pas vraiment la lumière sur ma question, réaffirmant simplement l'affirmation que je ne comprends pas.

Si la théorie a de nombreux paramètres et que nous avons peu de données pour les estimer, l'erreur d'estimation sera dominée par la variance. Pourquoi serait-il inapproprié d'utiliser une procédure d'estimation biaisée comme la régression de crête (résultant en des estimations biaisées de variance plus faible) dans cette situation?

Matthew Drury
la source
1
Bonne question! +1 J'ai posé une question connexe sur stats.stackexchange.com/questions/204386/…
Adrian le
@Adrian C'est une excellente question, bien posée. J'aimerais aussi voir une réponse complète à celle-là!
Matthew Drury

Réponses:

6

C'est en effet une grande question, qui nécessite une visite dans le monde de l'utilisation des modèles statistiques dans la recherche économétrique et en sciences sociales (d'après ce que j'ai vu, les statisticiens appliqués et les mineurs de données qui effectuent un travail descriptif ou prédictif ne traitent généralement pas avec biais de cette forme). Le terme «biais» que j'ai utilisé dans l'article est ce que les économétriciens et les spécialistes des sciences sociales considèrent comme un grave danger d'inférence de causalité à partir d'études empiriques. Il fait référence à la différence entre votre modèle statistique et le modèle théorique causal qui le sous-tend . Un terme connexe est "spécification du modèle", un sujet enseigné en économétrie en raison de l'importance de "spécifier correctement votre modèle de régression" (par rapport à la théorie) lorsque votre objectif est l'explication causale. Voirl'article Wikipedia sur les spécifications pour une brève description. Un problème majeur de mauvaise spécification est la sous-spécification , appelée "biais de variable omis" (OVB), où vous omettez une variable explicative de la régression qui aurait dû être là (selon la théorie) - il s'agit d'une variable qui est en corrélation avec la variable dépendante et avec au moins une des variables explicatives. Voir cette description soignée ) qui explique les implications de ce type de biais. D'un point de vue théorique, l'OVB nuit à votre capacité à déduire la causalité du modèle.

En annexe de mon article Expliquer ou prédire? il y a un exemple montrant comment un modèle sous-spécifié ("faux") peut parfois avoir un pouvoir prédictif plus élevé. Mais maintenant, j'espère que vous pouvez voir pourquoi cela contredit l'objectif d'un "bon modèle explicatif causal".

Galit Shmueli
la source
2
Je pense qu'il y a encore beaucoup de confusion entre les modèles prédictifs et les modèles explicatifs. J'ai interviewé un scientifique des données d'une grande compagnie d'assurance et lui ai demandé s'ils construisaient des modèles prédictifs ou explicatifs dans son équipe. Il a dit "ça n'a pas vraiment d'importance" - je ne pense pas qu'il connaissait la différence.
RobertF