Je suis tombé sur une rumeur selon laquelle une étude a montré que les performances des modèles prédictifs dépendent davantage de l'expertise de l'analyste de données avec la méthode choisie que du choix de la méthode.
En d'autres termes, l'affirmation est qu'il est plus important que l'analyste de données soit familier avec la méthode choisie que la façon dont "appropriée" la méthode semble pour le problème d'un point de vue plus théorique.
Cela a été mentionné dans le contexte de la chimiométrie, qui implique généralement des problèmes de nombreuses variables (100s - 1000s), de colinéarité multiple et, bien sûr, trop peu d'échantillons. La prédiction peut avoir été une classification ou une régression.
Mon expérience personnelle suggère que cela est plausible , mais une étude a été mentionnée (j'ai demandé à la personne qui l'a mentionné par e-mail après une recherche rapide mais infructueuse, mais n'a jamais reçu de réponse). Cependant, également avec une recherche plus élaborée, je n'ai pu retrouver aucun document.
Quelqu'un est-il au courant de ces constatations? Sinon, que dit l'expérience personnelle de Big Guys ici?
la source
Réponses:
En fait, j'ai entendu une rumeur selon laquelle les machines d'apprentissage décentes sont généralement meilleures que les experts, car la tendance humaine est de minimiser la variance au détriment du biais (sur-lisse), conduisant à de mauvaises performances prédictives dans un nouvel ensemble de données. La machine est calibrée pour minimiser le MSE, et a donc tendance à faire mieux en termes de prédiction dans un nouvel ensemble de données .
la source