J'ai monté mon modèle et j'essaie de comprendre si c'est bon. J'ai calculé les métriques recommandées pour l'évaluer ( / AUC / précision / erreur de prédiction / etc) mais je ne sais pas comment les interpréter. En bref, comment savoir si mon modèle est bon en fonction de la métrique? Est un de 0,6 (par exemple) suffisante pour me laisser procéder à tirer des conclusions ou de la base des décisions scientifiques / d'affaires?
Cette question est intentionnellement large, pour couvrir une grande variété de situations que les membres rencontrent fréquemment; ces questions pourraient être fermées en double de celle-ci. Les modifications visant à élargir la portée au-delà des mesures mentionnées ici sont les bienvenues, tout comme les réponses supplémentaires - en particulier celles qui offrent un aperçu des autres classes de mesures.
la source
Réponses:
Cette réponse se concentrera principalement surR2 , mais la majeure partie de cette logique s'étend à d'autres mesures telles que l'AUC et ainsi de suite.
Les lecteurs de CrossValidated ne peuvent certainement pas répondre correctement à cette question. Il n'existe aucun moyen sans contexte de décider si les métriques de modèle telles queR2 sont bonnes ou non . Aux extrêmes, il est généralement possible d'obtenir le consensus d'une grande variété d'experts: un R2 de près de 1 indique généralement un bon modèle et de près de 0 indique un terrible. Entre les deux se trouve une plage où les évaluations sont intrinsèquement subjectives. Dans cette gamme, il faut plus qu'une simple expertise statistique pour savoir si votre métrique de modèle est bonne. Il faut une expertise supplémentaire dans votre domaine, que les lecteurs CrossValidated n'ont probablement pas.
Pourquoi est-ce? Permettez-moi d'illustrer avec un exemple de ma propre expérience (détails mineurs modifiés).
J'avais l'habitude de faire des expériences de laboratoire de microbiologie. Je mettrais en place des flacons de cellules à différents niveaux de concentration en nutriments et mesurerais la croissance de la densité cellulaire (c'est-à-dire la pente de la densité cellulaire en fonction du temps, bien que ce détail ne soit pas important). Lorsque j'ai ensuite modélisé cette relation croissance / nutriment, il était courant d'obtenir des valeursR2 > 0,90.
Je suis maintenant spécialiste de l'environnement. Je travaille avec des jeux de données contenant des mesures de la nature. Si j'essaie d'adapter exactement le même modèle décrit ci-dessus à ces ensembles de données «de terrain», je serais surpris si leR2 atteignait 0,4.
Ces deux cas impliquent exactement les mêmes paramètres, avec des méthodes de mesure très similaires, des modèles écrits et ajustés en utilisant les mêmes procédures - et même la même personne qui fait le montage! Mais dans un cas, unR2 de 0,7 serait une faiblesse inquiétante, et dans l'autre , il serait soupçonneux élevé.
De plus, nous prendrions des mesures chimiques parallèlement aux mesures biologiques. Les modèles pour les courbes standard de la chimie devraientR2 autour de 0,99, et une valeur de 0,90 serait inquiétant faible .
Qu'est-ce qui conduit à ces grandes différences d'attentes? Le contexte. Ce terme vague couvre un vaste domaine, alors permettez-moi d'essayer de le séparer en quelques facteurs plus spécifiques (ce qui est probablement incomplet):
1. Quel est le gain / la conséquence / l'application?
(J'espère que vous avez apprécié l'exemple - l'alternative était déprimante concernant l'identification algorithmique très contestable des terroristes).
2. Quelle est l'influence de facteurs non modélisés dans votre système?
3. Vos mesures sont-elles précises et précises?
4. Complexité et généralisabilité du modèle
Si vous ajoutez plus de facteurs à votre modèle, même aléatoires, vous augmenterez en moyenne le modèleR2 (ajustéR2
Si le sur-ajustement est ignoré ou n’est pas évité avec succès, le R 2 estiméR2 R2
OMI, le sur-ajustement est étonnamment commun dans de nombreux domaines. La meilleure façon d'éviter cela est un sujet complexe, et je recommande de lire les procédures de régularisation et la sélection de modèles sur ce site si cela vous intéresse.
5. Gamme de données et extrapolation
Votre ensemble de données s'étend-il sur une partie substantielle de la plage de valeurs X qui vous intéresse? L'ajout de nouveaux points de données en dehors de la plage de données existante peut avoir un effet important sur l'estimationR2
En plus de cela, si vous ajustez un modèle à un ensemble de données et que vous devez prédire une valeur en dehors de la plage X de cet ensemble de données (c.-à-d. extrapoler ), vous pourriez constater que ses performances sont inférieures à celles attendues. En effet, la relation que vous avez estimée pourrait bien changer en dehors de la plage de données que vous avez ajustée. Dans la figure ci-dessous, si vous avez pris des mesures uniquement dans la plage indiquée par la case verte, vous pourriez imaginer qu'une ligne droite (en rouge) décrivait bien les données. Mais si vous tentiez de prédire une valeur en dehors de cette plage avec cette ligne rouge, vous seriez tout à fait incorrect.
[La figure est une version modifiée de celle-ci , trouvée via une recherche rapide sur Google pour «courbe Monod».]
6. Les mesures ne vous donnent qu'une partie de l'image
Ce n'est pas vraiment une critique des métriques - elles sont résumés , ce qui signifie qu'ils jettent également des informations par conception. Mais cela signifie que toute métrique unique laisse de côté les informations qui peuvent être cruciales pour son interprétation. Une bonne analyse prend en considération plus d'une seule métrique.
Suggestions, corrections et autres commentaires bienvenus. Et d'autres réponses aussi, bien sûr.
la source
Ce problème se pose dans mon domaine de l'hydrologie lors de l'évaluation de la façon dont les modèles prédisent le débit des données pluviométriques et climatiques. Certains chercheurs ( Chiew et McMahon, 1993 ) ont interrogé 93 hydrologues (63 ont répondu) pour savoir quels graphiques de diagnostic et statistiques de qualité de l'ajustement ils ont utilisés, qui étaient les plus importants, et comment ils ont été utilisés pour classer la qualité de l'ajustement d'un modèle. . Les résultats sont désormais datés mais l'approche peut encore être intéressante. Ils ont présenté les résultats des ajustements de modèles de différentes qualités et ont demandé aux hydrologues de les classer en 4 catégories (1) résultat parfaitement acceptable; (2) acceptable mais à utiliser avec réservation; (3) inacceptable, utiliser uniquement s'il n'y a pas d'autre alternative; et (4) ne jamais utiliser dans aucune condition.
Les graphiques de diagnostic les plus importants étaient les diagrammes de série temporelle et les diagrammes de dispersion des flux simulés et enregistrés à partir des données utilisées pour l'étalonnage. Le coefficient d'efficacité (E) du modèle R et du modèle de Nash-Sutcliffe était la qualité préférée des statistiques d'ajustement. Par exemple, les résultats étaient jugés acceptables si E => 0,8
Il existe d'autres exemples dans la littérature. Lors de l'évaluation d'un modèle d'écosystème en mer du Nord, la catégorisation suivante a été utilisée E> 0,65 excellent, 0,5 à 0,65 très bon, 0,2 à 0,5 aussi bon et <0,2 aussi mauvais ( Allen et al., 2007 ).
Moriasi et al., (2015) fournit des tableaux de valeurs acceptables pour les mesures pour divers types de modèles.
J'ai résumé ces informations et références dans un article de blog .
Allen, J., P. Somerfield et F. Gilbert (2007), Quantifier l'incertitude dans les modèles hydrodynamiques et écosystémiques couplés à haute résolution, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.
Moriasi, D., Gitau, M. Pai, N. et Daggupati, P. (2015) Hydrologic and Water Quality Models: Performance Measures and Evaluation Criteria Transactions of the ASABE (American Society of Agricultural and Biological Engineers) 58 (6): 1763-1785
la source
Pour ajouter aux bonnes réponses ci-dessus - d'après mon expérience, les mesures d'évaluation et les outils de diagnostic sont aussi bons et honnêtes que la personne qui les utilise. Autrement dit, si vous comprenez les mathématiques derrière eux, vous pouvez probablement les augmenter artificiellement pour améliorer l'apparence de votre modèle sans augmenter son utilité réelle.
Je garderai cette réponse courte car les éléments ci-dessus font un excellent travail en fournissant des explications / références. Je voulais juste ajouter un peu de perspective sur la section sur 6. Les mesures ne vous donnent qu'une partie de l'image par la réponse de mkt.
J'espère que cela t'aides.
la source