Je sais que cela a probablement été discuté ailleurs, mais je n'ai pas pu trouver de réponse explicite. J'essaie d'utiliser la formule pour calculer hors échantillon d'un modèle de régression linéaire, où est la somme des carrés des résidus et est la somme totale des carrés. Pour l'ensemble de formation, il est clair queR 2 S S R S S T
Qu'en est-il de l'ensemble de test? Dois-je continuer à utiliser pour l'échantillon ou utiliser place?y ˉ y test
J'ai trouvé que si j'utilise , le résultant peut parfois être négatif. Ceci est cohérent avec la description de la fonction de sklearn , où ils ont utilisé (qui est également utilisé par la fonction de leur linear_model pour tester des échantillons). Ils affirment qu '"un modèle constant qui prédit toujours la valeur attendue de y, sans tenir compte des caractéristiques d'entrée, obtiendrait un score R ^ 2 de 0,0".R2 ˉ y testr2_score()
score()
Cependant, dans d'autres endroits, les gens ont utilisé comme ici et ici (la deuxième réponse de dmi3kno). Je me demandais donc ce qui avait le plus de sens? Tout commentaire sera grandement apprécié!
la source