Comment interpréter les mesures d'erreur?

41

J'utilise la classification dans Weka pour un certain ensemble de données et j'ai remarqué que si j'essaie de prédire une valeur nominale, la sortie affiche spécifiquement les valeurs prédites correctement et incorrectement. Cependant, je l’utilise maintenant pour un attribut numérique et le résultat est le suivant:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

Comment puis-je interpréter cela? J'ai essayé de googler chaque notion, mais je ne comprends pas grand chose car les statistiques ne sont pas du tout dans mon domaine de compétence. J'apprécierais beaucoup une réponse de type ELI5 en termes de statistiques.

FloIancu
la source

Réponses:

52

Nous allons indiquent la valeur réelle d'intérêt et la valeur estimée à l' aide d' un algorithme comme θ .θθ^

La corrélation vous indique combien et θ sont liés. Il donne des valeurs entre - 1 et 1 , où 0 est sans rapport, 1 est très forte, relation linéaire et - 1 est une inverse linéaire relation (ie plus grandes valeurs de θ indiquent des valeurs plus petites de θ , ou vice - versa). Vous trouverez ci-dessous un exemple illustré de corrélation.θθ^11011θθ^

Exemple de corrélation

(source: http://www.mathsisfun.com/data/correlation.html )

L'erreur absolue moyenne est:

MAE=1Ni=1N|θ^iθi|

L' erreur quadratique moyenne est:

RMSE=1Ni=1N(θ^iθi)2

Erreur absolue relative :

RAE=i=1N|θ^iθi|i=1N|θ¯θi|

est une valeur moyenne de θ .θ¯θ

Erreur au carré relative de la racine:

RRSE=i=1N(θ^iθi)2i=1N(θ¯θi)2

θ ).

MAERMSEMSEθθ^θ

RAERRSEθ(θ¯θi)2|θ¯θi|θθ diffère de lui-même (comparer à la varianceθ

Vérifiez également ces diapositives .

Tim
la source
Merci pour ton explication! J'essaie d'évaluer la performance de divers algorithmes. Ainsi, par exemple, si j'obtiens cette autre sortie (corrélation: 0,3044, MAE: 10,832, MSE: 47,2971, RAE: 83,163%, RSE: 95,2797%) et j'essaie de la comparer à la première, que l'on pourrait dire, effectuée mieux?
FloIancu
5
Vous devez choisir le modèle avec une corrélation plus grande et des estimations d'erreur plus petites. Comme vous le voyez, il existe de nombreuses mesures de la performance du modèle (et ce ne sont que quelques-unes d’elles) et elles donnent parfois des réponses différentes. Ce n'est presque jamais le genre de réponse "oui / non" que vous obtenez. La tâche de sélection du modèle deviendrait plus facile si vous rattrapiez la théorie, vous pouvez vérifier par exemple ces conférences .
Tim
Merci beaucoup! Je suis allé de l'avant et marqué votre réponse comme la réponse parce que vous m'avez beaucoup aidé!
FloIancu
1
@Tim L'erreur absolue moyenne devrait probablement être abrégée en MAE :)
Antoine
1
@MewX Quel type de références recherchez-vous? C'est fondamentalement un RMSE redimensionné. Il n'y a pas grand chose à dire à ce sujet ...
Tim