Je fais une validation croisée en utilisant la méthode du congé-un. J'ai une réponse binaire et j'utilise le package de démarrage pour R et la fonction cv.glm . Mon problème est que je ne comprends pas bien la partie "coût" de cette fonction. D'après ce que je peux comprendre, c'est la fonction qui décide si une valeur estimée doit être classée en 1 ou en 0, c'est-à-dire la valeur seuil pour la classification. Est-ce correct?
Et, dans l'aide en R ils utilisent cette fonction pour un modèle binomial: cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)
. Comment interpréter cette fonction? afin que je puisse le modifier correctement pour mon analyse.
Toute aide est appréciée, je ne veux pas utiliser une fonction que je ne comprends pas.
la source
Tout d'abord, vous avez défini un seuil de 0,5. Votre r est 0/1, mais pi est la probabilité. Le coût individuel est donc de 1 si l'erreur absolue est supérieure à 0,5, sinon 0. Ensuite, cette fonction calcule le taux d'erreur moyen. Mais rappelez-vous, le seuil a été défini avant de définir votre fonction de coût.
En fait, je pense que cela a plus de sens si le choix du seuil est déterminé par la fonction de coût.
la source
La réponse de @SLi explique déjà très bien ce que fait la fonction de coût que vous avez définie. Cependant, j'ai pensé ajouter que la fonction de coût est utilisée pour calculer la
delta
valeur à partir decv.glm
, qui est une mesure de l'erreur de validation croisée. Cependant,delta
la moyenne pondérée de l'erreur de chaque pli donnée par le coût est critique . Nous voyons cela en inspectant le bit pertinent du code:et la valeur retournée par la fonction est:
la source