J'ai vu de nombreux endroits où ils ont des ensembles de données d'entrée / sortie où ils créent d'abord une ligne de régression linéaire, corrigent le biais, puis utilisent uniquement ces données pour leur modèle. Je n'ai pas compris ce qu'est cette correction de biais?
bias
bias-correction
user31820
la source
la source
Réponses:
Bien que l'énoncé du problème ne soit pas suffisamment précis pour savoir exactement à quel type de correction de biais vous faites référence, je pense que je peux en parler en termes généraux. Parfois, un estimateur peut être biaisé. Cela signifie simplement que bien qu'il puisse être un bon estimateur, sa valeur attendue ou moyenne n'est pas exactement égale au paramètre. La différence entre la moyenne de l'estimateur et la valeur réelle du paramètre est appelée le biais. Lorsqu'un estimateur est connu pour être biaisé, il est parfois possible, par d'autres moyens, d'estimer le biais, puis de modifier l'estimateur en soustrayant le biais estimé de l'estimation d'origine. Cette procédure est appelée correction de biais. Cela se fait dans le but d'améliorer l'estimation. S'il réduit le biais, il augmente également la variance.
Un bon exemple de correction de biais réussie est les estimations de correction de biais bootstrap du taux d'erreur de classification. L'estimation de resubstitution du taux d'erreur présente un biais optimiste important lorsque la taille de l'échantillon est petite. Le bootstrap est utilisé pour estimer le biais de l'estimation de resubstitution et puisque l'estimation de resubstitution sous-estime le taux d'erreur, l'estimation du biais est ajoutée à l'estimation de resubstitution pour obtenir l'estimation corrigée du biais de bootstrap du taux d'erreur. Lorsque la taille de l'échantillon est petite 30 ou moins en combinant les deux classes dans un problème à deux classes, certaines formes de l'estimation bootstrap (en particulier l'estimation 632) fournissent des estimations plus précises des taux d'erreur que la validation croisée avec omission (ce qui est très estimation presque impartiale du taux d'erreur).
la source