Je travaille sur un problème de classification qui calcule une métrique de similitude entre deux images radiographiques d'entrée. Si les images sont de la même personne (étiquette de «droite»), une métrique plus élevée sera calculée; les images d'entrée de deux personnes différentes (étiquette de «mauvais») entraîneront une mesure inférieure.
J'ai utilisé une validation croisée stratifiée de 10 fois pour calculer la probabilité de mauvaise classification. Ma taille d'échantillon actuelle est d'environ 40 correspondances correctes et 80 correspondances incorrectes, où chaque point de données est la métrique calculée. Je reçois une probabilité de mauvaise classification de 0,00, mais j'ai besoin d'une sorte d'analyse d'intervalle de confiance / d'erreur à ce sujet.
Je cherchais à utiliser un intervalle de confiance de proportion binomiale (où j'utiliserais les résultats de la validation croisée comme un étiquetage correct ou un étiquetage incorrect pour mon nombre de succès). Cependant, l'une des hypothèses sous-jacentes à l'analyse binomiale est la même probabilité de succès pour chaque essai, et je ne sais pas si la méthode derrière la classification du «bien» ou du «mal» dans la validation croisée peut être considérée comme ayant la même probabilité de succès.
La seule autre analyse à laquelle je peux penser est de répéter les X fois de validation croisée et de calculer l'écart moyen / standard de l'erreur de classification, mais je ne suis pas sûr que ce soit même approprié car je réutiliserais les données de mon taille d'échantillon relativement petite plusieurs fois.
Des pensées? J'utilise MATLAB pour toutes mes analyses et j'ai la boîte à outils Statistiques. J'apprécierais toute aide!
Réponses:
Influence de l'instabilité dans les prédictions de différents modèles de substitution
Eh bien, généralement, cette équivalence est une hypothèse qui est également nécessaire pour vous permettre de regrouper les résultats des différents modèles de substitution.
En pratique, votre intuition que cette hypothèse peut être violée est souvent vraie. Mais vous pouvez mesurer si c'est le cas. C'est là que je trouve la validation croisée itérée utile: la stabilité des prédictions pour le même cas par différents modèles de substitution vous permet de juger si les modèles sont équivalents (prédictions stables) ou non.
Voici un schéma de validation croisée itérative (aka répétée) pli:k
Les classes sont rouges et bleues. Les cercles à droite symbolisent les prédictions. À chaque itération, chaque échantillon est prédit exactement une fois. Habituellement, la moyenne générale est utilisée comme estimation de la performance, en supposant implicitement que la performance des modèles de substitution est égale. Si vous recherchez pour chaque échantillon les prédictions faites par différents modèles de substitution (c'est-à-dire à travers les colonnes), vous pouvez voir la stabilité des prédictions pour cet échantillon.je ⋅ k
Vous pouvez également calculer les performances pour chaque itération (bloc de 3 lignes dans le dessin). Tout écart entre ces deux moyens signifie que l'hypothèse que les modèles de substitution sont équivalents (les uns aux autres et en outre au "grand modèle" construit sur tous les cas) n'est pas remplie. Mais cela vous indique également combien d'instabilité vous avez. Pour la proportion binomiale, je pense que tant que la véritable performance est la même (c'est-à-dire indépendante, que toujours les mêmes cas soient mal prédits ou si le même nombre mais différents cas sont mal prédits). Je ne sais pas si l'on pourrait raisonnablement supposer une distribution particulière pour les performances des modèles de substitution. Mais je pense que c'est en tout cas un avantage par rapport à la déclaration courante des erreurs de classification si vous signalez cette instabilité.k k
Le dessin est une version plus récente de la fig. 5 dans cet article: Beleites, C. & Salzer, R .: Évaluation et amélioration de la stabilité des modèles chimiométriques dans des situations de petite taille d'échantillon, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Notez que lorsque nous avons écrit le document, je n'avais pas encore pleinement compris les différentes sources de variance que j'ai expliquées ici - gardez cela à l'esprit. Je pense donc que l' argumentationpour une estimation efficace de la taille de l'échantillon, il n'est pas correct, même si la conclusion de l'application selon laquelle différents types de tissus au sein de chaque patient contribuent à autant d'informations globales qu'un nouveau patient avec un type de tissu donné est probablement toujours valable (j'ai un type de des preuves qui le montrent également). Cependant, je ne suis pas encore complètement sûr de cela (ni comment le faire mieux et donc pouvoir vérifier), et ce problème n'est pas lié à votre question.
Quelles performances utiliser pour l'intervalle de confiance binomial?
Jusqu'à présent, j'ai utilisé les performances moyennes observées. Vous pouvez également utiliser la pire performance observée: plus la performance observée est proche de 0,5, plus la variance est grande et donc l'intervalle de confiance. Ainsi, les intervalles de confiance des performances observées les plus proches de 0,5 vous donnent une "marge de sécurité" conservatrice.
Notez que certaines méthodes de calcul des intervalles de confiance binomiaux fonctionnent également si le nombre de succès observé n'est pas un entier. J'utilise «l'intégration de la probabilité postérieure bayésienne» comme décrit dans
Ross, TD: intervalles de confiance précis pour la proportion binomiale et l'estimation du taux de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Je ne sais pas pour Matlab, mais dans R, vous pouvez utiliser les
binom::binom.bayes
deux paramètres de forme définis sur 1).Voir aussi: Bengio, Y. et Grandvalet, Y .: No Unbias Estimator of the Variance of K-Fold Cross-Validation, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Penser plus à ces choses est sur ma liste de tâches de recherche ..., mais comme je viens de la science expérimentale, j'aime compléter les conclusions théoriques et de simulation avec des données expérimentales - ce qui est difficile ici car j'aurais besoin d'un grand ensemble de cas indépendants pour les tests de référence)
Mise à jour: est-il justifié de supposer une distribution biomiale?
la source
Je pense que votre idée de répéter la validation croisée plusieurs fois est juste.
Répétez votre CV, disons 1000 fois, chaque fois en divisant vos données en 10 parties (pour un CV 10 fois) d'une manière différente (ne mélangez pas les étiquettes). Vous obtiendrez 1000 estimations de la précision de la classification. Bien sûr, vous réutiliserez les mêmes données, donc ces 1000 estimations ne seront pas indépendantes. Mais cela s'apparente à la procédure de bootstrap: vous pouvez prendre l' écart-type sur ces précisions comme l' erreur standard de la moyenne de votre estimateur de précision globale. Ou un intervalle de 95% comme intervalle de confiance à 95%.
Alternativement, vous pouvez combiner la boucle de validation croisée et la boucle de bootstrap, et sélectionner simplement au hasard (peut-être stratifié au hasard) 10% de vos données comme ensemble de test, et faites-le 1000 fois. Le même raisonnement que ci-dessus s'applique également ici. Cependant, cela entraînera une plus grande variance par rapport aux répétitions, donc je pense que la procédure ci-dessus est meilleure.
Si votre taux de classification erronée est de 0,00, votre classificateur ne fait aucune erreur et si cela se produit à chaque itération d'amorçage, vous n'aurez aucun intervalle de confiance large. Mais cela signifierait simplement que votre classificateur est à peu près parfait, donc bon pour vous.
la source
L'erreur de classification est à la fois discontinue et une règle de notation incorrecte. Il a une faible précision et l'optimisation sélectionne les mauvaises caractéristiques et leur donne les mauvais poids.
la source