Intervalle de prédiction basé sur la validation croisée (CV)

19

Dans les manuels et les conférences sur YouTube, j'ai beaucoup appris sur les modèles itératifs tels que le boost, mais je n'ai jamais rien vu sur la dérivation d'un intervalle de prédiction.

La validation croisée est utilisée pour les éléments suivants:

  • Sélection des modèles: essayez différents modèles et choisissez celui qui vous convient le mieux. En cas de boost, utilisez CV pour sélectionner les paramètres de réglage.
  • Évaluation du modèle : estimer les performances du modèle sélectionné

Plusieurs paramètres sont importants pour l'évaluation du modèle, l'un d'eux est l'erreur de prédiction attendue. La validation croisée fournit une bonne estimation de l'erreur de prédiction, comme décrit dans le livre "The Elements of Statistical Learning".

Mais comment utiliser l'erreur de prédiction attendue pour construire un intervalle de prédiction?

Et si vous prédisez le prix d'une maison par exemple, l'intervalle de prédiction sera plus élevé pour une maison de 500.000 € par rapport à une maison de 200.000 €. Comment estimons-nous ces intervalles de prédiction en utilisant la validation croisée?

Kasper
la source
C'est un pas dans la bonne direction: blog.datadive.net/prediction-intervals-for-random-forests
Kasper
Je pense que ce que vous cherchez, ce sont des prédictions conformes. Voir l'article de Shafer et Vovk jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf .
Alexey Zaytsev
Pourriez-vous expliquer pourquoi vous pensez que l'intervalle de prédiction serait "plus élevé" pour une maison de 500k par rapport à une maison de 200k? Est-ce une fonction du nombre d'échantillons? Pouvez-vous supposer que les échantillons sont tirés de la distribution totale?
justanotherbrain

Réponses:

3

Après avoir relu cette question, je peux vous donner la limite suivante:

Supposons que les échantillons sont tirés iid, la distribution est fixe et la perte est limitée par , puis avec une probabilité d'au moins , 1 - δ E [ E ( h ) ] E ( h ) + B B1δ

E[E(h)]E^(h)+Blog1δ2m

où est la taille de l'échantillon et est la confiance. La limite tient trivialement à l'inégalité de McDiarmid.1 - δm1δ

m est la taille de l'échantillon, est l'erreur de généralisation et est l'erreur de test pour l'hypothèse.E[E(h)]E^(h)

Veuillez ne pas signaler uniquement l'erreur de validation croisée ni l'erreur de test, celles-ci n'ont généralement aucun sens car ce ne sont que des estimations ponctuelles.


Ancien poste pour enregistrement:

Je ne suis pas sûr d'avoir bien compris votre question, mais je vais essayer.

Premièrement, je ne sais pas comment vous définiriez un intervalle de prédiction pour la sélection du modèle, car, si je comprends bien, les intervalles de prédiction font certaines hypothèses de distribution. Au lieu de cela, vous pouvez dériver des inégalités de concentration, qui ont essentiellement lié une variable aléatoire par sa variance pour une certaine probabilité. Les inégalités de concentration sont utilisées à travers l'apprentissage automatique, y compris la théorie avancée de l'amplification. Dans ce cas, vous voulez limiter l'erreur de généralisation (votre erreur en général, les points que vous n'avez pas vus) par votre erreur empirique (votre erreur sur l'ensemble de test) plus un terme de complexité et un terme qui se rapporte à la variance.

Maintenant, je dois dissiper un malentendu sur la validation croisée qui est extrêmement courant. La validation croisée ne vous donnera qu'une estimation impartiale de l'erreur attendue d'un modèle POUR UNE TAILLE D'ÉCHANTILLON FIXE. La preuve de cela ne fonctionne que pour le protocole d'exclusion. C'est en fait assez faible, car cela ne vous donne aucune information concernant la variance. D'un autre côté, la validation croisée renverra un modèle qui est proche de la solution de minimisation du risque structurel, qui est la meilleure solution théoriquement. Vous pouvez trouver la preuve en annexe ici: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

Alors, comment dériver une borne de généralisation? (N'oubliez pas qu'une borne de généralisation est essentiellement un intervalle de prédiction sur l'erreur de généralisation pour un modèle spécifique). Eh bien, ces limites sont spécifiques à l'algorithme. Malheureusement, il n'y a qu'un seul manuel qui délimite tous les algorithmes couramment utilisés dans l'apprentissage automatique (y compris le boosting). Le livre est Foundations of Machine Learning (2012) par Mohri, Rostamizadeh et Talwalkar. Pour les diapositives de conférence qui couvrent le matériel, vous pouvez les trouver sur la page Web de Mohri: http://www.cs.nyu.edu/~mohri/ml14/

Bien que Elements of Statistical Learning soit un livre important et quelque peu utile, il n'est pas très rigoureux et il omet de nombreux détails techniques très importants concernant les algorithmes et omet complètement toute sorte de limites de généralisation. Foundations of Machine Learning est le livre le plus complet pour l'apprentissage automatique (ce qui est logique vu qu'il a été écrit par certains des meilleurs dans le domaine). Cependant, le manuel est avancé, alors méfiez-vous des détails techniques.

La généralisation liée au boosting peut être trouvée (avec preuve) ici: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

J'espère que ce sont suffisamment de pointeurs pour répondre à votre question. J'hésite à donner une réponse complète car il faudra environ 50 pages pour parcourir tous les détails nécessaires, sans parler des discussions préliminaires ...

Bonne chance!

justanotherbrain
la source
Donc, si je comprends bien, cela donne une limite supérieure pour l'erreur de généralisation pour tout quantile, sur l'ensemble de la distribution (sur la base de certaines hypothèses). Cependant, je ne comprends pas votre phrase "Veuillez ne signaler ni l'erreur de validation croisée ni l'erreur de test". Voulez-vous dire que ces deux mesures sont inutiles ou sont-elles simplement inutiles pour essayer de trouver un intervalle de prédiction?
LouisBBBB
@LouisBBBB L'erreur CV et l'erreur de test sont un peu comme rapporter une moyenne d'échantillon. C'est généralement une mauvaise pratique de rapporter la moyenne de l'échantillon sans une sorte d'intervalle de confiance, car chaque fois que je lance l'expérience, j'obtiens un résultat différent. J'ai dit vide de sens, mais peut-être "inutile" est mieux ... On pourrait dire qu'il y a du sens dans une estimation ponctuelle (c'est-à-dire la définition). Mais les estimations ponctuelles, en général, sont "inutiles" dans le sens où elles ne caractérisent pas la distribution des erreurs de "manière utile". "Utile" dans le contexte de la prise de décisions.
justanotherbrain
Je pense que je comprends ce que vous dites. Vous préférez donc analyser la distribution des erreurs plutôt que la moyenne. Et si je reviens à la question, Kasper voulait des estimations des intervalles de prédiction "par point". Votre réponse était une limite supérieure globale pour la longueur de l'intervalle de prédiction (ou quelque chose de proche), n'est-ce pas? Alors, connaissez-vous un moyen d'obtenir une limite supérieure locale?
LouisBBBB
Ah - merci d'avoir clarifié. Je pense que j'ai mal compris la question de @ Kasper et j'ai beaucoup de questions de suivi. Merci de l'avoir signalé, je vais creuser.
justanotherbrain