Les compétitions de Kaggle déterminent les classements finaux sur la base d'un ensemble de tests en suspens.
Un ensemble de test retenu est un échantillon; il peut ne pas être représentatif de la population modélisée. Étant donné que chaque soumission est comme une hypothèse, l'algorithme qui a remporté le concours peut, par hasard, avoir fini par correspondre mieux à l'ensemble de test que les autres. En d'autres termes, si un ensemble de tests différent était sélectionné et la compétition répétée, le classement resterait-il le même?
Pour la société commanditaire, cela n'a pas vraiment d'importance (probablement les 20 meilleures soumissions amélioreraient leur niveau de référence). Bien que, ironiquement, ils pourraient finir par utiliser un modèle de premier rang pire que les cinq autres. Mais, pour les participants à la compétition, il semble que Kaggle soit finalement un jeu de hasard - la chance n'est pas nécessaire pour tomber sur la bonne solution, elle doit tomber sur celle qui correspond à l'ensemble de test!
Est-il possible de changer la compétition pour que toutes les meilleures équipes qui ne peuvent pas être statistiquement distinguées gagnent? Ou, dans ce groupe, le modèle le plus parcimonieux ou le moins cher en calcul pourrait-il gagner?
Réponses:
Oui, votre raisonnement est correct. Si un ensemble de tests différent était sélectionné et que la compétition se répétait, le classement changerait en effet. Prenons l'exemple suivant. Toutes les entrées d'un concours Kaggle avec des étiquettes binaires sont devinées de façon aléatoire (et disons indépendamment) pour prédire leur sortie. Par chance, l'un d'entre eux sera plus d'accord avec les autres que les autres, même si aucune prédiction n'est en cours.
Bien que cela soit un peu artificiel, nous pouvons voir que la variance dans chacun des modèles de la soumission signifierait que l'application de nombreuses entrées de ce type serait en effet juste adaptée au bruit de l'ensemble de rétention. Cela nous indique que (selon les variances des modèles individuels), les modèles top-N généralisent probablement la même chose. C'est le jardin des chemins bifurqués , sauf que les "chercheurs" ne sont pas les mêmes (mais ça n'a pas d'importance).
En effet.
la source
Il existe d'autres types de compétitions à Kaggle sans éléments de chance. Par exemple, celui-ci le traîneau volé de Stanta .
C'est un problème d'optimisation discret et il n'a même pas de tableau de bord privé. Ce que vous voyez dans le tableau des leaders publics, ce sont les résultats finaux.
Comparé à l'apprentissage supervisé, qui a un début facile pour beaucoup de gens, ce type de compétition est de nature plus "dure".
la source