Comment aborder la concurrence numer.ai avec des prédicteurs numériques à échelle anonyme?

9

Numer.ai existe depuis un certain temps maintenant et il ne semble y avoir que peu de messages ou d'autres discussions à ce sujet sur le Web.

Le système a changé de temps en temps et la configuration d'aujourd'hui est la suivante:

  1. former (N = 96K) et tester (N = 33K) des données avec 21 entités avec des valeurs continues en [0,1] et une cible binaire.
  2. Les données sont propres (aucune valeur manquante) et mises à jour toutes les 2 semaines. Vous pouvez télécharger vos prédictions (sur l'ensemble de test) et voir la perte de journal. Une partie des données de test sont même des données en direct et vous êtes payé pour de bonnes prévisions.

Ce que je voudrais discuter:

Comme les fonctionnalités sont totalement anonymes, je pense que nous ne pouvons pas faire beaucoup d'ingénierie des fonctionnalités. Mon approche est donc très mécanique:

  1. inspiré par cela, j'utilise un algorithme de classification pour filtrer les données d'entraînement qui correspondent le mieux à mes données de test.
  2. Découvrez un joli prétraitement
  3. former de beaux algorithmes de classification
  4. en construire des ensembles (empilement, ..).

La question concrète:

Concernant l'étape 1: Avez-vous de l'expérience avec une telle approche? Supposons que j'ordonne la probabilité que les échantillons de train appartiennent au test (généralement en dessous de 0,5), puis je prends les plus grandes probabilités K. Comment choisiriez-vous K? J'ai essayé avec 15K .. mais surtout d'avoir un petit ensemble de données d'entraînement afin d'accélérer l'entraînement à l'étape 3.

Concernant l'étape 2: Les données sont déjà à l'échelle 0,1. Si j'applique une transformation linéaire (semblable à PCA), je briserais cette échelle. Que feriez-vous en prétraitement si vous avez de telles données numériques et que vous ne savez pas du tout si c'est le cas?

PS: Je suis conscient que parce que numer.ai paie les gens qui discutent de cela pourraient m'aider à gagner de l'argent. Mais comme c'est public, cela aiderait n'importe qui là-bas ...

PPS: Le classement d'aujourd'hui a un modèle intéressant: les deux premiers avec une perte de journal de 0,64xx, puis le numéro 3 avec 0,66xx et la plupart des prédicteurs atteignent 0,68888x.

Ainsi, il semble y avoir un très petit top field et beaucoup de gars moyennement réussis (dont moi).

Richard
la source

Réponses:

2

J'ai regardé l'approche et je sélectionnerais K en essayant une plage, c'est-à-dire 5k, 10k, 15k, etc. 15, 16, 17 et ainsi de suite.

Jusqu'à présent, je n'ai trouvé aucun prétraitement efficace.

Répondre au commentaire:

J'ai essayé d'utiliser LogisticRegression, SVM, Neural Networks, RandomForests, Multinomial NB, Extra Trees. Tous sauf Neural Networks utilisant les implémentations de sklearn. PyBrain pour le NN.

John
la source
Vous pouvez peut-être ajouter plus de détails? Oui, nous essayons des données d'entraînement de différentes tailles. Quel prétraitement avez-vous essayé? quels classificateurs? Merci!
Richard