Pourquoi éviter le binning à tout prix?

10

J'ai donc lu quelques articles sur les raisons pour lesquelles le binning doit toujours être évité. Une référence populaire pour cette affirmation est ce lien .

L'évasion principale étant que les points de binning (ou points de coupure) sont plutôt arbitraires ainsi que la perte d'informations qui en résulte, et que les splines doivent être préférées.

Cependant, je travaille actuellement avec l'API Spotify, qui a un tas de mesures de confiance continues pour plusieurs de leurs fonctionnalités.

En regardant une caractéristique, "l'instrumentalité", les références indiquent:

Prédit si une piste ne contient pas de voix. Les sons «Ooh» et «aah» sont traités comme instrumentaux dans ce contexte. Les morceaux de rap ou de mots parlés sont clairement «vocaux». Plus la valeur instrumentale est proche de 1,0, plus la piste ne contient aucun contenu vocal. Les valeurs supérieures à 0,5 sont censées représenter des pistes instrumentales , mais la confiance est plus élevée lorsque la valeur approche de 1,0.

Étant donné la distribution très asymétrique de mes données (environ 90% des échantillons sont à peine supérieurs à 0, j'ai trouvé judicieux de transformer cette fonctionnalité en deux fonctionnalités catégorielles: "instrumentale" (tous les échantillons avec une valeur supérieure à 0,5) et "non_instrumental" "(pour tous les échantillons dont la valeur est inférieure à 0,5).

Est-ce mal? Et quelle aurait été l'alternative, alors que presque toutes mes données (continues) tournent autour d'une seule valeur? D'après ce que je comprends des splines, elles ne fonctionneraient pas non plus avec les problèmes de classification (ce que je fais).

Readler
la source
10
La configuration que vous décrivez ne semble pas impliquer que le binning est une bonne idée. Vous l'avez dit vous-même, il existe des informations sur la valeur de 1,0 . À mon humble avis, vous feriez bien d'avoir une fonction continue liée à la probabilité d'être instrumentale. Vous pouvez peut-être développer votre question.
Frank Harrell
Ma question est essentiellement de savoir quand il est possible d'utiliser le binning, le cas échéant. Dans mon cas, je l'ai utilisé sur la base du domaine (instrumental / non instrumental), car je pense que c'est plus prédictif que de dire à quel point une piste est proche d'être instrumentale (puisqu'une piste est ou n'est pas instrumentale). Vous vous êtes toutefois opposé à cette logique au point 8 de votre message. En tant que novice, j'ai juste du mal à vraiment comprendre pourquoi cela devrait être.
Readler
1
J'ai écrit un long article à ce sujet dans le contexte de la modélisation prédictive: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Très instructif et approfondi, merci. Cependant, je ne vois pas la relation avec ma question (même si j'ai encore acquis de nouvelles idées, donc tout va bien!). Votre article parle de regrouper la variable prédictive dans les problèmes de régression et pourquoi c'est une mauvaise idée (contre laquelle votre article a argumenté de manière convaincante) et pourquoi l'utilisation de splines aide à modéliser la régression. Je me demandais pourquoi il est mauvais de discrétiser les valeurs d'une caractéristique continue (une entrée) dans un problème de classification (dont les variables prédictives sont intrinsèquement des "bins", c'est-à-dire des classes).
Readler
2
Si presque toutes vos fonctionnalités se trouvent à un moment donné, elles risquent de ne pas aider votre modèle, quelle que soit votre action.
Accumulation

Réponses:

15

Il est légèrement exagéré de dire que le binning doit être évité à tout prix , mais il est certain que le binning introduit des choix de bin qui introduisent une certaine arbitraire dans l'analyse. Avec les méthodes statistiques modernes, il n'est généralement pas nécessaire de procéder au binning, car tout ce qui peut être fait sur des données "groupées" discrétisées peut généralement être fait sur les valeurs continues sous-jacentes.

L'utilisation la plus courante du "binning" en statistique est dans la construction d'histogrammes. Les histogrammes sont similaires à la classe générale des estimateurs de densité de noyau (KDE), dans la mesure où ils impliquent l'agrégation de fonctions de pas sur les cases choisies, tandis que le KDE implique l'agrégation de noyaux plus lisses. La fonction de pas utilisée dans un histogramme n'est pas une fonction lisse, et il est généralement possible de choisir de meilleures fonctions de noyau qui sont moins arbitraires avec la méthode KDE, ce qui donne également de meilleures estimations de la densité sous-jacente des données. Je dis souvent aux étudiants qu'un histogramme n'est qu'un "KDE du pauvre". Personnellement, je n'en utiliserais jamais un, car il est si facile d'obtenir un KDE sans regrouper les données, ce qui donne des résultats supérieurs sans choix de regroupement arbitraire.

Une autre utilisation courante du "binning" se produit lorsqu'un analyste souhaite discrétiser des données continues dans des bacs afin d'utiliser des techniques analytiques qui utilisent des valeurs discrètes. Cela semble être ce qui est suggéré dans la section que vous citez concernant la prédiction des sons vocaux. Dans de tels cas, le binning présente un caractère arbitraire et entraîne également une perte d'informations. Il est encore préférable d'éviter cela si possible, en essayant de former un modèle directement sur les valeurs continues sous-jacentes, plutôt que de former un modèle sur les valeurs "groupées" discrétisées.

En règle générale, il est souhaitable que les statisticiens évitent les techniques analytiques qui introduisent des hypothèses arbitraires, en particulier dans les cas où des techniques alternatives sont disponibles pour éviter facilement ces hypothèses. Je suis donc d'accord avec le sentiment que le binning n'est généralement pas nécessaire. Il ne doit certainement pas être évité à tout prix car les coûts sont importants, mais il doit généralement être évité lorsqu'il existe des techniques alternatives simples qui permettent de l'éviter sans aucun inconvénient sérieux.

Ben - Réintègre Monica
la source
Je vois. Question de suivi, cependant: en regardant la distribution de l'exemple mentionné ci-dessus, voir ici (ironiquement un histogramme), je ne parviens pas à voir les utilités dans une variable continue où presque tous les échantillons tournent autour d'une valeur (ici 0), qui est c'est ce qui m'a initialement conduit à regrouper cette fonctionnalité. Vous avez mentionné l'alternative - pourriez-vous bien vouloir m'expliquer ou m'indiquer dans la bonne direction où je pourrais en savoir plus?
Readler
Essayez de lire sur les KDE et envisagez également d' autres moyens de tracer des données univariées .
Ben - Rétablir Monica le
Je cet histogramme, je vois des valeurs partout (mais, oui, surtout proche de zéro). Il ne devrait y avoir aucun inconvénient à utiliser un ajustement spline, et cela donnera certainement plus d'informations. Tracez la spline ajustée! et, si pour une raison quelconque vous devez discréditer , ce complot pourrait vous aider dans la façon dont. Il se pourrait simplement que, pour votre utilisation particulière, un autre point de coupure que 0,5 soit préférable.
kjetil b halvorsen
2
Un histogramme ne peut pas être correctement interprété comme un KDE. Quel serait le noyau?
whuber
1
En ce qui concerne votre troisième paragraphe, une question similaire s'est posée lorsque j'essayais de calculer le gain d'informations avec certaines données numériques. Pouvez-vous regarder cette question et expliquer quoi faire dans cette situation? stats.stackexchange.com/questions/384684/…
astel
4

Je plaiderais normalement fortement contre la catégorisation des variables continues pour les raisons bien exprimées par d'autres notables Frank Harrell. Dans ce cas, il pourrait être utile de se poser des questions sur le processus qui a généré les scores. Il semble que la plupart des scores soient effectivement nuls, peut-être avec un peu de bruit ajouté. Certains d'entre eux sont de nouveau assez proches de l'unité avec le bruit. Très peu se situent entre les deux. Dans ce cas, il semble plutôt plus justifié de catégoriser car on pourrait soutenir que modulo le bruit c'est une variable binaire. Si l'on l'adapte comme une variable continue, les coefficients auraient un sens en termes de changement dans la variable prédictive mais dans ce cas sur la majeure partie de son étendue, la variable est très peu peuplée, ce qui semble peu attrayant.

mdewey
la source
4
Ma courte réponse à quand le binning est OK à utiliser est la suivante: lorsque les points de discontinuité sont déjà connus avant de regarder les données (ce sont les points de terminaison du bin) et s'il est connu que la relation entre x et y dans chaque bin qui a la longueur non nulle est plate.
Frank Harrell
2

Imaginez que vous ayez une montre qui ne montre que les heures. Je veux seulement dire qu'il n'a que la flèche de l'heure qui, une fois par heure, fait un saut de 1/12 à une autre heure, il ne se déplace pas en douceur. Une telle horloge ne serait pas très utile, car vous ne sauriez pas si elle est deux heures cinq, deux heures et demie ou dix à trois. C'est le problème avec les données regroupées , il perd des détails et introduit les changements "sautants".

Tim
la source
1
(+1) Oui, et ajoutez à cela le problème supplémentaire que l'horloger peut ne pas choisir des incréments horaires, mais pourrait décider arbitrairement que sa montre sera par incréments de 19 minutes, et vous avez un problème supplémentaire au-delà de la simple perte d'informations .
Ben - Rétablir Monica le
2

Pour certaines applications, y compris apparemment celle que vous envisagez, le binning peut être strictement nécessaire. Évidemment, pour effectuer un problème de catégorisation, à un moment donné, vous devez retirer les données catégorielles de votre modèle, et à moins que vos entrées ne soient toutes catégoriques également, vous devrez effectuer un regroupement. Prenons un exemple:

Une IA sophistiquée joue au poker. Il a évalué la probabilité que sa main soit supérieure à celle des autres joueurs à 70%. C'est à son tour de parier, mais on lui a dit qu'il fallait éviter à tout prix le binning, et par conséquent ne jamais parier; il se plie par défaut.

Cependant, ce que vous avez entendu peut bien être vrai, dans la mesure où le regroupement prématuré de valeurs intermédiaires rend des informations qui auraient pu être conservées. Si le but ultime de votre projet est de déterminer si vous "aimerez" la chanson en question, qui peut être déterminée par deux facteurs: "instrumentalité" et "rockitude", vous feriez probablement mieux de les conserver en tant que variables continues jusqu'à ce que vous besoin de retirer la «sympathie» comme une variable catégorielle.

ljeke={0rockjetue3+jenstrumentunelness2<31rockjetue3+jenstrumentunelness23

ou quels que soient les coefficients que vous jugez les plus appropriés, ou tout autre modèle adapté à votre ensemble d'entraînement.

Si, au contraire, vous décidez si quelque chose est "instrumental" (vrai ou faux) et "rocheux" (vrai ou faux), alors vous avez vos 4 catégories présentées devant vous comme un jour:

  1. instrumentale, rochers
  2. non instrumentale, roches
  3. instrumentale, pas de roches
  4. non instrumentale, pas de roches

Mais alors, tout ce que vous pouvez décider, c'est laquelle de ces 4 catégories vous "aimez". Vous avez renoncé à la flexibilité dans votre décision finale.

La décision de bin ou de ne pas bin dépend entièrement de votre objectif. Bonne chance.

guenthmonstr
la source
2

R vous notifiez dépendra de l'ensemble de vous utilisez. Il est alors à vous en moyenne sur ces choix avant de signaler un résultat solide. Si vous êtes ambitieux (ou si un réviseur ne vous donne pas le choix), vous pouvez signaler la distribution de vos résultats P (R) sur l'ensemble de sélection de casier.

R{b1bN}bje=[lje,uje]ljeujeje

l=l0wl0u0=l0+ww(wmjen,wmuneX) . Pour montrer la robustesse de R, nous devons calculer

P(R)=w=wmjenwmuneXl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0-l0)wmuneX+wmjen×(wmuneX-wmjen)

Bien sûr, maintenant que vous avez présenté wmuneX,wmjen, et l0 , donc techniquement P(R)P(R|wmuneX,wmjen,l0)P(R)P(R|wmuneX,wmjen,l0)=P(R)

Dans le contexte de la question du PO, je serais satisfait si le seuil arbitraire 0,5 était fixé à une variété de valeurs entre des valeurs crédibles min et max, et de voir que les résultats de base de son analyse sont largement indépendants de la sélection.

Peter Leopold
la source