J'ai donc lu quelques articles sur les raisons pour lesquelles le binning doit toujours être évité. Une référence populaire pour cette affirmation est ce lien .
L'évasion principale étant que les points de binning (ou points de coupure) sont plutôt arbitraires ainsi que la perte d'informations qui en résulte, et que les splines doivent être préférées.
Cependant, je travaille actuellement avec l'API Spotify, qui a un tas de mesures de confiance continues pour plusieurs de leurs fonctionnalités.
En regardant une caractéristique, "l'instrumentalité", les références indiquent:
Prédit si une piste ne contient pas de voix. Les sons «Ooh» et «aah» sont traités comme instrumentaux dans ce contexte. Les morceaux de rap ou de mots parlés sont clairement «vocaux». Plus la valeur instrumentale est proche de 1,0, plus la piste ne contient aucun contenu vocal. Les valeurs supérieures à 0,5 sont censées représenter des pistes instrumentales , mais la confiance est plus élevée lorsque la valeur approche de 1,0.
Étant donné la distribution très asymétrique de mes données (environ 90% des échantillons sont à peine supérieurs à 0, j'ai trouvé judicieux de transformer cette fonctionnalité en deux fonctionnalités catégorielles: "instrumentale" (tous les échantillons avec une valeur supérieure à 0,5) et "non_instrumental" "(pour tous les échantillons dont la valeur est inférieure à 0,5).
Est-ce mal? Et quelle aurait été l'alternative, alors que presque toutes mes données (continues) tournent autour d'une seule valeur? D'après ce que je comprends des splines, elles ne fonctionneraient pas non plus avec les problèmes de classification (ce que je fais).
Réponses:
Il est légèrement exagéré de dire que le binning doit être évité à tout prix , mais il est certain que le binning introduit des choix de bin qui introduisent une certaine arbitraire dans l'analyse. Avec les méthodes statistiques modernes, il n'est généralement pas nécessaire de procéder au binning, car tout ce qui peut être fait sur des données "groupées" discrétisées peut généralement être fait sur les valeurs continues sous-jacentes.
L'utilisation la plus courante du "binning" en statistique est dans la construction d'histogrammes. Les histogrammes sont similaires à la classe générale des estimateurs de densité de noyau (KDE), dans la mesure où ils impliquent l'agrégation de fonctions de pas sur les cases choisies, tandis que le KDE implique l'agrégation de noyaux plus lisses. La fonction de pas utilisée dans un histogramme n'est pas une fonction lisse, et il est généralement possible de choisir de meilleures fonctions de noyau qui sont moins arbitraires avec la méthode KDE, ce qui donne également de meilleures estimations de la densité sous-jacente des données. Je dis souvent aux étudiants qu'un histogramme n'est qu'un "KDE du pauvre". Personnellement, je n'en utiliserais jamais un, car il est si facile d'obtenir un KDE sans regrouper les données, ce qui donne des résultats supérieurs sans choix de regroupement arbitraire.
Une autre utilisation courante du "binning" se produit lorsqu'un analyste souhaite discrétiser des données continues dans des bacs afin d'utiliser des techniques analytiques qui utilisent des valeurs discrètes. Cela semble être ce qui est suggéré dans la section que vous citez concernant la prédiction des sons vocaux. Dans de tels cas, le binning présente un caractère arbitraire et entraîne également une perte d'informations. Il est encore préférable d'éviter cela si possible, en essayant de former un modèle directement sur les valeurs continues sous-jacentes, plutôt que de former un modèle sur les valeurs "groupées" discrétisées.
En règle générale, il est souhaitable que les statisticiens évitent les techniques analytiques qui introduisent des hypothèses arbitraires, en particulier dans les cas où des techniques alternatives sont disponibles pour éviter facilement ces hypothèses. Je suis donc d'accord avec le sentiment que le binning n'est généralement pas nécessaire. Il ne doit certainement pas être évité à tout prix car les coûts sont importants, mais il doit généralement être évité lorsqu'il existe des techniques alternatives simples qui permettent de l'éviter sans aucun inconvénient sérieux.
la source
Je plaiderais normalement fortement contre la catégorisation des variables continues pour les raisons bien exprimées par d'autres notables Frank Harrell. Dans ce cas, il pourrait être utile de se poser des questions sur le processus qui a généré les scores. Il semble que la plupart des scores soient effectivement nuls, peut-être avec un peu de bruit ajouté. Certains d'entre eux sont de nouveau assez proches de l'unité avec le bruit. Très peu se situent entre les deux. Dans ce cas, il semble plutôt plus justifié de catégoriser car on pourrait soutenir que modulo le bruit c'est une variable binaire. Si l'on l'adapte comme une variable continue, les coefficients auraient un sens en termes de changement dans la variable prédictive mais dans ce cas sur la majeure partie de son étendue, la variable est très peu peuplée, ce qui semble peu attrayant.
la source
Imaginez que vous ayez une montre qui ne montre que les heures. Je veux seulement dire qu'il n'a que la flèche de l'heure qui, une fois par heure, fait un saut de 1/12 à une autre heure, il ne se déplace pas en douceur. Une telle horloge ne serait pas très utile, car vous ne sauriez pas si elle est deux heures cinq, deux heures et demie ou dix à trois. C'est le problème avec les données regroupées , il perd des détails et introduit les changements "sautants".
la source
Pour certaines applications, y compris apparemment celle que vous envisagez, le binning peut être strictement nécessaire. Évidemment, pour effectuer un problème de catégorisation, à un moment donné, vous devez retirer les données catégorielles de votre modèle, et à moins que vos entrées ne soient toutes catégoriques également, vous devrez effectuer un regroupement. Prenons un exemple:
Cependant, ce que vous avez entendu peut bien être vrai, dans la mesure où le regroupement prématuré de valeurs intermédiaires rend des informations qui auraient pu être conservées. Si le but ultime de votre projet est de déterminer si vous "aimerez" la chanson en question, qui peut être déterminée par deux facteurs: "instrumentalité" et "rockitude", vous feriez probablement mieux de les conserver en tant que variables continues jusqu'à ce que vous besoin de retirer la «sympathie» comme une variable catégorielle.
ou quels que soient les coefficients que vous jugez les plus appropriés, ou tout autre modèle adapté à votre ensemble d'entraînement.
Si, au contraire, vous décidez si quelque chose est "instrumental" (vrai ou faux) et "rocheux" (vrai ou faux), alors vous avez vos 4 catégories présentées devant vous comme un jour:
Mais alors, tout ce que vous pouvez décider, c'est laquelle de ces 4 catégories vous "aimez". Vous avez renoncé à la flexibilité dans votre décision finale.
La décision de bin ou de ne pas bin dépend entièrement de votre objectif. Bonne chance.
la source
Bien sûr, maintenant que vous avez présentéwm a x, wm i n, et l0 , donc techniquement P( R ) → P( R | wm a x, wm i n, l0) P( R ) P( R | wm a x, wm i n, l0) = P( R )
Dans le contexte de la question du PO, je serais satisfait si le seuil arbitraire 0,5 était fixé à une variété de valeurs entre des valeurs crédibles min et max, et de voir que les résultats de base de son analyse sont largement indépendants de la sélection.
la source