J'ai fait un problème de classification et j'ai lu le code et les tutoriels de beaucoup de gens. Une chose que j'ai remarquée, c'est que beaucoup de gens prennent np.log
ou log
de variable continue comme loan_amount
ou applicant_income
etc.
Je veux juste comprendre la raison derrière cela. Cela aide-t-il à améliorer la précision de nos prédictions de modèles? Est-ce obligatoire? ou Y a-t-il une logique derrière cela?
Veuillez fournir des explications si possible. Je vous remercie.
Principalement à cause d'une distribution asymétrique. Le logarithme réduit naturellement la plage dynamique d'une variable afin que les différences soient préservées alors que l'échelle n'est pas si asymétrique. Imaginez que certaines personnes ont obtenu un prêt de 100 000 000 et certaines ont obtenu 10000 et certains 0. Toute mise à l'échelle des fonctionnalités mettra probablement 0 et 10000 si près l'une de l'autre que le plus grand nombre repousse de toute façon la frontière. Le logarithme résout le problème.
la source
la source
Encore une autre raison pour laquelle les transformations logarithmiques sont utiles entre en jeu pour les données de rapport, du fait que
log(A/B) = -log(B/A)
. Si vous tracez une distribution des ratios sur l'échelle brute, vos points tombent dans la plage(0, Inf)
. Tous les ratios inférieurs à 1 seront écrasés dans une petite zone de l'intrigue, et en outre, l'intrigue sera complètement différente si vous inversez le ratio à la(B/A)
place de(A/B)
. Si vous le faites sur une échelle logarithmique, la plage est maintenant(-Inf, +Inf)
, ce qui signifie que les ratios inférieurs à 1 et supérieurs à 1 sont plus également répartis. Si vous décidez d'inverser le rapport, vous inversez simplement l'intrigue autour de 0, sinon il a exactement la même apparence. Sur une échelle logarithmique, cela n'a pas vraiment d'importance si vous affichez un ratio comme1/10 or 10/1
, ce qui est utile lorsqu'il n'y a pas de choix évident sur lequel il devrait être.la source
Vous devriez regarder la distribution lognormale .
Les gens peuvent utiliser des journaux parce qu'ils pensent que cela comprime l'échelle ou quelque chose, mais l'utilisation de principes des journaux est que vous travaillez avec des données qui ont une distribution log-normale. Cela tendra à être des choses comme les salaires, les prix des logements, etc., où toutes les valeurs sont positives et la plupart sont relativement modestes, mais certaines sont très importantes.
Si vous pouvez prendre le journal des données et que cela devient normal, alors vous pouvez profiter de nombreuses fonctionnalités d'une distribution normale, comme la moyenne bien définie, l'écart type (et donc les scores z), la symétrie, etc.
De même, l'ajout de journaux est identique à la multiplication des valeurs non enregistrées. Ce qui signifie que vous avez transformé une distribution où les erreurs sont additives en une où elles sont multiplicatives (c'est-à-dire basées sur un pourcentage). Étant donné que des techniques telles que la régression OLS nécessitent une distribution d'erreur normale, l'utilisation des journaux étend leur applicabilité des processus additifs aux processus multiplicatifs.
la source
Je dirais que la raison principale n'est pas distributionnelle mais plutôt à cause de la relation non linéaire. Les journaux capturent souvent des relations saturantes ...
la source