Utilisation de la théorie de l'information en science des données appliquée

9

Aujourd'hui, j'ai parcouru le livre "Théorie de l'information: une introduction au didacticiel" de James Stone et réfléchi un instant ou deux à l' étendue de l'utilisation de la théorie de l'information en science des données appliquée (si vous n'êtes pas à l'aise avec ce terme encore quelque peu flou, pensez à l'analyse des données , dont la science des données à mon humble avis est une version glorifiée). Je connais bien l'utilisation importante d' approches , de méthodes et de mesures fondées sur la théorie de l' information , en particulier l' entropie , sous le capot de diverses techniques statistiques et méthodes d'analyse de données.

Cependant, je suis curieux de savoir l' étendue / le niveau de connaissances nécessaires à un spécialiste des sciences sociales appliquées pour sélectionner et appliquer avec succès ces concepts, mesures et outils sans plonger trop profondément dans les origines mathématiques de la théorie. J'attends vos réponses avec impatience, qui pourraient répondre à mes préoccupations dans le contexte du livre susmentionné (ou d'autres livres similaires - n'hésitez pas à recommander) ou en général.

J'apprécierais également quelques recommandations pour des sources imprimées ou en ligne qui discutent de la théorie de l'information et de ses concepts, approches, méthodes et mesures dans le contexte (en comparaison avec) d'autres approches statistiques (plus) traditionnelles ( fréquentistes et bayésiennes ).

Aleksandr Blekh
la source
2
Peut-être que l'un des cas d'utilisation de l'entropie les plus connus et les plus «appliqués» a lieu lors de la construction d'un arbre. L'une des possibilités lorsque l'algorithme se divise est de prendre la métrique de gain d'informations, qui est la différence entre l'entropie entre le niveau supérieur et le niveau inférieur. Vous avez plus d'informations ici en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro
@ D.Castro: Merci pour votre commentaire - je suis au courant de ce cas (et j'ai même posté une réponse sur ce sujet précis ici sur Cross Validated ou sur le site Data Science SE). J'espère une couverture / discussion plus complète du sujet.
Aleksandr Blekh
1
Pour moi, et en grande partie, c'est une question de discipline ou de domaine dans lequel on est formé ainsi que du continent géographique. À mon avis, les physiciens, les mathématiciens et les praticiens de l'apprentissage automatique pur sont beaucoup plus susceptibles de recevoir une exposition approfondie à la théorie de l'information que, par exemple, les statisticiens, les économistes ou les analystes financiers quantitatifs. En outre, je doublerais la situation pour les personnes formées en Europe, c'est-à-dire que les Européens sont beaucoup plus susceptibles de se familiariser avec les TI. Cependant, l'avènement de modèles d'apprentissage statistique est en train de changer celui des scientifiques des données aux États-Unis.
Mike Hunter
@DJohnson Minutest de points minute mais en Grande-Bretagne et peut-être ailleurs IT == technologies de l'information. Sinon, vos impressions ressemblent aux miennes.
Nick Cox
@NickCox Merci, votre argument vaut également pour les États. C'était un commentaire assez long et, si l'espace le permettait, j'aurais épelé les mots ou, mieux encore, j'aurais introduit la signification de l'acronyme à un moment antérieur.
Mike Hunter

Réponses:

4

Donc la première partie de la question: les scientifiques des données doivent-ils connaître la théorie de l'information ? Je pensais que la réponse était non jusqu'à très récemment. La raison pour laquelle j'ai changé d'avis est un élément crucial: le bruit.

De nombreux modèles d'apprentissage automatique (stochastiques ou non) utilisent le bruit dans le cadre de leur processus de codage et de transformation et dans bon nombre de ces modèles, vous devez déduire la probabilité que le bruit affecte après le décodage de la sortie transformée du modèle. Je pense que c'est un élément central de la théorie de l'information. Non seulement cela, dans l'apprentissage profond, la divergence KL est une mesure très importante utilisée qui vient également de la théorie de l'information.

Deuxième partie de la question: je pense que la meilleure source est la théorie de l'information, l'algorithme d'inférence et d'apprentissage de David MacKay . Il commence par la théorie de l'information et prend ces idées à la fois dans l'inférence et même dans les réseaux de neurones. Le Pdf est gratuit sur le site Web de Dave et les conférences sont en ligne, ce qui est génial

Ambodi
la source
3
C'est un excellent livre. Toute personne intéressée doit également jeter un coup d'œil à en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox
Merci pour votre réponse (+1 et potentiel accepté, si aucune réponse plus complète n'apparaîtra assez tôt). Appréciation spéciale pour les références. Je suis surpris que vous ayez rencontré cette question presque oubliée mais importante. :-)
Aleksandr Blekh
Ouais c'est intéressant. Vous ne devez jamais abandonner une question. Je suis venu après avoir assisté à NIPS2016 et j'ai vu toutes ces discussions sur la divergence KL et l'impact du bruit sur les encodeurs.
Ambodi