Aujourd'hui, j'ai parcouru le livre "Théorie de l'information: une introduction au didacticiel" de James Stone et réfléchi un instant ou deux à l' étendue de l'utilisation de la théorie de l'information en science des données appliquée (si vous n'êtes pas à l'aise avec ce terme encore quelque peu flou, pensez à l'analyse des données , dont la science des données à mon humble avis est une version glorifiée). Je connais bien l'utilisation importante d' approches , de méthodes et de mesures fondées sur la théorie de l' information , en particulier l' entropie , sous le capot de diverses techniques statistiques et méthodes d'analyse de données.
Cependant, je suis curieux de savoir l' étendue / le niveau de connaissances nécessaires à un spécialiste des sciences sociales appliquées pour sélectionner et appliquer avec succès ces concepts, mesures et outils sans plonger trop profondément dans les origines mathématiques de la théorie. J'attends vos réponses avec impatience, qui pourraient répondre à mes préoccupations dans le contexte du livre susmentionné (ou d'autres livres similaires - n'hésitez pas à recommander) ou en général.
J'apprécierais également quelques recommandations pour des sources imprimées ou en ligne qui discutent de la théorie de l'information et de ses concepts, approches, méthodes et mesures dans le contexte (en comparaison avec) d'autres approches statistiques (plus) traditionnelles ( fréquentistes et bayésiennes ).
la source
Réponses:
Donc la première partie de la question: les scientifiques des données doivent-ils connaître la théorie de l'information ? Je pensais que la réponse était non jusqu'à très récemment. La raison pour laquelle j'ai changé d'avis est un élément crucial: le bruit.
De nombreux modèles d'apprentissage automatique (stochastiques ou non) utilisent le bruit dans le cadre de leur processus de codage et de transformation et dans bon nombre de ces modèles, vous devez déduire la probabilité que le bruit affecte après le décodage de la sortie transformée du modèle. Je pense que c'est un élément central de la théorie de l'information. Non seulement cela, dans l'apprentissage profond, la divergence KL est une mesure très importante utilisée qui vient également de la théorie de l'information.
Deuxième partie de la question: je pense que la meilleure source est la théorie de l'information, l'algorithme d'inférence et d'apprentissage de David MacKay . Il commence par la théorie de l'information et prend ces idées à la fois dans l'inférence et même dans les réseaux de neurones. Le Pdf est gratuit sur le site Web de Dave et les conférences sont en ligne, ce qui est génial
la source