Quels livres donnent un aperçu des statistiques de calcul applicables à l'informatique?

15

En tant qu'ingénieur logiciel, je m'intéresse à des sujets tels que les algorithmes statistiques, l'exploration de données, l'apprentissage automatique, les réseaux bayésiens, les algorithmes de classification, les réseaux de neurones, les chaînes de Markov, les méthodes de Monte Carlo et la génération de nombres aléatoires.

Personnellement, je n'ai pas eu le plaisir de travailler avec aucune de ces techniques, mais j'ai dû travailler avec des logiciels qui, sous le capot, les employaient et j'aimerais en savoir plus à leur sujet, à un niveau élevé. Je recherche des livres qui couvrent une grande largeur - une grande profondeur n'est pas nécessaire à ce stade. Je pense que je peux en apprendre beaucoup sur le développement de logiciels si je peux comprendre les fondements mathématiques derrière les algorithmes et les techniques utilisés.

La communauté de l'analyse statistique peut-elle recommander des livres que je peux utiliser pour en savoir plus sur la mise en œuvre de divers éléments statistiques dans un logiciel?

Thomas Owens
la source

Réponses:

3

Vous voudrez peut-être lire la question extrêmement populaire sur Stack Overflow sur les statistiques qu'un programmeur ou un informaticien devrait connaître .

Jeromy Anglim
la source
Bon appel. J'utilise SO et je ne savais même pas que la question existait. Il est bon d'avoir une réticulation pour les moments où des questions peuvent apparaître sur plusieurs échanges.
Thomas Owens
3

Voici un très joli livre de James E. Gentle, Computational Statistics (Springer, 2009), qui couvre à la fois les aspects informatiques et statistiques de l'analyse des données. Gentle a également écrit d'autres grands livres, consultez ses publications.

Un autre grand livre est le Handbook of Computational Statistics , de Gentle et al. (Springer, 2004); il circule au format PDF quelque part sur le Web, alors essayez simplement de le consulter sur Google.

chl
la source
2

Vous avez mentionné quelques techniques de ML, donc deux livres assez sympas (tout à fait parce que malheureusement mon préféré est en polonais):
http://www.amazon.com/Machine-Learning-Algorithmic-Perspective-Recognition/dp/1420067184
http: / /ai.stanford.edu/~nilsson/mlbook.html

Pour des trucs numériques comme la génération de nombres aléatoires:
http://www.nr.com/

user88
la source
+1 le livre de Marsland est assez bon et a comblé une grande lacune dans la sélection existante de livres ML.
ars
1

J'ai ramassé une copie de acheté Probability and Statistics for Computer Scientists - Michael Baron en vente avec un autre livre de statistiques (je l'ai honnêtement acheté à cause de son nom - je voulais un livre qui jetterait un regard sur les statistiques du point de vue informatique, même si ce n'était pas parfait). Je n'ai pas encore eu l'occasion de le lire ou d'y travailler, mais cela semble être un livre solide.

La préface du livre dit que c'est pour les étudiants de premier cycle de premier cycle et les étudiants débutants, et je suis d'accord avec cela. Une certaine compréhension des probabilités et des statistiques est nécessaire pour saisir le contenu de ce livre.

Les sujets incluent la probabilité, les variables aléatoires discrètes, les distributions continues, les méthodes de Monte Carlo, les processus stochastiques, les systèmes de files d'attente, l'inférence statistique et la régression.

Thomas Owens
la source
1

Bien qu'il ne s'agisse pas spécifiquement de statistiques de calcul, A Handbook of Statistical Analyses Using R - Brian S. Everitt et Torsten Hothorn couvre un grand nombre de sujets que j'ai vus traités dans des livres de statistiques de base et intermédiaires - inférence, ANOVA, régression linéaire, régression logistique, estimation de la densité, partitionnement récursif, analyse en composantes principales et analyse en grappes - en utilisant le langage R. Cela pourrait intéresser ceux qui s'intéressent à la programmation.

Cependant, contrairement à d'autres livres, l'accent est mis sur l'utilisation du langage R pour effectuer ces fonctions statistiques. D'autres livres que j'ai vus utilisent des combinaisons d'algèbre et de calcul pour démontrer les statistiques. Ce livre se concentre en fait sur la façon d'analyser les données en utilisant le langage R. Et pour le rendre encore plus utile, les ensembles de données que les auteurs utilisent sont dans CRAN - le référentiel R.

Thomas Owens
la source
1

Calcul statistique avec R - Maria L. Rizzo couvre un grand nombre de sujets dans Probability and Statistics for Computer Scientists - probabilité et statistiques de base, variables aléatoires, statistiques bayésiennes, chaînes de Markov, visualisation de données multivariées, méthodes de Monte Carlo, tests de permutation, probabilité estimation de la densité et méthodes numériques.

Les équations et formules utilisées sont présentées à la fois sous forme de formules mathématiques et en code R. Je dirais qu'une connaissance de base des probabilités, des statistiques, du calcul et peut-être des mathématiques discrètes serait souhaitable pour quiconque souhaite lire ce livre. Un arrière-plan de programmation serait également utile, mais il existe quelques références pour le langage R, les opérateurs et la syntaxe.

Thomas Owens
la source
1

En tant qu'ingénieur en informatique venant moi-même à l'analyse des données, un livre vraiment lisible qui couvre des choses d'un point de vue assez inintimidant et lisible (au prix de ne pas couvrir autant que n'importe quel autre livre suggéré ici) était Programming Collective Intelligence par Toby Segaran. Je l'ai trouvé beaucoup plus accessible que, par exemple, le livre de Bishop, qui est une excellente référence mais qui va plus en profondeur que vous le souhaitez probablement au premier passage. Sur amazon: http://www.amazon.com/Programming-Collective-Intelligence-Building-Applications/dp/0596529325

user1076
la source
1

Le CRAN possède plusieurs bons exemples de livres relatifs à la programmation statistique. Certains d'entre eux ne concerneront pas l'apprentissage automatique et MCMC, mais chaque entrée est annotée, vous devriez donc avoir une idée approximative de ce que chaque livre contient pour plonger un peu plus loin. http://www.r-project.org/doc/bib/R-books.html

Christopher Aden
la source