Le livre de référence pour les statistiques avec R - existe-t-il et que doit-il contenir?

25

Contexte

Il y a beaucoup de discussions à ce sujet, alors j'ai pensé que je pourrais trouver ma réponse à partir des pas précédents sur StackExchange et en cherchant furieusement. Après avoir utilisé une demi-journée à essayer de trouver un seul ouvrage de référence pour les (bio) statistiques avec R, je suis devenu complètement confus et j'ai dû abandonner. Peut-être que le matériel gratuit combiné est en fait meilleur que tous les livres que vous pouvez acheter en ce moment. Voyons-le.

Internet regorge d'une bonne littérature gratuite pour la langue R , il est donc inutile de payer pour un livre médiocre, qui finit par être utilisé comme décoration de bureau la plupart du temps. Le site d'accueil de R répertorie les livres liés à R et il y en a beaucoup. Pour être plus précis: 115. Un seul d'entre eux est annoncé avec les mots « livre de référence des statistiques autonomes ». Il a maintenant 8 ans et peut être obsolète. La quatrième édition de Modern Applied Statistics with S est encore plus ancienne. Le R Book est souvent mâché car trop basique et déconseillé en raison du manque de références, d'un code mal formaté et d'une finition bâclée.

Cependant, je recherche un livre , que je pourrais utiliser comme référence autonome aux statistiques pratiques (avant tout) avec R (secondaire). Le livre devrait rester sur mon bureau, collectant des annotations, des taches de café et des empreintes digitales graisseuses au lieu de la poussière sur l'étagère. Il devrait remplacer la collection de pdf gratuits que j'utilisais jusqu'à présent, sans oublier que R est livré avec une excellente bibliothèque de référence. « Quelle est la bonne approche? »,« Pourquoi? "et" techniquement, comment ça marche? "sont souvent des questions plus brûlantes que" comment faire avec R? "

Depuis que je suis écologiste, je m'intéresse principalement aux applications en biostatistique. Cependant, comme ces choses sont souvent liées, une référence générale interdisciplinaire serait la plus précieuse pour moi.

La tâche

Si un tel livre existe (j'en doute), veuillez fournir le nom du livre (un seul par réponse) et une brève revue du livre expliquant pourquoi il devrait être nommé livre de référence pour le sujet. Puisque cette question n'est pas très différente des questions existantes, veuillez utiliser cette bande de roulement pour votre réponse. Vous pouvez également répertorier les défauts du livre afin que nous puissions les répertorier comme caractéristiques du livre de référence idéal.

Ma question est ce que devrait contenir le livre de référence pour les statistiques (des types les plus utilisés) avec R?

Quelques réflexions initiales suivent les caractéristiques générales (veuillez mettre à jour):

  • Épais comme une brique
  • Concis, mais compréhensible
  • Rempli de chiffres (avec le code R fourni)
  • Tableaux et diagrammes faciles à comprendre décrivant les détails les plus importants du texte
  • Texte descriptif facile à comprendre sur les statistiques / méthodes contenant les équations les plus importantes.
  • De bons exemples pour chaque approche (avec code R)
  • Liste de références large et à jour
  • Nombre minimal de fautes de frappe

Table des matières

Comme je ne suis pas statisticien et que j'aurais besoin de ce livre (qui n'existe pas?) Pour répondre à la question, il m'est difficile d'écrire sur le contenu. Parce que The R Book a clairement l'intention d'être le livre de référence pour les statistiques avec R, mais est souvent critiqué, j'ai copié la table des matières du livre comme point de départ pour la table des matières du livre de référence autonome des statistiques R. Tâche supplémentaire: veuillez fournir des ajouts, des suggestions, des suppressions, etc. pour la table des matières.

  1. Commencer
  2. Essentiels du langage R
  3. Entrée de données
  4. Cadres de données
  5. Graphique
  6. les tables
  7. Mathématiques
  8. Tests classiques
  9. Modélisation statistique
  10. Régression
  11. Analyse de la variance
  12. Analyse de covariance
  13. Modèles linéaires généralisés
  14. Compter les données
  15. Compter les données dans les tableaux
  16. Données de proportion
  17. Variables de réponse binaire
  18. Modèles additifs généralisés
  19. Modèles à effets mixtes
  20. Régression non linéaire
  21. Modèles d'arbres
  22. Analyse des séries chronologiques
  23. Statistiques multivariées
  24. Statistiques spatiales
  25. Analyse de survie
  26. Modèles de simulation
  27. Changer l'apparence des graphiques
  28. Références et lectures complémentaires
  29. Indice

Qu'est-ce qui a été dit plus tôt?

StackExhange contient plusieurs bandes de roulement demandant des statistiques et des suggestions de livres R. Books for learning the R language pose des questions sur un ouvrage de référence sur l'apprentissage du langage R sans aspect statistique. L'art de la programmation R est classé comme la meilleure suggestion unique. Book to Learn Statistics utilisant R demande un livre d'introduction idéal aux statistiques, ce qui n'est vraiment pas la même chose qu'un livre de référence. Les manuels statistiques Open Source classent les statistiques multivariées avec R comme meilleure alternative. Quel livre recommanderiez-vous aux scientifiques non statisticiens? pose des questions sur le meilleur ouvrage de référence sur les statistiques sans préciser le programme de son choix.Référence ou livre sur la simulation des données de conception expérimentale dans les scores R peut-être le plus proche de ma question. Introduction à la programmation scientifique et à la simulation L'utilisation de R est le livre le plus recommandé ici et pourrait être proche de ce que je recherche. Cependant, ce livre ne suffira pas non plus comme un seul ouvrage de référence pour les statistiques avec R.

Quelques suggestions pour le livre de référence et leurs défauts

R in Action a reçu de meilleures critiques que The R Book, mais il est apparemment plutôt introductif .

Conception et analyse biostatistiques à l'aide de R: un guide pratique est peut-être proche de ce que je recherche. Il a reçu une bonne critique , mais apparemment, celui-ci contient également de nombreuses fautes de frappe. De plus, ce livre ne se concentre pas sur l'explication des statistiques, mais donne plutôt des analyses statistiques sous forme de recettes prêtes à l'emploi pour les chercheurs.

Les modèles et données écologiques en R sautent le niveau d'introduction. C'est une fonctionnalité très utile vu que le mot "introduction", marque 43 occurrences dans la liste du livre R , mais peut-être pas entièrement satisfaisant, si nous recherchons le livre de référence pour les statistiques…?

Introduction à la programmation scientifique et à la simulation L'utilisation de R a reçu une critique très positive , mais se limite à la simulation de données.

Richiemorrisroe suggère que les statistiques appliquées modernes avec S sont suffisantes pour un livre de référence de statistiques autonome avec R. Ce livre a reçu d'excellentes critiques ( 1 , 2 ) et est probablement le meilleur candidat pour le titre en ce moment? La version la plus récente est sortie il y a 10 ans, ce qui est assez long compte tenu du développement du programme.

Dimitriy V. Masterov suggère l' analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques . Je n'ai pas encore vérifié ce livre.


Après avoir lu de nombreuses critiques de livres, il semble évident que le livre parfait demandé ici n'existe pas encore. Cependant, il est peut-être possible d'en choisir un qui est assez proche. Cette bande de roulement est conçue comme un wiki communautaire pour les utilisateurs de statistiques afin de trouver le meilleur livre de référence existant et comme une motivation pour les écrivains nouveaux et anciens pour améliorer leur travail.

Mikko
la source
3
(+1) pour la bonne critique! Cependant, il semble que vous ayez répondu à votre propre question dans votre propre question ...
ocram
1
Si vous avez passé tant de temps à comprendre cela, à dresser une longue liste de vos propres, et même un aperçu d'un tel livre, vous devriez peut-être en écrire un. C'est une recommandation que je donne souvent sur les listes de statistiques et d'économétrie lorsque quelqu'un demande un bon article de synthèse sur [BLAH] et discute de ce qu'il n'aime pas dans les cinq ou dix articles de synthèse existants - écrivez votre propre article dessus.
StasK

Réponses:

12

Personnellement, je pensais que les statistiques appliquées modernes avec S-Plus cocheraient toutes les cases que vous avez décrites. Chaque exemple a du code R, ils donnent de bonnes références à d'autres sources, et Venables et Ripley ont un style d'écriture merveilleusement concis et explicatif que j'ai vraiment apprécié. J'ai tendance à relire le livre de temps en temps et à chaque fois que j'en retire plus. Bien sûr, votre kilométrage peut varier.

richiemorrisroe
la source
2
Je suis d'accord. J'ai de nombreux livres de statistiques qui sont basés sur R, et MASS4 est probablement le plus proche de ce que vous recherchez, mais par endroits, "laconique" devient illisible et nécessite plus de connaissances statistiques que moi. Cela dit, j'ai le livre depuis près de 10 ans et j'y reviens et j'apprends de nouvelles choses. Je ne laisserais pas son âge vous décourager. Oh, et je fais maintenant un phd de stats :-)
Sean
Je reviens également à MASS, ce qui ressemble à une préférence révélée pour ce livre de référence.
Peter Ellis
La version 1998 de MASS est-elle très différente de la version 2003? Vous vous demandez si la différence de contenu est suffisante pour débourser environ 50 £ de plus pour cela.
conjectures
6

Merci pour une si bonne question, et surtout pour avoir compilé toutes ces informations. Malheureusement, le livre que vous décrivez n'existe pas et, pour être honnête, il ne pouvait pas exister. Si vous voulez avant tout un livre de référence pour les statistiques, je commencerais par un très bon livre sur les modèles linéaires. Ma recommandation est Kutner et al, il répond aux critères d'être plus grand qu'une brique en volume et en masse, est très complet, clair et avec beaucoup d'exemples. En fait, si vous éliminez l'exigence R, cela cochera à peu près toute votre liste. J'y reviens souvent. Cependant, en ~ 1500 pages, il ne couvre à peu près que les modèles linéaires - c'est-à-dire la régression et l'ANOVA - il y a quelques courts chapitres sur quelques autres sujets, mais vous aurez vraiment besoin d'autres livres pour cela. Ensuite, j'obtiendrais un livre de référence statistique de premier ordre, au niveau approprié pour vous, pour toutes les autres techniques avec lesquelles vous pourriez avoir besoin de travailler (par exemple, analyse de survie, analyse spatiale, etc.). Si ces livres n'utilisent pas R pour leurs exemples, vous voudrez peut-être obtenir un livre spécifique à R, comme l'un des use-R! livres, mais entre la documentation, les vignettes, les listes de diffusion R-help, StackOverflow et CV, vous n'en aurez peut-être pas besoin. Si vous voulez apprendre à programmer en R de la bonne manière, vous devriez également vous procurer un de ces livres. À ce stade, vous avez au moins 4 livres. Je suis désolé, mais c'est comme ça. Personne qui travaille beaucoup avec les statistiques n'a qu'un seul livre qui couvre tout.

gung - Rétablir Monica
la source
5

Je ne pense pas qu'un livre comme celui-ci existe. Le livre qui me semble le plus proche est Gelman et Hill's Data Analysis Using Regression and Multilevel / Hierarchical Models .

Les inconvénients:

  • Il a environ 5 ans et s'adresse aux spécialistes des sciences sociales.

  • Il n'a pas tout sur votre liste de table des matières (rien d'espace, essentiellement rien sur les séries chronologiques, etc.)

Avantages:

  • Bien écrit

  • Il a une liste d'errata et une table des matières sur le lien

  • Il couvre des éléments clés comme les données manquantes, qui ne figurent pas sur votre liste numérotée.

  • Il frappe la plupart des éléments de votre liste de puces.

  • Beaucoup de graphiques et de code R (certains codes Bugs pour le multi-niveau).

  • Toutes les données / code sont disponibles pour téléchargement.

Dimitriy V. Masterov
la source
4

Je travaille mon chemin à travers les éléments de l'apprentissage statistique . Ce livre couvre une gamme incroyable de techniques (donc plus de 700 pages), mais chaque approche est expliquée clairement de manière très pratique, plutôt que très théorique. Il ne contient explicitement rien sur R, mais les tracés et les graphiques sont tous clairement créés avec R et il existe des packages sur CRAN pour tous les sujets abordés. Les auteurs ont tous été impliqués dans le développement de R (ainsi qu'une bonne partie des techniques modernes d'apprentissage automatique).

Bogdanovist
la source
2
Il y a même un package R pour ce livre: ElemStatLearn :-)
chl
3

Je suis d'accord avec la réponse actuellement la plus votée selon laquelle MASS4 correspondait assez bien à la demande et a la même expérience qu'un autre répondant ayant du mal à satisfaire à son exigence d'un niveau assez élevé de sophistication statistique. MASS3 était en fait mon premier "Rbook" et il m'a assez bien servi à ce titre. J'ai acheté le "Livre R" de Crawley et je l'ai trouvé insatisfaisant à la fois pour une description inexacte du langage R et pour être un peu plus qu'un ensemble d'exemples travaillés qui semblaient manquer de profondeur de la théorie statistique.

Cependant, avec le temps, j'ai trouvé que les «stratégies de modélisation de la régression» (RMS) de Harrell étaient mieux adaptées à la focalisation «biostatistique» de cette question et avaient une bonne profondeur. Ce n'est pas un texte d'introduction sur R. Pour cela, il faut chercher ailleurs et pour cela, je recommande l'une des Introduction à la programmation scientifique et à la simulation utilisant R [ http://www.crcpress.com/product/isbn/9781420068726] ou (malgré son nom) "R for Dummies" écrit par quelques contributeurs de longue date aux balises de publication R de StackOverflow. Je n'ai RMS que dans sa première édition quand il était plus axé sur S, mais depuis ce temps, Harrell est passé à R et prend entièrement en charge lerms/HmiscDuo de packages R. Je crois que cela satisfait la suggestion de @ gung pour une couverture spécialisée dans plusieurs des domaines énumérés, mais pas pour l'analyse spatiale ou les modèles mixtes.

DWin
la source
1
Je recommande fortement RMS et MASS. Je ne suis pas en biostatistique, mais la plupart des conseils de Harrell sont beaucoup plus utiles. Je demande souvent aux futurs étudiants en recherche de lire Harrell, ou à tout le moins le chapitre 4, puis je recommande souvent MASS comme un bon livre général pour m'assurer qu'ils sont familiers.
Glen_b -Reinstate Monica
Pour l'auto-étude générale, je nomme les «Statistiques théoriques» de Cox et Hinkleys et le volume 2 «Introduction à la théorie des probabilités» de Feller. Mais cela ne répond évidemment pas à la partie R de cette question.
DWin
[Les étudiants que je supervise sont dans des domaines en dehors des statistiques, même si leur travail en implique beaucoup ... MASS et RMS leur sont plus souvent utiles que Cox et Hinkley et Feller Vol 2, bien que les deux - avec Kendall et Stuart - étaient très précieux pour mes propres antécédents]
Glen_b -Reinstate Monica
2

Si vous voulez traduire ... (c'est un livre d'accompagnement d'un livre théorique de 4900 pages):

Big R Book

Ce livre (dont je suis co-auteur) est une compilation de 15 années d'expérience en consultation et d'enseignement au premier cycle et aux cycles supérieurs et ne montre que des exemples de choses R pour lesquelles les détails des mathématiques (preuves) sont donnés dans mes 4900 pages. des livres compagnons où les calculs sont également faits à la main avec des valeurs numériques (+500 pages qui seront disponibles dans la prochaine édition). Ce livre donne également la possibilité de vérifier que le logiciel donne les bonnes valeurs et il est beaucoup plus amusant que de faire des calculs à la main ou dans MS Excel sur des sujets qui sont normalement enseignés dans des cours d'études supérieures dans les écoles européennes. Le but de ce livre est également de montrer que vous pouvez utiliser 1 logiciel au lieu de plusieurs pour les mêmes résultats sans frais (au lieu d'utiliser JMP + Minitab + SPSS + SAS + MATLAB ensemble). Ce livre montre également les faiblesses de R (maintenance des packages non garantie). C'est également un recueil de questions très précieuses sur divers forums et blogs R. C'est gratuit et en couleur!

Vincent ISOZ
la source
1
Pourriez-vous également fournir le "bref examen" demandé? Pourquoi recommandez-vous ce livre? Quelles sont les bonnes (et les mauvaises) choses à ce sujet?
whuber
Je suis l'un des co-auhtor ... pas très neutre pour une petite revue ...
Vincent ISOZ
1
Ce n'est pas grave - nous vous serions reconnaissants de savoir ce que vous pensez être les points forts de votre livre ou une description de ceux qui en bénéficieraient. En révélant votre lien avec le livre (ce qui est essentiel ), vous permettez aux lecteurs d'en tenir compte dans l'évaluation de ce que vous dites. Je soupçonne que de nombreux lecteurs comprendraient que vous connaissez intimement ce livre et apprécieraient ce que vous dites. Sans fournir une sorte d'examen, votre réponse devrait être reléguée à un simple commentaire qui recevrait relativement peu d'attention.
whuber