Contexte
Il y a beaucoup de discussions à ce sujet, alors j'ai pensé que je pourrais trouver ma réponse à partir des pas précédents sur StackExchange et en cherchant furieusement. Après avoir utilisé une demi-journée à essayer de trouver un seul ouvrage de référence pour les (bio) statistiques avec R, je suis devenu complètement confus et j'ai dû abandonner. Peut-être que le matériel gratuit combiné est en fait meilleur que tous les livres que vous pouvez acheter en ce moment. Voyons-le.
Internet regorge d'une bonne littérature gratuite pour la langue R , il est donc inutile de payer pour un livre médiocre, qui finit par être utilisé comme décoration de bureau la plupart du temps. Le site d'accueil de R répertorie les livres liés à R et il y en a beaucoup. Pour être plus précis: 115. Un seul d'entre eux est annoncé avec les mots « livre de référence des statistiques autonomes ». Il a maintenant 8 ans et peut être obsolète. La quatrième édition de Modern Applied Statistics with S est encore plus ancienne. Le R Book est souvent mâché car trop basique et déconseillé en raison du manque de références, d'un code mal formaté et d'une finition bâclée.
Cependant, je recherche un livre , que je pourrais utiliser comme référence autonome aux statistiques pratiques (avant tout) avec R (secondaire). Le livre devrait rester sur mon bureau, collectant des annotations, des taches de café et des empreintes digitales graisseuses au lieu de la poussière sur l'étagère. Il devrait remplacer la collection de pdf gratuits que j'utilisais jusqu'à présent, sans oublier que R est livré avec une excellente bibliothèque de référence. « Quelle est la bonne approche? »,« Pourquoi? "et" techniquement, comment ça marche? "sont souvent des questions plus brûlantes que" comment faire avec R? "
Depuis que je suis écologiste, je m'intéresse principalement aux applications en biostatistique. Cependant, comme ces choses sont souvent liées, une référence générale interdisciplinaire serait la plus précieuse pour moi.
La tâche
Si un tel livre existe (j'en doute), veuillez fournir le nom du livre (un seul par réponse) et une brève revue du livre expliquant pourquoi il devrait être nommé livre de référence pour le sujet. Puisque cette question n'est pas très différente des questions existantes, veuillez utiliser cette bande de roulement pour votre réponse. Vous pouvez également répertorier les défauts du livre afin que nous puissions les répertorier comme caractéristiques du livre de référence idéal.
Ma question est ce que devrait contenir le livre de référence pour les statistiques (des types les plus utilisés) avec R?
Quelques réflexions initiales suivent les caractéristiques générales (veuillez mettre à jour):
- Épais comme une brique
- Concis, mais compréhensible
- Rempli de chiffres (avec le code R fourni)
- Tableaux et diagrammes faciles à comprendre décrivant les détails les plus importants du texte
- Texte descriptif facile à comprendre sur les statistiques / méthodes contenant les équations les plus importantes.
- De bons exemples pour chaque approche (avec code R)
- Liste de références large et à jour
- Nombre minimal de fautes de frappe
Table des matières
Comme je ne suis pas statisticien et que j'aurais besoin de ce livre (qui n'existe pas?) Pour répondre à la question, il m'est difficile d'écrire sur le contenu. Parce que The R Book a clairement l'intention d'être le livre de référence pour les statistiques avec R, mais est souvent critiqué, j'ai copié la table des matières du livre comme point de départ pour la table des matières du livre de référence autonome des statistiques R. Tâche supplémentaire: veuillez fournir des ajouts, des suggestions, des suppressions, etc. pour la table des matières.
- Commencer
- Essentiels du langage R
- Entrée de données
- Cadres de données
- Graphique
- les tables
- Mathématiques
- Tests classiques
- Modélisation statistique
- Régression
- Analyse de la variance
- Analyse de covariance
- Modèles linéaires généralisés
- Compter les données
- Compter les données dans les tableaux
- Données de proportion
- Variables de réponse binaire
- Modèles additifs généralisés
- Modèles à effets mixtes
- Régression non linéaire
- Modèles d'arbres
- Analyse des séries chronologiques
- Statistiques multivariées
- Statistiques spatiales
- Analyse de survie
- Modèles de simulation
- Changer l'apparence des graphiques
- Références et lectures complémentaires
- Indice
Qu'est-ce qui a été dit plus tôt?
StackExhange contient plusieurs bandes de roulement demandant des statistiques et des suggestions de livres R. Books for learning the R language pose des questions sur un ouvrage de référence sur l'apprentissage du langage R sans aspect statistique. L'art de la programmation R est classé comme la meilleure suggestion unique. Book to Learn Statistics utilisant R demande un livre d'introduction idéal aux statistiques, ce qui n'est vraiment pas la même chose qu'un livre de référence. Les manuels statistiques Open Source classent les statistiques multivariées avec R comme meilleure alternative. Quel livre recommanderiez-vous aux scientifiques non statisticiens? pose des questions sur le meilleur ouvrage de référence sur les statistiques sans préciser le programme de son choix.Référence ou livre sur la simulation des données de conception expérimentale dans les scores R peut-être le plus proche de ma question. Introduction à la programmation scientifique et à la simulation L'utilisation de R est le livre le plus recommandé ici et pourrait être proche de ce que je recherche. Cependant, ce livre ne suffira pas non plus comme un seul ouvrage de référence pour les statistiques avec R.
Quelques suggestions pour le livre de référence et leurs défauts
R in Action a reçu de meilleures critiques que The R Book, mais il est apparemment plutôt introductif .
Conception et analyse biostatistiques à l'aide de R: un guide pratique est peut-être proche de ce que je recherche. Il a reçu une bonne critique , mais apparemment, celui-ci contient également de nombreuses fautes de frappe. De plus, ce livre ne se concentre pas sur l'explication des statistiques, mais donne plutôt des analyses statistiques sous forme de recettes prêtes à l'emploi pour les chercheurs.
Les modèles et données écologiques en R sautent le niveau d'introduction. C'est une fonctionnalité très utile vu que le mot "introduction", marque 43 occurrences dans la liste du livre R , mais peut-être pas entièrement satisfaisant, si nous recherchons le livre de référence pour les statistiques…?
Introduction à la programmation scientifique et à la simulation L'utilisation de R a reçu une critique très positive , mais se limite à la simulation de données.
Richiemorrisroe suggère que les statistiques appliquées modernes avec S sont suffisantes pour un livre de référence de statistiques autonome avec R. Ce livre a reçu d'excellentes critiques ( 1 , 2 ) et est probablement le meilleur candidat pour le titre en ce moment? La version la plus récente est sortie il y a 10 ans, ce qui est assez long compte tenu du développement du programme.
Dimitriy V. Masterov suggère l' analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques . Je n'ai pas encore vérifié ce livre.
Après avoir lu de nombreuses critiques de livres, il semble évident que le livre parfait demandé ici n'existe pas encore. Cependant, il est peut-être possible d'en choisir un qui est assez proche. Cette bande de roulement est conçue comme un wiki communautaire pour les utilisateurs de statistiques afin de trouver le meilleur livre de référence existant et comme une motivation pour les écrivains nouveaux et anciens pour améliorer leur travail.
la source
Réponses:
Personnellement, je pensais que les statistiques appliquées modernes avec S-Plus cocheraient toutes les cases que vous avez décrites. Chaque exemple a du code R, ils donnent de bonnes références à d'autres sources, et Venables et Ripley ont un style d'écriture merveilleusement concis et explicatif que j'ai vraiment apprécié. J'ai tendance à relire le livre de temps en temps et à chaque fois que j'en retire plus. Bien sûr, votre kilométrage peut varier.
la source
Merci pour une si bonne question, et surtout pour avoir compilé toutes ces informations. Malheureusement, le livre que vous décrivez n'existe pas et, pour être honnête, il ne pouvait pas exister. Si vous voulez avant tout un livre de référence pour les statistiques, je commencerais par un très bon livre sur les modèles linéaires. Ma recommandation est Kutner et al, il répond aux critères d'être plus grand qu'une brique en volume et en masse, est très complet, clair et avec beaucoup d'exemples. En fait, si vous éliminez l'exigence R, cela cochera à peu près toute votre liste. J'y reviens souvent. Cependant, en ~ 1500 pages, il ne couvre à peu près que les modèles linéaires - c'est-à-dire la régression et l'ANOVA - il y a quelques courts chapitres sur quelques autres sujets, mais vous aurez vraiment besoin d'autres livres pour cela. Ensuite, j'obtiendrais un livre de référence statistique de premier ordre, au niveau approprié pour vous, pour toutes les autres techniques avec lesquelles vous pourriez avoir besoin de travailler (par exemple, analyse de survie, analyse spatiale, etc.). Si ces livres n'utilisent pas R pour leurs exemples, vous voudrez peut-être obtenir un livre spécifique à R, comme l'un des use-R! livres, mais entre la documentation, les vignettes, les listes de diffusion R-help, StackOverflow et CV, vous n'en aurez peut-être pas besoin. Si vous voulez apprendre à programmer en R de la bonne manière, vous devriez également vous procurer un de ces livres. À ce stade, vous avez au moins 4 livres. Je suis désolé, mais c'est comme ça. Personne qui travaille beaucoup avec les statistiques n'a qu'un seul livre qui couvre tout.
la source
Je ne pense pas qu'un livre comme celui-ci existe. Le livre qui me semble le plus proche est Gelman et Hill's Data Analysis Using Regression and Multilevel / Hierarchical Models .
Les inconvénients:
Il a environ 5 ans et s'adresse aux spécialistes des sciences sociales.
Il n'a pas tout sur votre liste de table des matières (rien d'espace, essentiellement rien sur les séries chronologiques, etc.)
Avantages:
Bien écrit
Il a une liste d'errata et une table des matières sur le lien
Il couvre des éléments clés comme les données manquantes, qui ne figurent pas sur votre liste numérotée.
Il frappe la plupart des éléments de votre liste de puces.
Beaucoup de graphiques et de code R (certains codes Bugs pour le multi-niveau).
Toutes les données / code sont disponibles pour téléchargement.
la source
Je travaille mon chemin à travers les éléments de l'apprentissage statistique . Ce livre couvre une gamme incroyable de techniques (donc plus de 700 pages), mais chaque approche est expliquée clairement de manière très pratique, plutôt que très théorique. Il ne contient explicitement rien sur R, mais les tracés et les graphiques sont tous clairement créés avec R et il existe des packages sur CRAN pour tous les sujets abordés. Les auteurs ont tous été impliqués dans le développement de R (ainsi qu'une bonne partie des techniques modernes d'apprentissage automatique).
la source
Je suis d'accord avec la réponse actuellement la plus votée selon laquelle MASS4 correspondait assez bien à la demande et a la même expérience qu'un autre répondant ayant du mal à satisfaire à son exigence d'un niveau assez élevé de sophistication statistique. MASS3 était en fait mon premier "Rbook" et il m'a assez bien servi à ce titre. J'ai acheté le "Livre R" de Crawley et je l'ai trouvé insatisfaisant à la fois pour une description inexacte du langage R et pour être un peu plus qu'un ensemble d'exemples travaillés qui semblaient manquer de profondeur de la théorie statistique.
Cependant, avec le temps, j'ai trouvé que les «stratégies de modélisation de la régression» (RMS) de Harrell étaient mieux adaptées à la focalisation «biostatistique» de cette question et avaient une bonne profondeur. Ce n'est pas un texte d'introduction sur R. Pour cela, il faut chercher ailleurs et pour cela, je recommande l'une des Introduction à la programmation scientifique et à la simulation utilisant R [ http://www.crcpress.com/product/isbn/9781420068726] ou (malgré son nom) "R for Dummies" écrit par quelques contributeurs de longue date aux balises de publication R de StackOverflow. Je n'ai RMS que dans sa première édition quand il était plus axé sur S, mais depuis ce temps, Harrell est passé à R et prend entièrement en charge le
rms/Hmisc
Duo de packages R. Je crois que cela satisfait la suggestion de @ gung pour une couverture spécialisée dans plusieurs des domaines énumérés, mais pas pour l'analyse spatiale ou les modèles mixtes.la source
Si vous voulez traduire ... (c'est un livre d'accompagnement d'un livre théorique de 4900 pages):
Big R Book
Ce livre (dont je suis co-auteur) est une compilation de 15 années d'expérience en consultation et d'enseignement au premier cycle et aux cycles supérieurs et ne montre que des exemples de choses R pour lesquelles les détails des mathématiques (preuves) sont donnés dans mes 4900 pages. des livres compagnons où les calculs sont également faits à la main avec des valeurs numériques (+500 pages qui seront disponibles dans la prochaine édition). Ce livre donne également la possibilité de vérifier que le logiciel donne les bonnes valeurs et il est beaucoup plus amusant que de faire des calculs à la main ou dans MS Excel sur des sujets qui sont normalement enseignés dans des cours d'études supérieures dans les écoles européennes. Le but de ce livre est également de montrer que vous pouvez utiliser 1 logiciel au lieu de plusieurs pour les mêmes résultats sans frais (au lieu d'utiliser JMP + Minitab + SPSS + SAS + MATLAB ensemble). Ce livre montre également les faiblesses de R (maintenance des packages non garantie). C'est également un recueil de questions très précieuses sur divers forums et blogs R. C'est gratuit et en couleur!
la source