Un bon livre avec un accent égal sur la théorie et les mathématiques

10

J'ai suivi suffisamment de cours de statistiques pendant mes années scolaires et à l'université. J'ai une bonne compréhension des concepts tels que CI, valeurs p, interprétation de la signification statistique, tests multiples, corrélation, régression linéaire simple (avec les moindres carrés) (modèles linéaires généraux) et tous les tests d'hypothèse. On m'avait présenté une grande partie des premiers jours, principalement mathématiquement. Et récemment, avec l'aide du livre Intuitive Biostatistics, j'ai compris et une compréhension sans précédent de la théorie conceptuelle actuelle, je crois.

Maintenant, ce qui me manque, c'est la compréhension de l'ajustement des modèles (estimation des paramètres au modèle) et similaires. En particulier, des concepts tels que l'estimation du maximum de vraisemblance, les modèles linéaires généralisés , les approches bayésiennes des statistiques inférentielles me semblent toujours étrangers. Il n'y a pas suffisamment d'exemples ou de didacticiels ou conceptuellement solides, comme on en trouverait sur des modèles probabilistes simples ou sur d'autres sujets (de base) sur Internet.

Je suis bioinformaticien et je travaille sur des données RNA-Seq qui traitent du nombre de lectures brutes pour trouver, disons, l'expression génique (ou l'expression génique différentielle). De mon expérience, même si je ne suis pas familier avec les modèles statistiques, je suis capable de comprendre la raison d'une hypothèse de distribution de poisson et de binômes négatifs et ainsi de suite .. Mais certains articles traitent de modèles linéaires généralisés et estiment un MLE etc. qui Je crois avoir le bagage nécessaire pour comprendre.

Je suppose que ce que je demande, c'est une approche que certains experts parmi vous jugent utile et (un) livre (s) qui m'aide à saisir ces concepts de manière plus intuitive (pas seulement des mathématiques rigoureuses, mais une théorie soutenue par des mathématiques). Comme je vais surtout les appliquer, je serais satisfait (pour le moment) de comprendre ce qui est quoi et plus tard, je pourrai revenir à des preuves mathématiques rigoureuses ... Quelqu'un a-t-il des recommandations? Cela ne me dérange pas d'acheter plus d'un livre si les sujets que j'ai demandés sont en effet dispersés pour être couverts dans un livre.

Merci beaucoup!

Arun
la source
Pourriez-vous me recommander de bonnes sources pour en savoir plus sur les données RNA-Seq et les défis statistiques dans ce domaine?
Biostat
1
biostat, bien sûr, le site Web seqanswers.com est une très bonne ressource pour NGS. Vous pouvez commencer par les différentes technologies et leur fonctionnement à partir d'ici: goo.gl/NLuvJ Voici quelques articles qui expliquent certains problèmes statistiques avec les données NGS. En bref, il s'agit d'estimation de variance technique et biologique (en ce qui concerne l'expression des gènes). 1) L'un des premiers articles évaluant la variation technique: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: un outil de détection de l'expression des gènes: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun
1
Converti en CW car il semble qu'un tas de bonnes suggestions seront proposées et il n'y a pas de norme objective apparente pour décider d'un "meilleur" parmi eux. J'espère que cela permettra également aux lecteurs de voter pour de nombreuses réponses :-).
whuber
whuber, bien sûr! logique. Puis-je faire un post wiki communautaire? ou cela nécessite des privilèges de modérateur?
Arun

Réponses:

5

Vous trouverez tout ce qui n'est pas bayésien que vous avez demandé à ce sujet Stratégies de modélisation de régression de Frank Harrell . Je laisserais les recommandations bayésiennes à des gens plus avertis (bien que j'ai Gelman, Carlin, Stern et Rubin , ainsi que Gilks, Richardson et Speigelhalter , sur ma bibliothèque). Il devrait y avoir quelques livres biostatistiques bayésiens sur le marché.

Mise à jour: McCullach et Nelder (1989) est un livre classique sur les GLM, bien sûr. C'était révolutionnaire pour l'époque, mais je le trouve plutôt ennuyeux, franchement. En outre, il ne couvre pas les ajouts ultérieurs comme les diagnostics résiduels, les modèles gonflés à zéro ou les extensions multiniveaux / hiérarchiques. Hardin et Hilbe (2007) couvrent en détail certains de ces nouveaux éléments avec des exemples pratiques dans Stata (où les GLM et les extensions sont très bien implémentés; Hardin travaillait chez Stata Corp. à écrire bon nombre de ces commandes, ainsi qu'à contribuer à la estimateur sandwich).

StasK
la source
Salut StasK, merci beaucoup! Je trouve que celui sur la modélisation de régression répondrait à mes besoins. Combien couvrent-ils les GLM? Je vois aussi que vos références sur l'inférence bayésienne sont celles que je trouve toujours recommandées. À votre avis, dans quelle mesure sont-ils faciles / difficiles à suivre (comme si le niveau était trop avancé)? Aussi, avez-vous jeté un œil au livre Modèles linéaires généralisés ? L'un des auteurs est JA Nelder. Je voudrais également acheter ce livre sur les modèles statistiques . Avez-vous des réflexions sur celui-ci? Merci!
Arun
Je n'ai pas vu ce livre de Freedman. Elle est assez intéressante, même si elle semble assez légère en termes de rigueur, et je ne suis pas sûr d'en être satisfait. (Un livre très léger sur les mathématiques qui parle de régression sans algèbre matricielle, mais TRÈS profondément sur la rigueur scientifique, est Mostly Harmless Econometrics par Angrist et Pischke, et si vous travaillez avec des modèles causaux, ce livre est un must.) Je ne connais pas vraiment vos connaissances en mathématiques / statistiques, il sera donc difficile pour moi de juger si ces livres seraient difficiles. Certains livres bayésiens pourraient l'être; ils ont tendance à supposer que vous connaissez déjà MLE et GLM.
StasK
1
J'ai mis à jour ma réponse pour inclure la référence McCullach et Nelder.
StasK
Je suis ingénieur en électronique. devenu bioinformaticien. J'ai suivi des cours de statistiques (pour la théorie de la communication), de probabilités et de processus aléatoires, je suis à l'aise avec le calcul (bien qu'un peu rouillé) et l'algèbre linéaire. Bien sûr, ce sont principalement des étudiants de premier cycle ... Mon objectif est d'être conceptuellement solide (plus d'interprétations géométriques, de comprendre les méthodes et surtout l'objectif), etc. vient avec ces recettes. Merci encore pour vos recommandations!
Arun
3

Je recommanderais de suivre deux livres:

  1. Méthodes statistiques pour la bioinformatique
  2. Les éléments de l'apprentissage statistique
Biostat
la source
Ces livres expliquent les bonnes choses, mais pas celles que le PO a posées.
StasK
@StasK, pourriez-vous expliquer ce qui n'est pas dans les livres ci-dessus?
Biostat
J'ai enseigné à partir de HTF, et les trucs que j'en ai enseignés concernaient les fonctions de base, les degrés de liberté effectifs, la sélection de modèle, le lasso, la validation croisée, etc. Il est supposé que l'étudiant en statistiques est familier avec ces éléments de sa formation statistique générale, ou que les étudiants CS utiliseraient la SVM plutôt que la régression logistique comme réaction instinctive aux données de résultats binaires. Les éléments bayésiens ne sont également mentionnés que dans la mesure où les règles de décision bayésiennes sont optimales, dans un certain sens; pas de MCMC ou de conjugaison, disons.
StasK
Avez-vous lu le livre "Méthodes statistiques pour la bioinformatique"?
Biostat
@biostat, non, je ne l'ai pas. Je ne travaille pas en bioinformatique, mais je sais que c'est un monde légèrement différent. Je ne peux donc pas faire de recommandations raisonnables. À mon avis, la branche de la biostatistique qui traite des modèles comme GLM, GEE, des modèles longitudinaux et de survie a plus en commun avec l'économétrie (ainsi, le livre de Wooldridge sur les modèles de données transversales et de panel pourrait être une bonne recommandation pour certaines personnes travaillant sur les biostat travaillant avec ces modèles) qu'avec la génétique statistique, le contrôle du taux d'erreur en famille et l'exploration de données, qui semble être votre domaine d'expertise.
StasK