Donner du sens à la théorie et aux applications de la statistique

13

J'ai récemment obtenu mon diplôme de maîtrise en modélisation médicale et biologique, accompagné de mathématiques d'ingénierie en arrière-plan. Même si mon programme d'éducation comprenait une quantité importante de cours sur les statistiques mathématiques (voir ci-dessous pour une liste), que j'ai réussi avec des notes assez élevées, je finis souvent par perdre complètement à regarder à la fois la théorie et les applications des statistiques. Je dois dire que par rapport aux mathématiques "pures", les statistiques n'ont vraiment pas de sens pour moi. En particulier, les notations et le langage utilisés par la plupart des statisticiens (y compris mes anciens professeurs) sont dérangeants et presque aucune des ressources que j'ai vues jusqu'à présent (y compris wikipedia) n'avait d'exemples simples auxquels on pourrait facilement se rapporter et associer à la théorie donnée. ..

Ceci étant l'arrière-plan; Je réalise également l'amère réalité que je ne peux pas faire carrière en tant que chercheur / ingénieur sans une solide maîtrise des statistiques, en particulier dans le domaine de la bioinformatique.

J'espérais pouvoir obtenir des conseils de statisticiens / mathématiciens plus expérimentés. Comment puis-je surmonter ce problème que j'ai mentionné ci-dessus? Connaissez-vous de bonnes ressources? tels que des livres, des e-books, des cours ouverts (via iTunes ou OpenCourseware par exemple) etc.

EDIT: Comme je l'ai mentionné, je suis assez biaisé (négativement) envers la majorité de la littérature sous le titre général de statistiques, et comme je ne peux pas acheter un certain nombre de livres de cours importants (et coûteux) par branche de statistiques, ce dont j'aurais besoin en termes de livre est quelque chose de similaire à ce que Tipler & Mosca est pour la physique, mais plutôt pour les statistiques.

Pour ceux qui ne connaissent pas Tipler; c'est un grand manuel qui couvre une grande majorité des sujets que l'on pourrait rencontrer pendant les études supérieures, et les présente chacun de l'introduction de base à un peu plus en détail. Fondamentalement, un livre de référence parfait, acheté lors de ma première année à l'université, toujours l'utiliser de temps en temps.


Les cours que j'ai suivis en statistiques:

  • un grand cours d'introduction,
  • processus stochastiques stationnaires,
  • Processus de Markov,
  • Méthodes de Monte Carlo
  • Analyse de survie
posdef
la source

Réponses:

4

Je peux parfaitement comprendre votre situation. Même si je suis doctorant, j'ai parfois du mal à associer théorie et application. Si vous êtes prêt à vous plonger dans la compréhension de la théorie, c'est certainement gratifiant lorsque vous pensez à des problèmes du monde réel. Mais le processus peut être frustrant.

L'une des nombreuses références que j'aime est Gelman et Hill's Data Analysis Using Hierarchical / Multilevel Models . Ils évitent la théorie où ils peuvent exprimer le concept sous-jacent à l'aide de simulations. Cela vous sera certainement bénéfique car vous avez de l'expérience dans MCMC, etc. Comme vous le dites, vous travaillez en bioinformatique, probablement les stratégies de modélisation de régression de Harrell sont également une excellente référence.

Je vais en faire un wiki communautaire et laisser les autres y ajouter.

suncoolsu
la source
Merci de votre attention à ce sujet. C'est agréable de voir que je ne suis pas le seul à être confus à cause de ça. Cela étant dit, je pense que vous avez surestimé ma situation; alors que j'ai suivi un certain nombre de cours et que je connais l'existence de différentes méthodes d'analyse statistique; ils ne restent jamais avec moi après les cours. Quelques mois après les examens, je continue à me demander; "J'ai vu / entendu cela quelque part, mais comment cela a-t-il vraiment fonctionné?" Cela me suggère que je dois tout démolir et commencer à le reconstruire avec une fondation plus solide.
posdef
J'ajouterais un "accord" retentissant pour le texte de Harrell (note orthographe). Il est excellent, tout comme la combinaison de deux packages du code R qui l'accompagne. Je pense aussi que "Modern Applied Statistic with S" de Venables et Ripley serait une bonne acquisition. J'avais une formation de niveau master (avec un diplôme de premier cycle en physique) avant d'utiliser MASS pour apprendre R. Il y a une richesse de sagesse d'application dans ce texte.
DWin
Le livre de régression Gelman est merveilleux, il l'explique très bien et fournit un code R qui est vraiment utile pour vérifier votre compréhension du matériau.
richiemorrisroe
2

Connaissez-vous l'analyse des données bayésiennes (par Gelman, Carlin, Stern et Rubin)? C'est peut-être ce dont vous avez besoin d'une dose.

mef
la source
2

Tous les problèmes de statistiques se résument essentiellement à 4 étapes (que j'ai empruntées à la réponse @whuber sur une autre question ):

  1. Estimez le paramètre.

  2. Évaluez la qualité de cette estimation.

  3. Explorez les données.

  4. Évaluez l'ajustement.

Vous pouvez échanger le paramètre de mot avec le modèle de mot .

Les livres de statistiques présentent généralement les deux premiers points pour diverses situations. Le problème que chaque application du monde réel nécessite une approche différente, donc un modèle différent, donc une grande partie des livres finissent par cataloguer ces différents modèles. Cela a pour effet indésirable qu'il est facile de se perdre dans les détails et de manquer la vue d'ensemble.

Le grand livre d'images que je recommande vivement est les statistiques asymptotiques . Il donne un traitement rigoureux du sujet et est mathématiquement "pur". Bien que son titre mentionne les statistiques asymptotiques, le grand secret inconnu est que la majorité des méthodes statistiques classiques sont essentiellement basées sur des résultats asymptotiques.

mpiktas
la source
2

Je pense que la chose la plus importante ici est de développer une intuition sur les statistiques et certains concepts statistiques généraux. La meilleure façon de procéder est peut-être d'avoir un domaine que vous pouvez "posséder". Cela peut fournir une boucle de rétroaction positive où la compréhension du domaine vous aide à mieux comprendre les statistiques sous-jacentes, ce qui vous aide à mieux comprendre le domaine, etc.

Pour moi, ce domaine était les statistiques de baseball. J'ai compris qu'un batteur qui va 3 pour 4 dans un match n'est pas un "vrai" frappeur de .750. Cela permet de comprendre le point plus général selon lequel les données d'échantillon ne sont pas identiques à la distribution sous-jacente. Je sais aussi qu'il est probablement plus proche d'un joueur moyen que d'un frappeur de .750, donc cela aide à comprendre des concepts comme la régression à la moyenne. De là, je peux arriver à une inférence bayésienne à part entière où ma distribution de probabilité antérieure avait une moyenne de celle du joueur de baseball moyen, et j'ai maintenant 4 nouveaux échantillons avec lesquels mettre à jour ma distribution postérieure.

Je ne sais pas ce que ce domaine est pour vous, mais je suppose qu'il serait plus utile qu'un simple manuel. Les exemples aident à comprendre la théorie, ce qui aide à comprendre les exemples. Un manuel avec des exemples est bien, mais à moins que vous puissiez faire ces exemples "à vous", je me demande si vous en obtiendrez assez.

Michael McGowan
la source
1

Tout le monde apprend différemment, mais je pense qu'il est sûr de dire que des exemples, des exemples, des exemples, aident beaucoup en statistiques. Ma suggestion serait d'apprendre R (juste les bases suffisent pour aider beaucoup) et ensuite vous pouvez essayer n'importe quel exemple jusqu'à ce que vos yeux saignent. Vous pouvez le trier, l'ajuster, le tracer, vous le nommez. Et, puisque R est orienté vers les statistiques, en apprenant R, vous apprendrez des statistiques. Les livres que vous avez énumérés peuvent alors être attaqués du point de vue du «montre-moi».

Étant donné que R est gratuit et que beaucoup de sources sont gratuites, tout ce que vous devez investir est votre temps.

http://www.mayin.org/ajayshah/KB/R/index.html

http://math.illinoisstate.edu/dhkim/rstuff/rtutor.html

http://www.cyclismo.org/tutorial/R/

http://www.stat.pitt.edu/stoffer/tsa2/R_time_series_quick_fix.htm

http://www.statmethods.net/about/books.html

Il existe de nombreux bons livres sur R que vous pouvez acheter, en voici un que j'ai utilisé:

http://www.amazon.com/Introductory-Statistics-R-Peter-Dalgaard/dp/0387954759

Modifier ============

J'ai oublié d'ajouter quelques liens. Si vous utilisez Windows, un bon éditeur pour alimenter R est Tinn-R (quelqu'un d'autre peut ajouter des liens pour les éditeurs sur un Mac ou Linux).

http://www.sciviews.org/Tinn-R/

http://cran.r-project.org/web/packages/TinnR/

bill_080
la source
merci pour les liens, je vais essayer de les parcourir autant que possible dans les semaines à venir ... J'ai déjà été exposé à R une fois, dans un cours d'analyse de survie dans lequel nous avons fait beaucoup de régression multivariée (cox et aelen modèles) et un tas d'autres choses que je ne me souviens pas vraiment. Mon impression de R, en tant que personne très habituée à MATLAB, était assez négative, mais je l'ai fait, cela avait beaucoup à voir avec le fait que nous étions plus ou moins jetés au fond de la piscine, puis nous nous attendions à apprendre à nager par nos propres moyens, ce qui bien sûr m'a amené à détester le logiciel à partir de ce moment :) Il est peut
posdef
1

Personnellement, j'ai adoré ce qui avait un très bon mélange de théorie et d'application (avec beaucoup d'exemples). C'était un bon match avec casella et berger pour une approche plus théorique. Et pour un large aperçu de ce pinceau .

toujours
la source
Les deux livres semblent avoir de bonnes critiques sur Amazon, quelqu'un peut-il ajouter des opinions (peut-être un peu plus en détail) à ce sujet? btw; par casella & berger, voulez-vous dire "Inférence statistique"?
posdef
Oui «inférence statistique». Pour moi, une grande étape consistait à comprendre les modèles de probabilité pour comprendre comment utiliser les données pour tester les modèles et estimer les paramètres des modèles. Surtout le livre de Davison se concentre vraiment sur ce point.
alwaysean