Que faut-il apprendre après Casella & Berger?

22

Je suis un étudiant diplômé en mathématiques pures avec peu d'expérience en mathématiques appliquées. Depuis l'automne dernier, j'ai suivi des cours sur le livre de Casella & Berger, et j'ai terminé des centaines (230+) de pages de problèmes d'exercice dans le livre. En ce moment, je suis au chapitre 10.

Cependant, comme je n'ai pas de spécialisation en statistique ou que je ne prévois pas devenir statisticien, je ne pense pas pouvoir investir régulièrement du temps pour continuer à apprendre l'analyse des données. Mon expérience jusqu'à présent me dit que, pour être statisticien, il faut supporter beaucoup de calculs fastidieux impliquant diverses distributions (Weibull, Cauchy, , ...). J'ai trouvé que même si les idées fondamentales sont simples, la mise en œuvre (par exemple le TLR dans les tests d'hypothèses) peut encore être difficile en raison des détails techniques.tF

Ma compréhension est-elle correcte? Existe-t-il un moyen d'apprendre les probabilités et les statistiques qui couvre non seulement des éléments plus avancés, mais peut également aider au cas où j'aurais besoin d'une analyse des données dans la vie réelle? Vais-je devoir y passer 20 heures par semaine comme je le faisais auparavant?

Bien que je pense qu'il n'y a pas de voie royale dans l'apprentissage des mathématiques, je ne peux souvent pas m'empêcher de me demander - la plupart du temps, nous ne savons pas quelle est la distribution des données réelles, alors quel est le but pour nous de nous concentrer exclusivement sur diverses familles de distributions ? Si la taille de l'échantillon est petite et que le théorème de la limite centrale ne s'applique pas, comment analyser correctement les données en plus de la moyenne et de la variance de l'échantillon si la distribution est inconnue?

Mon semestre se terminera dans un mois, et je ne veux pas que mes connaissances s'évaporent après avoir commencé à me concentrer sur ma recherche de doctorat. J'ai donc décidé de demander. J'apprends le R et j'ai des connaissances en programmation, mais mon niveau est à peu près le même que celui d'un singe de code.

Bombyx mori
la source

Réponses:

24

Je ne pense pas que je serai en mesure de consacrer régulièrement du temps à continuer à apprendre l'analyse des données

Je ne pense pas que Casella & Berger soit un endroit pour apprendre beaucoup de données en termes d' analyse de données . C'est un endroit pour apprendre certains des outils de la théorie statistique.

Mon expérience jusqu'à présent me disant d'être un statisticien doit supporter de nombreux calculs fastidieux impliquant diverses distributions (Weibull, Cauchy, t, F ...).

J'ai passé beaucoup de temps en tant que statisticien à analyser des données. Cela m'implique rarement (presque jamais) de faire des calculs fastidieux. Cela implique parfois une petite algèbre simple, mais les problèmes communs sont généralement résolus et je n'ai pas besoin de déployer des efforts pour les reproduire à chaque fois.

L'ordinateur fait tout le calcul fastidieux.

Si je suis dans une situation où je ne suis pas prêt à assumer un cas raisonnablement standard (par exemple, je ne suis pas prêt à utiliser un GLM), je n'ai généralement pas assez d'informations pour assumer une autre distribution non plus, donc la question des calculs dans LRT est généralement théorique (je peux les faire quand j'en ai besoin, ils ont juste tendance à être déjà résolus ou à arriver si rarement que c'est une diversion intéressante).

J'ai tendance à faire beaucoup de simulation; J'essaie également fréquemment d'utiliser le rééchantillonnage sous une forme quelconque, à côté ou à la place d'hypothèses paramétriques.

Dois-je y consacrer plus de 20 heures par semaine comme je le faisais auparavant?

Cela dépend de ce que vous voulez pouvoir faire et de la rapidité avec laquelle vous voulez vous perfectionner.

L'analyse des données est une compétence qui nécessite de la pratique et une large base de connaissances. Vous aurez déjà certaines des connaissances dont vous avez besoin.

Si vous voulez être un bon pratiquant dans une grande variété de choses, cela prendra beaucoup de temps - mais à mon avis, c'est beaucoup plus amusant que l'algèbre et ainsi de faire des exercices de Casella et Berger.

Certaines des compétences que j'ai développées disent que les problèmes de régression sont utiles avec les séries chronologiques, par exemple - mais beaucoup de nouvelles compétences sont nécessaires. Donc, apprendre à interpréter les graphiques résiduels et les graphiques QQ est pratique, mais ils ne me disent pas à quel point je dois m'inquiéter d'une petite bosse dans un graphique PACF et ne me donnent pas d'outils comme l'utilisation de la prédiction à une étape. les erreurs.

Ainsi, par exemple, je n'ai pas besoin de déployer des efforts pour déterminer comment faire raisonnablement du ML pour les modèles gamma ou weibull typiques , car ils sont suffisamment standard pour résoudre des problèmes qui ont déjà été largement mis sous une forme pratique.

Si vous venez pour faire des recherches , vous aurez besoin de beaucoup plus de compétences que vous acquérez dans des endroits comme Casella & Berger (mais même avec ce genre de compétences, vous devriez également lire plus d'un livre).


Quelques suggestions:

Vous devez absolument développer des compétences de régression, même si vous ne faites rien d'autre.

Il existe un certain nombre de très bons livres, mais peut-être Draper & Smith Applied Regression Analysis plus Fox and Weisberg An R Companion to Applied Regression ; Je vous suggère également d'envisager de suivre les stratégies de modélisation de la régression de Harrell

(Vous pouvez remplacer n'importe quel bon livre par Draper et Smith - trouvez-en un ou deux qui vous conviennent.)

Le deuxième livre a un certain nombre de chapitres supplémentaires en ligne qui valent vraiment la peine d'être lus (et son propre R-package)

-

Une bonne deuxième portion serait Venables et Ripley statistique appliquée moderne avec S .

C'est une mise à la terre dans un éventail assez large d'idées.

Il se peut que vous ayez besoin de plus de matériel de base dans certains sujets (je ne connais pas votre parcours).

Ensuite, vous devez commencer à réfléchir aux domaines de statistiques que vous souhaitez / avez besoin - statistiques bayésiennes, séries chronologiques, analyse multivariée, etc., etc.

Glen_b
la source
6

Mon conseil, venant de la perspective opposée (étudiant en doctorat Stats) est de travailler à travers un manuel de régression. Cela semble un point de départ naturel pour quelqu'un avec une solide formation théorique sans aucune expérience appliquée. Je sais que de nombreux étudiants diplômés de l'extérieur de notre département commencent un cours de régression.

Un bon exemple est la régression linéaire appliquée de Sanford Weisberg . Je pense que c'est sur sa quatrième version. Vous pourriez probablement trouver des versions plus anciennes relativement bon marché.

http://users.stat.umn.edu/~sandy/alr4ed/

Une bonne chose à propos de ce manuel, surtout compte tenu de votre relative inexpérience avec R, est l'amorce R disponible via le lien ci-dessus. Il fournit des instructions suffisantes pour recréer tout ce qui est fait dans le livre. De cette façon, vous pouvez réellement apprendre la régression (en plus de quelques notions de base de GLM), sans que votre manque de programmation R ne vous retienne (et vous comprendrez probablement de nombreuses bases R en cours de route).

Si vous voulez une introduction complète à R, vous pouvez être mieux servi en passant par Fox et Weisberg's An R Companion to Applied Regression , mais il semble que vous préfériez apprendre les statistiques plutôt que la programmation (si ces deux choses peuvent être pensées séparément).

En ce qui concerne votre engagement de temps, je ne pense vraiment pas que vous trouveriez ce manuel ou ce matériel trop difficile. Contrairement à Casella-Berger, il n'y aura pas beaucoup de preuves ou de dérivations. C'est généralement assez simple.

En passant, il semble y avoir des solutions flottant en ligne (ou à un moment donné), vous pouvez donc essayer des problèmes, vérifier des solutions et accélérer le travail dans le livre.

user23658
la source
4

J'essaie de façon détournée d'être davantage moi-même un statisticien, mais je suis avant tout un psychologue qui a des intérêts quantitatifs et méthodologiques. Pour faire un travail psychométrique correctement, j'ai étudié des méthodes avancées (pour un psychologue) que je ne rêverais pas de calculer manuellement (et encore moins je saurais comment). J'ai été surpris de voir à quel point ces méthodes sont devenues accessibles et pratiques grâce à tous les efforts dévoués des programmeurs de packages R au cours de la dernière décennie. J'ai fait une analyse réelle avec de nouvelles méthodes que j'ai appris à utiliser en moins de 20 heures par méthode ... Je pourrais consacrer autant de temps à une nouvelle méthode au moment où je serai prêt à publier un résultat en l'utilisant, mais il n'est certainement pas nécessaire de faire un travail à temps partiel pour étudier juste pour progresser comme moi. Faites ce que vous pouvez quand vous en avez le temps; ce n'est pas un tout ou rien si vous n'en avez pas besoin.

Je ne me suis certainement pas concentré exclusivement sur un sujet, sans parler des familles de distributions; Je doute que tout statisticien honnête à Dieu étudie aussi étroitement. J'ai essayé des distributions théoriques pendant peut-être une heure par jour à quelques reprises au cours de la semaine dernière; cela a été beaucoup pour se révéler utile dans les applications de données réelles. Pour autant que je sache, l'idée n'est pas tant de classer strictement les distributions; il s'agit de reconnaître des formes de distribution qui ressemblent à des théories et de les utiliser pour aider à décider des analyses appropriées et comprendre les dynamiques de base. J'ai partagé des réflexions similaires sur ma réponse la plus récente à " Est-il préférable de sélectionner des distributions basées sur la théorie, l'ajustement ou autre chose? "

Vous n'avez pas dit quelle analyse vous souhaitez effectuer dans ce que je suppose être votre scénario hypothétique le plus défavorable, mais il existe des moyens d'étudier la sensibilité de toute analyse aux erreurs d'échantillonnage. Si le CLT ne s'applique pas, il y a encore plusieurs questions statistiques que vous pouvez poser si vous savez comment. Les méthodes non paramétriques font généralement des hypothèses très limitées sur les distributions, donc la connaissance préalable de la forme de la distribution d'une population n'est pas nécessairement un problème majeur.

Les connaissances en général ne s'évaporent pas vraiment rapidement ou complètement, mais si vous ne les utilisez pas, vous aurez plus de mal à vous en souvenir librement. Vous conserverez un avantage de reconnaissance beaucoup plus longtemps, ce qui pourrait toujours être utile si vous avez besoin d'étudier des sujets que vous avez étudiés plusieurs années auparavant ... mais si vous voulez rester à l'aise dans ce que vous avez appris, continuez à l'utiliser et continuez à apprendre! R est définitivement un bon endroit pour investir tout le temps d'étude que vous avez. Cela devrait aussi vous aider dans vos calculs: consultez une autre de mes réponses récentes au " Meilleur logiciel de visualisation de données open source à utiliser avec PowerPoint ".

Nick Stauner
la source
3

Je suis tombé sur celui-ci en 2019. Mes deux cents.

Je suis professeur de statistique avec une tendance à faire des analyses de données de différents types (c'est pourquoi j'ai choisi les statistiques!). Pour acquérir des connaissances pratiques, je recommande James, Witten, Hastie et Tibshirani "An Introduction to Statistical Learning". Ils ont même un MOOC basé sur cela. Le livre utilise de nombreux exemples de "données réelles" et est également basé sur R.

PA6OTA
la source
Avez-vous quelque chose à suggérer au-delà des "éléments d'apprentissage statistique"? Je pense que je connais (parties de base de) le livre maintenant.
Bombyx mori
2

Répondre à ceux qui viendront à cette question plus tard…


analyse des données réelles

Apprenez les bases de données (SQL), dplyr / pandas, les outils Unix (sed, grep), le scraping, les scripts, le nettoyage des données et les tests de logiciels. Les différentes distributions spécialisées ont peu de valeur dans l'industrie.

Un livre sur la régression appliquée comme Angrist & Pischke, Faraway ou Weisberg sera une théorie plus pratique.

la plupart du temps, nous ne savons pas quelle est la distribution pour les données réelles, alors quel est le but pour nous de nous concentrer exclusivement sur diverses familles de distributions

D'où l'intérêt pour les statistiques non paramétriques. Mais en même temps non paramétrique sans hypothèses est trop lâche. Pour répondre à votre question, les familles spécialisées peuvent être considérées comme des réponses à des questions simples que vous pourriez, peut-être rencontrer. Par exemple, je pense à une gaussienne comme une estimation ponctuelle "lisse". Poisson répond à une autre question simple. Lorsque les gens construisent des modèles mathématiques, ces points spéciaux peuvent être des points d'appui utiles. (Mais les universitaires prennent souvent la quête de la distribution maîtresse dans le mauvais sens.)

OP: J'espère que vous vous êtes amusé avec votre recherche de doctorat!

isomorphismes
la source