Je suis un étudiant diplômé en mathématiques pures avec peu d'expérience en mathématiques appliquées. Depuis l'automne dernier, j'ai suivi des cours sur le livre de Casella & Berger, et j'ai terminé des centaines (230+) de pages de problèmes d'exercice dans le livre. En ce moment, je suis au chapitre 10.
Cependant, comme je n'ai pas de spécialisation en statistique ou que je ne prévois pas devenir statisticien, je ne pense pas pouvoir investir régulièrement du temps pour continuer à apprendre l'analyse des données. Mon expérience jusqu'à présent me dit que, pour être statisticien, il faut supporter beaucoup de calculs fastidieux impliquant diverses distributions (Weibull, Cauchy, , ...). J'ai trouvé que même si les idées fondamentales sont simples, la mise en œuvre (par exemple le TLR dans les tests d'hypothèses) peut encore être difficile en raison des détails techniques.
Ma compréhension est-elle correcte? Existe-t-il un moyen d'apprendre les probabilités et les statistiques qui couvre non seulement des éléments plus avancés, mais peut également aider au cas où j'aurais besoin d'une analyse des données dans la vie réelle? Vais-je devoir y passer 20 heures par semaine comme je le faisais auparavant?
Bien que je pense qu'il n'y a pas de voie royale dans l'apprentissage des mathématiques, je ne peux souvent pas m'empêcher de me demander - la plupart du temps, nous ne savons pas quelle est la distribution des données réelles, alors quel est le but pour nous de nous concentrer exclusivement sur diverses familles de distributions ? Si la taille de l'échantillon est petite et que le théorème de la limite centrale ne s'applique pas, comment analyser correctement les données en plus de la moyenne et de la variance de l'échantillon si la distribution est inconnue?
Mon semestre se terminera dans un mois, et je ne veux pas que mes connaissances s'évaporent après avoir commencé à me concentrer sur ma recherche de doctorat. J'ai donc décidé de demander. J'apprends le R et j'ai des connaissances en programmation, mais mon niveau est à peu près le même que celui d'un singe de code.
la source
Répondre à ceux qui viendront à cette question plus tard…
Apprenez les bases de données (SQL), dplyr / pandas, les outils Unix (sed, grep), le scraping, les scripts, le nettoyage des données et les tests de logiciels. Les différentes distributions spécialisées ont peu de valeur dans l'industrie.
Un livre sur la régression appliquée comme Angrist & Pischke, Faraway ou Weisberg sera une théorie plus pratique.
D'où l'intérêt pour les statistiques non paramétriques. Mais en même temps non paramétrique sans hypothèses est trop lâche. Pour répondre à votre question, les familles spécialisées peuvent être considérées comme des réponses à des questions simples que vous pourriez, peut-être rencontrer. Par exemple, je pense à une gaussienne comme une estimation ponctuelle "lisse". Poisson répond à une autre question simple. Lorsque les gens construisent des modèles mathématiques, ces points spéciaux peuvent être des points d'appui utiles. (Mais les universitaires prennent souvent la quête de la distribution maîtresse dans le mauvais sens.)
OP: J'espère que vous vous êtes amusé avec votre recherche de doctorat!
la source