En mathématiques, il existe des branches telles que l'algèbre, l'analyse, la topologie, etc. Dans l'apprentissage automatique, il y a l'apprentissage supervisé, non supervisé et par renforcement. Dans chacune de ces branches, il existe des branches plus fines qui divisent davantage les méthodes.
J'ai du mal à établir un parallèle avec les statistiques. Quelles seraient les principales branches des statistiques (et sous-branches)? Une partition parfaite n'est probablement pas possible, mais tout vaut mieux qu'une grande carte vierge.
self-study
classification
silly.deer
la source
la source
Réponses:
Je trouve ces systèmes de classification extrêmement inutiles et contradictoires. Par exemple:
etc. Il n'y a pas de "branches" sans ambiguïté des mathématiques, et il ne devrait pas non plus y avoir de statistiques.
la source
Il s'agit d'un contrepoint mineur à la réponse de Rob Hyndman. Cela a commencé comme un commentaire, puis est devenu trop complexe pour un. Si cela est trop loin de répondre à la question principale, je m'excuse et la supprimerai.
La biologie dépeint des relations hiérarchiques depuis bien avant le premier doodle de Darwin (voir le commentaire de Nick Cox pour un lien). La plupart des relations évolutives sont toujours montrées avec ce type d'arbre phylogénétique agréable, propre et ramifié:
Cependant, nous avons finalement réalisé que la biologie est plus compliquée que cela. Il y a parfois des échanges génétiques (par croisement et autres processus) entre des espèces et des gènes distincts présents dans une partie de l'arbre qui «sautent» vers une autre partie de l'arbre. Le transfert horizontal de gènes déplace les gènes d'une manière qui rend la représentation de l'arbre simple ci-dessus inexacte. Cependant, nous n'avons pas abandonné les arbres, mais simplement créé des modifications à ce type de visualisation:
C'est plus difficile à suivre, mais cela donne une image plus précise de la réalité.
Un autre exemple:
Cependant, nous n'introduisons jamais ces figures plus complexes pour commencer, car elles sont difficiles à saisir sans comprendre les concepts de base. Au lieu de cela, nous enseignons l'idée de base avec la figure simple, puis les présentons avec la figure la plus complexe et les complications les plus récentes de l'histoire.
De même, toute «carte» des statistiques serait à la fois inexacte et un outil pédagogique précieux. Les visualisations du formulaire OP suggèrent sont très utiles pour les étudiants et ne doivent pas être ignorées simplement parce qu'elles ne parviennent pas à capturer la réalité au total. Nous pouvons ajouter plus de complexité à l'image une fois qu'ils ont un cadre de base en place.
la source
Vous pouvez consulter les mots clés / balises du site Web Cross Validated.
Les succursales en réseau
Une façon de le faire est de le représenter comme un réseau basé sur les relations entre les mots clés (à quelle fréquence ils coïncident dans le même article).
Lorsque vous utilisez ce script sql pour obtenir les données du site à partir de (data.stackexchange.com/stats/query/edit/1122036)
Ensuite, vous obtenez une liste de mots clés pour toutes les questions avec un score de 2 ou plus.
Vous pouvez explorer cette liste en traçant quelque chose comme ceci:
Mise à jour: la même chose avec la couleur (basée sur les vecteurs propres de la matrice de relation) et sans la balise d'auto-étude
Vous pouvez nettoyer ce graphique un peu plus loin (par exemple, supprimer les balises qui ne se rapportent pas à des concepts statistiques comme les balises logicielles, dans le graphique ci-dessus, cela est déjà fait pour la balise 'r') et améliorer la représentation visuelle, mais je suppose que cette image ci-dessus montre déjà un bon point de départ.
Code R:
Branches hiérarchiques
Je crois que ces types de graphiques de réseau ci-dessus se rapportent à certaines des critiques concernant une structure hiérarchique purement ramifiée. Si vous le souhaitez, je suppose que vous pouvez effectuer un clustering hiérarchique pour le forcer dans une structure hiérarchique.
Voici un exemple d'un tel modèle hiérarchique. Il faudrait encore trouver des noms de groupe appropriés pour les différents clusters (mais, je ne pense pas que ce clustering hiérarchique soit la bonne direction, donc je le laisse ouvert).
La mesure de distance pour le clustering a été trouvée par essais et erreurs (en faisant des ajustements jusqu'à ce que les clusters paraissent bien.
Écrit par StackExchangeStrike
la source
Une façon simple de répondre à votre question consiste à consulter les tableaux de classification courants. Par exemple, la classification des matières mathématiques de 2010 est utilisée par certaines publications pour classer les articles. Celles-ci sont pertinentes car c'est ainsi que de nombreux auteurs classent leurs propres articles.
Il existe de nombreux exemples de classifications similaires, par exemple la classification d'Arxiv ou l' UDK (Universal Decimal Classifictaion) du ministère russe de l'Éducation, qui est largement utilisé pour toutes les publications et recherches.
Un autre exemple est JEL Claasification System de l'American Economic Association. L'article de Rob Hyndman " Prévision automatique des séries chronologiques: le paquet de prévisions pour R. " Il est classé comme C53, C22, C52 selon JEL. Hyndman a cependant raison de critiquer les classifications des arbres. Une meilleure approche pourrait être le balisage, par exemple les mots-clés dans son article sont: "Modèles ARIMA, prévision automatique, lissage exponentiel, intervalles de prédiction, modèles d'espace d'état, séries chronologiques, R." On pourrait dire que ce sont de meilleures façons de classer les articles, car ils ne sont pas hiérarchiques et plusieurs hiérarchies pourraient être construites.
@whuber a souligné que certaines avancées récentes telles que l'apprentissage automatique ne figureront pas dans les statistiques des classifications actuelles. Par exemple, jetez un oeil à l'article " Deep Learning: An Introduction for Applied Mathematicians " par Catherine F. Higham, Desmond J. Higham. Ils ont classé leur papier sous MSC susmentionné comme 97R40, 68T01, 65K10, 62M45. ce sont sous l'informatique, l'enseignement des mathématiques et l'analyse numérique en plus des statistiques
la source
Une façon d'aborder le problème consiste à examiner les réseaux de citations et de co-auteurs dans des revues statistiques, comme les Annals of Statistics, Biometrika, JASA et JRSS-B. Cela a été fait par:
Ils ont identifié des communautés de statisticiens et utilisé leur compréhension du domaine pour étiqueter les communautés comme:
Le document comprend une discussion détaillée des communautés ainsi que des décompositions des plus grandes dans d'autres sous-communautés.
Cela ne répond peut-être pas entièrement à la question, car cela concerne les domaines de la recherche de statisticiens plutôt que tous les domaines, y compris ceux qui ne sont plus actifs. J'espère que cela sera néanmoins utile. Bien sûr, il y a d'autres mises en garde (comme considérer uniquement ces quatre revues) qui sont discutées plus loin dans le document.
la source
Je vois beaucoup de réponses incroyables, et je ne sais pas comment un humble classement fait par soi-même peut être reçu, mais je ne connais aucun livre complet de toutes les statistiques pour montrer le résumé de, et je pense que, comme @ mkt a brillamment commenté, une classification d'un domaine d'étude peut être utile. Voici donc ma photo:
Bien sûr, c'est trop simpliste, cela ne vise qu'à donner une idée directement à quelqu'un qui connaît à peine le domaine, chacun de nous ici sait sûrement qu'il y a beaucoup de méthodes entre les catégories ici, beaucoup d'autres que je n'ai pas faites. t liste parce qu'ils sont moins connus ou parce que j'ai tout simplement oublié. J'espère que vous aimez.
la source
Une façon d'organiser ces informations consiste à trouver un bon livre et à consulter la table des matières. C'est un paradoxe parce que vous avez spécifiquement posé des questions sur les statistiques , alors que la plupart des textes d'introduction aux cycles supérieurs sur le sujet concernent la statistique et la théorie des probabilités ensemble. Un livre que je lis sur la régression a maintenant la table des matières suivante:
Modèles de données binaires
Modèles de régression générale
(Les sections restantes soutiennent les mathématiques et la théorie des probabilités)
la source