Je me souviens encore du document Annals of Statistics sur Boosting de Friedman-Hastie-Tibshirani, ainsi que des commentaires d'autres auteurs (dont Freund et Schapire) sur le même sujet. À l’époque, clairement, Boosting était perçu comme une avancée à bien des égards: réalisable sur le plan informatique, méthode d’ensemble, avec une performance à la fois excellente et mystérieuse. À peu près à la même époque, SVM a atteint sa maturité en offrant un cadre reposant sur une théorie solide, avec de nombreuses variantes et applications.
C'était dans les merveilleuses années 90. Au cours des 15 dernières années, il me semble que de nombreuses statistiques ont été une opération de nettoyage et de détail, mais avec peu de points de vue vraiment nouveaux.
Je vais donc poser deux questions:
- Ai-je manqué un papier révolutionnaire / séminal?
- Sinon, y a-t-il de nouvelles approches qui, selon vous, pourraient potentiellement changer le point de vue de l'inférence statistique?
Règles:
- Une réponse par poste;
- Références ou liens bienvenus.
PS: J'ai quelques candidats pour des percées prometteuses. Je les posterai plus tard.
Réponses:
La réponse est si simple que je dois écrire tout ce charabia pour faire un CV, laissez-moi le poster: R
la source
Je ne sais pas si vous appelleriez cela une "percée" en soi, mais l'édition de la théorie des probabilités: la logique de la science par Edwin Jaynes et Larry Bretthorst peut être remarquable. Certaines des choses qu'ils font ici sont:
1) montrer l’équivalence entre certains schémas itératifs de "désaisonnalisation" et l’intégration bayésienne de "paramètre de nuisance".
2) a résolu le soi-disant "paradoxe de la marginalisation", considéré comme la "mort du bayésianisme" par certains, et la "mort de prieurs injustes" par d'autres.
3) l’idée que la probabilité décrit un état de connaissance selon lequel une proposition est vraie ou fausse, par opposition à la description d’une propriété physique du monde .
Les trois premiers chapitres de ce livre sont disponibles gratuitement ici .
la source
En tant que statisticien appliqué et auteur de logiciel mineur occasionnel, je dirais:
WinBUGS (sorti en 1997)
Il est basé sur BUGS, publié il y a plus de 15 ans (1989), mais WinBUGS a rendu l'analyse bayésienne de modèles réalistes et complexes accessible à un nombre beaucoup plus grand d'utilisateurs. Voir, par exemple, Lunn, Spiegelhalter, Thomas et Best (2009) (et la discussion à ce sujet dans Statistics in Medicine, vol. 28, numéro 25 ).
la source
Stan
?la source
L’introduction de la fonction de perte "divergence intrinsèque" et d’autres fonctions de perte "sans paramétrage" dans la théorie de la décision. Il a beaucoup d'autres "belles" propriétés, mais je pense que le meilleur est le suivant:
Je pense que c'est très cool! (par exemple, la meilleure estimation du log-odds est le log (p / (1-p)), la meilleure estimation de la variance est le carré de l'écart type, etc.)
La prise? la différence intrinsèque peut être assez difficile à résoudre! (cela implique min () funcion, un rapport de vraisemblance et des intégrales!)
La "contre-prise"? vous pouvez "réorganiser" le problème afin qu'il soit plus facile à calculer!
La "contre-contre-capture"? trouver comment "réorganiser" le problème peut être difficile!
Voici quelques références que je connais et qui utilisent cette fonction de perte. Bien que j'aime beaucoup les parties "estimation intrinsèque" de ces documents / diapositives, j'ai quelques réserves quant à l'approche "référence préalable" qui est également décrite.
Test d'hypothèses bayésiennes: une approche de référence
Estimation Intrinsèque
Comparaison des moyennes normales: nouvelles méthodes pour résoudre un problème ancien
Estimation objective bayésienne et test d'hypothèses intégrés
la source
Je crois que les algorithmes de contrôle du taux de découverte fictive (False Discovery Rate) se situent juste dans la période de 15 ans . J'aime l'approche 'q-value'.
la source
En ajoutant mes 5 centimes, je pense que la plus importante avancée de ces 15 dernières années a été la détection comprimée. LARS, LASSO et une foule d'autres algorithmes relèvent de ce domaine, dans la mesure où Compressed Sensing explique pourquoi ils fonctionnent et les étend à d'autres domaines.
la source
Quelque chose qui a très peu à voir avec les statistiques elles-mêmes, mais qui a été extrêmement bénéfique: la puissance de feu croissante des ordinateurs, rendant de plus grands ensembles de données et des analyses statistiques plus complexes plus accessibles, en particulier dans les domaines appliqués.
la source
L'algorithme espérance-propagation pour l'inférence bayésienne, en particulier dans la classification du processus gaussien, a sans doute été une avancée significative, car il fournit une méthode d'approximation analytique efficace qui fonctionne presque aussi bien que des approches basées sur un échantillonnage coûteux (contrairement à l'approximation habituelle de Laplace). Voir les travaux de Thomas Minka et d'autres sur la feuille de route du PE
la source
Je pense que l’ inférence approximative bayésienne pour les modèles gaussiens latents utilisant des approximations imbriquées de Laplace imbriquées intégrées de H. Rue et. al (2009) est un candidat potentiel.
la source
À mon avis, tout ce qui vous permet de faire fonctionner de nouveaux modèles à grande échelle constitue une avancée décisive. L'interpolation du noyau pour les processus gaussiens structurés évolutifs (KISS-GP) pourrait être candidate (bien que l'idée soit nouvelle et que peu d'implémentations aient été mises en œuvre).
la source
Un peu plus général que les statistiques, je pense qu’il ya eu des progrès importants dans les méthodes de recherche sur la reproductibilité (RR) . Par exemple, le développement de R
knittr
etSweave
les packages et les carnets de notes "R Markdown", les améliorations apportées à LyX et à LaTeX ont largement contribué au partage des données, à la collaboration, à la vérification / validation et même à des avancées statistiques supplémentaires. Les articles de fond publiés dans des revues statistiques, médicales et épidémiologiques permettaient rarement à quelqu'un de reproduire facilement les résultats avant l'émergence de ces méthodes / technologies de recherche reproductibles. Aujourd'hui, plusieurs revues exigent des recherches reproductibles et de nombreux statisticiens utilisent RR et le code de publication, leurs résultats et leurs sources de données sur le Web. Cela a également contribué à promouvoir les disciplines de la science des données et à rendre l'apprentissage statistique plus accessible.la source
À mon avis, article publié en 2011 dans le magazine Science. Les auteurs proposent une mesure très intéressante d’association entre une paire de variables aléatoires qui fonctionne bien dans de nombreuses situations où des mesures similaires échouent (Pearson, Spearman, Kendall). Très beau papier. C'est ici.
la source