Quels sont les articles de statistiques appliquées intéressants et bien écrits?

28

Quels sont les bons articles décrivant les applications des statistiques qui seraient amusantes et instructives à lire? Pour être clair, je ne recherche pas vraiment des articles décrivant de nouvelles méthodes statistiques (par exemple, un article sur la régression des moindres angles), mais plutôt des articles décrivant comment résoudre des problèmes du monde réel.

Par exemple, un article qui correspondrait à ce que je recherche est le document sur le climat du deuxième Cross-Validated Journal Club . Je suis en quelque sorte à la recherche de papiers plus statistiques, plutôt que de papiers d'apprentissage automatique, mais je suppose que c'est une sorte de distinction floue (je classerais les articles du prix Netflix comme un peu limite et un article sur l'analyse des sentiments comme quelque chose Je ne cherche pas ).

Je pose la question parce que la plupart des applications des statistiques que j'ai vues sont soit les petits extraits que vous avez vus dans les manuels, soit des choses liées à mon propre travail, alors j'aimerais m'étendre un peu.

raegtin
la source
4
Avez-vous des intérêts généraux que vous aimeriez énumérer? Cela pourrait aider à guider les suggestions. Les applications des statistiques sont devenues assez répandues dans un éventail remarquablement large de domaines.
Cardinal
1
@cardinal, non, aucun intérêt particulier - le but était de dériver des choses que je lis généralement, donc j'essaie de ne pas limiter les réponses. (Cela rend peut-être la question un peu trop large, mais je suppose que je recherche les listes de "best of" personnelles des gens.)
raegtin
1
Une lecture incontournable classique, en particulier parce que tous les modèles de probabilité introduits sont motivés par un raisonnement "physique" au sujet du problème, plutôt que par un chapeau, est: F. Mosteller, DL Wallace (1963): Inférence dans un problème d'auteur: Une étude comparative des méthodes de discrimination appliquées à la paternité des articles fédéralistes contestés , J. Am. Stat. Assoc. 58 (302), p. 275–309. Également sur ce lien .
pglpm

Réponses:

12

Il est un peu difficile pour moi de voir quel article pourrait vous intéresser, alors laissez-moi essayer de suggérer les suivants, à partir de la littérature psychométrique:

Borsboom, D. (2006). L'attaque des psychométriciens . Psychometrika , 71 , 425-440.

pour habiller la scène (Pourquoi avons-nous besoin d'utiliser des modèles statistiques qui reflètent mieux les hypothèses sous-jacentes couramment trouvées dans la recherche psychologique?)

Borsboom, D. (2008). Perspectives psychométriques sur les systèmes de diagnostic . Journal of Clinical Psychology , 64 , 1089-1108.

pour une perspective appliquée sur la médecine diagnostique (transition de l'évaluation oui / non telle qu'utilisée dans le DSM-IV à l'approche "dimensionnelle" destinée au DSM-V). Un examen plus large des modèles de variables latentes dans la recherche biomédicale que j'aime est:

Rabe-Hesketh, S. et Skrondal, A. (2008). Modèles variables latents classiques pour la recherche médicale . Méthodes statistiques en recherche médicale , 17 (1) , 5-32.

chl
la source
@ chl (+1) ces papiers Borsboom étaient merveilleux, ils ont vraiment élargi ma réflexion sur la mesure
richiemorrisroe
+1, j'aime aussi Borsboom. Pour ceux qui s'intéressent à l'article de The Attack, je pense qu'ils seraient également intéressés par "The Concept of Validity", rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Bien qu'il soit un peu plus verbeux, il n'est pas aussi facile à suivre que l'article Attack.
Andy W
10

Voici cinq articles très cités des 40 dernières années du Journal de la Royal Statistical Society, série C: Statistiques appliquées avec une application claire dans le titre qui a attiré mon attention lors de la numérisation des résultats de recherche du Web of Knowledge:

onestop
la source
9

À un niveau plus large, je recommanderais l'article ["Statistical Modeling: The Two Cultures"] [1] de Leo Breiman en 2001 (cité 515). J'ai copié le résumé.

Abstrait. Il existe deux cultures dans l'utilisation de la modélisation statistique pour tirer des conclusions à partir des données. On suppose que les données sont générées par un modèle de données stochastique donné. L'autre utilise des modèles algorithmiques et traite le mécanisme de données comme inconnu. La communauté statistique s'est engagée à utiliser presque exclusivement des modèles de données. Cet engagement a conduit à une théorie non pertinente, à des conclusions discutables et a empêché les statisticiens de travailler sur un large éventail de problèmes actuels intéressants. La modélisation algorithmique, à la fois en théorie et en pratique, s'est développée rapidement dans des domaines hors statistiques. Il peut être utilisé à la fois sur de grands ensembles de données complexes et comme une alternative plus précise et informative à la modélisation de données sur des ensembles de données plus petits. Si notre objectif en tant que champ est d'utiliser des données pour résoudre des problèmes,

[1]: https://doi.org/10.1214/ss/1009213726 (accès libre)

Parbury
la source
8

Du point de vue de l'épidémiologie génétique, je recommanderais maintenant la série d'articles sur les études d'association à l'échelle du génome :

  1. Cordell, HJ et Clayton, DG (2005). Études d'association génétique . Lancet 366, 1121-1131.
  2. Cantor, RM, Lange, K. et Sinsheimer, JS (2010). Hiérarchisation des résultats du GWAS: examen des méthodes statistiques et recommandations pour leur application . The American Journal of Human Genetics 86, 6–22.
  3. Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Valider, augmenter et affiner les signaux d'association à l'échelle du génome . Nature Reviews Genetics 10, 318-329.
  4. Balding, DJ (2006). Un tutoriel sur les méthodes statistiques pour les études d'association de population . Nature Reviews Genetics 7, 781-791.
  5. Green, AE et al. (2008). Utiliser les données génétiques en neurosciences cognitives: des douleurs de croissance aux véritables perspectives . Nature Reviews Neuroscience 9, 710-720.
  6. McCarthy, MI et al. (2008). Études d'association à l'échelle du génome pour les caractères complexes: consensus, incertitude et défis . Nature Reviews Genetics 9, 356-369.
  7. Comité de coordination du consortium psychiatrique GWAS (2009). Genomewide Association Studies: History, Reason, and Prospects for Psychiatric Disorders . American Journal of Psychiatry 166 (5), 540-556.
  8. Sebastiani, P. et al. (2009). Études d'association à l'échelle du génome et dissection génétique de caractères complexes . American Journal of Hematology 84 (8), 504-15.
  9. The Wellcome Trust Case Control Consortium (2007). Étude d'association pangénomique sur 14 000 cas de sept maladies courantes et 3 000 témoins partagés . Nature 447, 661-678.
  10. The Wellcome Trust Case Control Consortium (2010). Étude d'association pangénomique sur les NVC dans 16 000 cas de huit maladies courantes et 3 000 témoins partagés . Nature 464, 713-720.
chl
la source
2

Un article ayant eu un impact précoce sur la recherche statistique en bioinformatique:

Jelizarow et al . Sur-optimisme en bioinformatique: une illustration . Bioinformatique, 2010

Cela permet une discussion intéressante sur les sources de biais, le sur-ajustement et la pêche d'importance.

Borlaug
la source