En tant que réviseur, puis-je justifier que les données et le code soient mis à disposition même si le journal ne le fait pas?

23

Comme la science doit être reproductible, par définition, il est de plus en plus reconnu que les données et le code sont un élément essentiel de la reproductibilité, comme discuté par la table ronde de Yale pour le partage des données et du code .

En examinant un manuscrit pour une revue qui ne nécessite pas de partage de données et de code, puis-je demander que les données et le code soient mis à disposition

  1. pour moi au moment de l'examen
  2. publiquement au moment de la publication (la revue prend en charge les suppléments)

aussi, comment pourrais-je formuler une telle demande?


mise à jour : bien que je m'intéresse au cas général, ce cas particulier consiste en une méta-analyse avec toutes les données précédemment publiées, et le code est de simples modèles linéaires en SAS

note de côté la capacité de faire des déductions croisées (comme c'est le but de la méta-analyse) serait grandement améliorée si plus d'études fournissaient des données brutes

mise à jour 2 :

J'ai demandé les données et le code à l'éditeur à des fins d'examen, l'éditeur a jugé la demande raisonnable et j'ai reçu le matériel demandé (suffisant mais avec des noms de variables cryptiques, pas de métadonnées et quelques commentaires en ligne) dans la journée.

David LeBauer
la source
3
Personnellement, je serais d'accord avec le code dans presque toutes les circonstances. Les données sont un autre problème. À moins qu'il ne soit déjà accessible au public, je n'aurai probablement pas la permission de le partager avec qui que ce soit. Je soupçonne que cela rend une demande de données déraisonnable dans de nombreuses circonstances.
Andy W
4
Cela ressemble à quelque chose que vous devriez discuter avec votre éditeur ou éditeur associé. S'ils font leur travail, ils devraient être en mesure de vous fournir des conseils et serviraient probablement de point de contact pour les auteurs pour une telle demande.
cardinal
1
Il me semble que bon nombre des exemples et des discussions qui en découlent sont basés sur des situations anecdotiques qui peuvent varier considérablement selon la discipline et les données dont nous parlons. Bien sûr, certaines situations semblent parfaitement raisonnables pour diffuser des données, mais cela ne caractérise pas nécessairement toutes les situations. Cette question se transforme très rapidement en diatribe!
Andy W
1
@Andy des suggestions sur la façon de s'éloigner d'une diatribe? par exemple les distinctions qui devraient être faites dans le PO ou les modifications des réponses (c'est CW après tout).
Abe
1
Je pense que ce formulaire a un biais de sélection :-). La plupart d'entre nous sont ici parce que la plupart d'entre nous soutiennent l'idée des PO d'une manière ou d'une autre.
suncoolsu

Réponses:

7

En ce qui concerne l'obtention de données en tant qu'évaluateur, vous y avez droit si vous en avez besoin pour terminer correctement votre examen. Plus d'examinateurs devraient demander des données et les évaluer. De nombreuses revues ont des politiques qui peuvent nécessiter les données et le code d'analyse à des fins d'examen.

La disponibilité au moment de la publication n'est pas claire pour moi. Il semble que vous disiez que vous voulez forcer le fait que les données soient rendues publiques comme condition de publication. C'est une mauvaise idée si ce n'est pas déjà la politique du journal. Vous faites de la publication une cible mouvante injuste. Ils ont soumis en s'attendant à ce que ce ne soit pas une exigence et que vous, ni l'éditeur, devriez changer le jeu.

À l'insu de nombreux chercheurs financés par des fonds publics, ils sont tenus de rendre leurs données publiques. Par exemple, la plupart des subventions du NIH contiennent des clauses dans lesquelles le chercheur doit communiquer ses données. La plupart des organismes subventionnaires gouvernementaux ont des clauses de partage de données qui obligent le chercheur à partager ce qu'il trouve (peut-être que la force est un peu forte étant donné qu'il est très difficile de perdre une subvention par-dessus ... peut-être même de perdre le renouvellement). Le public a payé les données, donc le public y a droit --- dans le cas de la recherche humaine, il a le droit de les rendre anonymisées.

Certaines des données les plus coûteuses et sensibles à collecter, les données de l'IRMf humaine, sont également parmi les plus communément rendues publiques. Non seulement PLoS, mais les principales revues du domaine nécessitent la soumission des données et maintiennent une banque de données accessible au public. Je pense que cela en dit long sur les personnes qui s'opposent pour des raisons de coût (c'est très cher) et de confidentialité (ce sont les données humaines de petites études et parfois des populations cliniques uniques qui pourraient être très sensibles). Ce sont des raisons qui rendent ces données plus précieuses pour le public. Les chercheurs qui retiennent de telles données ne rendent pas service aux personnes qui les ont achetées (tout le monde) et ont besoin d'une leçon sur leurs responsabilités en dehors de leur petit laboratoire et concours de publication.

Si la recherche était financée par le secteur privé, véritablement financée par le secteur privé, alors bonne chance.

John
la source
Je suis d'accord avec la plupart de ce qui s'y trouve - il existe déjà des exigences pour divulguer des données - généralement à d'autres chercheurs qualifiés - dans les subventions financées par les NIH et autres. Mais je pense que l'étendre à une exigence de publication ad hoc outrepasse largement le rôle d'un examinateur.
Fomite
1
(+1) Réponse réfléchie et bien articulée. Une chose à garder à l'esprit est que ce site a une audience assez internationale. J'espère que davantage de chercheurs adopteront une vision collaborative de leurs recherches et de leurs données même s'il n'y a pas de NIH ou autre organisation qui se tord le bras.
cardinal
EpiGrad, au cas où cela ne serait pas clair dans la réponse, je sentais que faire une exigence ad hoc pour la publication non seulement dépassait les limites de l'évaluateur, mais aussi de l'éditeur.
John
Cardinal, merci pour le compliment. Merci également pour le rappel. J'essaie de garder à l'esprit que le site est international. Aussi grand que le NIH soit, ce n'est pas dans mon pays. ;)
John
@John. Ouais - j'ai juste oublié de mettre +1 en étant d'accord avec toi :)
Fomite
6

Traiter les deux situations séparément:

En tant que critique: Oui, je pense que vous auriez des raisons de demander à voir les données ou le code. Mais si j'étais vous, je me préparerais à voir des choses comme du code épuré ou un sous-échantillon des données. Les gens mettent en œuvre des recherches futures qui ne sont pas signalées dans ce document dans leur code tout le temps, et vous n'avez aucun droit sur ce code. Étant donné que je fais principalement de la recherche biomédicale, je serais également prêt à devoir faire face à certains accords d'utilisation des données assez restrictifs.

Dans la revue elle-même: Non. Si un chercheur veut reproduire mes résultats, il peut me contacter lui-même pour demander du code - c'est pourquoi nous avons des auteurs correspondants. Pour les données, absolument pas, en aucun cas. Mes données sont régies par la CISR et les accords de confidentialité - elles ne seront pas simplement rendues publiques. Si je veuxun ensemble de données public, je pourrais simuler un ensemble de données avec des propriétés similaires (c'est-à-dire les données réseau "Faux-Mesa" disponibles dans l'un des packages réseau pour R), mais en tant que réviseur, vous n'avez aucun appel à forcer . S'il s'agit d'une exigence à l'échelle de la revue, les auteurs savaient que leurs données / code seraient publics lors de leur soumission, mais si ce n'est pas le cas, alors non. Votre rôle est d'évaluer la qualité du document lui-même (d'où mon accord avec lui aux fins de l'examen), et non d'utiliser votre capacité à contribuer à l'acceptation / au rejet du document pour pousser ce qui est essentiellement un point philosophique / politique. en dehors de la portée de la revue.

Au mieux, je mettrais un "J'invite fortement les auteurs à rendre leur code et leurs données disponibles, si possible" dans vos commentaires, mais je ne le formulerais pas plus fort que cela, et je ne le mettrais pas dans la liste officielle des «choses que je pense devoir être corrigées avant que cela ne voit le jour».

Fomite
la source
Je viens de remarquer vos modifications: dans ce cas, en ce qui concerne l'article, la réponse est en fait un «non» plus fort - en supposant que l'article contient des citations. Si l'objet de la demande est une «recherche reproductible» et que les données sont accessibles au public, il n'y a aucune raison pour qu'un chercheur cherchant à confirmer les résultats ne puisse pas le faire lui-même. En outre, si le but est réellement d'évaluer la science, plutôt que de simplement démontrer que vous pouvez également cliquer sur "Exécuter" et obtenir les mêmes résultats, passer par le processus de recherche et d'abstraction dans le littéraire vous-même fait partie de la vérification d'un résultat.
Fomite
pour que la recherche soit reproductible, la version du code et les données utilisées dans l'analyse doivent être rendues disponibles, et le code non utilisé dans l'analyse ne devrait pas être attendu (ou nécessairement pertinent).
David LeBauer
@EpiGrad: À un certain niveau, je ne suis pas tout à fait d'accord avec ce non fort . Keith Baggerly a récemment évangélisé sur ce sujet et fait quelques observations intéressantes. Voir, par exemple, KA Baggerly et KR Coombes, Deriving chemosensitivity from cell lines: Forensic bioinformatics and reproductible research in high-throughput biology , Ann. Appl. Stat. , vol 3, non. 4, pp. 1309-1334. Il existe également une version arxiv .
cardinal
Je connais très peu de chercheurs financés par des subventions qui ont des problèmes de RIR et de confidentialité qui restreignent véritablement la publication de données correctement anonymisées. Si vous êtes dans cette situation, c'est un cas assez rare.
John
@EpiGrad Je remets également en question le non fort . Les méthodes utilisées pour passer des données brutes aux métriques dérivées dans une méta-analyse nécessitent souvent un large éventail d'hypothèses liées aux différences de méthodologie et d'interprétation qui se produisent au niveau d'une étude individuelle. Dans ce cas, plus de 200 études sont représentées, donc le temps requis pour reconstruire l'ensemble de données serait prohibitif - et finirait par entraver l'objectif ultime de faire progresser la science.
David LeBauer
5

Comme John le dit, la disponibilité des données pour les examinateurs devrait être une évidence; un examen attentif devrait inclure la reproduction de l'analyse et, à ce titre, nécessite l'accès aux données.

En ce qui concerne la disponibilité publique des données après leur publication, je dirais que la bataille devrait être menée avec la revue en général plutôt qu'avec une soumission spécifique.

De manière plus générale, les organismes de financement et les CISR sont de plus en plus conscients que le partage des données est une composante à la fois scientifique et éthique de la recherche. En augmentant la disponibilité pour une nouvelle analyse qui pourrait produire de nouveaux résultats de rapports erronés corrects, le partage des données augmente les avantages potentiels pour la recherche, modifiant ainsi le compromis coût / avantage au profit des participants à la recherche. Il est certainement nécessaire d'informer les participants de la possibilité que leurs données soient partagées, et il est également nécessaire de mettre en place des garanties pour éviter un risque accru d'identification pour les participants, mais cela peut être réalisé dans la plupart des circonstances. Dans mes propres recherches, j'assure aux participants (et à ma CISR) que (1) les données seront stockées dans un format crypté robuste (mis à jour au fur et à mesure que la technologie de décryptage progresse),

Mike Lawrence
la source
1

Je n'ai aucune expérience à ce sujet, mais il me semble que vous pourriez être en mesure d'insister sur # 1 dans le cadre de votre propre diligence raisonnable dans l'examen de leurs résultats. Je ne vois pas comment vous pouvez insister sur le # 2, cependant.

Wayne
la source