J'ai récemment posé une question sur les principes généraux régissant l' examen des statistiques dans les journaux . Ce que je voudrais maintenant demander, c’est ce qui vous énerve particulièrement lorsque vous examinez un document, c’est-à-dire quel est le meilleur moyen d’ennuyer vraiment un arbitre de statistique!
Un exemple par réponse, s'il vous plaît.
references
referee
csgillespie
la source
la source
Réponses:
Ce qui m'irrite particulièrement, ce sont les gens qui utilisent clairement des progiciels écrits pour les logiciels statistiques mais qui ne les citent pas correctement, voire pas du tout, omettant de ce fait tout crédit aux auteurs. Cela est particulièrement important lorsque les auteurs sont universitaires et que leur travail dépend de la publication des articles cités . (Peut-être que je devrais ajouter que, dans mon domaine, de nombreux coupables ne sont pas des statisticiens.)
la source
Bon Dieu, tant de choses me viennent à l'esprit ...
Régression pas à pas
Division de données continues en groupes
Donner des valeurs p mais aucune mesure de la taille de l'effet
Décrire les données en utilisant la moyenne et l'écart type sans indiquer si les données étaient plus ou moins symétriques et unimodales
Chiffres sans libellés clairs (ces barres d'erreur sont-elles des erreurs-types de la moyenne ou des écarts-types au sein de groupes, ou quoi?)
la source
Irene Stratton et son collègue ont publié un court article sur une question étroitement liée:
Stratton IM, Neil A. Comment vous assurer que votre article est rejeté par le réviseur de statistiques . Médecine diabétique 2005; 22 (4): 371 à 373.
la source
Le code utilisé pour générer les résultats simulés n'est pas fourni. Après avoir demandé le code, il nécessite un travail supplémentaire pour le faire fonctionner sur un jeu de données généré par un arbitre.
la source
Plagiat (théorique ou méthodologique). Ma première critique concernait en effet un article contenant de nombreux copier / coller non référencés d’un article méthodologique bien établi publié il ya 10 ans.
Je viens de trouver quelques articles intéressants sur ce sujet: la paternité et le plagiat dans la science .
Dans le même esprit, la falsification (de données ou de résultats) est la pire de toutes.
la source
Quand on demande aux auteurs
et que les auteurs ne répondent pas vraiment dans le cas (1) ou que les résultats incriminés dans (2) disparaissent de la mémoire de messages.
la source
Confondre les valeurs p et la taille de l’effet (c’est-à-dire que mon effet est important parce que j’ai une valeur p très petite).
Légèrement différent de la réponse de Stephan, qui exclut la taille des effets mais donne des valeurs p. Je suis d'accord que vous devriez donner les deux (et si tout va bien comprendre la différence!)
la source
Non compris les tailles d'effet.
P-ing partout dans la recherche (je dois créditer mon professeur préféré d'études supérieures pour cette ligne).
Donner un nombre absurde de chiffres (les hommes gagnaient 3.102019 livres de plus que les femmes)
N'incluant pas les numéros de page (cela rend plus difficile la révision)
Des chiffres et des tableaux erronés
(comme déjà mentionné - étape par étape et catégorisation des variables continues)
la source
Lorsqu'ils n'expliquent pas suffisamment leur analyse et / ou incluent des erreurs simples qui rendent difficile la détermination de ce qui a réellement été fait. Cela implique souvent de jongler avec beaucoup de jargon, à titre d’explication, ce qui est plus ambigu que l’auteur ne semble le penser et peut aussi être mal utilisé.
la source
L'utilisation d'un langage de causalité pour décrire les associations dans les données d'observation lorsque des variables omises sont presque certainement une préoccupation sérieuse.
la source
Lorsque les auteurs utilisent le seul test statistique qu'ils connaissent (dans mon domaine, généralement un test t ou une ANOVA), à l'infini, que cela soit approprié ou non. J'ai récemment passé en revue un article dans lequel les auteurs voulaient comparer une douzaine de groupes de traitement différents. Ils avaient donc effectué un test t sur deux échantillons pour chaque paire de traitements possible ...
la source
Trouver de nouveaux mots pour les concepts existants ou, inversement, utiliser les termes existants pour désigner quelque chose de différent.
Certains des différentiels de terminologie existants sont établis depuis longtemps dans la littérature: données longitudinales en biostatistique par opposition à des données de panel en économétrie; indicateurs de cause à effet en sociologie contre indicateurs de formation et de réflexion en psychologie; etc. Je les hais toujours, mais au moins vous pouvez trouver quelques milliers de références à chacune d’elles dans leurs littératures respectives. Le plus récent est l'ensemble de ce travail sur les graphes acycliques dirigés dans la littérature causale: la plupart, sinon la totalité, de la théorie de l'identification et de l'estimation dans celles-ci a été développée par les économétriciens dans les années 1950 sous le nom d'équations simultanées.
Le terme qui a un sens double, voire triple, est "robuste" et les différentes significations sont souvent contradictoires. Les erreurs types "robustes" ne sont pas robustes pour les valeurs éloignées les plus éloignées; de plus, ils ne sont robustes que contre l'écart supposé par rapport au modèle et ont souvent des performances médiocres sur de petits échantillons. Les erreurs standard de White ne sont pas robustes par rapport aux corrélations de série ou de cluster; Les erreurs-types "robustes" dans les SEM ne sont pas robustes par rapport aux erreurs de spécification de la structure du modèle (chemins ou variables omis). Tout comme avec l'idée du test de signification de l'hypothèse nulle, il est impossible de pointer du doigt quelqu'un et de dire: "Vous êtes responsable de confondre plusieurs générations de chercheurs pour avoir inventé ce concept qui ne représente pas vraiment son nom".
la source
gllamm
considère vos données comme des données multi-niveaux / hiérarchiques, mais la plupart des autres packages considèrent plusieurs mesures comme des variables / colonnes et des échantillons comme des observations / lignes.Zéro prise en compte des données manquantes.
De nombreuses applications pratiques utilisent des données pour lesquelles il manque au moins certaines valeurs. C’est certainement très vrai en épidémiologie. Les données manquantes posent des problèmes pour de nombreuses méthodes statistiques, y compris les modèles linéaires. Les données manquantes avec des modèles linéaires sont souvent traitées en supprimant les observations avec les données manquantes sur les covariables. Ceci est un problème, à moins que des données ne soient manquantes, en supposant que les données sont manquantes complètement au hasard (MCAR).
Il y a peut-être 10 ans, il était raisonnable de publier les résultats de modèles linéaires sans tenir compte de l'absence de données manquantes. Je suis certainement coupable de cela. Cependant, de très bons conseils sur la manière de traiter les données manquantes avec une imputation multiple sont maintenant largement disponibles, de même que les progiciels, modèles, bibliothèques, etc. faciliter des analyses plus appropriées sous des hypothèses plus raisonnables en cas d'absence.
la source
Le signalement d'effets qui "s'approchent de la signification (p <0,10 par exemple) et les écrivant à leur sujet comme s'ils avaient atteint la signification à un niveau plus strict et acceptable. Exécuter plusieurs modèles d'équations structurelles non imbriquées puis les écrire comme s'ils Prendre une stratégie analytique bien établie et la présenter comme si personne n’avait jamais pensé à l’utiliser auparavant, ce qui est peut-être qualifié de plagiat au nième degré.
la source
Je recommande les deux articles suivants:
Martin Bland:
Comment contrarier l'arbitre statistique
Cet article est basé sur une série de conférences données par Martin Bland, ainsi que sur des données provenant d'autres arbitres statistiques («un échantillon de commodité avec un faible taux de réponse»). Il se termine par une liste de 11 points de «[b] ow pour ne pas contrarier l'arbitre statistique».
Stian Lydersen:
Revue statistique : commentaires fréquemment formulés
Cet article récent (publié en 2014/2015) énumère les 14 commentaires critiques les plus fréquents de l'auteur, basés sur un total d'environ 4 000 $. 200 revues statistiques d'articles scientifiques (dans une revue particulière). Chaque commentaire contient une brève explication du problème et des instructions sur la manière de procéder correctement à l'analyse / au reporting. La liste des références citées est un trésor de papiers intéressants.
la source
Je suis le plus (et le plus souvent) ennuyé par la "validation" visant à l'erreur de généralisation des modèles prédictifs dans lesquels les données de test ne sont pas indépendantes (par exemple, plusieurs mesures par patient dans les données, validation hors validation ou croisée, mesures de fractionnement non patients ).
Encore plus ennuyeux, des articles qui donnent de tels résultats de validation croisée erronés plus un ensemble de tests indépendant qui démontre le biais excessif de la validation croisée, mais pas un seul mot pour indiquer que la conception de la validation croisée est erronée ...
(Je serais parfaitement heureux si les mêmes données seraient présentées "nous savons que la validation croisée devrait diviser les patients, mais nous sommes bloqués avec un logiciel qui ne le permet pas. Par conséquent, nous avons testé un ensemble vraiment indépendant de patients soumis au test ")
(Je suis également conscient que bootstrapping = ré-échantillonnage avec remplacement fonctionne généralement mieux que la validation croisée = ré-échantillonnage sans remplacement. Cependant, nous avons trouvé des données spectroscopiques (spectres simulés et modèle légèrement artificiel mais des spectres réels) qui valident / répétent la validation croisée et répétée -of-bootstrap avait une incertitude globale similaire; oob avait plus de biais mais moins de variance - pour rewieving, j’envisage la question sous un angle très pragmatique: la validation croisée répétée par rapport à la méthode out-bootstrap n’a aucune importance tant que de nombreux articles ni scinder le patient, ni signaler / discuter / mentionner une incertitude aléatoire en raison de la taille réduite de l’échantillon de test.)
En plus d'avoir tort, cela a également pour effet secondaire que les personnes qui effectuent une validation correcte doivent souvent expliquer pourquoi leurs résultats sont tellement pires que tous les autres résultats de la littérature.
la source
Utiliser "données" dans un sens singulier. Les données sont, elles ne sont jamais.
la source
Pour moi, de loin, attribuer la cause sans analyse causale appropriée ou en cas de déduction causale inappropriée.
Je déteste aussi qu'on ne prête aucune attention à la manière dont les données manquantes ont été traitées. Je vois aussi beaucoup d'articles dans lesquels les auteurs se contentent d'analyser des cas complets sans indiquer si les résultats peuvent être généralisés à la population avec des valeurs manquantes ou comment la population avec des valeurs manquantes pourrait être systématiquement différente de la population avec des données complètes.
la source
Utiliser Microsoft Word plutôt que LaTeX.
la source