J'aime le livre de G van Belle sur les règles statistiques statistiques , et dans une moindre mesure, les erreurs communes en statistique (et comment les éviter) de Phillip I Good et James W. Hardin. Ils traitent des pièges courants lors de l'interprétation des résultats d'études expérimentales et observationnelles et fournissent des recommandations pratiques en matière d'inférence statistique ou d'analyse exploratoire de données. Mais j’ai le sentiment que les directives "modernes" manquent quelque peu, en particulier du fait de l’utilisation croissante de statistiques robustes et computationnelles dans divers domaines, ou de l’introduction de techniques issues de la communauté de l’apprentissage automatique, par exemple la biostatistique clinique ou l’épidémiologie génétique.
Outre les astuces informatiques ou les pièges courants de la visualisation des données qui pourraient être abordés ailleurs, j'aimerais poser la question suivante: Quelles sont les principales règles empiriques que vous recommanderiez pour une analyse efficace des données? ( une règle par réponse, s'il vous plaît ).
Je songe aux lignes directrices que vous pourriez donner à un collègue, à un chercheur sans connaissances approfondies en modélisation statistique ou à un étudiant dans un cours intermédiaire à avancé. Cela peut concerner différentes étapes de l'analyse des données, telles que les stratégies d'échantillonnage, la sélection de caractéristiques ou la création de modèles, la comparaison de modèles, l'estimation ultérieure, etc.
Gardez votre analyse reproductible. Un réviseur, votre chef ou une autre personne finira par vous demander comment vous en êtes arrivé au résultat - probablement six mois ou plus après l'analyse. Vous ne vous souviendrez pas comment vous avez nettoyé les données, quelle analyse vous avez faite, pourquoi vous avez choisi le modèle spécifique que vous avez utilisé ... Et reconstruire tout cela est une douleur.
Corollaire: utilisez un langage de script quelconque, ajoutez des commentaires dans vos scripts d'analyse et conservez-les. Ce que vous utilisez (R, SAS, Stata, peu importe) est moins important que d’avoir un script totalement reproductible. Rejette les environnements dans lesquels c'est impossible ou inconfortable.
la source
Il n'y a pas de repas gratuit
Une grande partie des défaillances statistiques est créée en cliquant sur un gros bouton brillant appelé "Calculer la signification" sans prendre en compte le fardeau de ses hypothèses cachées.
Répéter
Même si un seul appel à un générateur aléatoire est impliqué, on peut avoir de la chance ou de la malchance et sauter ainsi aux mauvaises conclusions.
la source
Une règle par réponse ;-)
Parlez au statisticien avant de mener l'étude. Si possible, avant de demander la subvention. Aidez-le à comprendre le problème que vous étudiez, demandez-lui comment analyser les données que vous êtes sur le point de collecter et réfléchissez à ce que cela signifie pour la conception de votre étude et aux exigences en matière de données. Peut-être que les statistiques suggèrent de créer un modèle hiérarchique pour déterminer qui a diagnostiqué les patients - vous devez ensuite suivre qui a diagnostiqué qui. Cela semble banal, mais il vaut bien mieux y réfléchir avant de collecter des données (et de ne pas collecter quelque chose de crucial) plutôt qu'après.
Sur une note connexe: faites une analyse de puissance avant de commencer. Rien n’est aussi frustrant que de ne pas avoir prévu un échantillon suffisamment important. En réfléchissant à la taille de l'effet que vous attendez, rappelez-vous un biais de publication - la taille de l'effet que vous allez trouver sera probablement plus petite que ce à quoi vous vous attendiez compte tenu de la littérature (biaisée).
la source
Une chose que je dis à mes étudiants est de produire un graphique approprié pour chaque valeur p. par exemple, un diagramme de dispersion s'ils testent la corrélation, des boîtes à moustaches côte à côte s'ils réalisent une ANOVA à un facteur, etc.
la source
Si vous choisissez entre deux méthodes d'analyse de vos données, essayez-les dans les deux sens et voyez si cela fait une différence.
Ceci est utile dans de nombreux contextes:
Cela ne devrait pas dispenser de réfléchir à la question, mais cela donne au moins une idée de la mesure dans laquelle les conclusions de fond sont robustes au choix.
la source
Questionnez vos données. À l'ère moderne de la RAM bon marché, nous travaillons souvent sur de grandes quantités de données. Une erreur du «doigt de graisse» ou une «décimale perdue» peut facilement dominer une analyse. En l'absence de vérification de base de la santé mentale (ou de la représentation graphique des données, comme suggéré par d'autres ici), on peut perdre beaucoup de temps. Cela suggère également l’utilisation de techniques de base pour la «robustesse» aux valeurs aberrantes.
la source
Utilisez un logiciel qui montre la chaîne de la logique de programmation depuis les données brutes jusqu'aux analyses / résultats finaux. Évitez les logiciels comme Excel, où un utilisateur peut faire une erreur indétectable dans une cellule, que seule une vérification manuelle permettra de détecter.
la source
Demandez-vous toujours "que signifient ces résultats et comment seront-ils utilisés?"
L’utilisation de statistiques a généralement pour but d’aider à prendre des décisions dans l’incertitude. Il est donc important d’avoir à l’esprit "quelles décisions seront prises à la suite de cette analyse et comment cette analyse influencera-t-elle ces décisions?" (Par exemple, publier un article, recommander l’utilisation d’une nouvelle méthode, fournir un financement de X $ à Y, obtenir plus de données, indiquer une quantité estimée en tant que E, etc.etc.)
Si vous estimez qu'il n'y a aucune décision à prendre, on se demande alors pourquoi vous faites l'analyse en premier lieu (car cela coûte assez cher de faire une analyse). Je considère les statistiques comme une "nuisance" en ce sens qu’il s’agit d’un moyen de parvenir à une fin plutôt que d’une fin en soi. À mon avis, nous ne quantifions que les incertitudes afin de pouvoir les utiliser pour prendre des décisions qui rendent compte de ces incertitudes de manière précise.
Je pense que c'est l'une des raisons pour lesquelles garder les choses simples est une bonne politique en général, car il est généralement beaucoup plus facile de relier une solution simple au monde réel (et donc à l'environnement dans lequel la décision est prise) à la solution complexe. . Il est également généralement plus facile de comprendre les limites de la réponse simple. Vous passez ensuite aux solutions plus complexes lorsque vous comprenez les limites de la solution simple et comment la solution complexe les aborde.
la source
Il peut y avoir une longue liste mais en mentionner quelques unes: (sans ordre particulier)
La valeur P n'est PAS une probabilité. Plus précisément, ce n'est pas la probabilité de commettre une erreur de type I. De même, les IC n'ont pas d'interprétation probabiliste pour les données fournies. Ils sont applicables pour des expériences répétées.
Le problème lié à la variance domine le biais la plupart du temps, donc une estimation biaisée avec une variance faible est préférable à une estimation non biaisée avec une variance importante (la plupart du temps).
L'ajustement d'un modèle est un processus itératif. Avant d'analyser les données, comprenez la source des données et les modèles possibles qui correspondent ou non à la description. Essayez également de modéliser les problèmes de conception de votre modèle.
Utilisez les outils de visualisation, examinez les données (pour détecter d'éventuelles anomalies, tendances évidentes, etc., afin de comprendre les données) avant de les analyser. Utilisez les méthodes de visualisation (si possible) pour voir comment le modèle s’adapte à ces données.
Dernier point mais non le moindre, utilisez un logiciel statistique pour ce à quoi ils sont destinés (pour faciliter votre tâche de calcul), ils ne se substituent pas à la pensée humaine.
la source
Pour l'organisation / la gestion des données, veillez à ce que les variables d'origine ne soient jamais supprimées lorsque vous générez de nouvelles variables dans le jeu de données (par exemple, calcul de l'indice de masse corporelle à partir de la taille et du poids). Une approche non destructive est préférable dans une perspective de reproductibilité. Vous ne savez jamais quand vous risquez de mal entrer une commande et de devoir par la suite refaire votre génération de variable. Sans les variables d'origine, vous perdrez beaucoup de temps!
la source
Penser dur sur le processus de génération de données sous - jacent (DGP). Si le modèle que vous souhaitez utiliser ne correspond pas au modèle de stratégie de groupe, vous devez en trouver un nouveau.
la source
Pour les histogrammes, une bonne règle générale pour le nombre de cases dans un histogramme :
racine carrée du nombre de points de données
la source
Malgré des ensembles de données de plus en plus volumineux et des logiciels plus puissants, les modèles de sur-adaptation constituent un danger majeur pour les chercheurs, en particulier ceux qui n'ont pas encore été brûlés. Sur-adapter signifie que vous avez adapté quelque chose de plus complexe que vos données et l'état de la technique. Comme l'amour ou la beauté, il est difficile de définir, encore moins formellement, mais plus facile à reconnaître.
Une règle empirique minimale est de 10 points de données pour chaque paramètre estimé pour une régression classique, et faites attention aux conséquences si vous l'ignorez. Pour les autres analyses, vous avez généralement besoin de beaucoup plus pour faire du bon travail, en particulier si les données contiennent de rares catégories.
Même si vous pouvez adapter un modèle facilement, vous devez vous préoccuper constamment de sa signification et de la reproductibilité de ce dernier, même avec un ensemble de données très similaire.
la source
la source
Si le modèle ne converge pas facilement et rapidement, cela pourrait être la faute du logiciel. Il est cependant beaucoup plus courant que vos données ne conviennent pas au modèle ou que le modèle ne convient pas aux données. Il pourrait être difficile de dire lequel, et les empiristes et les théoriciens peuvent avoir des points de vue différents. Mais la réflexion par sujet, l’examen approfondi des données et la réflexion constante sur l’interprétation du modèle sont d’une aide inestimable. Par-dessus tout, essayez un modèle plus simple si un modèle compliqué ne converge pas.
Il n’ya aucun avantage à forcer la convergence ou à proclamer la victoire et à prendre des résultats après de nombreuses itérations mais avant que votre modèle n’ait réellement convergé. Au mieux, vous vous trompez si vous faites cela.
la source
Dans la régression de variables instrumentales, vérifiez toujours la signification conjointe de vos instruments. La règle empirique de Staiger-Stock stipule qu'une statistique F inférieure à 10 est inquiétante et indique que vos instruments peuvent être faibles, c'est-à-dire qu'ils ne sont pas suffisamment corrélés avec la variable endogène. Cependant, cela ne signifie pas automatiquement qu'un F supérieur à 10 est la garantie d'instruments puissants. Staiger et Stock (1997) ont montré que les techniques de variables instrumentales telles que 2SLS peuvent être fortement biaisées dans les "petits" échantillons si les instruments ne sont que faiblement corrélés à la variable endogène. Leur exemple est l’étude de Angrist et Krueger (1991) qui a effectué plus de 300 000 observations - un fait troublant concernant la notion de "petits" échantillons.
la source
Il n'y a pas de critère pour choisir des critères d'information.
Une fois que quelqu'un a dit quelque chose comme "Le? IC l'indique, mais il est souvent connu pour donner de mauvais résultats" (où? Est-ce qu'une lettre vous plait), vous savez qu'il vous faudra aussi réfléchir au modèle et surtout si cela fait sens scientifique ou pratique.
Aucune algèbre ne peut vous dire cela.
la source
J'ai lu ceci quelque part (probablement en croix validée) et je n'ai pas été en mesure de le trouver nulle part, alors voilà ...
Si vous avez découvert un résultat intéressant, c'est probablement faux.
Il est très facile d’être excité par la perspective d’une valeur p stupéfiante ou d’une erreur de validation croisée presque parfaite. J'ai personnellement présenté avec enthousiasme à des collègues des résultats impressionnants (faux), pour ensuite les rétracter. Le plus souvent, si cela semble trop beau pour être vrai ...
'souiller vrai. 'Taint true du tout.
la source
Essayez d'être vaillant plutôt que vertueux C'est-à-dire, ne laissez pas de petits signes de non-normalité, de non-indépendance ou de non-linéarité, etc., bloquer votre route si de telles indications doivent être ignorées afin que les données parlent haut et fort . - En danois, "dristig" et "dydig" sont les adjectifs.
la source
Lors de l'analyse des données longitudinales, assurez-vous de vérifier que les variables sont codées de la même manière pour chaque période.
Lors de la rédaction de ma thèse, qui impliquait l’analyse de données secondaires, il ya eu environ une semaine de confusion totale d’un décalage d’une unité des scores moyens de la dépression sur une moyenne par an stable: il s’est avéré celui d’une année de mon ensemble de données, les éléments d’échelle d’un instrument validé avaient été codés 1–4 au lieu de 0–3.
la source
Votre hypothèse devrait guider votre choix de modèle, et non l'inverse.
Pour paraphraser Maslow, si vous êtes un marteau, tout ressemble à un clou. Des modèles spécifiques comportent des œillères et des hypothèses sur le monde: des modèles non dynamiques, par exemple, s’étouffent au retour des résultats du traitement.
la source
Utilisez la simulation pour vérifier si la structure de votre modèle peut créer des "résultats" qui ne sont que des artefacts mathématiques des hypothèses de votre modèle.
Réalisez votre analyse sur des variables rediffusées ou sur des variables simulées connues pour être décorrélées les unes des autres. Faites-vous cela plusieurs fois et comparez les estimations ponctuelles moyennes (et les intervalles de confiance ou crédibles) aux résultats obtenus avec les données réelles: sont-ils si différents?
la source
Je suis un analyste de données plutôt qu'un statisticien, mais ce sont mes suggestions.
1) Avant d’analyser les données, assurez-vous que les hypothèses de votre méthode sont correctes. Une fois que vous voyez les résultats, il peut être difficile de les oublier même après avoir résolu les problèmes et les résultats changent.
2) Il est utile de connaître vos données. Je fais des séries chronologiques et j’ai un résultat qui n’a guère de sens compte tenu des données des dernières années. J'ai examiné les méthodes à la lumière de cela et découvert que la moyenne des modèles de la méthode faussait les résultats pour une période donnée (et qu'une rupture structurelle s'était produite).
3) Faites attention aux règles de base. Ils reflètent les expériences de chercheurs individuels à partir de leurs propres données. Si leur domaine est très différent du vôtre, leurs conclusions risquent de ne pas être correctes pour vos données. De plus, et cela a été un choc pour moi, les statisticiens sont souvent en désaccord sur des points essentiels.
4) Essayez d’analyser les données avec différentes méthodes et voyez si les résultats sont similaires. Comprenez qu'aucune méthode n'est parfaite et veillez à vérifier le plus possible le non-respect des hypothèses.
la source