L'idée de l'analyse adaptative des données est que vous modifiez votre plan d'analyse des données à mesure que vous en apprenez davantage. Dans le cas de l'analyse exploratoire des données (EDA), c'est généralement une bonne idée (vous recherchez souvent des tendances imprévues dans les données), mais pour une étude de confirmation, cela est largement accepté comme une méthode d'analyse très imparfaite (à moins que tous les étapes sont clairement définies et correctement planifiées à l'avance).
Cela étant dit, l'analyse adaptative des données est généralement le nombre de chercheurs qui effectuent réellement leurs analyses, au grand désarroi des statisticiens. En tant que tel, si l'on pouvait le faire d'une manière statistiquement valable, cela révolutionnerait la pratique statistique.
L' article suivant de Science prétend avoir trouvé une méthode pour le faire (je m'excuse pour le paywall, mais si vous êtes dans une université, vous avez probablement accès): Dwork et al, 2015, The réutilisable holdout: Preserving valid in adaptive data analysis .
Personnellement, j'ai toujours été sceptique sur les articles de statistiques publiés dans Science , et celui-ci n'est pas différent. En fait, après avoir lu l'article deux fois, y compris le matériel supplémentaire, je ne comprends pas (du tout) pourquoi les auteurs affirment que leur méthode empêche le sur-ajustement.
D'après ce que je comprends, ils ont un ensemble de données d'exclusion qu'ils vont réutiliser. Ils semblent prétendre qu'en "fuzzing" la sortie de l'analyse de confirmation sur l'ensemble de données de holdout, le sur-ajustement sera évité (il convient de noter que le fuzzing semble simplement ajouter du bruit si la statistique calculée sur les données d'entraînement est suffisamment éloignée à partir de la statistique calculée sur les données d'exclusion ). Pour autant que je sache, il n'y a pas de raison réelle que cela empêche le sur-ajustement.
Suis-je dans l'erreur sur ce que proposent les auteurs? Y a-t-il un effet subtil que je néglige? Ou la science a-t-elle approuvé la pire pratique statistique à ce jour?
Réponses:
Il y a un blog publié par les auteurs qui décrit cela à un niveau élevé.
Pour citer au début de cette publication:
Je ne vois pas du tout comment leur technique résout ce problème. Donc, en réponse à votre question, je pense qu'ils ne traitent pas du jardin des chemins de bifurcation, et en ce sens, leur technique va endormir les gens dans un faux sentiment de sécurité. Pas très différent de dire "J'ai utilisé la validation croisée" endormit beaucoup - qui ont utilisé un CV non imbriqué - dans un faux sentiment de sécurité.
Il me semble que la majeure partie de la publication sur le blog indique que leur technique est une meilleure réponse pour empêcher les participants à une compétition de style Kaggle de gravir le gradient de l'ensemble de test. Ce qui est utile, mais ne concerne pas directement les chemins de fourche. On dirait qu'il a la saveur du Wolfram et de la nouvelle science de Google où d'énormes quantités de données prendront le dessus. Ce récit a un bilan mitigé, et je suis toujours sceptique quant à la magie automatisée.
la source
Je suis sûr que je simplifie trop cette technique de confidentialité différentielle ici, mais l'idée est logique à un niveau élevé.
Lorsque vous obtenez un algorithme pour cracher de bons résultats (wow, la précision de mon jeu de test s'est vraiment améliorée), vous ne voulez pas sauter à la conclusion tout de suite. Vous souhaitez l'accepter uniquement lorsque l'amélioration est nettement plus importante que l'algorithme précédent. C'est la raison de l'ajout de bruit.
EDIT: Ce blog a de bonnes explications et des codes R pour démontrer l'efficacité de l'additionneur de bruit, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
la source
L'affirmation selon laquelle l'ajout de bruit aide à empêcher le sur-ajustement retient vraiment l'eau ici, car ce qu'ils font réellement limite la façon dont le document est réutilisé . Leur méthode fait en fait deux choses: elle limite le nombre de questions qui peuvent être posées au sujet du récalcitrant, et combien de chacune des réponses révèle sur les données du récalcitrant.
Le cœur de leur méthode est une relation entre la stabilité algorithmique et le sur-ajustement, qui remonte à la fin des années 1970 (Devroye et Wagner 1978). En gros, ça dit
Il y a maintenant pas mal d'articles qui analysent comment différentes procédures d'ajout de bruit contrôlent le sur-ajustement. Un document relativement lisible est celui de Russo et Zou ( https://arxiv.org/abs/1511.05219 ). Certains documents de suivi plus récents sur les travaux initiaux de Dwork et al. pourrait également être utile de regarder. (Avertissement: j'ai deux articles sur le sujet, le plus récent expliquant un lien avec le test d'hypothèse adaptative: https://arxiv.org/abs/1604.03924 .)
J'espère que tout aide.
la source
Je m'oppose à votre deuxième phrase. L'idée que son plan complet d'analyse des données doit être déterminé à l'avance n'est pas justifiée, même dans un contexte où vous essayez de confirmer une hypothèse scientifique préexistante. Au contraire, toute analyse de données décente nécessitera une certaine attention aux données réelles qui ont été acquises. Les chercheurs qui croient le contraire sont généralement des chercheurs qui croient que les tests de signification sont le début et la fin de l'analyse des données, avec peu ou pas de rôle pour les statistiques descriptives, les graphiques, l'estimation, la prédiction, la sélection du modèle, etc. Dans ce contexte, l'exigence de fixer ses plans analytiques à l'avance a plus de sens parce que les façons conventionnelles dont p-les valeurs sont calculées nécessitent que la taille de l'échantillon et les tests à effectuer soient décidés avant de voir les données. Cette exigence gêne l'analyste, et est donc l'une des nombreuses bonnes raisons de ne pas utiliser de tests de signification.
Vous pourriez objecter que laisser l'analyste choisir quoi faire après avoir vu les données permet un surajustement. C'est le cas, mais un bon analyste montrera toutes les analyses qu'ils ont effectuées, expliquera explicitement quelles informations contenues dans les données ont été utilisées pour prendre des décisions analytiques et utilisera de manière appropriée des méthodes telles que la validation croisée. Par exemple, il est généralement bien de recoder des variables en fonction de la distribution des valeurs obtenue, mais en choisissant pour une analyse les 3 prédicteurs sur 100 qui ont l'association observée la plus proche de la variable dépendante signifie que les estimations d'association vont être positives biaisé, par le principe de régression à la moyenne. Si vous souhaitez effectuer une sélection de variables dans un contexte prédictif, vous devez sélectionner des variables dans vos plis de validation croisée, ou utiliser uniquement les données d'apprentissage.
la source