Quels sont les "gros problèmes" dans les statistiques?

77

La mathématique a ses fameux problèmes du millénaire (et, historiquement, les 23 de Hilbert ), des questions qui ont contribué à façonner la direction du terrain.

Cependant, je ne sais pas ce que seraient les hypothèses de Riemann et les statistiques P vs NP.

Alors, quelles sont les questions ouvertes globales dans les statistiques?

Édité pour ajouter: À titre d'exemple de l'esprit général (sinon assez spécifique) de la réponse que je recherche, j'ai trouvé une conférence inspirée par "Hilbert's 23" de David Donoho lors de la conférence "Les défis mathématiques du 21e siècle": Analyse de données de grande dimension: les malédictions et les bénédictions de la dimensionnalité

Une réponse potentielle pourrait donc parler du big data et de son importance, des types de défis statistiques que posent les données haute dimension, ainsi que des méthodes à développer ou des questions auxquelles il faut répondre pour aider à résoudre le problème.

raegtin
la source
5
Merci d'avoir posté ceci. C'est une discussion importante (et potentiellement inspirante) à avoir.
whuber

Réponses:

48

Une grande question devrait concerner des questions clés de méthodologie statistique ou, étant donné que les statistiques concernent uniquement des applications, elle devrait concerner la manière dont les statistiques sont utilisées avec des problèmes importants pour la société.

Cette caractérisation suggère que les éléments suivants devraient être inclus dans toute prise en compte de gros problèmes:

  • Quelle est la meilleure façon de mener des essais de médicaments ? Actuellement, les tests d'hypothèses classiques nécessitent de nombreuses phases d'étude formelles. Dans les phases ultérieures (de confirmation), les questions économiques et éthiques pèsent lourd. Pouvons-nous faire mieux? Devons-nous inclure des centaines, voire des milliers de malades dans des groupes de contrôle et les y maintenir jusqu'à la fin d'une étude, par exemple, ou pouvons-nous trouver de meilleurs moyens d'identifier les traitements qui fonctionnent réellement et de les transmettre aux membres de l'essai (et les autres) plus tôt?

  • Faire face au biais de publication scientifique . Les résultats négatifs sont publiés beaucoup moins simplement parce qu'ils n'atteignent tout simplement pas une valeur p magique. Toutes les branches de la science doivent trouver de meilleurs moyens de mettre en lumière des résultats scientifiquement importants, et pas seulement statistiquement significatifs . (Le problème des comparaisons multiples et la gestion des données de grande dimension sont des sous-catégories de ce problème.)

  • Explorer les limites des méthodes statistiques et leurs interfaces avec l'apprentissage et la cognition automatiques . Les progrès inévitables de la technologie informatique rendront la véritable IA accessible de notre vivant. Comment allons-nous programmer des cerveaux artificiels? Quel rôle la pensée statistique et l'apprentissage statistique pourraient-ils jouer dans la création de ces avancées? Comment les statisticiens peuvent-ils aider à réfléchir sur la cognition artificielle, l'apprentissage artificiel, à explorer leurs limites et à faire des progrès?

  • Développer de meilleures méthodes d'analyse des données géospatiales . On prétend souvent que la majorité, ou la grande majorité, des bases de données contiennent des références de localisation. Bientôt, de nombreuses personnes et appareils seront localisés en temps réel grâce aux technologies GPS et de téléphonie mobile. Les méthodes statistiques d'analyse et d'exploitation des données spatiales en sont encore à leurs balbutiements (et semblent être reléguées aux SIG et aux logiciels spatiaux généralement utilisés par des non-statisticiens).

whuber
la source
1
De quelles façons les gens essaient-ils de résoudre ces problèmes?
Raegtin
3
@grautur: Voilà quatre excellentes questions (plus beaucoup d'autres, car votre réponse s'applique à toutes les réponses de ce fil). Ils méritent tous des réponses élaborées, mais il n'y a évidemment pas de place pour cela ici: une question à la fois, s'il vous plaît!
whuber
3
En ce qui concerne le premier point (essais de médicaments): même les personnes qui, autrement, ne seraient pas intéressées par les expériences médicales devraient lire l’article de New York Times sur le débat sur les règles de base des essais cliniques ( ntimes.com/2010/09/19/health/research/) … ) Le lecteur qui a de bonnes connaissances en statistiques comprendra immédiatement les implications non spécifiées concernant la conception expérimentale et l'utilisation des valeurs p pour la prise de décision. Il existe une résolution statistique, quelque part, à l’énigme de la vie et de la mort décrite dans cet article.
whuber
26

Michael Jordan a publié un court article intitulé Quels sont les problèmes non résolus dans la statistique bayésienne? , dans lequel il a interrogé un groupe de statisticiens pour connaître leur point de vue sur les problèmes en suspens dans le domaine des statistiques. Je vais résumer (alias, copier-coller) un peu ici, mais il vaut probablement mieux simplement lire l'original.

Non paramétrique et semiparamétrique

  • Pour quels problèmes les méthodes non paramétriques bayésiennes sont-elles utiles et valent-elles la peine?
  • David Dunson: "Les modèles non paramétriques de Bayes impliquent une infinité de paramètres et les a priori sont généralement choisis pour leur commodité, avec des hyperparamètres définis à des valeurs apparemment raisonnables, sans justification objective ou subjective appropriée."
  • "Plusieurs personnes ont noté que l'une des applications les plus attrayantes de la non paramétrique fréquentiste est l'inférence semi-paramétrique, où la composante non paramétrique du modèle est un paramètre de nuisance. Ces personnes ont estimé qu'il serait souhaitable de développer la théorie (fréquentiste) de Semiparametrics bayésiens. "

Prieurs

  • "L'élicitation reste une source majeure de problèmes ouverts."
  • "Aad van der Vaart a renversé l'objectif de Bayes et a souligné l'absence de théorie concernant" les situations dans lesquelles on veut que le précédent apparaisse par la suite ", par opposition à" fournir simplement une approche bayésienne du lissage ".

Relations bayésiennes / fréquentistes

  • "De nombreux répondants ont exprimé le souhait de resserrer davantage les relations bayésiennes / fréquentistes. Cela a été le plus souvent démontré dans le contexte des modèles et des données de grande dimension, où non seulement les approches subjectives de la spécification des a priori sont difficiles à mettre en œuvre, mais aussi des a priori de commodité (très) trompeur. "
  • «Certains répondants ont soif de théories non asymptotiques susceptibles de révéler plus en détail les avantages potentiels des méthodes bayésiennes. David Dunson, par exemple: "Souvent, le taux optimal fréquentiste est obtenu par des procédures qui, visiblement, sont bien pires pour les échantillons finis que les approches bayésiennes."

Calcul et statistiques

  • Alan Gelfand: "Si MCMC n'est plus viable pour les problèmes que les gens veulent résoudre, alors quel est le rôle d'INLA, des méthodes variationnelles, des approches ABC?"
  • "Plusieurs répondants ont demandé une intégration plus poussée de la science informatique et de la science statistique, notant que l'ensemble des inférences que l'on peut atteindre dans une situation donnée sont à la fois fonction du modèle, des antécédents, des données et des ressources informatiques, et souhaitant: En effet, Rob Kass a évoqué la possibilité d'une notion de «résolvabilité inférentielle», dans laquelle certains problèmes sont considérés comme étant au-delà de tout espoir (par exemple,sélection du modèle dans la régression où «pour de petites quantités de données sujettes à un bruit non trivial, il est impossible d'obtenir des intervalles de confiance utiles sur les coefficients de régression lorsqu'il existe un grand nombre de variables dont la présence ou l'absence dans le modèle est indéterminée a priori») et où il y a d'autres problèmes («certaines fonctionnelles pour lesquelles il existe des intervalles de confiance utiles») pour lesquels il y a de l'espoir ».
  • "Plusieurs répondants, tout en s'excusant d'un certain flou, ont exprimé le sentiment qu'une grande quantité de données n'implique pas nécessairement une grande quantité de calculs; au contraire, la force inférentielle présente dans les données volumineuses devrait être transférée vers l'algorithme et permettre se contenter de moins d'étapes de calcul pour obtenir une solution inférentielle satisfaisante (approximative). "

Sélection de modèles et tests d'hypothèses

  • George Casella:. « Il semble que nous faisons maintenant le choix du modèle , mais bayésiens ne pas à vous soucier des propriétés d'inférence se basant sur le modèle sélectionné s'il est faux Quelles sont les conséquences de la mise en place des régions crédibles pour un certain paramètre? lorsque vous Peut-on avoir des procédures avec une sorte de garantie? "β1
  • Besoin de plus de travail sur les fondements de la théorie de la décision dans la sélection du modèle.
  • David Spiegelhalter: "Quel est le meilleur moyen de faire de la vérification des conflits antérieurs / de données une partie intégrante de l'analyse bayésienne?"
  • Andrew Gelman: "Pour la vérification des modèles, un problème ouvert clé consiste à développer des outils graphiques permettant de comprendre et de comparer les modèles. Les graphiques ne se limitent pas aux données brutes; les modèles bayésiens complexes permettent en revanche une analyse plus poussée et plus efficace des données."
prix
la source
13

Je ne sais pas trop quelle est leur taille, mais il existe une page Wikipedia pour les problèmes non résolus dans les statistiques. Leur liste comprend:

Inférence et test

  • Erreurs systématiques
  • Admissibilité de l'estimateur Graybill – Deal
  • Combinaison de valeurs p dépendantes dans la méta-analyse
  • Problème de Behrens – Fisher
  • Comparaisons multiples
  • Problèmes ouverts dans les statistiques bayésiennes

Conception expérimentale

  • Problèmes dans les carrés latins

Problèmes de nature plus philosophique

  • Problème d'échantillonnage d'espèces
  • Argument Doomsday
  • Paradoxe de l'échange
points
la source
6

Comme exemple de l'esprit général (sinon assez spécifique) de réponse que je recherche, j'ai trouvé une conférence inspirée par "Hilbert's 23" de David Donoho lors d'une conférence intitulée "Les défis mathématiques du 21e siècle":

Analyse de données de grande dimension: les malédictions et les bénédictions de la dimensionnalité

raegtin
la source
2
Puis-je vous suggérer de modifier votre question principale pour inclure cette information?
russellpierce
4

Mathoverflow a une question similaire sur les gros problèmes de la théorie des probabilités .

Il semblerait, à partir de cette page, que les plus grandes questions portent sur l’auto-évitement des marches et des percolations aléatoires.

Robby McKilliam
la source
1
Je pense cependant que les statistiques sont un domaine distinct de la théorie des probabilités.
Raegtin
3
@raegtin - Je ne pense pas que la théorie des probabilités soit séparée de la statistique, mais bien plutôt la théorie. La "statistique" est l'application de la théorie des probabilités à des problèmes inférentiels (c'est-à-dire la pratique).
probabilitéislogique
3

Ma réponse serait la lutte entre la statistique fréquentiste et la statistique bayésienne. Quand les gens vous demandent en quoi vous "croyez", ce n'est pas bon! Surtout pour une discipline scientifique.

pmgjones
la source
2
Il n’ya rien de mal à un scientifique "croyant" en quelque chose, d’autant plus qu’une probabilité bayésienne représente le degré de croyance ou de connaissance de la vérité de certaines propositions.
Dikran Marsupial
2
... Le problème ne se pose que lorsqu'un scientifique ne peut faire la distinction entre une croyance et un fait. Il n’ya rien d’anomalie dans la conviction que les statistiques bayésiennes ou fréquentistes sont supérieures, puisqu’il n’existe aucun critère objectif permettant de décider de la réponse (autant que je sache), le choix est donc largement subjectif et / ou relève de l’équité.
Dikran Marsupial
@propofol - Je conviens que le mot "croire" n'est pas une notion appropriée à utiliser dans les statistiques - il comporte des sortes de connotations erronées. Je pense que l'information est un mot beaucoup plus approprié (c.-à-d. "Quelle information avez-vous?"). Cela ne change en rien les théorèmes de calcul ou d'optimalité de l'analyse bayésienne, mais leur donne le sens qui leur convient en termes d'utilisation réelle. Par exemple, la connaissance d'une théorie physique ou d'un mécanisme causal est une information et non une croyance.
probabilitéislogique