Tous les modèles sont-ils inutiles? Un modèle exact est-il possible - ou utile?

45

Cette question me hante depuis plus d'un mois. Le numéro de février 2015 d' Amstat News contient un article du professeur Berkeley, Mark van der Laan, qui réprimande les gens pour l'utilisation de modèles inexacts. Il déclare qu'en utilisant des modèles, la statistique est alors un art plutôt qu'une science. Selon lui, on peut toujours utiliser "le modèle exact" et notre incapacité à le faire contribue à un "manque de rigueur ... Je crains que notre représentation dans la science des données ne soit en train de se marginaliser".

Je conviens que nous risquons d’être marginalisés, mais la menace vient généralement de ceux qui prétendent (semblant beaucoup comme le professeur van der Laan, semble-t-il) ne pas utiliser une méthode approximative, mais dont les méthodes sont en réalité beaucoup moins modèles statistiques rigoureusement appliqués - même les mauvais.

Je pense qu'il est juste de dire que le professeur van der Laan est plutôt méprisant de ceux qui répètent la citation souvent utilisée de Box: "Tous les modèles ont tort, mais certains sont utiles." Au fond, comme je l'ai lu, il dit que tous les modèles sont faux et que tous sont inutiles. Maintenant, qui suis-je pour être en désaccord avec un professeur de Berkeley? D'un autre côté, à qui appartient-il de façon aussi cavalière d'écarter les vues de l'un des véritables géants de notre domaine?

Dans ses explications, le Dr van der Laan a déclaré qu '"il est totalement insensé d'affirmer que tous les modèles sont erronés, ... Par exemple, un modèle statistique qui ne suppose aucune hypothèse est toujours vrai". "Mais souvent, nous pouvons faire beaucoup mieux que cela: nous savons peut-être que les données sont le résultat de expériences identiques identiques." Je ne vois pas comment on peut le savoir, sauf dans des contextes très étroits d'échantillonnage aléatoire ou d'expérimentation contrôlée. L’auteur cite ses travaux sur l’apprentissage ciblé fondé sur le maximum de vraisemblance et l’apprentissage ciblé basé sur la perte minimale, qui "intègre l’état de la technique en matière d’apprentissage automatique / estimation adaptative des données, tous les progrès incroyables réalisés en inférence causale, données censurées, efficacité et analyse empirique". processus tout en fournissant une inférence statistique formelle ".n

Je suis également d’accord avec certaines déclarations. Il dit que nous devons prendre notre travail, notre rôle de statisticien et nos collaborateurs scientifiques au sérieux. Entendre entendre! C'est certainement une mauvaise nouvelle que les gens utilisent systématiquement un modèle de régression logistique, ou autre, sans se demander si cela est suffisant pour répondre à la question scientifique ou s'il correspond aux données. Et je vois beaucoup de tels abus dans les questions postées sur ce forum. Mais je vois aussi des utilisations efficaces et précieuses de modèles inexacts, même paramétriques. Et contrairement à ce qu’il dit, je me suis rarement «ennuyé de mort par un autre modèle de régression logistique». Telle est ma naïveté, je suppose.

Donc, voici mes questions:

  1. Quelles inférences statistiques utiles peut-on tirer en utilisant un modèle qui ne fait aucune hypothèse?
  2. Existe-t-il une étude de cas contenant des données réelles et importantes sur l’utilisation du maximum de vraisemblance ciblé? Ces méthodes sont-elles largement utilisées et acceptées?
  3. Tous les modèles inexacts sont-ils vraiment inutiles?
  4. Est-il possible de savoir que vous avez le modèle exact autrement que dans des cas triviaux?
  5. Si c'est trop basé sur l'opinion et donc hors sujet, où peut-on en discuter? Parce que l'article du Dr van der Laan a définitivement besoin d'une discussion.
RVL
la source
13
Je dirais qu'un modèle sans hypothèse est presque toujours inutile, mais van der Laan fait sûrement des hypothèses sans l'admettre. Nous ne savons pas vraiment beaucoup de choses avec certitude, alors son "Nous pourrions savoir que les données sont le résultat de n expériences identiques indépendantes" est en fait une hypothèse , ou du moins partiellement. Nous avons peut-être de bonnes raisons de supposer qu'ils sont identiques et indépendants, mais dans la pratique, nous constatons que très souvent, il s'avère que ce n'était pas vraiment le cas (et si nous découvrons que, parfois, il faut parfois le découvrir, probablement beaucoup plus souvent ).
Glen_b
19
Un modèle sans hypothèses est simplement une réplication de votre datamatrix. C'est vrai, mais c'est aussi une duplication inutile des efforts. On pourrait également affirmer qu'un tel modèle n'est pas un modèle: l'une des définitions du modèle est qu'il s'agit d'une simplification de la réalité. Donc, un modèle qui ne simplifie pas est par définition un modèle. Cette simplification a un but: elle nous aide à comprendre de manière concrète ce qui se passe; cela nous donne une histoire principale. Si vous ne vous souciez pas de comprendre pourquoi les choses se passent et que vous ne voulez que prédire, cette histoire principale est irrelavant. Cependant, certains veulent faire plus que créer une boule de cristal ...
Maarten Buis
8
Un modèle sans hypothèses n'est pas un modèle. Le modèle EST un ensemble d'hypothèses. En outre, comme @Glen_b le dit, sa supposition est assez forte et je ne peux pas penser à un exemple où elle est "vraie". Même quand on lance plusieurs fois une pièce de monnaie, il existe des corrélations (voir le travail de Diaconis). J'ai seulement écrémé l'article mais il semble à courte vue.
P.Windridge
11
Le premier exemple de l'auteur sur son vol à destination de Mars est faux. La mécanique newtonienne (qui est utilisée pour de nombreux aspects des missions spatiales) est un modèle erroné , mais nous nous en servons et il est utile.
P.Windridge
6
Oui, la mécanique newtonienne est un excellent exemple de l'argument de George Box.
Glen_b

Réponses:

15

L'article cité semble reposer sur la crainte que les statisticiens "ne fassent pas partie intégrante de l'équipe scientifique, et les scientifiques auront naturellement des doutes sur les méthodes utilisées" et que "les collaborateurs nous verront comme des techniciens qu'ils peuvent orienter pour obtenir leurs résultats scientifiques publiés. " Mes commentaires sur les questions posées par @rvl proviennent de la perspective d'un biologiste non statisticien qui a été contraint de faire face à des problèmes statistiques de plus en plus complexes alors que je passais de la recherche au banc à la recherche translationnelle / clinique ces dernières années. Les réponses multiples figurant maintenant sur cette page répondent clairement à la question 5; Je vais aller dans l'ordre inverse à partir de là.

4) Peu importe si un "modèle exact" existe, car même si c'est le cas, je ne pourrai probablement pas me permettre de mener l'étude. Examiner cette question dans le contexte de la discussion: Avons-nous vraiment besoin d'inclure « tous les prédicteurs pertinents? » Même si nous pouvons identifier « tous les facteurs prédictifs pertinents » il y aura toujours le problème de la collecte de données suffisantes pour fournir les degrés de liberté d'intégrer tous de manière fiable dans le modèle. C'est déjà assez difficile dans les études expérimentales contrôlées, sans parler des études rétrospectives ou de population. Peut-être que dans certains types de «Big Data», le problème est moins grave, mais c'est pour moi et mes collègues. Il y aura toujours la nécessité d'être « intelligemment » , comme @Aksakal il a mis une réponse sur cette page.

En toute justice pour M. van der Laan, il n'utilise pas le mot "exact" dans l'article cité, du moins dans la version actuellement disponible en ligne à partir du lien . Il parle de modèles "réalistes". C'est une distinction importante.

De plus, le professeur van der Laan se plaint que "la statistique est maintenant un art et non une science", ce qui est un peu injuste de sa part. Considérez la façon dont il propose de travailler avec des collaborateurs:

... nous devons prendre les données, notre identité de statisticien et nos collaborateurs scientifiques au sérieux. Nous devons en apprendre le plus possible sur la manière dont les données ont été générées. Une fois que nous avons posé un modèle statistique réaliste, nous devons extraire de nos collaborateurs l’estimation qui représente le mieux la réponse à leur question scientifique d’intérêt. C'est beaucoup de travail. C'est difficile. Cela nécessite une compréhension raisonnable de la théorie statistique. C'est une entreprise universitaire digne de ce nom!

L’application de ces principes scientifiques à des problèmes concrets semble nécessiter beaucoup d’art, comme dans toute entreprise scientifique. J'ai connu des scientifiques très performants, beaucoup d'autres qui ont bien réagi et des échecs. D'après mon expérience, la différence semble être dans "l'art" de poursuivre des objectifs scientifiques. Le résultat peut être scientifique, mais le processus est quelque chose de plus.

3) Encore une fois, une partie du problème est terminologique; Il y a une grande différence entre un modèle "exact" et les modèles "réalistes" recherchés par le professeur van der Laan. Son affirmation est que beaucoup de modèles statistiques standard sont suffisamment irréalistes pour produire des résultats "peu fiables". En particulier: "Les estimateurs d'un estimand défini dans un modèle statistique honnête ne peuvent être raisonnablement estimés à l'aide de modèles paramétriques." Ce sont des questions à tester, pas d'opinion.

Son propre travail reconnaît clairement que les modèles exacts ne sont pas toujours possibles. Considérez ce manuscrit sur les estimateurs de vraisemblance maximum ciblés (TMLE) dans le contexte des variables de résultat manquantes. Elle repose sur l'hypothèse de résultats manquants au hasard, ce qui peut ne jamais être vérifiable dans la pratique: "... nous supposons qu'il n'y a pas de facteurs de confusion non observés dans la relation entre le manquement ... et le résultat." Ceci est un autre exemple de la difficulté d'inclure "tous les prédicteurs pertinents". Cependant, l’un des atouts de TMLE réside dans le fait qu’elle semble aider à évaluer «l’hypothèse de positivité» d’un support adéquat dans les données permettant d’estimer le paramètre cible dans ce contexte. L’objectif est de se rapprocher le plus possible d’un modèle réaliste des données.

2) TMLE a été discuté sur la validation croisée précédemment. Je ne suis pas au courant d'une utilisation généralisée sur des données réelles. Google Scholar a montré aujourd'hui 258 citations de ce qui semble être le rapport initial , mais à première vue, aucune ne semblait se trouver dans de grands ensembles de données du monde réel. L' article de Journal of Statistical Software sur le package R associé n'affiche que 27 citations Google Scholar aujourd'hui. Cela ne doit toutefois pas être considéré comme une preuve de la valeur de TMLE. Son objectif consistant à obtenir des estimations non biaisées fiables de l '"estimation" réelle d'intérêt, souvent problématique avec les estimations plug-in dérivées de modèles statistiques standard, semble potentiellement précieux.

1) L’affirmation: "un modèle statistique qui ne repose sur aucune hypothèse est toujours vraie" semble être conçue comme un homme de paille, une tautologie. Les données sont les données. Je suppose qu'il y a des lois de l'univers qui restent cohérentes d'un jour à l'autre. La méthode TMLE contient probablement des hypothèses sur la convexité dans l'espace de recherche et, comme indiqué ci-dessus, son application dans un contexte particulier pourrait nécessiter des hypothèses supplémentaires.

Même le professeur van der Laan conviendrait que certaines hypothèses sont nécessaires. Mon sentiment est qu'il aimerait minimiser le nombre d'hypothèses et éviter celles qui sont irréalistes. La question cruciale est de savoir si cela nécessite vraiment d'abandonner les modèles paramétriques, comme il semble le prétendre.

EdM
la source
Très belle réponse. Le livre Learning ciblé est un bon endroit pour en apprendre davantage. En plus de la théorie, il contient des études de cas.
NRH
12

J'ai peut-être manqué le point, mais je pense que vous devez prendre un peu de recul.

Je pense que son point est l'abus d'outils faciles d'accès sans aucune connaissance supplémentaire. Ceci est également vrai pour un simple test t: alimentez simplement l'algorithme avec vos données, obtenez un p <0,05 et pensez que votre thèse est vraie. Totalement faux. Vous devez bien entendu en savoir plus sur vos données.

Reculer encore plus loin: rien ne vaut un modèle exact ( physicien ici). Mais certains sont très d'accord avec nos mesures. La seule chose exacte est les maths. Ce qui n'a rien à voir avec la réalité ou des modèles de celle-ci . Tout le reste (et chaque modèle de la réalité) est "faux" (comme cité si souvent).

Mais que signifie "faux" et utile? Jugez par vous-même:

TOUTES nos technologies de pointe actuelles (ordinateurs, fusées, radioactivité, etc.) sont basées sur ces mauvais modèles. Peut-être même calculé par "fausses" simulations avec des "mauvais" modèles.
-> Concentrez-vous davantage sur "l'utile" que sur le "faux";)

Plus explicitement à vos questions:

  1. Je ne sais pas, désolé!
  2. Oui. Un exemple: en physique des particules, vous souhaitez détecter certaines particules (par exemple des électrons, des protons, etc.). Chaque particule laisse une trace caractéristique dans le détecteur (et donc les données), mais varie même pour la même particule (de par sa nature). Aujourd'hui, la plupart des gens utilisent l'apprentissage automatique pour atteindre cet objectif (il s'agissait d'une énorme simplification, mais c'est un peu la même chose) et l'efficacité augmente de 20% à 50% par rapport aux statistiques réalisées manuellement .
  3. Personne n'a vraiment réclamé cela! Ne faites pas de mauvaises conclusions! (a: tous les modèles sont inexacts et b: certains sont utiles. Ne confondez pas les choses)
  4. Il n'y a pas chose comme un modèle exact ( sauf en mathématiques, mais pas vraiment dans les statistiques comme ayant des points exactement sur une ligne droite et « raccord » une ligne à travers elle peut être exact ... mais c'est un cas particulier sans intérêt qui ne se produit jamais) .
  5. Je ne sais pas :) Mais à mon humble avis, je vois cela davantage comme un "juste parce que tous les enfants peuvent l'utiliser, tout le monde ne devrait pas le faire" et il ne faut pas en abuser aveuglément.
Mayou36
la source
Je vais examiner vos points, mais sur (3) et (4), je vous suggère de regarder l'article de van der Laan, ainsi que ma question, car l'article dit très clairement qu'il n'a aucune utilité pour les modèles inexacts, et se réfère à plusieurs reprises à "le modèle exact". Alors oui, je dirais que quelqu'un a bien dit cela. Je suis assez d'accord avec ce que vous dites à propos des modèles, ainsi que de l'application mécanique des méthodes; et donc je ne pense pas que ce soit moi que vous souhaitiez demander à prendre du recul.
vendredi
Oui à tous. Et surtout, je voulais dire qu'il reculera, c'est sûr;) Je pense, ce que je n'ai pas mentionné, pour construire des modèles théoriques (mathématiques), vous avez bien sûr besoin de modèles "exacts". Donc, pour "inventer" de meilleurs modèles et outils statistiques, vous avez besoin de modèles déterministes (ou exacts). Je pense que même l'apprentissage ciblé de la pâte ne doit pas nécessairement être "inexact".
Mayou36
6

Dans econ, on parle beaucoup de la compréhension du «processus de génération de données». Je ne suis pas sûr de ce que l'on entend exactement par modèle «exact», mais dans Econ, cela pourrait être identique à un modèle «correctement spécifié».

Vous voulez certainement en savoir autant sur le processus qui a généré les données que vous pouvez avant d'essayer un modèle, n'est-ce pas? Je pense que la difficulté vient de a) nous n’avons peut-être pas la moindre idée du vrai DGP et b) même si nous connaissions le vrai DGP, il pourrait être difficile de modéliser et d’estimer (pour de nombreuses raisons).

Vous formulez donc des hypothèses pour simplifier les choses et réduire les exigences en matière d’estimation. Pouvez-vous jamais savoir si vos hypothèses sont tout à fait correctes? Vous pouvez obtenir des preuves en leur faveur, mais à notre connaissance, il est difficile d’être vraiment sûr dans certains cas.

Je dois filtrer tout cela en termes de théorie établie ainsi que de fonctionnalité. Si vous faites une hypothèse conforme à une théorie et que cette hypothèse vous achète de meilleures performances d'estimation (efficacité, précision, cohérence, peu importe), je ne vois aucune raison de l'éviter, même si cela rend le modèle «inexact».

Franchement, je pense que l'article vise à encourager ceux qui travaillent avec des données à réfléchir davantage à l'ensemble du processus de modélisation. Il est clair que van der Laan fait des suppositions dans son travail . Dans cet exemple , en effet, van der Laan semble rejeter toute préoccupation concernant un modèle exact et utilise plutôt un mélange de procédures pour optimiser les performances. Cela me rend plus confiant dans le fait qu'il a soulevé la citation de Box dans le but d'empêcher les gens de l'utiliser pour échapper au difficile travail de compréhension du problème.

Regardons les choses en face, le monde est en proie à des utilisations abusives et abusives de modèles statistiques. Les gens appliquent aveuglément ce qu'ils savent faire, et pire encore, d'autres interprètent souvent les résultats de la manière la plus souhaitable. Cet article est un bon rappel de la prudence, mais je ne pense pas que nous devrions aller à l'extrême.

Les implications de ce qui précède pour vos questions:

  1. Je suis d'accord avec d'autres sur ce post qui ont défini un modèle comme un ensemble d'hypothèses. Avec cette définition, un modèle sans hypothèse n'est pas vraiment un modèle. Même l'analyse exploratoire des données (c'est-à-dire sans modèle) nécessite des hypothèses. Par exemple, la plupart des gens supposent que les données sont correctement mesurées.
  2. Je ne connais pas TMLE en tant que tel, mais en économie, de nombreux articles utilisent la même philosophie sous-jacente d'inférence sur un effet causal sur un échantillon contrefactuel non observé. Dans ces cas, cependant, recevoir un traitement n’est pas indépendant des autres variables du modèle (contrairement à TMLE) et les économistes ont donc largement recours à la modélisation. Il existe quelques études de cas concernant des modèles structurels, comme celle-ci, dans laquelle les auteurs ont convaincu une entreprise de mettre en œuvre son modèle et ont obtenu de bons résultats.
  3. Je pense que tous les modèles sont inexacts, mais encore une fois, ce terme est un peu flou. OMI, c'est au cœur de la citation de Box. Je vais reformuler ma compréhension de Box de la manière suivante: "Aucun modèle ne peut capturer l'essence même de la réalité, mais certains modèles capturent une variable d'intérêt, de sorte que vous pourriez en avoir une utilisation."
  4. Je ai abordé cette question ci-dessus. En bref, je ne le pense pas.
  5. Je ne suis pas sûr. Je l'aime bien ici.
Jason
la source
5

Pour répondre au point 3, la réponse est évidemment non. À peu près toutes les entreprises humaines reposent à un moment sur un modèle simplifié: la cuisine, la construction, les relations interpersonnelles impliquent tous des humains agissant sur une sorte de données + d'hypothèses. Personne n'a jamais construit de modèle auquel il n'avait pas l'intention de recourir. Affirmer le contraire, c'est du pédantisme au ralenti.

Il est beaucoup plus intéressant et éclairant, et utile de demander quand des modèles inexacts ne sont pas utiles, pourquoi ils manquent d’utilité et ce qui se produit lorsque nous nous basons sur des modèles qui se révèlent inefficaces. Tout chercheur, universitaire ou industriel, doit poser cette question astucieusement et souvent.

Je ne pense pas que l'on puisse répondre à la question en général, mais les principes de propagation des erreurs informeront la réponse. Les modèles inexacts s'effondrent lorsque le comportement qu'ils prédisent ne reflète pas le comportement dans le monde réel. Comprendre comment les erreurs se propagent dans un système peut aider à comprendre combien de précision est nécessaire dans la modélisation du système.

Par exemple, une sphère rigide n'est généralement pas un mauvais modèle pour un baseball. Mais lorsque vous concevez une mitaine de receveur, ce modèle vous laissera tomber et vous amènera à concevoir la mauvaise chose. Vos hypothèses simplificatrices sur la physique du baseball se propagent dans votre système de baseball et vous amènent à tirer des conclusions erronées.

shadowtalker
la source
5

1) Quelles inférences statistiques utiles peut-on tirer en utilisant un modèle qui ne fait aucune hypothèse?

Un modèle est par définition une généralisation de ce que vous observez qui peut être capturé par certains facteurs de causalité qui peuvent à leur tour expliquer et estimer l'événement que vous observez. Étant donné que tous ces algorithmes de généralisation ont une sorte d’hypothèses sous-jacentes. Je ne suis pas sûr de ce qu'il reste d'un modèle si vous n'avez aucune hypothèse. Je pense qu'il ne vous reste que les données d'origine et aucun modèle.

2) Existe-t-il une étude de cas contenant des données réelles et importantes sur l’utilisation du maximum de vraisemblance ciblé? Ces méthodes sont-elles largement utilisées et acceptées?

Je ne sais pas. Le maximum de vraisemblance est utilisé tout le temps. Les modèles Logit sont basés sur ceux-ci ainsi que sur de nombreux autres modèles. Ils ne diffèrent pas beaucoup de la méthode MCO standard dans laquelle vous vous concentrez sur les réductions de la somme du carré des résidus. Je ne suis pas sûr de ce qu'est le maximum de probabilité ciblé. Et en quoi cela diffère du maximum de vraisemblance traditionnel.

3) Tous les modèles inexacts sont-ils vraiment inutiles?

Absolument pas. Les modèles inexacts peuvent être très utiles. Premièrement, ils contribuent à mieux comprendre ou à expliquer un phénomène. Cela devrait compter pour quelque chose. Deuxièmement, ils peuvent fournir une estimation de la descente et des prévisions avec un intervalle de confiance pertinent pour saisir l'incertitude entourant une estimation. Cela peut fournir beaucoup d’informations sur ce que vous étudiez.

La question de "l'inexact" soulève également la question de la tension entre parcimonie et suramour. Vous pouvez avoir un modèle simple avec 5 variables qui est "inexact" mais fait un très bon travail pour capturer et expliquer la tendance globale de la variable dépendante. Vous pouvez avoir un modèle plus complexe avec 10 variables "plus exactes" que la première (Carré R ajusté plus élevé, erreur standard inférieure, etc.). Pourtant, ce deuxième modèle plus complexe risque de planter réellement lorsque vous le testez à l'aide d'un échantillon Hold Out. Et, dans ce cas, le modèle "inexact" fonctionne peut-être beaucoup mieux dans l’échantillon Hold Out. Cela se produit littéralement tout le temps en économétrie et je soupçonne beaucoup d'autres sciences sociales. Méfiez-vous des modèles "exacts".

4) Est-il possible de savoir que vous avez le modèle exact autrement que dans des cas triviaux?

Il n'est pas possible de savoir que vous avez le modèle exact. Mais, il est possible de savoir que vous avez un très bon modèle. Les mesures de critères d’information (AIC, BIC, SIC) peuvent vous donner beaucoup d’informations permettant de comparer et de comparer les performances relatives de différents modèles. En outre, le test LINK peut également aider à cet égard.

5) Si c'est trop basé sur l'opinion et donc hors sujet, où peut-il être discuté? Parce que l'article du Dr van der Laan a définitivement besoin d'une discussion.

Je pense que c'est un forum aussi approprié que n'importe où ailleurs pour discuter de cette question. C'est une question assez intéressante pour la plupart d'entre nous.

Sympa
la source
5

(Je ne vois pas l'expression "modèle exact" dans l'article (bien que cité ci-dessus))

1) Quelles inférences statistiques utiles peut-on tirer en utilisant un modèle qui ne fait aucune hypothèse?

Tu dois commencer quelque part. Si c'est tout ce que vous avez (rien), cela peut être un point de départ.

2) Existe-t-il une étude de cas contenant des données réelles et importantes sur l’utilisation du maximum de vraisemblance ciblé? Ces méthodes sont-elles largement utilisées et acceptées?

Pour répondre à la deuxième question, le maximum de vraisemblance ciblé apparaît dans 93/1143281 (~ 0,008%) des articles de arxiv.org. Donc, no est probablement une bonne estimation (sans hypothèses) de celle-là.

3) Tous les modèles inexacts sont-ils vraiment inutiles?

Non. Parfois, vous ne vous souciez que d'un aspect du modèle. Cet aspect peut être très bon et le reste très inexact.

4) Est-il possible de savoir que vous avez le modèle exact autrement que dans des cas triviaux?

Le meilleur modèle est celui qui répond le mieux à votre question. Cela peut signifier laisser quelque chose. Ce que vous voulez éviter, du mieux que vous pouvez, est une violation d’hypothèse.

5) heure heureuse . Et les boissons sont moins chères à démarrer!

Je trouve l'utilisation du mot "exact" un peu dérangeant. Ce n'est pas un discours très statisticien. Inexactitude? Variation? Merci mon Dieu! C'est pourquoi nous sommes tous ici. Je pense que l'expression "Tous les modèles ont tort ..." est correcte, mais uniquement dans la bonne entreprise. Les statisticiens comprennent ce que cela signifie, mais peu d’autres le comprennent.

mandata
la source
Bon point à propos de l'expression "modèle exact". Il dit des choses sur les modèles "vrais" et "réels" qui sont équivalents, surtout compte tenu du contexte et du ton de l'article, mais vous avez raison, la citation n'est pas "exacte" (jeu de mots).
SQLServerSteve
Ma faute. J'aurais dû le citer correctement.
vendredi
Je pense qu'essayer de réaliser le modèle réel ou actuel manque le but de l'exercice. Je pense que ce qu'il essaie vraiment de discuter, ce sont de mauvais modèles.
Mandata
Cet article présente de nombreux arguments positifs, mais il entremêle de nombreux commentaires extrêmes, tels que "Il est totalement insensé d'affirmer que tous les modèles sont erronés", alors qu'ils le sont en fait à un certain degré. Il est absurde de dire le contraire. Il est définitivement dans une position extrême. Rvl avait tout à fait raison de le signaler et de l'appeler (ne vous contentez pas de la citation de Ryl, l'important est que vous ayez bien saisi le sens).
SQLServerSteve
4

Cet article me semble être un article honnête mais politique, une polémique sincère . En tant que tel, il contient un grand nombre de passages passionnés qui n’ont aucun sens scientifique, mais qui peuvent néanmoins être efficaces pour susciter des discussions et des délibérations utiles sur des questions importantes.

Il y a beaucoup de bonnes réponses ici alors permettez-moi de citer quelques lignes de l'article pour montrer que le professeur Laan n'utilise certainement aucun type de "modèle exact" dans son travail (et d'ailleurs, qui dit que le "exact" "modèle" est un concept équivalent au mécanisme de génération de données actuel?)

Citations (gras mon emphase)

"Une fois que nous avons posé un modèle statistique réaliste , nous devons extraire de nos collaborateurs quelle estimation représente le mieux la réponse à leur question scientifique d'intérêt. "

Commentaire: "réaliste" est aussi éloigné de "exact" que le Mars est de la Terre. Cependant, ils tournent tous les deux autour du Soleil. Par conséquent, la planète choisie n'a pas d'importance. Pour d'autres raisons, c'est important. Aussi "meilleur" est un concept relatif. "Exact" n'est pas.

"Les estimateurs d'un estimand défini dans un modèle statistique honnête ne peuvent être raisonnablement estimés à l'aide de modèles paramétriques ...

Commentaire: L’honnêteté est certes la meilleure politique à suivre, mais il n’est pas certain qu’elle soit "exacte". En outre, une "estimation raisonnable" apparaît comme un résultat très dilué si l’on utilise le "modèle exact".

" En réponse à la nécessité de résoudre au mieux ces problèmes d'estimation difficiles , nous avons développé une approche statistique générale ... "

Commentaire: OK Nous "faisons de notre mieux". Comme presque tout le monde pense à soi. Mais "le mieux que nous pouvons" n'est pas "exact".

Alecos Papadopoulos
la source
2

Je vais aborder la question sous un autre angle, à la lumière des principes très utiles de la gestion de l’incertitude évoqués dans les livres de George F. Klir sur les ensembles flous. Je ne peux pas donner à van der Laan l'exactitude, mais je peux fournir un cas assez exhaustif pour expliquer pourquoi son objectif est logiquement impossible; cela nécessitera une longue discussion faisant référence à d'autres domaines, alors supportez-moi.

Klir et ses co-auteurs divisent l'incertitude en plusieurs sous-types, tels que la non-spécificité (c'est-à-dire lorsque vous avez un ensemble inconnu d'alternatives, traitées par des moyens tels que la fonction de Hartley); imprécision dans les définitions (c'est-à-dire le "flou" modélisé et quantifié dans des ensembles flous); différend ou discorde en preuve (traité dans la théorie de la preuve de Dempster-Shafer); plus la théorie des probabilités, la théorie des possibilités et l’incertitude de mesure, l’objectif étant d’avoir une portée suffisante pour saisir les preuves pertinentes, tout en minimisant les erreurs. Je considère l'ensemble de la panoplie de techniques statistiques comme un moyen alternatif de partitionner l'incertitude de différentes manières, un peu comme un emporte-pièce; Les intervalles de confiance et les valeurs de valeurs p mettent l'incertitude en quarantaine d'une manière, tandis que des mesures telles que l'Entropie de Shannon la réduisent d'un autre angle. Ce qu'ils peuvent t faire, cependant, est de l’éliminer complètement. Pour parvenir à un "modèle exact" du type que semble décrire van der Laan, il faudrait réduire toutes ces incertitudes à zéro, afin qu'il ne reste plus rien à partitionner. Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: du genre que van der Laan semble décrire, il faudrait réduire toutes ces incertitudes à zéro pour ne plus avoir à partitionner. Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: du genre que van der Laan semble décrire, il faudrait réduire toutes ces incertitudes à zéro pour ne plus avoir à partitionner. Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes:

• Cet ordre de grandeur n'est pas seulement physiquement invraisemblable, il est logiquement impossible. Il est évident que nous ne pouvons pas réaliser d’échelles de mesure parfaitement continues avec des degrés infiniment petits, en rassemblant des observations finies à l’aide d’équipements scientifiques et physiques faillibles. il y aura toujours une certaine incertitude en termes d'échelle de mesure. De même, il y aura toujours un flou autour des définitions mêmes que nous utilisons dans nos expériences. L’avenir étant intrinsèquement incertain, les prévisions supposées parfaites de nos modèles «exacts» devront être traitées comme imparfaites jusqu’à preuve du contraire - ce qui prendrait une éternité.

• Pour aggraver les choses, aucune technique de mesure n'est à 100% exempte d'erreurs à un moment donné du processus et ne peut pas non plus être suffisamment détaillée pour englober toutes les informations éventuellement contradictoires de l'univers. En outre, l'élimination des éventuelles variables de confusion et une indépendance conditionnelle totale ne peuvent être prouvées de manière approfondie sans examiner tous les autres processus physiques qui affectent celui que nous examinons, ainsi que ceux qui affectent ces processus secondaires, etc.

• L'exactitude n'est possible que dans la logique pure et son sous-ensemble, les mathématiques, précisément parce que les abstractions sont dissociées des préoccupations du monde réel telles que ces sources d'incertitude. Par exemple, par pure logique déductive, nous pouvons prouver que 2 + 2 = 4 et que toute autre réponse est incorrecte à 100%. Nous pouvons aussi faire des prédictions parfaitement précises que ce sera toujours égal à 4. Ce type de précision n'est possible qu'en statistique lorsqu'il s'agit d'abstractions. Les statistiques sont extrêmement utiles lorsqu'elles sont appliquées au monde réel, mais ce qui les rend utiles introduit au moins un degré d'incertitude inévitable, le rendant ainsi inexact. C'est un dilemme inévitable.

• En outre, Peter Chu soulève des limitations supplémentaires dans la section des commentaires de l'article lié à. Il le dit mieux que moi:

"Cette surface de solution des problèmes NP-durs est généralement répandue dans de nombreux optima locaux et dans la plupart des cas, il est impossible en théorie de résoudre le problème, c'est-à-dire de trouver la solution globale optimale en général. Ainsi, chaque modélisateur utilise des techniques de modélisation (heuristiques), au mieux, trouver les solutions locales optimales adéquates dans le vaste espace de solutions de cette fonction objectif complexe. "

• Tout cela signifie que la science elle-même ne peut pas être parfaitement exacte, bien que van der Laan semble en parler ainsi dans son article; la méthode scientifique en tant que processus abstrait peut être définie avec précision, mais l'impossibilité d'une mesure exacte universelle et parfaite empêche de produire des modèles exacts sans incertitude. La science est un excellent outil, mais elle a des limites.

• Cela empire à partir de là: même s'il était possible de mesurer exactement toutes les forces agissant sur tous les quarks et gluons constitutifs de l'univers, il subsisterait quelques incertitudes . Premièrement, toute prédiction faite par un modèle aussi complet resterait incertaine en raison de l’existence de solutions multiples pour les équations quintiques et les polynômes supérieurs. Deuxièmement, nous ne pouvons pas être absolument certains que le scepticisme extrême inhérent à la question classique "Peut-être que tout cela est un rêve ou une hallucination" n'est pas un reflet de la réalité. Dans ce cas, tous nos modèles sont en réalité dans le pire des cas. . Ceci est fondamentalement équivalent à une interprétation ontologique plus extrême des formulations épistémologiques originales de philosophies telles que le phénoménalisme, l’idéalisme et le solipsisme.

• Dans son orthodoxe classique de 1909GK Chesterton a fait remarquer que les versions extrêmes de ces philosophies peuvent certes être jugées, mais qu'elles poussent ou non leurs croyants dans des institutions mentales; Le solipsisme ontologique, par exemple, est en réalité un marqueur de la schizophrénie, à l'instar de certains de ses cousins. Le mieux que nous puissions réaliser dans ce monde est d’éliminer les doutes raisonnables; un doute déraisonnable de ce genre dérangeant ne peut être éliminé de manière rigoureuse, même dans un monde hypothétique de modèles exacts, de mesures exhaustives et sans erreur. Si van der Laan cherche à nous débarrasser de tout doute déraisonnable, il joue avec le feu. En saisissant à la perfection, le bien fini que nous pouvons faire nous échappera des doigts; nous sommes des créatures finies existant dans un monde infini, ce qui signifie que le genre de connaissance complète et tout à fait certaine que soutient van der Laan est en permanence hors de notre portée. La seule façon de parvenir à ce type de certitude consiste à se retirer de ce monde dans les limites plus étroites du monde parfaitement abstrait que nous appelons «mathématiques pures». Cela ne signifie toutefois pas qu'un repli sur les mathématiques pures soit la solution pour éliminer l'incertitude. Telle était essentiellement l'approche adoptée par les successeurs de Ludwig Wittgenstein (1889-1951), qui vida sa philosophie du positivisme logique de tout sens commun en rejetant complètement la métaphysique et en se repliant entièrement dans les mathématiques et le scientisme purs, ainsi que dans le scepticisme extrême, surspécialisation et insistance excessive sur l'exactitude sur l'utilité. Au cours de ce processus, ils ont détruit la discipline de la philosophie en la dissolvant dans un fouillis de fignolures autour des définitions et de l'observation du nombril, la rendant ainsi inutile pour le reste du monde universitaire. Cela a essentiellement tué toute la discipline, qui était encore au premier plan du débat universitaire jusqu'au début du XXe siècle, au point de retenir l'attention des médias et de faire connaître certains de ses dirigeants. Ils ont saisi une explication parfaite et raffinée du monde et celui-ci leur a échappé des doigts - tout comme les patients souffrant de troubles mentaux dont GKC a parlé. Comme nous le verrons plus loin, cela va également échapper à van der Laan, qui a déjà réfuté ses propres arguments. La recherche de modèles trop précis n’est pas seulement impossible; cela peut être dangereux si on en arrive à une obsession vouée à l'échec. La poursuite de ce genre de pureté se termine rarement bien; c'est souvent aussi auto-destructeur que ces germophobes qui se frottent les mains si furieusement qu'ils se retrouvent avec des blessures infectées. Il' C évoque Icare essayant de voler le feu au soleil: en tant qu’êtres finis, nous ne pouvons avoir qu’une compréhension finie des choses. Comme le dit également Chesterton dans Orthodoxy, "C'est le logicien qui cherche à se mettre le ciel dans la tête. Et c'est sa tête qui se fend."

À la lumière de ce qui précède, permettez-moi de répondre à certaines des questions spécifiques énumérées par LVL:

1) Un modèle dépourvu de toute hypothèse est soit a) non conscient de ses propres hypothèses, soit b) doit être clairement dissocié de considérations qui introduisent une incertitude, telles que des erreurs de mesure, en tenant compte de chaque variable de confusion possible, des échelles de mesure parfaitement continues et des comme.

2) Je suis toujours un débutant en matière d’estimation du maximum de vraisemblance (MLE), je ne peux donc pas commenter les mécanismes de la vraisemblance cible, sauf pour souligner une évidence: la probabilité n’est que cela, une probabilité, pas une certitude . Pour obtenir un modèle exact, il faut éliminer complètement l'incertitude, ce que la logique probabiliste peut rarement faire, voire jamais.

3) Bien sûr que non. Étant donné que tous les modèles conservent une certaine incertitude et sont donc inexacts (sauf dans les cas de mathématiques pures, séparés des mesures physiques réelles), la race humaine n'aurait pu réaliser aucun progrès technologique à ce jour - ni même aucun autre progrès à ce jour. tout. Si des modèles inexacts étaient toujours inutiles, nous aurions cette conversation dans une caverne, plutôt que sur cet incroyable exploit technologique appelé Internet, tout cela étant rendu possible grâce à une modélisation inexacte.

Ironiquement, le propre modèle de van der Laan est un exemple primordial d’inexactitude. Son propre article esquisse un modèle de la manière dont le domaine de la statistique devrait être géré, dans le but de modèles exacts; À son avis, aucun modèle n'est encore associé à ce "modèle", aucune mesure de son inexactitude ou de son inutilité, aucune quantification de la distance qui nous sépare de sa vision, mais je suppose que l'on pourrait concevoir des tests pour ces éléments. . Dans l'état actuel des choses, son modèle est inexact. Si ce n'est pas utile, cela signifie que son argument est faux; s’il est utile, il réfute son argument principal, à savoir que les modèles inexacts ne sont pas utiles. De toute façon, il réfute sa propre argumentation.

4) Probablement pas, car nous ne pouvons pas disposer d'informations complètes pour tester notre modèle, pour les mêmes raisons que nous ne pouvons pas en déduire un modèle exact. Un modèle exact exigerait par définition une prévisibilité parfaite, mais même si les 100 premiers tests s'avéraient précis à 100%, le 101ème pourrait ne pas l'être. Il y a ensuite toute la question des échelles de mesure infinitésimales. Après cela, nous entrons dans toutes les autres sources d'incertitude, qui contamineront toute évaluation de la tour d'ivoire de notre modèle de tour d'ivoire.

5) Pour aborder le problème, je devais le situer dans le contexte plus large de problèmes philosophiques beaucoup plus vastes et souvent controversés. Je ne pense donc pas qu'il soit possible de discuter de cela sans entrer dans des opinions. source d’incertitude) mais vous avez raison, cet article mérite une réponse. Une grande partie de ce qu'il dit sur d'autres sujets va dans la bonne direction, comme la nécessité de rendre les statistiques pertinentes pour le Big Data, mais il existe un mélange d'extrémisme peu pratique qui devrait être corrigé.

SQLServerSteve
la source
1
Qui sont ces "successeurs de Wittgenstein" qui "ont détruit la discipline de la philosophie"!? La tendance de la philosophie analytique d'après-guerre - penser aux derniers Wittgenstein, Austin, Quine, Kenny, Goodman, Lewis, Davidson, Rorty - semble être un rejet des principes du positivisme logique, de la réhabilitation de la métaphysique et d'un repli sur le scientisme. (Les commentaires de Rorty sur Nietzsche et Loyola suggèrent qu'il aurait pu être d'accord avec le point de Chesterton.) En ce qui concerne la raison pour laquelle Kim Kardashian est un nom bien connu plutôt que Saul Kripke, je soupçonne que d'autres tendances ont été à l'œuvre depuis le début du 20ème siècle.
Scortchi
Ces réformateurs de l'après-guerre sont inconnus en dehors de leur domaine, précisément parce qu'ils sont venus après que la discipline se soit effondrée dans les années vingt et trente (après un déclin séculaire, les positivistes logiques extrêmes ont simplement accéléré) dans une non-pertinence dont ils ne se sont jamais remis. Le mal était déjà fait. Dans les années 50, les autres disciplines universitaires ne s'intéressaient plus à la philosophie du leadership. Depuis, elles l'ont souvent traitée avec mépris absolu, pour un pédantisme décalé et capricieux. Je souhaite que ce ne soit pas vrai. L'image ne reflète peut-être pas la réalité de la philosophie, mais la souillure demeure.
SQLServerSteve
Je serais heureux de discuter de cela en discussion la semaine prochaine, si vous en avez le temps. Je ne veux pas me perdre dans ce sujet, mais je soupçonne que nos positions ne sont pas si éloignées l'une de l'autre. Je pense que vous avez tout à fait raison, le mouvement qui a conduit à Kardashian, etc., est en marche depuis le début du XXe siècle - c'est précisément à l'époque où la discipline de la philosophie est tombée dans l'éclipse (que ce soit mérité ou non pratique et souhaite qu’il soit encore très apprécié).
SQLServerSteve
Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
Scortchi - Réintégrer Monica