Cette question me hante depuis plus d'un mois. Le numéro de février 2015 d' Amstat News contient un article du professeur Berkeley, Mark van der Laan, qui réprimande les gens pour l'utilisation de modèles inexacts. Il déclare qu'en utilisant des modèles, la statistique est alors un art plutôt qu'une science. Selon lui, on peut toujours utiliser "le modèle exact" et notre incapacité à le faire contribue à un "manque de rigueur ... Je crains que notre représentation dans la science des données ne soit en train de se marginaliser".
Je conviens que nous risquons d’être marginalisés, mais la menace vient généralement de ceux qui prétendent (semblant beaucoup comme le professeur van der Laan, semble-t-il) ne pas utiliser une méthode approximative, mais dont les méthodes sont en réalité beaucoup moins modèles statistiques rigoureusement appliqués - même les mauvais.
Je pense qu'il est juste de dire que le professeur van der Laan est plutôt méprisant de ceux qui répètent la citation souvent utilisée de Box: "Tous les modèles ont tort, mais certains sont utiles." Au fond, comme je l'ai lu, il dit que tous les modèles sont faux et que tous sont inutiles. Maintenant, qui suis-je pour être en désaccord avec un professeur de Berkeley? D'un autre côté, à qui appartient-il de façon aussi cavalière d'écarter les vues de l'un des véritables géants de notre domaine?
Dans ses explications, le Dr van der Laan a déclaré qu '"il est totalement insensé d'affirmer que tous les modèles sont erronés, ... Par exemple, un modèle statistique qui ne suppose aucune hypothèse est toujours vrai". "Mais souvent, nous pouvons faire beaucoup mieux que cela: nous savons peut-être que les données sont le résultat de expériences identiques identiques." Je ne vois pas comment on peut le savoir, sauf dans des contextes très étroits d'échantillonnage aléatoire ou d'expérimentation contrôlée. L’auteur cite ses travaux sur l’apprentissage ciblé fondé sur le maximum de vraisemblance et l’apprentissage ciblé basé sur la perte minimale, qui "intègre l’état de la technique en matière d’apprentissage automatique / estimation adaptative des données, tous les progrès incroyables réalisés en inférence causale, données censurées, efficacité et analyse empirique". processus tout en fournissant une inférence statistique formelle ".
Je suis également d’accord avec certaines déclarations. Il dit que nous devons prendre notre travail, notre rôle de statisticien et nos collaborateurs scientifiques au sérieux. Entendre entendre! C'est certainement une mauvaise nouvelle que les gens utilisent systématiquement un modèle de régression logistique, ou autre, sans se demander si cela est suffisant pour répondre à la question scientifique ou s'il correspond aux données. Et je vois beaucoup de tels abus dans les questions postées sur ce forum. Mais je vois aussi des utilisations efficaces et précieuses de modèles inexacts, même paramétriques. Et contrairement à ce qu’il dit, je me suis rarement «ennuyé de mort par un autre modèle de régression logistique». Telle est ma naïveté, je suppose.
Donc, voici mes questions:
- Quelles inférences statistiques utiles peut-on tirer en utilisant un modèle qui ne fait aucune hypothèse?
- Existe-t-il une étude de cas contenant des données réelles et importantes sur l’utilisation du maximum de vraisemblance ciblé? Ces méthodes sont-elles largement utilisées et acceptées?
- Tous les modèles inexacts sont-ils vraiment inutiles?
- Est-il possible de savoir que vous avez le modèle exact autrement que dans des cas triviaux?
- Si c'est trop basé sur l'opinion et donc hors sujet, où peut-on en discuter? Parce que l'article du Dr van der Laan a définitivement besoin d'une discussion.
Réponses:
L'article cité semble reposer sur la crainte que les statisticiens "ne fassent pas partie intégrante de l'équipe scientifique, et les scientifiques auront naturellement des doutes sur les méthodes utilisées" et que "les collaborateurs nous verront comme des techniciens qu'ils peuvent orienter pour obtenir leurs résultats scientifiques publiés. " Mes commentaires sur les questions posées par @rvl proviennent de la perspective d'un biologiste non statisticien qui a été contraint de faire face à des problèmes statistiques de plus en plus complexes alors que je passais de la recherche au banc à la recherche translationnelle / clinique ces dernières années. Les réponses multiples figurant maintenant sur cette page répondent clairement à la question 5; Je vais aller dans l'ordre inverse à partir de là.
4) Peu importe si un "modèle exact" existe, car même si c'est le cas, je ne pourrai probablement pas me permettre de mener l'étude. Examiner cette question dans le contexte de la discussion: Avons-nous vraiment besoin d'inclure « tous les prédicteurs pertinents? » Même si nous pouvons identifier « tous les facteurs prédictifs pertinents » il y aura toujours le problème de la collecte de données suffisantes pour fournir les degrés de liberté d'intégrer tous de manière fiable dans le modèle. C'est déjà assez difficile dans les études expérimentales contrôlées, sans parler des études rétrospectives ou de population. Peut-être que dans certains types de «Big Data», le problème est moins grave, mais c'est pour moi et mes collègues. Il y aura toujours la nécessité d'être « intelligemment » , comme @Aksakal il a mis une réponse sur cette page.
En toute justice pour M. van der Laan, il n'utilise pas le mot "exact" dans l'article cité, du moins dans la version actuellement disponible en ligne à partir du lien . Il parle de modèles "réalistes". C'est une distinction importante.
De plus, le professeur van der Laan se plaint que "la statistique est maintenant un art et non une science", ce qui est un peu injuste de sa part. Considérez la façon dont il propose de travailler avec des collaborateurs:
L’application de ces principes scientifiques à des problèmes concrets semble nécessiter beaucoup d’art, comme dans toute entreprise scientifique. J'ai connu des scientifiques très performants, beaucoup d'autres qui ont bien réagi et des échecs. D'après mon expérience, la différence semble être dans "l'art" de poursuivre des objectifs scientifiques. Le résultat peut être scientifique, mais le processus est quelque chose de plus.
3) Encore une fois, une partie du problème est terminologique; Il y a une grande différence entre un modèle "exact" et les modèles "réalistes" recherchés par le professeur van der Laan. Son affirmation est que beaucoup de modèles statistiques standard sont suffisamment irréalistes pour produire des résultats "peu fiables". En particulier: "Les estimateurs d'un estimand défini dans un modèle statistique honnête ne peuvent être raisonnablement estimés à l'aide de modèles paramétriques." Ce sont des questions à tester, pas d'opinion.
Son propre travail reconnaît clairement que les modèles exacts ne sont pas toujours possibles. Considérez ce manuscrit sur les estimateurs de vraisemblance maximum ciblés (TMLE) dans le contexte des variables de résultat manquantes. Elle repose sur l'hypothèse de résultats manquants au hasard, ce qui peut ne jamais être vérifiable dans la pratique: "... nous supposons qu'il n'y a pas de facteurs de confusion non observés dans la relation entre le manquement ... et le résultat." Ceci est un autre exemple de la difficulté d'inclure "tous les prédicteurs pertinents". Cependant, l’un des atouts de TMLE réside dans le fait qu’elle semble aider à évaluer «l’hypothèse de positivité» d’un support adéquat dans les données permettant d’estimer le paramètre cible dans ce contexte. L’objectif est de se rapprocher le plus possible d’un modèle réaliste des données.
2) TMLE a été discuté sur la validation croisée précédemment. Je ne suis pas au courant d'une utilisation généralisée sur des données réelles. Google Scholar a montré aujourd'hui 258 citations de ce qui semble être le rapport initial , mais à première vue, aucune ne semblait se trouver dans de grands ensembles de données du monde réel. L' article de Journal of Statistical Software sur le package R associé n'affiche que 27 citations Google Scholar aujourd'hui. Cela ne doit toutefois pas être considéré comme une preuve de la valeur de TMLE. Son objectif consistant à obtenir des estimations non biaisées fiables de l '"estimation" réelle d'intérêt, souvent problématique avec les estimations plug-in dérivées de modèles statistiques standard, semble potentiellement précieux.
1) L’affirmation: "un modèle statistique qui ne repose sur aucune hypothèse est toujours vraie" semble être conçue comme un homme de paille, une tautologie. Les données sont les données. Je suppose qu'il y a des lois de l'univers qui restent cohérentes d'un jour à l'autre. La méthode TMLE contient probablement des hypothèses sur la convexité dans l'espace de recherche et, comme indiqué ci-dessus, son application dans un contexte particulier pourrait nécessiter des hypothèses supplémentaires.
Même le professeur van der Laan conviendrait que certaines hypothèses sont nécessaires. Mon sentiment est qu'il aimerait minimiser le nombre d'hypothèses et éviter celles qui sont irréalistes. La question cruciale est de savoir si cela nécessite vraiment d'abandonner les modèles paramétriques, comme il semble le prétendre.
la source
J'ai peut-être manqué le point, mais je pense que vous devez prendre un peu de recul.
Je pense que son point est l'abus d'outils faciles d'accès sans aucune connaissance supplémentaire. Ceci est également vrai pour un simple test t: alimentez simplement l'algorithme avec vos données, obtenez un p <0,05 et pensez que votre thèse est vraie. Totalement faux. Vous devez bien entendu en savoir plus sur vos données.
Reculer encore plus loin: rien ne vaut un modèle exact ( physicien ici). Mais certains sont très d'accord avec nos mesures. La seule chose exacte est les maths. Ce qui n'a rien à voir avec la réalité ou des modèles de celle-ci . Tout le reste (et chaque modèle de la réalité) est "faux" (comme cité si souvent).
Mais que signifie "faux" et utile? Jugez par vous-même:
TOUTES nos technologies de pointe actuelles (ordinateurs, fusées, radioactivité, etc.) sont basées sur ces mauvais modèles. Peut-être même calculé par "fausses" simulations avec des "mauvais" modèles.
-> Concentrez-vous davantage sur "l'utile" que sur le "faux";)
Plus explicitement à vos questions:
la source
Dans econ, on parle beaucoup de la compréhension du «processus de génération de données». Je ne suis pas sûr de ce que l'on entend exactement par modèle «exact», mais dans Econ, cela pourrait être identique à un modèle «correctement spécifié».
Vous voulez certainement en savoir autant sur le processus qui a généré les données que vous pouvez avant d'essayer un modèle, n'est-ce pas? Je pense que la difficulté vient de a) nous n’avons peut-être pas la moindre idée du vrai DGP et b) même si nous connaissions le vrai DGP, il pourrait être difficile de modéliser et d’estimer (pour de nombreuses raisons).
Vous formulez donc des hypothèses pour simplifier les choses et réduire les exigences en matière d’estimation. Pouvez-vous jamais savoir si vos hypothèses sont tout à fait correctes? Vous pouvez obtenir des preuves en leur faveur, mais à notre connaissance, il est difficile d’être vraiment sûr dans certains cas.
Je dois filtrer tout cela en termes de théorie établie ainsi que de fonctionnalité. Si vous faites une hypothèse conforme à une théorie et que cette hypothèse vous achète de meilleures performances d'estimation (efficacité, précision, cohérence, peu importe), je ne vois aucune raison de l'éviter, même si cela rend le modèle «inexact».
Franchement, je pense que l'article vise à encourager ceux qui travaillent avec des données à réfléchir davantage à l'ensemble du processus de modélisation. Il est clair que van der Laan fait des suppositions dans son travail . Dans cet exemple , en effet, van der Laan semble rejeter toute préoccupation concernant un modèle exact et utilise plutôt un mélange de procédures pour optimiser les performances. Cela me rend plus confiant dans le fait qu'il a soulevé la citation de Box dans le but d'empêcher les gens de l'utiliser pour échapper au difficile travail de compréhension du problème.
Regardons les choses en face, le monde est en proie à des utilisations abusives et abusives de modèles statistiques. Les gens appliquent aveuglément ce qu'ils savent faire, et pire encore, d'autres interprètent souvent les résultats de la manière la plus souhaitable. Cet article est un bon rappel de la prudence, mais je ne pense pas que nous devrions aller à l'extrême.
Les implications de ce qui précède pour vos questions:
la source
Pour répondre au point 3, la réponse est évidemment non. À peu près toutes les entreprises humaines reposent à un moment sur un modèle simplifié: la cuisine, la construction, les relations interpersonnelles impliquent tous des humains agissant sur une sorte de données + d'hypothèses. Personne n'a jamais construit de modèle auquel il n'avait pas l'intention de recourir. Affirmer le contraire, c'est du pédantisme au ralenti.
Il est beaucoup plus intéressant et éclairant, et utile de demander quand des modèles inexacts ne sont pas utiles, pourquoi ils manquent d’utilité et ce qui se produit lorsque nous nous basons sur des modèles qui se révèlent inefficaces. Tout chercheur, universitaire ou industriel, doit poser cette question astucieusement et souvent.
Je ne pense pas que l'on puisse répondre à la question en général, mais les principes de propagation des erreurs informeront la réponse. Les modèles inexacts s'effondrent lorsque le comportement qu'ils prédisent ne reflète pas le comportement dans le monde réel. Comprendre comment les erreurs se propagent dans un système peut aider à comprendre combien de précision est nécessaire dans la modélisation du système.
Par exemple, une sphère rigide n'est généralement pas un mauvais modèle pour un baseball. Mais lorsque vous concevez une mitaine de receveur, ce modèle vous laissera tomber et vous amènera à concevoir la mauvaise chose. Vos hypothèses simplificatrices sur la physique du baseball se propagent dans votre système de baseball et vous amènent à tirer des conclusions erronées.
la source
1) Quelles inférences statistiques utiles peut-on tirer en utilisant un modèle qui ne fait aucune hypothèse?
Un modèle est par définition une généralisation de ce que vous observez qui peut être capturé par certains facteurs de causalité qui peuvent à leur tour expliquer et estimer l'événement que vous observez. Étant donné que tous ces algorithmes de généralisation ont une sorte d’hypothèses sous-jacentes. Je ne suis pas sûr de ce qu'il reste d'un modèle si vous n'avez aucune hypothèse. Je pense qu'il ne vous reste que les données d'origine et aucun modèle.
2) Existe-t-il une étude de cas contenant des données réelles et importantes sur l’utilisation du maximum de vraisemblance ciblé? Ces méthodes sont-elles largement utilisées et acceptées?
Je ne sais pas. Le maximum de vraisemblance est utilisé tout le temps. Les modèles Logit sont basés sur ceux-ci ainsi que sur de nombreux autres modèles. Ils ne diffèrent pas beaucoup de la méthode MCO standard dans laquelle vous vous concentrez sur les réductions de la somme du carré des résidus. Je ne suis pas sûr de ce qu'est le maximum de probabilité ciblé. Et en quoi cela diffère du maximum de vraisemblance traditionnel.
3) Tous les modèles inexacts sont-ils vraiment inutiles?
Absolument pas. Les modèles inexacts peuvent être très utiles. Premièrement, ils contribuent à mieux comprendre ou à expliquer un phénomène. Cela devrait compter pour quelque chose. Deuxièmement, ils peuvent fournir une estimation de la descente et des prévisions avec un intervalle de confiance pertinent pour saisir l'incertitude entourant une estimation. Cela peut fournir beaucoup d’informations sur ce que vous étudiez.
La question de "l'inexact" soulève également la question de la tension entre parcimonie et suramour. Vous pouvez avoir un modèle simple avec 5 variables qui est "inexact" mais fait un très bon travail pour capturer et expliquer la tendance globale de la variable dépendante. Vous pouvez avoir un modèle plus complexe avec 10 variables "plus exactes" que la première (Carré R ajusté plus élevé, erreur standard inférieure, etc.). Pourtant, ce deuxième modèle plus complexe risque de planter réellement lorsque vous le testez à l'aide d'un échantillon Hold Out. Et, dans ce cas, le modèle "inexact" fonctionne peut-être beaucoup mieux dans l’échantillon Hold Out. Cela se produit littéralement tout le temps en économétrie et je soupçonne beaucoup d'autres sciences sociales. Méfiez-vous des modèles "exacts".
4) Est-il possible de savoir que vous avez le modèle exact autrement que dans des cas triviaux?
Il n'est pas possible de savoir que vous avez le modèle exact. Mais, il est possible de savoir que vous avez un très bon modèle. Les mesures de critères d’information (AIC, BIC, SIC) peuvent vous donner beaucoup d’informations permettant de comparer et de comparer les performances relatives de différents modèles. En outre, le test LINK peut également aider à cet égard.
5) Si c'est trop basé sur l'opinion et donc hors sujet, où peut-il être discuté? Parce que l'article du Dr van der Laan a définitivement besoin d'une discussion.
Je pense que c'est un forum aussi approprié que n'importe où ailleurs pour discuter de cette question. C'est une question assez intéressante pour la plupart d'entre nous.
la source
(Je ne vois pas l'expression "modèle exact" dans l'article (bien que cité ci-dessus))
1) Quelles inférences statistiques utiles peut-on tirer en utilisant un modèle qui ne fait aucune hypothèse?
Tu dois commencer quelque part. Si c'est tout ce que vous avez (rien), cela peut être un point de départ.
2) Existe-t-il une étude de cas contenant des données réelles et importantes sur l’utilisation du maximum de vraisemblance ciblé? Ces méthodes sont-elles largement utilisées et acceptées?
Pour répondre à la deuxième question, le maximum de vraisemblance ciblé apparaît dans 93/1143281 (~ 0,008%) des articles de arxiv.org. Donc, no est probablement une bonne estimation (sans hypothèses) de celle-là.
3) Tous les modèles inexacts sont-ils vraiment inutiles?
Non. Parfois, vous ne vous souciez que d'un aspect du modèle. Cet aspect peut être très bon et le reste très inexact.
4) Est-il possible de savoir que vous avez le modèle exact autrement que dans des cas triviaux?
Le meilleur modèle est celui qui répond le mieux à votre question. Cela peut signifier laisser quelque chose. Ce que vous voulez éviter, du mieux que vous pouvez, est une violation d’hypothèse.
5) heure heureuse . Et les boissons sont moins chères à démarrer!
Je trouve l'utilisation du mot "exact" un peu dérangeant. Ce n'est pas un discours très statisticien. Inexactitude? Variation? Merci mon Dieu! C'est pourquoi nous sommes tous ici. Je pense que l'expression "Tous les modèles ont tort ..." est correcte, mais uniquement dans la bonne entreprise. Les statisticiens comprennent ce que cela signifie, mais peu d’autres le comprennent.
la source
Cet article me semble être un article honnête mais politique, une polémique sincère . En tant que tel, il contient un grand nombre de passages passionnés qui n’ont aucun sens scientifique, mais qui peuvent néanmoins être efficaces pour susciter des discussions et des délibérations utiles sur des questions importantes.
Il y a beaucoup de bonnes réponses ici alors permettez-moi de citer quelques lignes de l'article pour montrer que le professeur Laan n'utilise certainement aucun type de "modèle exact" dans son travail (et d'ailleurs, qui dit que le "exact" "modèle" est un concept équivalent au mécanisme de génération de données actuel?)
Citations (gras mon emphase)
Commentaire: "réaliste" est aussi éloigné de "exact" que le Mars est de la Terre. Cependant, ils tournent tous les deux autour du Soleil. Par conséquent, la planète choisie n'a pas d'importance. Pour d'autres raisons, c'est important. Aussi "meilleur" est un concept relatif. "Exact" n'est pas.
Commentaire: L’honnêteté est certes la meilleure politique à suivre, mais il n’est pas certain qu’elle soit "exacte". En outre, une "estimation raisonnable" apparaît comme un résultat très dilué si l’on utilise le "modèle exact".
Commentaire: OK Nous "faisons de notre mieux". Comme presque tout le monde pense à soi. Mais "le mieux que nous pouvons" n'est pas "exact".
la source
Je vais aborder la question sous un autre angle, à la lumière des principes très utiles de la gestion de l’incertitude évoqués dans les livres de George F. Klir sur les ensembles flous. Je ne peux pas donner à van der Laan l'exactitude, mais je peux fournir un cas assez exhaustif pour expliquer pourquoi son objectif est logiquement impossible; cela nécessitera une longue discussion faisant référence à d'autres domaines, alors supportez-moi.
Klir et ses co-auteurs divisent l'incertitude en plusieurs sous-types, tels que la non-spécificité (c'est-à-dire lorsque vous avez un ensemble inconnu d'alternatives, traitées par des moyens tels que la fonction de Hartley); imprécision dans les définitions (c'est-à-dire le "flou" modélisé et quantifié dans des ensembles flous); différend ou discorde en preuve (traité dans la théorie de la preuve de Dempster-Shafer); plus la théorie des probabilités, la théorie des possibilités et l’incertitude de mesure, l’objectif étant d’avoir une portée suffisante pour saisir les preuves pertinentes, tout en minimisant les erreurs. Je considère l'ensemble de la panoplie de techniques statistiques comme un moyen alternatif de partitionner l'incertitude de différentes manières, un peu comme un emporte-pièce; Les intervalles de confiance et les valeurs de valeurs p mettent l'incertitude en quarantaine d'une manière, tandis que des mesures telles que l'Entropie de Shannon la réduisent d'un autre angle. Ce qu'ils peuvent t faire, cependant, est de l’éliminer complètement. Pour parvenir à un "modèle exact" du type que semble décrire van der Laan, il faudrait réduire toutes ces incertitudes à zéro, afin qu'il ne reste plus rien à partitionner. Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: du genre que van der Laan semble décrire, il faudrait réduire toutes ces incertitudes à zéro pour ne plus avoir à partitionner. Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: du genre que van der Laan semble décrire, il faudrait réduire toutes ces incertitudes à zéro pour ne plus avoir à partitionner. Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Un modèle véritablement "exact" aurait toujours des valeurs de probabilité et de possibilité de 1, des scores de non-spécificité de 0 et aucune incertitude quant à la définition des termes, des plages de valeurs ou des échelles de mesure. Il n'y aurait pas de discorde dans d'autres sources de preuves. Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes: Les prédictions faites par un tel modèle seraient toujours exactes à 100%; Les modèles prédictifs répartissent essentiellement leur incertitude dans l’avenir, mais il n’en restera plus à redire. La perspective de l'incertitude a des implications importantes:
• Cet ordre de grandeur n'est pas seulement physiquement invraisemblable, il est logiquement impossible. Il est évident que nous ne pouvons pas réaliser d’échelles de mesure parfaitement continues avec des degrés infiniment petits, en rassemblant des observations finies à l’aide d’équipements scientifiques et physiques faillibles. il y aura toujours une certaine incertitude en termes d'échelle de mesure. De même, il y aura toujours un flou autour des définitions mêmes que nous utilisons dans nos expériences. L’avenir étant intrinsèquement incertain, les prévisions supposées parfaites de nos modèles «exacts» devront être traitées comme imparfaites jusqu’à preuve du contraire - ce qui prendrait une éternité.
• Pour aggraver les choses, aucune technique de mesure n'est à 100% exempte d'erreurs à un moment donné du processus et ne peut pas non plus être suffisamment détaillée pour englober toutes les informations éventuellement contradictoires de l'univers. En outre, l'élimination des éventuelles variables de confusion et une indépendance conditionnelle totale ne peuvent être prouvées de manière approfondie sans examiner tous les autres processus physiques qui affectent celui que nous examinons, ainsi que ceux qui affectent ces processus secondaires, etc.
• L'exactitude n'est possible que dans la logique pure et son sous-ensemble, les mathématiques, précisément parce que les abstractions sont dissociées des préoccupations du monde réel telles que ces sources d'incertitude. Par exemple, par pure logique déductive, nous pouvons prouver que 2 + 2 = 4 et que toute autre réponse est incorrecte à 100%. Nous pouvons aussi faire des prédictions parfaitement précises que ce sera toujours égal à 4. Ce type de précision n'est possible qu'en statistique lorsqu'il s'agit d'abstractions. Les statistiques sont extrêmement utiles lorsqu'elles sont appliquées au monde réel, mais ce qui les rend utiles introduit au moins un degré d'incertitude inévitable, le rendant ainsi inexact. C'est un dilemme inévitable.
• En outre, Peter Chu soulève des limitations supplémentaires dans la section des commentaires de l'article lié à. Il le dit mieux que moi:
• Tout cela signifie que la science elle-même ne peut pas être parfaitement exacte, bien que van der Laan semble en parler ainsi dans son article; la méthode scientifique en tant que processus abstrait peut être définie avec précision, mais l'impossibilité d'une mesure exacte universelle et parfaite empêche de produire des modèles exacts sans incertitude. La science est un excellent outil, mais elle a des limites.
• Cela empire à partir de là: même s'il était possible de mesurer exactement toutes les forces agissant sur tous les quarks et gluons constitutifs de l'univers, il subsisterait quelques incertitudes . Premièrement, toute prédiction faite par un modèle aussi complet resterait incertaine en raison de l’existence de solutions multiples pour les équations quintiques et les polynômes supérieurs. Deuxièmement, nous ne pouvons pas être absolument certains que le scepticisme extrême inhérent à la question classique "Peut-être que tout cela est un rêve ou une hallucination" n'est pas un reflet de la réalité. Dans ce cas, tous nos modèles sont en réalité dans le pire des cas. . Ceci est fondamentalement équivalent à une interprétation ontologique plus extrême des formulations épistémologiques originales de philosophies telles que le phénoménalisme, l’idéalisme et le solipsisme.
• Dans son orthodoxe classique de 1909GK Chesterton a fait remarquer que les versions extrêmes de ces philosophies peuvent certes être jugées, mais qu'elles poussent ou non leurs croyants dans des institutions mentales; Le solipsisme ontologique, par exemple, est en réalité un marqueur de la schizophrénie, à l'instar de certains de ses cousins. Le mieux que nous puissions réaliser dans ce monde est d’éliminer les doutes raisonnables; un doute déraisonnable de ce genre dérangeant ne peut être éliminé de manière rigoureuse, même dans un monde hypothétique de modèles exacts, de mesures exhaustives et sans erreur. Si van der Laan cherche à nous débarrasser de tout doute déraisonnable, il joue avec le feu. En saisissant à la perfection, le bien fini que nous pouvons faire nous échappera des doigts; nous sommes des créatures finies existant dans un monde infini, ce qui signifie que le genre de connaissance complète et tout à fait certaine que soutient van der Laan est en permanence hors de notre portée. La seule façon de parvenir à ce type de certitude consiste à se retirer de ce monde dans les limites plus étroites du monde parfaitement abstrait que nous appelons «mathématiques pures». Cela ne signifie toutefois pas qu'un repli sur les mathématiques pures soit la solution pour éliminer l'incertitude. Telle était essentiellement l'approche adoptée par les successeurs de Ludwig Wittgenstein (1889-1951), qui vida sa philosophie du positivisme logique de tout sens commun en rejetant complètement la métaphysique et en se repliant entièrement dans les mathématiques et le scientisme purs, ainsi que dans le scepticisme extrême, surspécialisation et insistance excessive sur l'exactitude sur l'utilité. Au cours de ce processus, ils ont détruit la discipline de la philosophie en la dissolvant dans un fouillis de fignolures autour des définitions et de l'observation du nombril, la rendant ainsi inutile pour le reste du monde universitaire. Cela a essentiellement tué toute la discipline, qui était encore au premier plan du débat universitaire jusqu'au début du XXe siècle, au point de retenir l'attention des médias et de faire connaître certains de ses dirigeants. Ils ont saisi une explication parfaite et raffinée du monde et celui-ci leur a échappé des doigts - tout comme les patients souffrant de troubles mentaux dont GKC a parlé. Comme nous le verrons plus loin, cela va également échapper à van der Laan, qui a déjà réfuté ses propres arguments. La recherche de modèles trop précis n’est pas seulement impossible; cela peut être dangereux si on en arrive à une obsession vouée à l'échec. La poursuite de ce genre de pureté se termine rarement bien; c'est souvent aussi auto-destructeur que ces germophobes qui se frottent les mains si furieusement qu'ils se retrouvent avec des blessures infectées. Il' C évoque Icare essayant de voler le feu au soleil: en tant qu’êtres finis, nous ne pouvons avoir qu’une compréhension finie des choses. Comme le dit également Chesterton dans Orthodoxy, "C'est le logicien qui cherche à se mettre le ciel dans la tête. Et c'est sa tête qui se fend."
À la lumière de ce qui précède, permettez-moi de répondre à certaines des questions spécifiques énumérées par LVL:
1) Un modèle dépourvu de toute hypothèse est soit a) non conscient de ses propres hypothèses, soit b) doit être clairement dissocié de considérations qui introduisent une incertitude, telles que des erreurs de mesure, en tenant compte de chaque variable de confusion possible, des échelles de mesure parfaitement continues et des comme.
2) Je suis toujours un débutant en matière d’estimation du maximum de vraisemblance (MLE), je ne peux donc pas commenter les mécanismes de la vraisemblance cible, sauf pour souligner une évidence: la probabilité n’est que cela, une probabilité, pas une certitude . Pour obtenir un modèle exact, il faut éliminer complètement l'incertitude, ce que la logique probabiliste peut rarement faire, voire jamais.
3) Bien sûr que non. Étant donné que tous les modèles conservent une certaine incertitude et sont donc inexacts (sauf dans les cas de mathématiques pures, séparés des mesures physiques réelles), la race humaine n'aurait pu réaliser aucun progrès technologique à ce jour - ni même aucun autre progrès à ce jour. tout. Si des modèles inexacts étaient toujours inutiles, nous aurions cette conversation dans une caverne, plutôt que sur cet incroyable exploit technologique appelé Internet, tout cela étant rendu possible grâce à une modélisation inexacte.
Ironiquement, le propre modèle de van der Laan est un exemple primordial d’inexactitude. Son propre article esquisse un modèle de la manière dont le domaine de la statistique devrait être géré, dans le but de modèles exacts; À son avis, aucun modèle n'est encore associé à ce "modèle", aucune mesure de son inexactitude ou de son inutilité, aucune quantification de la distance qui nous sépare de sa vision, mais je suppose que l'on pourrait concevoir des tests pour ces éléments. . Dans l'état actuel des choses, son modèle est inexact. Si ce n'est pas utile, cela signifie que son argument est faux; s’il est utile, il réfute son argument principal, à savoir que les modèles inexacts ne sont pas utiles. De toute façon, il réfute sa propre argumentation.
4) Probablement pas, car nous ne pouvons pas disposer d'informations complètes pour tester notre modèle, pour les mêmes raisons que nous ne pouvons pas en déduire un modèle exact. Un modèle exact exigerait par définition une prévisibilité parfaite, mais même si les 100 premiers tests s'avéraient précis à 100%, le 101ème pourrait ne pas l'être. Il y a ensuite toute la question des échelles de mesure infinitésimales. Après cela, nous entrons dans toutes les autres sources d'incertitude, qui contamineront toute évaluation de la tour d'ivoire de notre modèle de tour d'ivoire.
5) Pour aborder le problème, je devais le situer dans le contexte plus large de problèmes philosophiques beaucoup plus vastes et souvent controversés. Je ne pense donc pas qu'il soit possible de discuter de cela sans entrer dans des opinions. source d’incertitude) mais vous avez raison, cet article mérite une réponse. Une grande partie de ce qu'il dit sur d'autres sujets va dans la bonne direction, comme la nécessité de rendre les statistiques pertinentes pour le Big Data, mais il existe un mélange d'extrémisme peu pratique qui devrait être corrigé.
la source