Le livre de Taleb "The Black Swan" était un best-seller du New York Times quand il est paru il y a plusieurs années. Le livre en est maintenant à sa deuxième édition. Après avoir rencontré des statisticiens lors d'une conférence statistique annuelle (JSM), Taleb a quelque peu atténué ses critiques à l'égard des statistiques. Mais l’idée maîtresse du livre est que les statistiques ne sont pas très utiles car elles reposent sur la distribution normale et sur de très rares événements: les "Cygnes noirs" n’ont pas de distributions normales.
Pensez-vous que ceci est une critique valable? Taleb manque-t-il certains aspects importants de la modélisation statistique? Peut-on prédire des événements rares au moins en ce sens que les probabilités d'occurrence peuvent être estimées?
la source
Réponses:
J'ai lu le cygne noir il y a quelques années. L'idée de Black Swan est bonne et l'attaque contre l'erreur ludique (voir les choses comme s'il s'agissait de jeux de dés, avec des probabilités connues) est bonne, mais les statistiques sont scandaleusement faussées, le problème central étant la fausse affirmation selon laquelle toutes les statistiques s'effondrent si des variables ne sont pas normalement distribués. Cet aspect m'a suffisamment ennuyé pour écrire à Taleb la lettre ci-dessous:
Cher Dr Taleb
J'ai récemment lu "Le Cygne Noir". Comme vous, je suis un fan de Karl Popper, et je suis tombé d’accord avec beaucoup de ce qu’il contient. Je pense que votre exposé de la fausseté ludique est fondamentalement valable et attire l’attention sur un problème réel et commun. Cependant, je pense qu’une grande partie de la partie III déprécie votre argumentation globale, au point de discréditer éventuellement le reste du livre. C'est une honte, car je pense que les arguments concernant les cygnes noirs et les "inconnus inconnus" reposent sur leurs mérites sans s'appuyer sur certaines des erreurs de la partie III.
La principale question sur laquelle je souhaite attirer votre attention - et sur votre réponse, en particulier si j’ai mal compris les problèmes - est votre représentation erronée du domaine des statistiques appliquées. À mon avis, les chapitres 14, 15 et 16 reposent en grande partie sur un argument de paille, sur une présentation erronée des statistiques et de l'économétrie. Le domaine de l'économétrie que vous décrivez n'est pas celui qui m'a été enseigné lorsque j'ai étudié la statistique appliquée, l'économétrie et la théorie du risque actuariel (à l'Australian National University, mais en utilisant des textes qui semblaient plutôt standard). Les questions que vous soulevez (telles que les limitations des distributions gaussiennes) sont bien comprises et enseignées, même au premier cycle.
Par exemple, vous allez trop loin pour montrer comment la distribution des revenus ne suit pas une distribution normale et présentez ceci comme un argument contre la pratique statistique en général. Aucun statisticien compétent ne prétendrait le faire et les moyens de traiter ce problème sont bien établis. En utilisant simplement des techniques du niveau de base "d'économétrie de première année", par exemple, transformer la variable en prenant son logarithme rendrait vos exemples numériques beaucoup moins convaincants. Une telle transformation invaliderait en réalité une grande partie de ce que vous dites, car la variance de la variable initiale augmente à mesure que sa moyenne augmente.
Je suis sûr que certains économétriciens incompétents font des régressions MLS, etc. avec une variable de réponse non transformée, comme vous le dites, mais cela les rend simplement incompétents et utilise des techniques bien établies pour être inappropriées. Ils auraient certainement échoué même dans les cours de premier cycle, qui passent beaucoup de temps à chercher des moyens plus appropriés de modéliser des variables telles que le revenu, reflétant la distribution réelle observée (non gaussienne).
La famille des modèles linéaires généralisés est un ensemble de techniques développées en partie pour résoudre les problèmes que vous soulevez. De nombreuses familles de distributions exponentielles (par exemple les distributions gamma, exponentielle et de Poisson) sont asymétriques et ont une variance qui augmente à mesure que le centre de la distribution augmente, ce qui contourne le problème que vous indiquez avec l'utilisation de la distribution gaussienne. Si cela reste trop limitatif, il est possible de supprimer une "forme" préexistante et de spécifier simplement une relation entre la moyenne d'une distribution et sa variance (par exemple, en permettant à la variance d'augmenter proportionnellement au carré de la moyenne), en utilisant la méthode d'estimation "quasi-vraisemblance".
Bien sûr, vous pourriez soutenir que cette forme de modélisation est encore trop simpliste et constitue un piège intellectuel qui nous incite à penser que l'avenir sera comme le passé. Vous avez peut-être raison, et je pense que la force de votre livre est de faire réfléchir les gens comme moi. Mais vous avez besoin d'arguments différents de ceux que vous utilisez aux chapitres 14 à 16. Le grand poids que vous accordez au fait que la variance de la distribution gaussienne soit constante quelle que soit sa moyenne (ce qui pose des problèmes d’évolutivité), par exemple, n’est pas valide. Vous insistez donc sur le fait que les distributions réelles ont tendance à être asymétriques plutôt que des courbes en cloche.
Fondamentalement, vous avez simplifié à l'extrême l'approche la plus élémentaire de la statistique (modélisation naïve de variables brutes ayant des distributions gaussiennes) et montré, de manière approfondie, (correctement) les inconvénients d'une telle approche trop simplifiée. Vous l'utiliserez ensuite pour faire le vide afin de discréditer tout le champ. C'est soit un grave manque de logique, soit une technique de propagande. C’est regrettable, car cela nuit à votre argumentation générale, que j’ai trouvée en grande partie (comme je l’ai dit) valide et convaincante.
Je serais intéressé d'entendre ce que vous dites en réponse. Je doute que je sois le premier à avoir soulevé cette question.
Cordialement
PE
la source
Je n'ai pas lu le livre, mais comme indiqué, la critique me semble assez déraisonnable. Si les événements extrêmes sont importants, les statistiques disposent d'outils appropriés, tels que la théorie des valeurs extrêmes, et un bon statisticien saura les utiliser (ou au moins découvrira comment les utiliser et sera suffisamment impliqué dans le but de: l'analyse à regarder). La critique semble être "les statistiques sont mauvaises parce qu'il y a de mauvais statisticiens qui ne connaissent que les distributions normales".
la source
Dire que "l’essentiel du livre, c’est que les statistiques ne sont pas très utiles" est inexact, à mon avis. Après avoir lu le livre, ce qu’il semble dire, c’est que des problèmes comme la finance quantitative ou toute sorte de négoce de titres qui suppose une distribution normale sont fondamentalement défectueux (en fait, dans le livre, il appelle des personnes qui prétendent utiliser ces modèles pour faire des prédictions. , "charlatans"). Selon Taleb, si la distribution normale modélise les valeurs d'objets tangibles / physiques (taille, poids, durée de vie, etc.), des systèmes tels que les marchés sont souvent dictés par les émotions humaines et sont donc sujets à grandes fluctuations que les distributions normales ne peuvent pas prédire avec précision.
Je ne comprends pas bien les statistiques et, jusqu'à la lecture des réponses ici, je n'avais jamais entendu parler de choses comme la théorie des valeurs extrêmes. Quoi qu'il en soit, The Black Swan et Fooled By Randomness semblent avoir des prémisses similaires, ce qui est "une distribution normale pas toujours satisfaisante". Je ne me rappelle pas qu'il diffamait tout le domaine des statistiques.
la source
J'ai lu "Le Cygne Noir", ça m'a plu et je suis un statisticien. Je n'ai pas du tout trouvé sa "critique des statistiques" insupportable. Point par point:
Pour ceux qui n'aiment pas cette réponse, ou qui n'aiment pas le livre, vous pouvez jeter un coup d'œil aux arguments techniques de Taleb dans le nouveau https://fernandonogueiracosta.files.wordpress.com/2014/07/taleb-nassim-silent-risk. pdf "Silent Risk", qui est technique.
la source
Je n'ai pas lu Black Swan, mais si sa critique des statistiques est aussi simple que vous le dites, alors c'est ridicule. Évidemment, certaines statistiques reposent sur la distribution normale, mais beaucoup ne le font pas.
Des événements rares peuvent-ils être modélisés? Bien sûr qu'ils peuvent. La vraie question est de savoir dans quelle mesure ils peuvent être modélisés. Et cette question aura différentes réponses dans différents domaines, en fonction de ce que nous savons sur les événements rares et leurs antécédents.
Le New York Times Magazine d'aujourd'hui contient un article intéressant de Nate Silver sur l'amélioration de la prévision météorologique au cours de la dernière décennie. Cela inclut une meilleure modélisation des événements rares tels que les ouragans.
Le livre vaut-il la peine d'être lu?
la source
Je n'ai pas non plus lu le livre, mais son propos ne peut pas être aussi simpliste que de dire qu'il existe des distributions avec des queues plus grosses que la distribution normale. Ce serait un commentaire sur les autres réponses, mais je n’ai pas accumulé assez d’éloges sur ce site.
De Wikipedia:
"Il déclare que la statistique est fondamentalement incomplète car elle ne permet pas de prédire le risque d'événements rares ..."
Cette question est également assez similaire à: Que pense la communauté du quatrième quadrant?
la source
Je recommande fortement l'examen de ce livre par Dennis Lindley. Il contient un certain nombre d'arguments dévastateurs contre la présentation arrogante et pauvre d'idées dans le livre:
http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2008.00281.x/abstract
Le cygne noir est un autre exemple où être un «best-seller» ne garantit pas un contenu de haute qualité.
la source
Je ne pense pas que Taleb dirait que les techniques statistiques basées sur la distribution gaussienne ne sont pas utiles. Son point de vue dans le livre était qu’ils sont très utiles pour de nombreux processus physiques et biologiques et pour la modélisation (mais pas tous). Il soulève des points positifs et des points négatifs (The Black Swan et Linked étaient le commencement du fléau "tout est une loi de puissance!" essais destinés au profane.
Cela dit, je pense que Taleb aime aggraver les gens. Vous pouvez le voir dans sa bataille avec Myron Scholes. Dans ce cas, il aurait peut-être été utile que l’enseignement statistique au niveau du premier cycle, et parfois au niveau des cycles supérieurs, évite en quelque sorte l’hypothèse de la distribution gaussienne. J'imagine que pendant ses années dans la finance, il a rencontré un grand nombre de candidats possédant une grande connaissance de Black-Scholes et d'autres techniques, mais qui n'ont pas pris en compte les hypothèses sous-jacentes telles que la distribution. Je soupçonne que Taleb se moquait de l'établissement d'enseignement pour avoir échoué à éduquer correctement.
la source
Ceux d’entre vous qui n’ont pas lu le livre sont très loin de la base. Il fait une grande distinction entre le scalable et indescriptible. Pour les questions indescriptibles, les statistiques traditionnelles serviront assez bien. Il ne critique pas que ce soit. Les cygnes noirs sont à l’origine de l’échelle et sont difficiles à prédire compte tenu des données empiriques passées. Le livre explique en quoi ces événements peuvent avoir un impact considérable et ne sont généralement expliqués qu’après coup. L'épistémologie est excellente.
la source
Sans lire le livre, j’ai le sentiment que les cloches gaussiennes échouent parce qu’elles n’ont jamais donné une définition claire de la "densité de probabilité"; De plus, ils ne donnent jamais un ensemble complet de points de courbes de Lorenz qui incluent à la fois le total de la variable distribuée et le total des populations qui perçoivent la première. Si "densité" est utilisé, il est nécessaire d'expliquer par rapport à quelle variable; Par exemple, si vous parlez de kilogrammes par litre, il s'agit d'une densité de poids liée au volume. Cette étape n'est pas donnée par la théorie gaussienne dans les manuels scolaires. Pas étonnant que les jeunes ne comprennent pas correctement les statistiques.
la source