Ce message dans un article de Reuter du 25.02.2019 fait actuellement le tour du monde:
Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or»
[Les scientifiques] ont déclaré que la confiance selon laquelle les activités humaines augmentaient la chaleur à la surface de la Terre avait atteint le niveau «cinq sigma», une jauge statistique indiquant qu'il n'y a qu'une chance sur un million qu'un signal apparaisse s'il y avait pas de réchauffement.
Je pense que cela fait référence à cet article "Célébration de l'anniversaire de trois événements clés dans la science du changement climatique", qui contient une intrigue, qui est schématisée ci-dessous (il s'agit d'un croquis, car je ne pouvais pas trouver une image open source pour un des images gratuites se trouvent ici ). Un autre article du même groupe de recherche, qui semble être une source plus originale, est ici (mais il utilise une signification de 1% au lieu de ).
Le graphique présente les mesures de trois groupes de recherche différents: systèmes de télédétection, centre d'applications et de recherche par satellite et université de l'Alabama à Huntsville.
Le graphique affiche trois courbes montantes du rapport signal sur bruit en fonction de la longueur de la tendance.
Les scientifiques ont donc mesuré un signal anthropique du réchauffement planétaire (ou du changement climatique?) À un niveau de , ce qui est apparemment une norme scientifique probante .
Pour moi, un tel graphique, qui a un niveau d'abstraction élevé, soulève de nombreuses questions , et en général je m'interroge sur la question des 'Comment ont-ils fait cela?' . Comment pouvons-nous expliquer cette expérience en mots simples (mais pas si abstraits) et expliquer également la signification du niveau ?
Je pose cette question ici parce que je ne veux pas de discussion sur le climat. Au lieu de cela, je veux des réponses concernant le contenu statistique et surtout pour clarifier le sens d'une telle déclaration qui utilise / revendique .
Quelle est l'hypothèse nulle? Comment ont-ils mis en place l'expérience pour obtenir un signal anthropique ? Quel est l'effet taille de l' du signal? S'agit-il d'un petit signal que nous ne mesurons que maintenant parce que le bruit diminue ou que le signal augmente? Quels types d'hypothèses sont utilisés pour créer le modèle statistique permettant de déterminer le franchissement d'un seuil de 5 sigma (indépendance, effets aléatoires, etc.)? Pourquoi les trois courbes des différents groupes de recherche sont-elles différentes, ont-elles un bruit différent ou ont-elles des signaux différents, et dans le cas de ce dernier, qu'est-ce que cela signifie en ce qui concerne l'interprétation de la probabilité et de la validité externe?
la source
Réponses:
Il ne s'agit pas toujours de tests statistiques. Cela peut aussi concerner la théorie de l'information.
Le terme 5σ est ce qui est écrit: rapport entre "signal" et "bruit". Dans les tests d'hypothèses, nous avons une estimation d'un paramètre de distribution et une erreur type de l'estimation. Le premier est un "signal", le second est un "bruit" et le rapport des statistiques à l'erreur standard est le suivant: statistiques z, statistiques t, statistiques F, nommez-le.
Néanmoins, le rapport signal sur bruit est utile partout où nous recevons / percevons certaines informations à travers un bruit. Comme le lien cité explique
Dans notre cas, le "signal" est le changement réel mesuré de la température de certaines couches de l'atmosphère et le "bruit" est une prédiction du changement issu des simulations sans les influences anthropiques connues. Il se trouve que ces simulations ont prédit une température plus ou moins stationnaire avec un certain écart type σ.
Revenons maintenant aux statistiques. Toutes les statistiques de test (z, t, F) sont les rapports de l'estimation à son erreur standard. Ainsi, lorsque les statisticiens entendent parler de S / N, nous pensons à une statistique z et nous l’équipons de la probabilité. Les climatologues ne le font évidemment pas (il n’ya aucune mention de la probabilité dans l’ article ). Ils découvrent simplement que le changement est "environ trois à huit" fois plus grand que prévu, le rapport S / N est compris entre 3σ et 8σ.
Ce que l' article rapporte, c'est qu'ils ont réalisé deux types de simulations: l'une avec les influences anthropiques connues incluses dans le modèle et les autres avec les influences anthropiques connues exclues. Les premières simulations étaient similaires aux données satellitaires réelles mesurées, tandis que les secondes étaient très éloignées. Si cela est probable ou non, ils ne disent pas et ne s'en soucient évidemment pas.
Pour répondre à d'autres questions. Ils n'ont pas fait d'expériences, ils ont fait des simulations selon leurs modèles. Il n’ya donc pas d’hypothèse nulle explicite à l’exception de l’évident, selon lequel le changement est similaire à celui attendu (S / N = 1).
La taille de l'effet du signal est une différence entre les données réelles et les simulations. C'est un signal cinq fois plus important que prévu (cinq fois la variabilité habituelle des températures). Il semble que le bruit diminue en raison de la quantité et éventuellement de la précision des mesures.
Contrairement à nos attentes des "vrais scientifiques", il n’existe aucun modèle statistique dont nous pourrions parler. La question des hypothèses retenues est donc vide de sens. La seule hypothèse est que leurs modèles leur permettent de prévoir le climat. Ceci est aussi valable que de dire que les modèles utilisés pour les prévisions météorologiques sont solides.
Il y a beaucoup plus que trois courbes. Ce sont les résultats de simulation de différents modèles. Ils doivent simplement être différents. Et oui, avoir un bruit différent. Le signal, dans la mesure où il est différent, correspond à différents ensembles de mesures, qui ont leur erreur de mesure et devraient également être différents. Qu'est-ce que cela signifie en ce qui concerne l'interprétation? L’interprétation des probabilités du rapport S / N n’est pas bonne. Cependant, la validité externe des résultats est bonne. Ils affirment simplement que les changements climatiques de 1979 à 2011 sont comparables aux simulations lorsque les influences anthropiques connues sont prises en compte et environ cinq fois plus grandes que celles calculées par simulation lorsque les facteurs anthropiques connus sont exclus du modèle.
Donc, il reste une question. Si les climatologues demandent aux statisticiens de créer un modèle, que devrait-il être? À mon avis, quelque chose dans la ligne du mouvement brownien.
la source
Avertissement: je ne suis pas un expert en climatologie, ce n'est pas mon domaine. S'il vous plaît garder cela à l'esprit. Les corrections sont les bienvenues.
Le chiffre auquel vous faites référence provient d'un article récent de Santer et al. 2019, Célébration de l'anniversaire de trois événements clés dans la science du changement climatique de Nature Climate Change . Ce n'est pas un document de recherche, mais un bref commentaire. Cette figure est une mise à jour simplifiée d'une figure similaire d'un article précédent de Science , des mêmes auteurs, Santer et al. 2018, Influence de l'homme sur le cycle saisonnier de la température troposphérique . Voici le chiffre 2019:
Et voici le chiffre 2018; le panneau A correspond à la figure 2019:
Ici, je vais essayer d'expliquer l'analyse statistique qui se cache derrière ce dernier chiffre (les quatre panneaux). Le document scientifique est en accès libre et assez lisible; les détails statistiques sont, comme d’habitude, cachés dans la documentation supplémentaire. Avant de discuter des statistiques en tant que telles, il faut dire quelques mots sur les données d’observation et les simulations (modèles climatiques) utilisées ici.
1. données
Les abréviations RSS, UAH et STAR font référence aux reconstructions de la température troposphérique à partir des mesures satellitaires. La température troposphérique est surveillée depuis 1979 à l'aide de satellites météorologiques: voir Wikipedia sur les mesures de température MSU . Malheureusement, les satellites ne mesurent pas directement la température; ils mesurent quelque chose d'autre, à partir de laquelle la température peut être déduite. De plus, ils sont connus pour souffrir de divers biais et problèmes d’étalonnage dépendant du temps. Cela rend difficile la reconstruction de la température réelle. Plusieurs groupes de recherche effectuent cette reconstruction en suivant des méthodologies quelque peu différentes et en obtenant des résultats finaux quelque peu différents. RSS, UAH et STAR sont ces reconstructions. Pour citer Wikipedia,
Il y a beaucoup de débats pour savoir quelle reconstruction est la plus fiable. Chaque groupe met à jour leurs algorithmes de temps en temps, modifiant ainsi toute la série chronologique reconstruite. C'est pourquoi, par exemple, RSS v3.3 diffère de RSS v4.0 dans la figure ci-dessus. Dans l’ensemble, autant que je sache, il est bien admis sur le terrain que les estimations de la température de surface globale sont plus précises que les mesures par satellite. Quoi qu’il en soit, l’important pour cette question est qu’il existe plusieurs estimations de la température troposphérique résolue spatialement de 1979 à nos jours - c’est-à-dire en fonction de la latitude, de la longitude et de l’heure.
Notons une telle estimation parT( x , t ) .
2. modèles
Différents modèles climatiques peuvent être utilisés pour simuler la température troposphérique (également en fonction de la latitude, de la longitude et de l'heure). Ces modèles prennent en entrée la concentration de CO2, l'activité volcanique, l'irradiance solaire, les concentrations d'aérosols et diverses autres influences externes, et produisent la température en sortie. Ces modèles peuvent être exécutés pour la même période (1979 - maintenant), en utilisant les influences externes réelles mesurées. Les sorties peuvent ensuite être moyennées pour obtenir la sortie moyenne du modèle.
One can also run these models without inputting the anthropogenic factors (greenhouse gases, aerosols, etc.), to get an idea of non-anthropogenic model predictions. Note that all other factors (solar/volcanic/etc.) fluctuate around their mean values, so the non-anthropogenic model output is stationary by construction. In other words, the models do not allow the climate to change naturally, without any specific external cause.
Let us denote the mean anthropogenic model output byM(x,t) and the mean non-anthropogenic model output by N(x,t) .
3. Fingerprints andz -statistics
Now we can start talking about statistics. The general idea is to look at how similar the measured tropospheric temperatureT(x,t) is to the anthropogenic model output M(x,t) , compared to the non-anthropogenic model output N(x,t) . One can quantify the similarity in different ways, corresponding to different "fingerprints" of anthropogenic global warming.
The authors consider four different fingerprints (corresponding to the four panels of the figure above). In each case they convert all three functions defined above into annual valuesT(x,i) , M(x,i) , and N(x,i) , where i indexes years from 1979 until 2019. Here are the four different annual values that they use:
For each of these four analyses, the authors take the correspondingM(x,i) , do PCA across time points, and obtain the first eigenvector F(x) . It is basically a 2D pattern of maximal change of the quantity of interest according to the anthropogenic model.
Then they project the observed valuesT(x,i) onto this pattern F(x) , i.e. compute Z(i)=∑xT(x,i)F(x), and find the slope β of the resulting time series. It will be the numerator of the z -statistic ("signal-to-noise ratio" in the figures).
To compute the denominator, they use non-anthropogenic model instead of the actually observed values, i.e. computeW(i)=∑xN(x,i)F(x), and again find its slope βnoise . To obtain the null distribution of slopes, they run the non-anthropogenic models for 200 years, chop the outputs in 30-year chunks and repeat the analysis. The standard deviation of the βnoise values forms the denominator of the z -statistic:
What you see in panels A--D of the figure above are thesez values for different end years of the analysis.
The null hypothesis here is that the temperature fluctuates under the influence of stationary solar/volcanic/etc inputs without any drift. The highz values indicate that the observed tropospheric temperatures are not consistent with this null hypothesis.
4. Some comments
The first fingerprint (panel A) is, IMHO, the most trivial. It simply means that the observed temperatures monotonically grow whereas the temperatures under the null hypothesis do not. I do not think one needs this whole complicated machinery to make this conclusion. The global average lower tropospheric temperature (RSS variant) time series looks like this:
and clearly there is a very significant trend here. I don't think one needs any models to see that.
The fingerprint in panel B is somewhat more interesting. Here the global mean is subtracted, so thez -values are not driven by the rising temperature, but instead by the the spatial patterns of the temperature change. Indeed, it is well-known that the Northern hemisphere warms up faster than the Southern one (you can compare the hemispheres here: http://images.remss.com/msu/msu_time_series.html), and this is also what climate models output. The panel B is largely explained by this inter-hemispheric difference.
The fingerprint in panel C is arguably even more interesting, and was the actual focus of the Santer et al. 2018 paper (recall its title: "Human influence on the seasonal cycle of tropospheric temperature", emphasis added). As shown in Figure 2 in the paper, the models predict that the amplitude of the seasonal cycle should increase in mid-latitudes of both hemispheres (and decrease elsewhere, in particular over the Indian monsoon region). This is indeed what happens in the observed data, yielding highz -values in panel C. Panel D is similar to C because here the effect is not due to the global increase but due to the specific geographical pattern.
P.S. The specific criticism at judithcurry.com that you linked above looks rather superficial to me. They raise four points. The first is that these plots only showz -statistics but not the effect size; however, opening Santer et al. 2018 one will find all other figures clearly displaying the actual slope values which is the effect size of interest. The second I failed to understand; I suspect it is a confusion on their part. The third is about how meaningful the null hypothesis is; this is fair enough (but off-topic on CrossValidated). The last one develops some argument about autocorrelated time series but I do not see how it applies to the above calculation.
la source