Utilisation de la régression linéaire segmentée comme preuve de la limite de la durée de vie humaine

8

Nature a publié cette année l'article suivant: Preuve d'une limite à la durée de vie humaine 1 , dans laquelle les auteurs soutiennent que leurs "résultats suggèrent fortement que la durée de vie maximale des humains est fixe et soumise à des contraintes naturelles".

L'une des analyses statistiques de ce document a déjà été examinée sur certains sites, y compris l' article de Nature est erroné sur la limite de 115 ans sur la durée de vie humaine et les preuves d'une limite à l'examen efficace par les pairs , car il est apparu dans certains médias populaires.

L'étude est basée, entre autres, sur des données de bases de données détaillant l'âge maximum annuel de décès. Parmi leurs analyses, la figure suivante est incluse :

http://www.nature.com/nature/journal/v538/n7624/images/nature19793-sf6.jpg

Fondamentalement, les auteurs soutiennent qu'il y a un point d'arrêt, et ils ont donc effectué une régression segmentée avant vers 1995 et après ce point. La régression est utilisée comme preuve de la limite de la durée de vie humaine.

Est-ce que cela a du sens? Sinon, quelle méthode pourrait être mieux employée pour étudier ces données?

[1] Dong, Xiao, Brandon Milholland et Jan Vijg. "Preuve d'une limite à la durée de vie humaine." Nature 538,7624 (2016): 257-259.

Pyromane
la source
4
La régression linéaire pour les extrema semble étrange ... et, ils ont évidemment utilisé une régression segmentée discontinue, ce qui est inhabituel ...
kjetil b halvorsen
3
@kjetilbhalvorsen a accepté. Les Extrema sont des exemples bien connus de données violant assez follement les hypothèses normales. Je me demande comment une routine de vraisemblance maximale pour les données de Gumbel aurait pu fonctionner ... en utilisant la technique bien nommée d' analyse de survie .
AdamO

Réponses:

2

Tout d'abord, extrayons manuellement les valeurs de leur figure 2 d'origine et traçons les données sans aucune couleur ni ligne de régression biaisant notre première inspection visuelle des données brutes.

year <- c(1968, 1970, 1973, 1975, 1978, 1979, 1980, 1981, 1982, 
          1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 
          1992, 1994, 1993, 1995, 1996, 1998, 1997, 1999, 2000, 
          2001, 2002, 2003, 2004, 2005, 2006)
age <- c(111, 111, 112, 111, 111, 110, 111, 113, 113, 113, 111, 
         114, 113, 114, 114, 112, 112, 112, 114, 115, 117, 112, 
         114, 115, 121, 119, 114, 115, 115, 114, 113, 114, 112)

plot(year,age,xlab="Year",
     ylab="Yearly maximum reported age at death (years)", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1960,2010))

On obtient:

âge du nuage de points vs année

Et, faisons de même pour les données de la figure 6 (comme présenté dans la question ci-dessus):

age <- c(113, 109, 109, 110, 113, 109, 110, 111, 111, 111, 
         112, 112, 113, 111, 111, 113, 113, 113, 114, 115, 
         113, 114, 122, 119, 117, 114, 115, 115, 114, 114, 
         115, 116, 115, 115, 114, 114, 116, 116, 117)
year <- c(1954, 1957, 1958, 1958, 1963, 1964, 1965, 1967,
          1968, 1970, 1975, 1972, 1976, 1976, 1977, 1980, 
          1981, 1982, 1984, 1985, 1986, 1987, 1997, 1998, 
          1998, 1999, 2001, 2001, 2002, 2003, 2006, 2006,
          2008, 2007, 2010, 2011, 2011, 2012, 2015)

plot(year,age,xlab="Year",
     ylab="MRAD from GRG", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1950,2020))

entrez la description de l'image ici

Il semble qu'un modèle de régression linéaire simple serait le candidat naturel pour contester le modèle de point de changement moins parcimonieux proposé par les auteurs. En effet, Philipp Berens et Tom Wallis l'ont fait et ont publié leur ré-analyse sur github: https://github.com/philippberens/lifespan

Brandmaier
la source
1
Vous semblez avoir fait une erreur en prenant les valeurs de la figure - les données manquent depuis quelques années.
Scortchi - Réintégrer Monica
Hmm ... Selon Berens & Wallis , les auteurs ont expliqué que "les" disparus "sont dus au fait que les personnes MRAD étaient plus jeunes que Jeanne Calment qui détenait le record de la personne la plus âgée du monde à l'époque". Les données sur d'autres personnes, dont chacune était la plus âgée décédée l'année de sa mort, sont donc omises en raison de la survie continue d'une personne âgée. Cela ressemble à une recette pour un point d'arrêt!
Scortchi - Réintégrer Monica
2
Dans la première version de l'article, je n'avais inclus que leur figure 2. J'ai ajouté des données de la figure 6, dans laquelle nous pouvons voir l'écart discuté.
Brandmaier
Désolé! Je supposais que c'était le même chiffre que dans la question.
Scortchi - Réintégrer Monica
4

Je pense que la nature des conclusions est totalement superflue. On observe entre 1950 et 2015 une tendance à la hausse suivie d'une tendance à la baisse. Il s'agit d'une erreur classique d'appliquer des données qui suggèrent une hypothèse différente de celle testée et de les présenter comme telles. Avec ces données, une régression segmentée peut interpoler et prédire qu'en 1995 un maximum local de durée de vie était d'environ 115 ans±quelle que soit l'erreur qu'ils estiment à partir de la régression segmentée. Cela n'empêche pas les tendances de 2020 ou 2030 de remplacer cette valeur.

  1. Le concept de durée de vie naturelle entre en conflit avec la prépondérance de la recherche sur le vieillissement, la génétique et les télomères.
  2. Une conception expérimentale pour répondre à la durée de vie humaine naturelle est nécessaire en utilisant la technologie "body on a chip".
  3. 50 ans est tout à fait trivial au cours de l'histoire humaine. Il y a eu de nombreux points dans le passé où une tendance à la hausse de la durée de vie a été suivie d'une tendance à la baisse.
  4. Des données telles que celles présentées auraient pu être simulées à partir d'un modèle non linéaire présentant des discontinuités et / ou des asymptotes qui ne sont pas mesurables.
  5. Étant donné que l'objectif du modèle est la prédiction, des hypothèses de distribution et l'exactitude du modèle moyen sont nécessaires, et ni (semble-t-il) n'ont été vérifiées ni satisfaites.
AdamO
la source