Corrélation des variables cliniques continues et des données d'expression génique

8

Dans les analyses de classification SVM (noyau linéaire) d'un ensemble de données d'expression génique (~ 400 variables / gènes) pour environ 25 cas et témoins, je trouve que les classificateurs basés sur l'expression génique ont de très bonnes caractéristiques de performance. Les cas et les témoins ne diffèrent pas de manière significative pour un certain nombre de variables cliniques / démographiques catégoriques et continues (selon les tests exacts ou t de Fisher), mais ils diffèrent considérablement pour l'âge.

Existe-t-il un moyen de montrer que les résultats de l'analyse de classification sont ou ne sont pas influencés par l'âge?

Je pense à réduire les données d'expression génique aux composants principaux et à faire une analyse de corrélation Spearman des composants par rapport à l'âge.

Est-ce une approche raisonnable? Alternativement, puis-je vérifier la corrélation entre l'âge et les valeurs de probabilité d'appartenance à la classe obtenues dans l'analyse SVM.

Merci.

user4045
la source
1
S'agit-il d'une étude cas-témoins? Ou étude de cohorte? Pourquoi y a-t-il une différence d'âge (schéma d'échantillonnage? Pathomécanisme?)? L'âge est-il au moment du diagnostic? Ou s'agit-il d'une maladie chronique et l'âge est l'âge actuel pour prélever un échantillon de tissu pour l'analyse de l'expression des gènes? L'âge est-il connu pour être lié à la maladie? L'effet de l'âge sur l'expression des gènes est-il plus l'effet du temps depuis la naissance ou depuis le diagnostic? --- J'aurais besoin des réponses à ces questions pour voir votre question si "les résultats de l'analyse de classification sont ou ne sont pas influencés par l'âge?" dans une perspective appropriée.
GaBorgulya
Il s'agit d'une étude rétrospective sur l'expression des microARN sanguins et le cancer du poumon. Les cas ont un cancer du poumon. Les témoins ne le sont pas et ont été choisis parmi la population de patients apparaissant dans une clinique de dépistage du cancer du poumon, généralement en raison d'antécédents de tabagisme. Aucune correspondance pour l'âge, le sexe, etc. n'a été effectuée lors de la sélection des cas et des témoins. Le cancer du poumon est généralement diagnostiqué après 45 à 50 ans. On ne sait pas si l'expression des microARN sanguins est affectée par le cancer du poumon, mais certaines autres maladies sont connues pour affecter l'expression.
user4045
L'effet de l'âge sur l'expression des microARN sanguins est inconnu. L'âge moyen (et l'écart type) des cas et des témoins de l'étude sont respectivement de 71 (7) et 60 (9) ans.
user4045
Quand vous dites "influencé par l'âge", que voulez-vous dire exactement? Voici deux possibilités. Une possibilité est que vos puces à ADN ne contiennent aucun marqueur de maladie. Mais, ils contiennent des informations sur l'âge, et puisque dans votre cas, les populations malades et témoins sont d'âge différent, vous obtenez l'illusion d'une bonne performance de classification. Une autre possibilité est que les puces à ADN contiennent des marqueurs de maladie et, en outre, ces marqueurs sont exactement ce sur quoi SVM se concentre. Cependant, étant donné que dans vos données, les âges sont différents, il existe toujours une corrélation entre l'âge et la catégorie.
SheldonCooper
@SheldonCooper: D'accord, et je veux savoir si nous pouvons ou non déterminer laquelle des deux possibilités il s'agit. Sinon, pouvons-nous estimer approximativement la valeur supplémentaire apportée par les marqueurs génétiques au fil du temps? Le classificateur SVM a de bonnes caractéristiques de performance (précision dans les validations croisées internes> 90% et AUC> 0,95). L'ASC dans l'analyse ROC de l'âge est de 0,82.
user4045

Réponses:

2

Il existe au moins deux possibilités pour ces données. Une possibilité est que vos puces à ADN ne contiennent aucun marqueur de maladie. Mais, ils contiennent des informations sur l'âge, et puisque dans votre cas, les populations malades et témoins sont d'âge différent, vous obtenez l'illusion d'une bonne performance de classification. Une autre possibilité est que les puces à ADN contiennent des marqueurs de maladie et, en outre, ces marqueurs sont exactement ce sur quoi SVM se concentre.

Il semble que les principales composantes des données puissent être corrélées avec l'âge dans ces deux possibilités. Dans le premier cas, ce sera parce que l'âge est ce que les données expriment. Dans le second cas, ce sera parce que la maladie est ce que les données expriment, et cette maladie est elle-même corrélée avec l'âge (pour votre ensemble de données). Je ne pense pas qu'il existe un moyen facile d'examiner la valeur de corrélation et de conclure de quel cas il s'agit.

Je pourrais penser à plusieurs façons d'évaluer l'effet différemment. Une option consiste à diviser votre ensemble d'entraînement en groupes d'âge égal. Dans ce cas, pour les «jeunes» âges, la classe normale aura plus d'exemples de formation que la classe des maladies, et vice versa pour les âges plus avancés. Mais tant qu'il y a suffisamment d'exemples, cela ne devrait pas être un problème. Une autre option consiste à faire de même avec les ensembles de tests, c'est-à-dire à voir si le classificateur a tendance à dire «malade» plus souvent pour les patients plus âgés. Ces deux options peuvent être difficiles car vous n'avez pas autant d'exemples.

Une autre option consiste à former deux classificateurs. Dans le premier, la seule caractéristique sera l'âge. Il semble que cela ait une AUC de 0,82. Dans le second, il y aura l'âge et les données des puces à ADN. (Il semble que vous entraînez actuellement un classificateur différent qui n'utilise que les données de microréseau, et cela vous donne AUC 0,95. L'ajout explicite de la fonction d'âge est susceptible d'améliorer les performances, donc AUC sera encore plus élevé.) Si le deuxième classificateur fonctionne mieux que la première, cela indique que l'âge n'est pas la seule chose intéressante dans ces données. D'après votre commentaire, l'amélioration de l'AUC est de 0,13 ou plus, ce qui semble juste.

Sheldon Cooper
la source
Merci pour les différentes suggestions. Je pense que vous avez raison de dire que la vérification de la corrélation de l'âge avec les principaux composants ne fournit pas de réponse. J'ai fait cette analyse et il existe de bonnes corrélations (Spearman r> 0,5) pour chacun des trois premiers PC (ils contribuent ensemble à ~ 55% de la variance). Il existe également une bonne corrélation de l'âge avec les valeurs de probabilité de l'analyse SVM. Pour les deux premières options que vous proposez, je dois vérifier s'il y a suffisamment d'échantillons et comment s'y prendre (j'utilise LOOCV et un CV Monte Carlo à 1000 itérations avec une répartition 4: 1 pour la formation et les tests).
user4045
En ce qui concerne ROC utilisant à la fois des données d'âge et de microréseaux, je vais l'essayer. Une augmentation de l'ASC de 0,95 (données de microréseaux seules) suggérera que les données d'expression contiennent des informations spécifiques à la maladie qui sont indépendantes de l'âge. Une absence d'augmentation, cependant, ne signifiera rien puisque les données d'expression sont affectées par l'âge. Droite?
user4045
Vous avez déjà une augmentation de l'ASC, de 0,82 pour l'âge seulement à 0,95 pour les microréseaux. C'est ce qui est important je pense. Si vous obtenez une augmentation supplémentaire, tant mieux. Si vous n'obtenez pas d'augmentation supplémentaire, vous avez raison, cela ne veut rien dire. La partie importante est que vous avez l'augmentation de 0,82 à 0,95.
SheldonCooper
Dans une nouvelle analyse, avec l'âge ajouté comme variable à l'ensemble de données d'expression, l'ASC augmente ~ 0,04. Je suppose que l'on ne peut rien en conclure.
user4045
La nouvelle ASC (pour l'âge + la puce à ADN) est-elle de 0,99 ou 0,86?
SheldonCooper