Application des techniques d'apprentissage automatique à de petits échantillons d'études cliniques

15

Que pensez-vous de l'application de techniques d'apprentissage automatique, comme les forêts aléatoires ou la régression pénalisée (avec pénalité L1 ou L2, ou une combinaison de celles-ci) dans de petits échantillons d'études cliniques lorsque l'objectif est d'isoler des prédicteurs intéressants dans un contexte de classification? Ce n'est pas une question sur la sélection du modèle, ni sur la façon de trouver des estimations optimales d'effet / importance variable. Je ne prévois pas de faire d'inférence forte mais simplement d'utiliser une modélisation multivariée, évitant ainsi de tester chaque prédicteur par rapport au résultat d'intérêt un par un, et de prendre en compte leurs interrelations.

Je me demandais simplement si une telle approche était déjà appliquée dans ce cas extrême particulier, disons 20-30 sujets avec des données sur 10-15 variables catégoriques ou continues. Ce n'est pas exactement le cas et je pense que le problème ici est lié au nombre de classes que nous essayons d'expliquer (qui sont souvent mal équilibrées), et au n (très) petit. Je connais l'énorme littérature sur ce sujet dans le contexte de la bioinformatique, mais je n'ai trouvé aucune référence liée aux études biomédicales avec des phénotypes mesurés psychométriquement (par exemple dans les questionnaires neuropsychologiques).np

Avez-vous des conseils ou des indications sur les articles pertinents?

Mise à jour

Je suis ouvert à toute autre solution pour analyser ce type de données, par exemple l'algorithme C4.5 ou ses dérivés, les méthodes de règles d'association et toutes les techniques d'exploration de données pour la classification supervisée ou semi-supervisée.

chl
la source
Juste pour être clair: votre question concerne la taille des données, pas le paramétrage, n'est-ce pas?
Shane
Exactement, je me demande s'il y a des références sur le "plus petit" n (par rapport à un nombre élevé de variables), ou plus précisément si des techniques de validation croisée (ou une stratégie de rééchantillonnage comme dans les RF) restent valables dans un cas aussi extrême .
chl

Réponses:

7

Je n'ai pas non plus vu cela utilisé en dehors de la bioinformatique / apprentissage automatique, mais vous pouvez peut-être être le premier :)

En tant que bon représentant de la méthode de la méthode des petits échantillons de la bioinformatique, la régression logistique avec régularisation L1 peut donner un bon ajustement lorsque le nombre de paramètres est exponentiel dans le nombre d'observations, des intervalles de confiance non asymptotiques peuvent être élaborés en utilisant des inégalités de type Chernoff (c.-à-d. Dudik, (2004) par exemple). Trevor Hastie a effectué certains travaux en appliquant ces méthodes pour identifier les interactions génétiques. Dans l'article ci-dessous, il l'utilise pour identifier les effets significatifs d'un modèle avec 310 637 paramètres ajustables ajustés à un échantillon de 2 200 observations

"Analyse d'association à l'échelle du génome par lasso régression logistique pénalisée." Auteurs: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Numéro: 6 ISSN: 1367-4803 Date: 03/2009 Pages: 714 - 721

Présentation connexe par Victoria Stodden ( Sélection de modèles avec beaucoup plus de variables que d'observations )

Yaroslav Bulatov
la source
Oui, Wu et al. 2009 est un beau papier. Soit dit en passant, j'ai travaillé sur GWAS et ML au cours des deux dernières années; maintenant j'essaie de revenir aux études cliniques où la plupart du temps nous devons faire face à des mesures imparfaites, des données manquantes, et bien sûr ... beaucoup de variables intéressantes du point de vue du physicien!
chl
BTW, je viens de tomber sur un article qui m'a fait penser à cette question ... il est très rare que les articles de Machine Learning parlent des intervalles de confiance, mais voici une exception notable ncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov
nnpnp
C'est une question très intéressante. J'ai rassemblé certains de ces articles et d'autres articles dans un article de blog (j'espère que cela ne vous dérange pas). Je suis sûr qu'il y en a d'autres.
Andrew
5

J'aurais très peu confiance dans la généralisabilité des résultats d'une analyse exploratoire avec 15 prédicteurs et un échantillon de 20.

  • Les intervalles de confiance des estimations des paramètres seraient importants. Par exemple, l'intervalle de confiance à 95% sur r = 0,30 avec n = 20 est de -0,17 à 0,66.
  • Les problèmes ont tendance à être aggravés lorsque plusieurs prédicteurs sont utilisés de manière exploratoire et basée sur les données.

Dans de telles circonstances, mon conseil serait généralement de limiter les analyses aux relations bivariées. Si vous adoptez une perspective bayésienne, je dirais que vos attentes antérieures sont également, sinon plus, importantes que les données.

Jeromy Anglim
la source
4

Une règle d'or courante consiste à avoir au moins 10 fois le nombre d'instances de données de formation (sans parler des données de test / validation, etc.) car il existe des paramètres ajustables dans le classificateur. Gardez à l'esprit que vous avez un problème dans lequel vous devez non seulement disposer de données adéquates mais également de données représentatives . Au final, il n'y a pas de règle systématique car il y a tellement de variables au moment de prendre cette décision. Comme le disent Hastie, Tibshirani et Friedman dans The Elements of Statistical Learning (voir le chapitre 7):

il est trop difficile de donner une règle générale sur la quantité de données de formation suffisante; cela dépend, entre autres, du rapport signal / bruit de la fonction sous-jacente et de la complexité des modèles adaptés aux données.

Si vous êtes nouveau dans ce domaine, je vous recommande de lire ce court article "Pattern Recognition" de l'Encyclopedia of Biomedical Engineering qui donne un bref résumé de certains des problèmes de données.

Shane
la source
Merci! J'ai le livre de Hastie et celui de C. Bishop (Pattern Recognition and Machine Learning). Je sais qu'un si petit n entraînerait une association fallacieuse ou peu fiable (voir le commentaire de Jeromy Anglim). Cependant, l'algorithme RF tel qu'implémenté par Breiman permet de faire face à un nombre limité de fonctionnalités à chaque croissance d'un arbre (dans mon cas, 3 ou 4) et bien que le taux d'erreur OOB soit plutôt élevé (mais cela devrait être prévu), l'analyse l'importance variable m'a amené à conclure que j'arriverais à une conclusion similaire en utilisant des tests bivariés (avec test de permutation).
chl
1
Cette règle empirique s'applique principalement aux méthodes classiques comme la probabilité maximale régularisée l2, les méthodes régularisées L1 peuvent apprendre efficacement lorsque le nombre de paramètres ajustables est exponentiel dans le nombre d'observations (par exemple, Miroslav Dudik, article COLT 2004)
Yaroslav Bulatov
3

Je peux vous assurer que RF fonctionnerait dans ce cas et sa mesure d'importance serait assez perspicace (car il n'y aura pas de grande queue d'attributs sans importance trompeurs comme dans les standards (n << p) s). Je ne me souviens maintenant d'aucun article traitant d'un problème similaire, mais je vais le chercher.


la source
1
Merci! J'assistais à la IVe conférence EAM-SMABS le mois dernier, et l'un des conférenciers a présenté une application du ML dans une étude biomédicale; malheureusement, il s'agissait d'une étude quelque peu "standard" avec N ~ 300 sujets et p = 10 prédicteurs. Il est sur le point de soumettre un article à Statistics in Medicine . Ce que je recherche, ce sont simplement des articles / références par rapport à. étude clinique standard avec, par exemple, des patients externes, où la généralisation des résultats n'est pas tellement un problème.
chl
Avez-vous enfin trouvé du papier?
chl
@chl Pas encore; mais merci pour le rappel.
Rien ne presse :) Je n'ai rien trouvé d'intéressant moi-même; Pubmed n'est peut-être pas le bon moteur de recherche pour ce cas particulier ...
chl
@chl C'est aussi mon problème ici. Il semble vraiment que n << p soit devenu synonyme de données biomédicales.
0

Si vous avez des entrées discrètes, j'écris un programme pour prédire les valeurs manquantes d'une entrée binaire, compte tenu des entrées précédentes. Toutes les catégories, par exemple "1 sur 6", peuvent être converties en bits binaires, et cela fonctionnera très bien; cela ne l'affectera pas.

Le but de l'algorithme que j'écris est d'apprendre aussi vite que mathématiquement possible. Par conséquent, sa complexité en temps et en espace est très faible (complexité de l'espace autour de O (4 ^ N)!.

Mais pour cela, vous obtenez essentiellement un apprentissage unique, pour tout système dont l'état peut être exprimé sous forme de vecteur de bits. Par exemple, un additionneur complet a 8 états d'entrée distincts. L'algorithme apprendra parfaitement un additionneur complet après seulement 8 échantillons d'entraînement distincts. Non seulement cela, mais vous pouvez ensuite lui donner la réponse et lui faire prédire la question, ou lui donner une partie de la réponse et une partie de la question et lui faire remplir le reste.

Si les données d'entrée ont beaucoup de bits, ce sera assez calculateur et gourmand en mémoire. Mais si vous avez très peu d'échantillons - ou du moins l'objectif de conception est - cela vous donnera presque les meilleures prédictions possibles.

Vous l'entraînez simplement avec des vecteurs de bits, y compris un vecteur de bits dont les bits sont inconnus. Pour obtenir une prédiction, vous devez également lui fournir un vecteur de bits, quels bits sont inconnus et quels bits vous souhaitez qu'il prédit.

Code source disponible ici: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

Kevin Baas
la source