Que pensez-vous de l'application de techniques d'apprentissage automatique, comme les forêts aléatoires ou la régression pénalisée (avec pénalité L1 ou L2, ou une combinaison de celles-ci) dans de petits échantillons d'études cliniques lorsque l'objectif est d'isoler des prédicteurs intéressants dans un contexte de classification? Ce n'est pas une question sur la sélection du modèle, ni sur la façon de trouver des estimations optimales d'effet / importance variable. Je ne prévois pas de faire d'inférence forte mais simplement d'utiliser une modélisation multivariée, évitant ainsi de tester chaque prédicteur par rapport au résultat d'intérêt un par un, et de prendre en compte leurs interrelations.
Je me demandais simplement si une telle approche était déjà appliquée dans ce cas extrême particulier, disons 20-30 sujets avec des données sur 10-15 variables catégoriques ou continues. Ce n'est pas exactement le cas et je pense que le problème ici est lié au nombre de classes que nous essayons d'expliquer (qui sont souvent mal équilibrées), et au n (très) petit. Je connais l'énorme littérature sur ce sujet dans le contexte de la bioinformatique, mais je n'ai trouvé aucune référence liée aux études biomédicales avec des phénotypes mesurés psychométriquement (par exemple dans les questionnaires neuropsychologiques).
Avez-vous des conseils ou des indications sur les articles pertinents?
Mise à jour
Je suis ouvert à toute autre solution pour analyser ce type de données, par exemple l'algorithme C4.5 ou ses dérivés, les méthodes de règles d'association et toutes les techniques d'exploration de données pour la classification supervisée ou semi-supervisée.
Réponses:
Je n'ai pas non plus vu cela utilisé en dehors de la bioinformatique / apprentissage automatique, mais vous pouvez peut-être être le premier :)
En tant que bon représentant de la méthode de la méthode des petits échantillons de la bioinformatique, la régression logistique avec régularisation L1 peut donner un bon ajustement lorsque le nombre de paramètres est exponentiel dans le nombre d'observations, des intervalles de confiance non asymptotiques peuvent être élaborés en utilisant des inégalités de type Chernoff (c.-à-d. Dudik, (2004) par exemple). Trevor Hastie a effectué certains travaux en appliquant ces méthodes pour identifier les interactions génétiques. Dans l'article ci-dessous, il l'utilise pour identifier les effets significatifs d'un modèle avec 310 637 paramètres ajustables ajustés à un échantillon de 2 200 observations
"Analyse d'association à l'échelle du génome par lasso régression logistique pénalisée." Auteurs: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Numéro: 6 ISSN: 1367-4803 Date: 03/2009 Pages: 714 - 721
Présentation connexe par Victoria Stodden ( Sélection de modèles avec beaucoup plus de variables que d'observations )
la source
J'aurais très peu confiance dans la généralisabilité des résultats d'une analyse exploratoire avec 15 prédicteurs et un échantillon de 20.
Dans de telles circonstances, mon conseil serait généralement de limiter les analyses aux relations bivariées. Si vous adoptez une perspective bayésienne, je dirais que vos attentes antérieures sont également, sinon plus, importantes que les données.
la source
Une règle d'or courante consiste à avoir au moins 10 fois le nombre d'instances de données de formation (sans parler des données de test / validation, etc.) car il existe des paramètres ajustables dans le classificateur. Gardez à l'esprit que vous avez un problème dans lequel vous devez non seulement disposer de données adéquates mais également de données représentatives . Au final, il n'y a pas de règle systématique car il y a tellement de variables au moment de prendre cette décision. Comme le disent Hastie, Tibshirani et Friedman dans The Elements of Statistical Learning (voir le chapitre 7):
Si vous êtes nouveau dans ce domaine, je vous recommande de lire ce court article "Pattern Recognition" de l'Encyclopedia of Biomedical Engineering qui donne un bref résumé de certains des problèmes de données.
la source
Je peux vous assurer que RF fonctionnerait dans ce cas et sa mesure d'importance serait assez perspicace (car il n'y aura pas de grande queue d'attributs sans importance trompeurs comme dans les standards (n << p) s). Je ne me souviens maintenant d'aucun article traitant d'un problème similaire, mais je vais le chercher.
la source
Si vous avez des entrées discrètes, j'écris un programme pour prédire les valeurs manquantes d'une entrée binaire, compte tenu des entrées précédentes. Toutes les catégories, par exemple "1 sur 6", peuvent être converties en bits binaires, et cela fonctionnera très bien; cela ne l'affectera pas.
Le but de l'algorithme que j'écris est d'apprendre aussi vite que mathématiquement possible. Par conséquent, sa complexité en temps et en espace est très faible (complexité de l'espace autour de O (4 ^ N)!.
Mais pour cela, vous obtenez essentiellement un apprentissage unique, pour tout système dont l'état peut être exprimé sous forme de vecteur de bits. Par exemple, un additionneur complet a 8 états d'entrée distincts. L'algorithme apprendra parfaitement un additionneur complet après seulement 8 échantillons d'entraînement distincts. Non seulement cela, mais vous pouvez ensuite lui donner la réponse et lui faire prédire la question, ou lui donner une partie de la réponse et une partie de la question et lui faire remplir le reste.
Si les données d'entrée ont beaucoup de bits, ce sera assez calculateur et gourmand en mémoire. Mais si vous avez très peu d'échantillons - ou du moins l'objectif de conception est - cela vous donnera presque les meilleures prédictions possibles.
Vous l'entraînez simplement avec des vecteurs de bits, y compris un vecteur de bits dont les bits sont inconnus. Pour obtenir une prédiction, vous devez également lui fournir un vecteur de bits, quels bits sont inconnus et quels bits vous souhaitez qu'il prédit.
Code source disponible ici: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/
la source