Données corrélées de grande dimension et principales caractéristiques / covariables découvertes; test d'hypothèses multiples?

J'ai un ensemble de données avec environ 5 000 caractéristiques / covariables souvent corrélées et une réponse binaire. Les données m'ont été données, je ne les ai pas collectées. J'utilise Lasso et boosting de gradient pour construire des modèles. J'utilise la validation croisée imbriquée itérée. Je rapporte les 40 coefficients (absolus) les plus importants de Lasso et les 40 caractéristiques les plus importantes des arbres boostés par le gradient (il n'y avait rien de spécial à propos de 40; cela semblait juste être une quantité raisonnable d'informations). Je rapporte également la variance de ces quantités sur les plis et les itérations de CV.

Je réfléchis aux caractéristiques "importantes", ne faisant aucune déclaration sur les valeurs p ou la causalité ou quoi que ce soit, mais considérant plutôt ce processus comme une sorte - quoique imparfaite et aléatoire - un aperçu d'un phénomène.

En supposant que j'ai fait tout cela correctement (par exemple, exécuté la validation croisée correctement, mis à l'échelle pour le lasso), cette approche est-elle raisonnable? Y a-t-il des problèmes avec, par exemple, les tests d'hypothèses multiples, l'analyse post hoc, les fausses découvertes? Ou d'autres problèmes?

Objectif

Prédire la probabilité d'un événement indésirable

Avant tout, estimez la probabilité avec précision
Plus mineur - à titre de vérification de la santé mentale, mais aussi pour peut-être révéler de nouveaux prédicteurs qui pourraient être étudiés plus avant, inspecter les coefficients et les importations comme mentionné ci-dessus.

Consommateur

Les chercheurs intéressés à prédire cet événement et les personnes qui finissent par devoir réparer l'événement s'il se produit

Ce que je veux qu'ils en retirent

Donnez-leur la possibilité de prédire l'événement, s'ils souhaitent répéter le processus de modélisation, comme décrit, avec leurs propres données.
Faites la lumière sur des prédicteurs inattendus. Par exemple, il peut s'avérer que quelque chose de complètement inattendu est le meilleur prédicteur. Les modélisateurs ailleurs pourraient donc envisager plus sérieusement ledit prédicteur.

machine-learning multiple-comparisons regression-coefficients lasso high-dimensional user0
la source

Il serait utile de savoir quelle est l'intention ici. Vous avez fait ces choses, pourquoi? Qui est le consommateur et que voulez-vous qu'il retire de l'analyse?

Matthew Drury

Il n'y a aucun problème avec l'exactitude des prévisions. L'incertitude dans vos prévisions est bien estimée par validation croisée. Peut-être une mise en garde est que si vous testez un grand nombre de réglages de paramètres, vous surestimez la précision, vous devez donc utiliser un ensemble de validation pour estimer la précision de votre modèle final. De plus, vos données doivent être représentatives des données sur lesquelles vous allez faire des prédictions.

Il est clair pour vous, et cela devrait être clair pour le lecteur, que vos prédicteurs ne sont pas des causes de l'effet, ce sont juste des prédicteurs qui font une bonne prédiction et fonctionnent bien empiriquement. Bien que je sois entièrement d'accord avec votre prudence, inférer toute causalité à partir de données d'observation est problématique dans tous les cas. Des choses comme la signification et autres sont des concepts "valables" dans des études bien conçues et contrôlées, et en dehors de cela, ce ne sont que des outils que vous et d'autres, devez interpréter avec sagesse et prudence. Il peut y avoir des causes courantes, des effets parasites, le masquage et d'autres choses qui se produisent dans une régression linéaire normale avec des intervalles de confiance signalés, ainsi que dans un modèle au lasso, ainsi que dans un modèle d'arbre boosté par gradient.

Gijs
la source

Données corrélées de grande dimension et principales caractéristiques / covariables découvertes; test d'hypothèses multiples?

Réponses: