Choisir le meilleur modèle parmi différents «meilleurs» modèles

28

Comment choisissez-vous un modèle parmi différents modèles choisis par différentes méthodes (par exemple sélection vers l'arrière ou vers l'avant)?

Qu'est-ce qu'un modèle parcimonieux?

regression model-selection à M
la source

J'ai édité le titre pour (espérons-le) clarifier votre propos.

39

Un modèle parcimonieux est un modèle qui accomplit le niveau souhaité d'explication ou de prédiction avec le moins de variables prédictives possible.

Pour l'évaluation du modèle, il existe différentes méthodes selon ce que vous voulez savoir. Il existe généralement deux façons d'évaluer un modèle: en fonction des prévisions et en fonction de la qualité de l'ajustement sur les données actuelles. Dans le premier cas, vous voulez savoir si votre modèle prédit adéquatement de nouvelles données, dans le second, vous voulez savoir si votre modèle décrit correctement les relations dans vos données actuelles. Ce sont deux choses différentes.

Évaluation basée sur des prédictions

La meilleure façon d'évaluer les modèles utilisés pour la prédiction est la validation croisée. Très brièvement, vous coupez votre jeu de données par exemple. 10 pièces différentes, utilisez-en 9 pour construire le modèle et prédire les résultats pour le dixième ensemble de données. Une simple différence quadratique moyenne entre les valeurs observées et prédites vous donne une mesure de la précision de la prédiction. En répétant cette opération dix fois, vous calculez la différence quadratique moyenne sur les dix itérations pour arriver à une valeur générale avec un écart-type. Cela vous permet à nouveau de comparer deux modèles sur leur précision de prédiction à l'aide de techniques statistiques standard (t-test ou ANOVA).

Une variante du thème est le critère PRESS (Prediction Sum of Squares), défini comme

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Où est la valeur prédite pour l'observation i en utilisant un modèle basé sur les observations moins la valeur de i. Ce critère est particulièrement utile si vous n'avez pas beaucoup de données. Dans ce cas, le fractionnement de vos données comme dans l'approche de validation croisée peut entraîner des sous-ensembles de données trop petits pour un ajustement stable. $\hat{Y}_{i(-i)}$

Évaluation basée sur la qualité de l'ajustement

Permettez-moi d'abord de dire que cela diffère vraiment en fonction du cadre de modèle que vous utilisez. Par exemple, un test de rapport de vraisemblance peut fonctionner pour les modèles mixtes additifs généralisés lors de l'utilisation du gaussien classique pour les erreurs, mais n'a aucun sens dans le cas de la variante binomiale.

Vous avez d'abord les méthodes les plus intuitives pour comparer les modèles. Vous pouvez utiliser le critère d'information Aikake (AIC) ou le critère d'information bayésien (BIC) pour comparer la qualité de l'ajustement pour deux modèles. Mais rien ne vous dit que les deux modèles diffèrent vraiment.

Un autre est le critère Cp de Mallow. Cela vérifie essentiellement les éventuels biais dans votre modèle, en comparant le modèle avec tous les sous-modèles possibles (ou une sélection rigoureuse d'entre eux). Voir également http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Si les modèles que vous souhaitez comparer sont des modèles imbriqués (c'est-à-dire que tous les prédicteurs et interactions du modèle le plus parcimonieux se produisent également dans le modèle le plus complet), vous pouvez utiliser une comparaison formelle sous la forme d'un test de rapport de vraisemblance (ou d'un chi carré). ou un test F dans les cas appropriés, par exemple lors de la comparaison de modèles linéaires simples ajustés en utilisant les moindres carrés). Ce test contrôle essentiellement si les prédicteurs supplémentaires ou les interactions améliorent vraiment le modèle. Ce critère est souvent utilisé dans les méthodes pas à pas avant ou arrière.

À propos de la sélection automatique de modèle

Vous avez des défenseurs et vous avez des ennemis de cette méthode. Personnellement, je ne suis pas en faveur de la sélection automatique des modèles, surtout pas lorsqu'il s'agit de décrire des modèles, et ce pour plusieurs raisons:

Dans chaque modèle, vous devriez avoir vérifié que vous gérez correctement la confusion. En fait, de nombreux ensembles de données ont des variables qui ne devraient jamais être placées dans un modèle en même temps. Souvent, les gens oublient de contrôler cela.
La sélection automatique de modèle est une méthode pour créer des hypothèses, pas pour les tester. Toutes les inférences basées sur des modèles provenant de la sélection automatique de modèle ne sont pas valides. Pas moyen de changer ça.
J'ai vu de nombreux cas où, à partir d'un point de départ différent, une sélection pas à pas renvoyait un modèle complètement différent. Ces méthodes sont loin d'être stables.
Il est également difficile d'incorporer une règle décente, car les tests statistiques pour comparer deux modèles nécessitent que les modèles soient imbriqués. Si vous utilisez par exemple AIC, BIC ou PRESS, le seuil de coupure lorsqu'une différence est vraiment importante est choisi arbitrairement.

Donc, fondamentalement, je vois plus en comparant un ensemble sélectionné de modèles choisis au préalable. Si vous ne vous souciez pas de l'évaluation statistique du modèle et des tests d'hypothèse, vous pouvez utiliser la validation croisée pour comparer la précision prédictive de vos modèles.

Mais si vous recherchez vraiment la sélection de variables à des fins prédictives, vous voudrez peut-être jeter un œil à d'autres méthodes de sélection de variables, telles que les machines à vecteurs de support, les réseaux de neurones, les forêts aléatoires et autres. Celles-ci sont beaucoup plus souvent utilisées en médecine, par exemple, pour découvrir laquelle des mille protéines mesurées peut prédire adéquatement si vous avez ou non un cancer. Juste pour donner un (célèbre) exemple:

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Toutes ces méthodes ont également des variantes de régression pour les données continues.

Joris Meys
la source

Quel modèle choisiriez-vous entre Mallows Cp et la sélection arrière? Les modèles à faible ESS et à coefficients significatifs sont-ils également bons?

tom

2

@tom: vous comparez des pommes avec des oranges. la sélection en arrière est une méthode, Mallows Cp est un critère. Le Cp de mauve peut être utilisé comme critère de sélection en arrière. Et comme vous pouvez le lire, je ne fais pas de sélection en arrière. Si je dois sélectionner des variables, j'utilise des méthodes appropriées pour cela. Je n'ai pas mentionné les méthodes LASSO et LAR auxquelles Peter Flom a fait référence, mais elles valent certainement la peine d'être essayées également.

Joris Meys

x

$x$

x - 1

$x-1$

2

@FrankHarrell une petite simulation peut prouver que la corrélation entre les valeurs de p (en supposant que vous parlez du test F ou équivalent) et de l'AIC est inexistante (0,01 dans ma simulation). Donc non, il n'y a pas de relation entre les valeurs P et l'AIC. Idem pour BIC et Cp. Une autre petite simulation prouvera également que l'on obtient des résultats assez différents dans une procédure par étapes selon le critère que vous utilisez. Donc non: Cp, AIC, BIC ne sont en aucun cas de simples transformations de valeurs P. En fait, si je regarde les formules, je ne peux en aucun cas pointer vers un lien ou une transformation mathématique.

Joris Meys

1

@FrankHarrell, ce qui ne veut pas dire que je préconise le pro par étapes, au contraire. Mais votre déclaration est au moins formulée un peu fort.

Joris Meys

20

$\alpha=0.50$ ) peut parfois être utile. Cela fonctionne simplement parce qu'il ne supprimera pas de nombreuses variables.

Frank Harrell
la source

La question n'est pas de procéder par étapes, mais de sélectionner le meilleur modèle parmi les résultats de différentes approches ...

Joris Meys

4

J'aime beaucoup "la parcimonie est votre ennemie".

Peter Flom - Réintègre Monica

1

Merci Peter. Joris - la sélection parmi différentes approches diffère un peu de la sélection pas à pas, mais pas beaucoup.

Frank Harrell

16

Utiliser la sélection vers l'arrière ou vers l'avant est une stratégie courante, mais pas celle que je peux recommander. Les résultats d'une telle construction de modèles sont tous faux. Les valeurs de p sont trop faibles, les coefficients sont biaisés loin de 0 et il y a d'autres problèmes liés.

Si vous devez faire une sélection automatique de variables, je recommanderais d'utiliser une méthode plus moderne, comme LASSO ou LAR.

J'ai écrit une présentation SAS à ce sujet, intitulée "Arrêt par étapes: pourquoi les méthodes par étapes et similaires sont mauvaises et ce que vous devez utiliser"

Mais, si possible, j'éviterais complètement ces méthodes automatisées et je compterais sur une expertise en la matière. Une idée est de générer une dizaine de modèles raisonnables et de les comparer sur la base d'un critère d'information. @Nick Sabbe en a énuméré plusieurs dans sa réponse.

Peter Flom - Réintégrer Monica
la source

2

+1 pour la référence de l'article. Bien que je ne code pas en SAS, je l'ai lu il y a plusieurs mois et j'ai trouvé que c'était un bon traitement de haut niveau du problème.

Josh Hemann

11

La réponse à cela dépendra grandement de votre objectif. Vous pouvez rechercher des coefficients statistiquement significatifs, ou vous pouvez éviter autant de classifications erronées que possible lors de la prévision du résultat de nouvelles observations, ou vous pouvez simplement être intéressé par le modèle avec le moins de faux positifs; peut-être voulez-vous simplement la courbe la plus "proche" des données.

Dans tous les cas ci-dessus, vous avez besoin d'une sorte de mesure pour ce que vous recherchez. Certaines mesures populaires avec différentes applications sont AUC, BIC, AIC, erreur résiduelle, ...

Vous calculez la mesure qui correspond le mieux à votre objectif pour chaque modèle, puis comparez les «scores» pour chaque modèle. Cela conduit au meilleur modèle pour votre objectif.

Certaines de ces mesures (par exemple, AIC) mettent un accent supplémentaire sur le nombre de coefficients non nuls dans le modèle, car en utiliser trop pourrait simplement sur-ajuster les données (de sorte que le modèle est inutile si vous l'utilisez pour de nouvelles données, encore moins pour la population). Il peut y avoir d'autres raisons d'exiger qu'un modèle contienne «aussi peu que possible» des variables, par exemple s'il est simplement coûteux de les mesurer toutes pour la prédiction. La «simplicité» ou le «petit nombre de variables dans» un modèle est généralement appelé sa parcimonie.

Donc, en bref, un modèle parcimonieux est un modèle «simple», ne contenant pas trop de variables.

Comme souvent avec ce type de questions, je vous renvoie à l'excellent livre Elements of Statistical Learning pour des informations plus approfondies sur le sujet et les questions connexes.

Nick Sabbe
la source

1

Beau livre que vous recommandez là-bas. Un autre que je pourrais recommander est les modèles statistiques linéaires appliqués, qui contiennent quelques sections sur les critères de sélection, la sélection des modèles et la comparaison des modèles.

Joris Meys

-1

J'ai trouvé la discussion ici intéressante, en particulier le débat entre parcimonie et modèle avec plus de nombre de coefficients et de variables.

Mon prof. Le défunt Dr. Steve avait l'habitude de mettre l'accent sur un modèle parcimonieux avec un faible R ^ 2 par rapport à un autre modèle avec de meilleurs ajustements / un grand R ^ 2.

Merci pour tous les poissons ici!

Akash

Akash Sondhi - Modélisateur débutant
la source

Choisir le meilleur modèle parmi différents «meilleurs» modèles

Réponses:

Évaluation basée sur des prédictions

Évaluation basée sur la qualité de l'ajustement

À propos de la sélection automatique de modèle