Les tests de signification et la validation croisée sont deux approches courantes pour sélectionner des variables corrélées. Quel problème chacun essaie-t-il de résoudre et quand est-ce que je préférerais l'un plutôt que l'autre?
Les tests de signification et la validation croisée sont deux approches courantes pour sélectionner des variables corrélées. Quel problème chacun essaie-t-il de résoudre et quand est-ce que je préférerais l'un plutôt que l'autre?
Tout d'abord, soyons explicites et plaçons la question dans le contexte d'une régression linéaire multiple où nous régressons une variable de réponse, , sur plusieurs variables différentes (corrélées ou non), avec le paramètre vector et fonction de régression
qui pourrait être un modèle de la moyenne de la variable de réponse pour une observation donnée de . x 1 , … , x p β = ( β 0 , β 1 , … , β p ) f ( x 1 , … , x p ) = β 0 + β 1 x 1 + … + β p x p , x 1 , … , X p
La question est de savoir comment sélectionner un sous-ensemble des pour être différent de zéro et, en particulier, une comparaison des tests de signification par rapport à la validation croisée .
Pour être clair sur la terminologie, le test de signification est un concept général, qui est effectué différemment dans différents contextes. Cela dépend, par exemple, du choix d'une statistique de test. La validation croisée est en réalité un algorithme d'estimation de l' erreur de généralisation attendue , qui est le concept général important, et qui dépend du choix d'une fonction de perte.
L' erreur de généralisation attendue est un peu technique à définir formellement, mais en termes c'est la perte attendue d'un modèle ajusté lorsqu'il est utilisé pour la prédiction sur un ensemble de données indépendant , où l'espérance est supérieure aux données utilisées pour l'estimation ainsi qu'aux données indépendantes ensemble utilisé pour la prédiction.
Faire une comparaison raisonnable permet de se concentrer sur la possibilité de prendre égal à 0 ou non.
En utilisant tests de signification que nous ne sommes pas directement concernés par la « performance » du modèle sous l'hypothèse nulle par rapport aux autres modèles, mais nous sommes préoccupés par documentant que le nul est erroné. Cela a plus de sens (pour moi) dans une configuration de confirmation où l'objectif principal est de confirmer et de documenter une hypothèse scientifique bien spécifiée au prieuré, qui peut être formulée comme .
L' erreur de généralisation attendue , en revanche, ne concerne que les "performances" moyennes en termes de perte de prédiction attendue, et conclure qu'il est préférable de permettre à d'être différent de 0 en termes de prédiction n'est pas une tentative de documenter que est "vraiment" différent de 0 quoi que cela signifie.β 1 -
Personnellement, je n'ai jamais travaillé sur un problème où j'avais officiellement besoin de tests de signification, mais les valeurs trouvent leur chemin dans mon travail et fournissent des guides judicieux et des premières impressions pour la sélection des variables. Cependant, j'utilise principalement des méthodes de pénalisation comme le lasso en combinaison avec l'erreur de généralisation pour toute sélection de modèle formelle, et j'essaie lentement de supprimer mon inclination à même calculer les valeurs de . p
Pour l'analyse exploratoire, je ne vois aucun argument en faveur des tests de signification et des valeurs de , et je recommanderai certainement de se concentrer sur un concept comme l'erreur de généralisation attendue pour la sélection des variables. Dans d'autres contextes où l'on pourrait envisager d'utiliser une valeur pour documenter que n'est pas 0, je dirais qu'il est presque toujours préférable de rapporter une estimation de et un intervalle de confiance à la place.p β 1 β 1
Le simple fait d'utiliser des tests de signification et une procédure pas à pas pour effectuer la sélection du modèle peut vous faire croire que vous avez un modèle très solide avec des prédicteurs significatifs alors que vous ne l'avez pas en fait; vous pouvez obtenir de fortes corrélations par hasard et ces corrélations peuvent apparemment être améliorées lorsque vous supprimez d'autres prédicteurs inutiles.
Bien entendu, la procédure de sélection ne conserve que les variables présentant les corrélations les plus fortes avec le résultat et, à mesure que la procédure progresse, la probabilité de commettre une erreur de type I devient plus grande que vous ne l'imaginez. En effet, les erreurs standard (et donc les valeurs de p) ne sont pas ajustées pour tenir compte du fait que les variables n'ont pas été sélectionnées de manière aléatoire pour être incluses dans le modèle et plusieurs tests d'hypothèses ont été effectués pour choisir cet ensemble.
David Freedman a un joli papier dans lequel il démontre ces points appelés " Une note sur les équations de régression de dépistage ". L'abstrait:
Comme vous l'avez mentionné, une solution potentielle à ce problème consiste à utiliser une variante de validation croisée. Lorsque je n'ai pas de bonnes raisons économiques (mon domaine de recherche) ou statistiques pour croire mon modèle, c'est mon approche préférée pour sélectionner un modèle approprié et effectuer l'inférence.
D'autres répondants pourraient mentionner que les procédures par étapes utilisant l'AIC ou le BIC sont équivalentes de manière asympotique à la validation croisée. Cela ne fonctionne cependant que lorsque le nombre d'observations par rapport au nombre de prédicteurs devient important. Dans le contexte d'avoir de nombreuses variables par rapport au nombre d'observations (Freedman dit 1 variable pour 10 observations ou moins), la sélection de cette manière peut présenter les mauvaises propriétés discutées ci-dessus.
À l'ère des ordinateurs puissants, je ne vois aucune raison de ne pas utiliser la validation croisée comme procédure de sélection de modèle sur la sélection pas à pas.