Test de signification ou validation croisée?

20

Les tests de signification et la validation croisée sont deux approches courantes pour sélectionner des variables corrélées. Quel problème chacun essaie-t-il de résoudre et quand est-ce que je préférerais l'un plutôt que l'autre?

JohnRos
la source

Réponses:

22

Tout d'abord, soyons explicites et plaçons la question dans le contexte d'une régression linéaire multiple où nous régressons une variable de réponse, , sur plusieurs variables différentes (corrélées ou non), avec le paramètre vector et fonction de régression qui pourrait être un modèle de la moyenne de la variable de réponse pour une observation donnée de . x 1 , , x p β = ( β 0 , β 1 , , β p ) f ( x 1 , , x p ) = β 0 + β 1 x 1 + + β p x p , x 1 , , X pyX1,,Xpβ=(β0,β1,,βp)

F(X1,,Xp)=β0+β1X1++βpXp,
X1,,Xp

La question est de savoir comment sélectionner un sous-ensemble des pour être différent de zéro et, en particulier, une comparaison des tests de signification par rapport à la validation croisée .βje

Pour être clair sur la terminologie, le test de signification est un concept général, qui est effectué différemment dans différents contextes. Cela dépend, par exemple, du choix d'une statistique de test. La validation croisée est en réalité un algorithme d'estimation de l' erreur de généralisation attendue , qui est le concept général important, et qui dépend du choix d'une fonction de perte.

L' erreur de généralisation attendue est un peu technique à définir formellement, mais en termes c'est la perte attendue d'un modèle ajusté lorsqu'il est utilisé pour la prédiction sur un ensemble de données indépendant , où l'espérance est supérieure aux données utilisées pour l'estimation ainsi qu'aux données indépendantes ensemble utilisé pour la prédiction.

Faire une comparaison raisonnable permet de se concentrer sur la possibilité de prendre égal à 0 ou non.β1

  • Pour les tests de signification de l' hypothèse nulle que la procédure principale consiste à calculer une valeur , qui est la probabilité que la statistique de test choisie soit plus grande que celle observée pour notre ensemble de données sous l'hypothèse nulle , c'est-à-dire lorsque en supposant que . L'interprétation est qu'une petite valeur est une preuve contre l'hypothèse nulle. Il existe des règles couramment utilisées pour ce que signifie "petit" dans un sens absolu, comme les fameux niveaux de signification 0,05 ou 0,01.p β 1 = 0 pβ1=0pβ1=0p
  • Pour l' erreur de généralisation attendue, nous calculons, peut-être en utilisant la validation croisée, une estimation de l'erreur de généralisation attendue sous l'hypothèse que . Cette quantité nous indique dans quelle mesure les modèles ajustés par la méthode que nous utilisons et avec , fonctionneront en moyenne lorsqu'ils sont utilisés pour la prédiction sur des données indépendantes. Une grande erreur de généralisation attendue est mauvaise, mais il n'y a pas de règles en termes de valeur absolue sur la taille dont elle doit être mauvaise. Nous devrons estimer l'erreur de généralisation attendue pour le modèle où peut également être différent de 0, puis nous pourrons comparer les deux erreurs estimées. La plus petite correspond au modèle que nous choisissons. β 1 = 0 β 1β1=0β1=0β1

En utilisant tests de signification que nous ne sommes pas directement concernés par la « performance » du modèle sous l'hypothèse nulle par rapport aux autres modèles, mais nous sommes préoccupés par documentant que le nul est erroné. Cela a plus de sens (pour moi) dans une configuration de confirmation où l'objectif principal est de confirmer et de documenter une hypothèse scientifique bien spécifiée au prieuré, qui peut être formulée comme .β10

L' erreur de généralisation attendue , en revanche, ne concerne que les "performances" moyennes en termes de perte de prédiction attendue, et conclure qu'il est préférable de permettre à d'être différent de 0 en termes de prédiction n'est pas une tentative de documenter que est "vraiment" différent de 0 quoi que cela signifie.β 1 -β1β1-

Personnellement, je n'ai jamais travaillé sur un problème où j'avais officiellement besoin de tests de signification, mais les valeurs trouvent leur chemin dans mon travail et fournissent des guides judicieux et des premières impressions pour la sélection des variables. Cependant, j'utilise principalement des méthodes de pénalisation comme le lasso en combinaison avec l'erreur de généralisation pour toute sélection de modèle formelle, et j'essaie lentement de supprimer mon inclination à même calculer les valeurs de . ppp

Pour l'analyse exploratoire, je ne vois aucun argument en faveur des tests de signification et des valeurs de , et je recommanderai certainement de se concentrer sur un concept comme l'erreur de généralisation attendue pour la sélection des variables. Dans d'autres contextes où l'on pourrait envisager d'utiliser une valeur pour documenter que n'est pas 0, je dirais qu'il est presque toujours préférable de rapporter une estimation de et un intervalle de confiance à la place.p β 1 β 1ppβ1β1

NRH
la source
17

Le simple fait d'utiliser des tests de signification et une procédure pas à pas pour effectuer la sélection du modèle peut vous faire croire que vous avez un modèle très solide avec des prédicteurs significatifs alors que vous ne l'avez pas en fait; vous pouvez obtenir de fortes corrélations par hasard et ces corrélations peuvent apparemment être améliorées lorsque vous supprimez d'autres prédicteurs inutiles.

Bien entendu, la procédure de sélection ne conserve que les variables présentant les corrélations les plus fortes avec le résultat et, à mesure que la procédure progresse, la probabilité de commettre une erreur de type I devient plus grande que vous ne l'imaginez. En effet, les erreurs standard (et donc les valeurs de p) ne sont pas ajustées pour tenir compte du fait que les variables n'ont pas été sélectionnées de manière aléatoire pour être incluses dans le modèle et plusieurs tests d'hypothèses ont été effectués pour choisir cet ensemble.

David Freedman a un joli papier dans lequel il démontre ces points appelés " Une note sur les équations de régression de dépistage ". L'abstrait:

R2R2

Comme vous l'avez mentionné, une solution potentielle à ce problème consiste à utiliser une variante de validation croisée. Lorsque je n'ai pas de bonnes raisons économiques (mon domaine de recherche) ou statistiques pour croire mon modèle, c'est mon approche préférée pour sélectionner un modèle approprié et effectuer l'inférence.

D'autres répondants pourraient mentionner que les procédures par étapes utilisant l'AIC ou le BIC sont équivalentes de manière asympotique à la validation croisée. Cela ne fonctionne cependant que lorsque le nombre d'observations par rapport au nombre de prédicteurs devient important. Dans le contexte d'avoir de nombreuses variables par rapport au nombre d'observations (Freedman dit 1 variable pour 10 observations ou moins), la sélection de cette manière peut présenter les mauvaises propriétés discutées ci-dessus.

À l'ère des ordinateurs puissants, je ne vois aucune raison de ne pas utiliser la validation croisée comme procédure de sélection de modèle sur la sélection pas à pas.

Charlie
la source
Pourriez-vous donner une référence pour les procédures par étapes utilisant l'AIC ou le BIC sont asympotiquement équivalentes à la validation croisée ? J'ai lu l'équivalence de AIC / BIC pour la validation croisée, mais pas dans un cadre pas à pas.
Richard Hardy