Y a-t-il vraiment une différence entre le jackknife et laisser une validation croisée? La procédure semble identique ai-je raté quelque
Y a-t-il vraiment une différence entre le jackknife et laisser une validation croisée? La procédure semble identique ai-je raté quelque
Supposons que j'ai construit un modèle de prédiction pour l'occurrence d'une maladie particulière dans un jeu de données (le jeu de données de construction du modèle) et que je souhaite maintenant vérifier l'efficacité du modèle dans un nouveau jeu de données (le jeu de données de validation). Pour...
Je suis relativement nouveau dans les forêts aléatoires. Dans le passé, j'ai toujours comparé la précision de l' ajustement vs le test à l' ajustement vs le train pour détecter tout sur-ajustement. Mais je viens de lire ici que: "Dans les forêts aléatoires, il n'y a pas besoin de validation croisée...
Je suis très nouveau dans l'analyse des données fonctionnelles (FDA). Je suis en train de lire: Ramsay, James O., et Silverman, Bernard W. (2006), Functional Data Analysis, 2e éd., Springer, New York. Cependant, je ne sais toujours pas très bien où / quand utiliser la FDA? Quelqu'un pourrait-il me...
"Validation Bootstrap" / "validation croisée de rééchantillonnage" est nouveau pour moi, mais a été discuté par la réponse à cette question . Je suppose que cela implique 2 types de données: les données réelles et les données simulées, où un ensemble donné de données simulées est généré à partir...
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package:
TLDR: Mon ensemble de données est assez petit (120) échantillons. Lors de la validation croisée 10 fois, dois-je: Recueillir les résultats de chaque pli test, les concaténer en un vecteur, puis calculer l'erreur sur ce vecteur complet de prédictions (120 échantillons)? Ou devrais-je plutôt calculer...
J'ai une question spécifique sur la validation dans la recherche d'apprentissage automatique. Comme nous le savons, le régime d'apprentissage automatique demande aux chercheurs de former leurs modèles sur les données de formation, de choisir parmi les modèles candidats par ensemble de validation et...
J'ai lu maintes et maintes fois que la validation croisée "Leave-one-out" a une grande variance en raison du grand chevauchement des plis de formation. Cependant, je ne comprends pas pourquoi: les performances de la validation croisée ne devraient-elles pas être très stables (faible variance)...
Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test...
Après avoir lu l' un des "Conseils de recherche" de RJ Hyndman sur la validation croisée et les séries chronologiques, je suis revenu à une vieille question que je vais essayer de formuler ici. L'idée est que dans les problèmes de classification ou de régression, l'ordre des données n'est pas...
Je fais la classification d'images en utilisant l'apprentissage automatique. Supposons que j'ai des données d'entraînement (images) et que je vais diviser les données en ensembles d'apprentissage et de validation. Et je veux aussi augmenter les données (produire de nouvelles images à partir des...
Ma compréhension générale est que l' AIC traite de l'arbitrage entre la qualité de l'ajustement du modèle et la complexité du modèle. A jeC= 2 k - 2 l n ( L )UNEjeC=2k-2ln(L)AIC =2k -2ln(L) = nombre de paramètres dans le modèlekkk = vraisemblanceLLL Le critère d'information bayésien BIC est...
Ma principale question est de savoir comment comprendre la validation croisée k-fold dans le contexte des ensembles de formation / validation / test (si cela correspond à un tel contexte). Habituellement, les gens parlent de diviser les données en un ensemble de formation, de validation et de test...
La page de Scikit Learn sur la sélection de modèles mentionne l'utilisation de la validation croisée imbriquée: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Deux boucles de...
Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Maintenant que j'ai une Rtrame de données (formation), quelqu'un peut-il me dire comment diviser au...
J'ai déjà entendu l'expression suivante: "L'optimisation est la racine de tout mal dans les statistiques". Par exemple, la première réponse dans ce fil fait cette déclaration en référence au danger d'optimiser trop agressivement lors de la sélection du modèle. Ma première question est la suivante:...
Je rédige une revue de la littérature sur un problème de santé publique actuel où les données sont confondues: Quelles sont les études de cas historiques courantes utilisées dans l'enseignement de la santé publique / épidémiologie où des relations ou des inférences invalides ou confondues ont été...
Scikit a CalibratedClassifierCV , qui nous permet d'étalonner nos modèles sur une paire X, y particulière. Il indique également clairement quedata for fitting the classifier and for calibrating it must be disjoint. S'ils doivent être disjoints, est-il légitime de former le classificateur avec les...
J'ai parcouru divers fils ici, mais je ne pense pas que ma question exacte soit répondue. J'ai un ensemble de données d'environ 50 000 étudiants et leur temps d'abandon. Je vais effectuer une régression des risques proportionnels avec un grand nombre de covariables potentielles. Je vais également...