Je comprends un peu ce que signifie "surapprentissage", mais j’ai besoin d’aide pour trouver un exemple concret qui s’applique à la suralimentation.
Processus d'ajustement d'un modèle statistique à un ensemble particulier de données. Principalement réalisé sur ordinateur, et en utilisant des méthodes numériques variées telles que l'optimisation ou l'intégration numérique, ou la simulation.
Je comprends un peu ce que signifie "surapprentissage", mais j’ai besoin d’aide pour trouver un exemple concret qui s’applique à la suralimentation.
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99,...
J'ai une formation en informatique mais j'essaie de m'enseigner la science des données en résolvant des problèmes sur Internet. Je travaille sur ce problème depuis deux semaines (environ 900 lignes et 10 fonctionnalités). J'utilisais initialement la régression logistique, mais maintenant je suis...
J'ai un ensemble de données qui n'est pas ordonné de manière particulière, mais qui présente clairement deux tendances distinctes. Une régression linéaire simple ne conviendrait pas vraiment ici à cause de la distinction claire entre les deux séries. Existe-t-il un moyen simple d’obtenir les deux...
L'idée de l'analyse adaptative des données est que vous modifiez votre plan d'analyse des données à mesure que vous en apprenez davantage. Dans le cas de l'analyse exploratoire des données (EDA), c'est généralement une bonne idée (vous recherchez souvent des tendances imprévues dans les données),...
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon...
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit)...
Est-il possible d'ajuster un modèle de régression logistique? J'ai vu une vidéo disant que si ma zone sous la courbe ROC est supérieure à 95%, il est très probable qu'elle soit sur-ajustée, mais est-il possible de sur-adapter un modèle de régression
J'entraîne un réseau neuronal simple sur l'ensemble de données CIFAR10. Après un certain temps, la perte de validation a commencé à augmenter, tandis que la précision de validation augmente également. La perte de test et la précision du test continuent de s'améliorer. Comment est-ce possible? Il...
J'ai terminé le cours d'apprentissage automatique d'Andrew Ng il y a environ un an et j'écris maintenant mon exploration des mathématiques au lycée sur le fonctionnement de la régression logistique et des techniques pour optimiser les performances. Une de ces techniques est bien sûr la...
Bien que j'ai lu ce post, je n'ai toujours aucune idée de comment l'appliquer à mes propres données et j'espère que quelqu'un pourra m'aider. J'ai les données suivantes: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743,...
Supposons qu'un modèle a une précision de 100% sur les données de formation, mais une précision de 70% sur les données de test. L'argument suivant est-il vrai à propos de ce modèle? Il est évident qu'il s'agit d'un modèle sur-équipé. La précision du test peut être améliorée en réduisant le...
Supposons que j'ai un ensemble de données pour une tâche de classification statistique supervisée, par exemple via un classifieur Bayes. Cet ensemble de données se compose de 20 entités et je veux le résumer à 2 entités via des techniques de réduction de dimensionnalité telles que l'analyse en...
Est-il vrai que les méthodes bayésiennes ne conviennent pas? (J'ai vu des articles et des tutoriels faisant cette affirmation) Par exemple, si nous appliquons un processus gaussien au MNIST (classification des chiffres manuscrits), mais que nous ne lui montrons qu'un seul échantillon,...
Tout d'abord, je ne suis pas statisticien. Cependant, j'ai fait une analyse statistique du réseau pour mon doctorat. Dans le cadre de l'analyse du réseau, j'ai tracé une fonction de distribution cumulative complémentaire (CCDF) des degrés de réseau. Ce que j'ai trouvé, c'est que, contrairement aux...
Je lisais le rapport de la solution gagnante d'un concours Kaggle ( Malware Classification ). Le rapport peut être trouvé dans cet article du forum . Le problème était un problème de classification (neuf classes, la métrique était la perte logarithmique) avec 10000 éléments dans le train, 10000...
J'ai ce que je pensais naïvement être un problème assez simple qui implique la détection de valeurs aberrantes pour de nombreux ensembles différents de données de comptage. Plus précisément, je veux déterminer si une ou plusieurs valeurs dans une série de données de comptage sont supérieures ou...
L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff: À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?": Beaucoup de gens...
Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon...
EDIT: Comme cette question a été gonflée, un résumé: trouver différents ensembles de données significatifs et interprétables avec les mêmes statistiques mixtes (moyenne, médiane, milieu de gamme et leurs dispersions associées, et régression). Le quatuor Anscombe (voir Objectif de visualiser des...