Statistiques et Big Data

35

Les couches de regroupement sont-elles ajoutées avant ou après les couches de suppression?

Je crée un réseau de neurones à convolution (CNN) dans lequel j'ai une couche de convolution suivie par une couche de mise en commun et je souhaite appliquer la suppression pour réduire le surajustement. J'ai le sentiment que la couche de suppression devrait être appliquée après la couche de mise...

deep-learning conv-neural-network dropout

35

Test d'autocorrélation: Ljung-Box contre Breusch-Godfrey

Je suis habitué à voir le test de Ljung-Box utilisé assez fréquemment pour tester l'autocorrélation dans les données brutes ou dans les résidus de modèle. J'avais presque oublié qu'il existe un autre test d'autocorrélation, à savoir le test de Breusch-Godfrey. Question: quelles sont les principales...

time-series hypothesis-testing autocorrelation

35

Qu'est-ce que la régularisation du réseau élastique et comment résoudre les inconvénients de Ridge (

La régularisation par filet élastique est-elle toujours préférée à Lasso & Ridge, car elle semble résoudre les inconvénients de ces méthodes? Quelle est l'intuition et quel est le calcul derrière le filet

regression lasso regularization ridge-regression elastic-net

35

Pourquoi l'hypothèse nulle souvent recherchée pour être rejetée?

J'espère avoir du sens avec le titre. Souvent, l'hypothèse nulle est formée dans l'intention de la rejeter. Y a-t-il une raison à cela ou s'agit-il simplement d'une

hypothesis-testing

35

Comment LSTM empêche-t-il le problème du gradient de disparition?

Le LSTM a été inventé spécifiquement pour éviter le problème du gradient disparaissant. Il est supposé faire cela avec le carrousel à erreur constante (CEC), qui sur le diagramme ci-dessous (de Greff et al. ) Correspond à la boucle autour de la cellule . (source: deeplearning4j.org ) Et je...

neural-networks lstm

35

Augmentation de gradient pour la régression linéaire - pourquoi cela ne fonctionne-t-il pas?

Lors de l'apprentissage de Gradient Boosting, je n'ai jamais entendu parler de contraintes concernant les propriétés d'un "classificateur faible" que la méthode utilise pour construire et modéliser un modèle. Cependant, je ne pouvais pas imaginer une application de Go utilisant une régression...

regression machine-learning boosting ensemble gradient

35

approximatif en

Je me suis intéressé récemment à la simulation de Monte Carlo et je l’utilise pour approcher des constantes telles que ππ\pi (cercle à l’intérieur d’un rectangle, zone proportionnelle). Cependant, je suis incapable de penser à une méthode correspondante pour approximer la valeur de eee [nombre...

simulation monte-carlo algorithms random-generation numerical-integration

35

Comment choisir une méthode de clustering? Comment valider une solution de cluster (pour justifier le choix de la méthode)?

L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique)....

clustering validation model-evaluation hierarchical-clustering

35

Pensez comme un bayésien, vérifiez comme un fréquentiste: qu'est-ce que cela signifie?

Je regarde des diapositives de cours sur un cours de science des données que vous pouvez trouver ici: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Malheureusement, je ne peux pas voir la vidéo de cette conférence et à un moment de la diapositive, le présentateur a le texte...

bayesian data-mining frequentist

35

Pourquoi la génération de 8 bits aléatoires est-elle uniforme sur (0, 255)?

Je génère 8 bits aléatoires (un 0 ou un 1) et les concatène ensemble pour former un nombre de 8 bits. Une simple simulation Python donne une distribution uniforme sur le jeu discret [0, 255]. J'essaie de justifier pourquoi cela a du sens dans ma tête. Si je compare cela au fait de jeter 8 pièces,...

binomial random-generation uniform

35

Linéarité de la PCA

La PCA est considérée comme une procédure linéaire, toutefois: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), où . Cela revient à dire que les vecteurs propres obtenus par les PCA sur les matrices...

pca linear

35

Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or»: comment ont-ils fait cela?

Ce message dans un article de Reuter du 25.02.2019 fait actuellement le tour du monde: Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or» [Les scientifiques] ont déclaré que la confiance selon laquelle les activités humaines augmentaient la chaleur à la surface de...

p-value intuition application communication climate

34

Quel est le côté faible des arbres de décision?

Les arbres de décision semblent être une méthode d’apprentissage automatique très compréhensible. Une fois créé, il peut être facilement inspecté par un humain, ce qui constitue un avantage considérable pour certaines applications. Quels sont les inconvénients pratiques des arbres de...

machine-learning nonparametric cart

34

Quelle est la relation entre les modèles hiérarchiques, les réseaux de neurones, les modèles graphiques, les réseaux bayésiens?

Ils semblent tous représenter des variables aléatoires par les nœuds et une (in) dépendance via les arêtes (éventuellement dirigées). Je suis particulièrement intéressé par le point de vue d'un

causality neural-networks multilevel-analysis graphical-model

34

Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Comment la validation croisée surmonte-t-elle le problème de surajustement?

Pourquoi une procédure de validation croisée résout-elle le problème de surapprentissage d'un

regression model-selection cross-validation

34

Trouver la valeur attendue à l'aide de CDF

Je vais commencer par dire qu'il s'agit d'un problème de devoirs tout droit sorti du livre. J'ai passé quelques heures à chercher comment trouver les valeurs attendues et j'ai déterminé que je ne comprenais rien. Soit XXX le CDF F(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1 . Recherchez...

self-study expected-value

34

Data mining: Comment dois-je m'y prendre pour trouver la forme fonctionnelle?

Je suis curieux de savoir les procédures reproductibles qui peuvent être utilisées pour découvrir la forme fonctionnelle de la fonction y = f(A, B, C) + error_termoù mon entrée est seulement un ensemble d'observations ( y, A, Bet C). Veuillez noter que la forme fonctionnelle de fest inconnue....

regression machine-learning algorithms model-selection data-mining

34

Comment interpréter la moyenne du complot Silhouette?

J'essaie d'utiliser le tracé de la silhouette pour déterminer le nombre de clusters dans mon jeu de données. Étant donné le jeu de données Train , j'ai utilisé le code matlab suivant Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =

data-visualization clustering matlab

34

Clustering hiérarchique avec données de type mixte - quelle distance / similarité à utiliser?

Dans mon jeu de données, nous avons à la fois des variables continues et des variables naturellement discrètes. Je veux savoir si nous pouvons faire une classification hiérarchique en utilisant les deux types de variables. Et si oui, quelle mesure de distance est

clustering similarities distance-functions mixed-type-data