Statistiques et Big Data

8
Existe-t-il des moyens de gérer le gradient de fuite pour les non-linéarités saturantes qui n'impliquent pas la normalisation par lots ou les unités ReLu?

Je voulais former un réseau avec des non-linéarités qui souffrent de la disparition (ou du problème de gradient explosif mais principalement de la disparition). Je sais que la méthode standard (actuelle) consiste à utiliser la normalisation par lots 1 [BN] 1 ou simplement à abandonner la...

8
VAR en niveaux pour les données cointégrées

J'ai lu un article qui exprime que les "travaux récents" montrent que nous pouvons utiliser un modèle VAR avec des données brutes I (1) mais il doit y avoir cointégration. Cela signifie qu'il n'y a aucune raison de différencier les données pour la modélisation VAR. Une référence papier à ce...

8
Une formation gourmande en couche profonde des réseaux profonds est-elle nécessaire pour un entraînement réussi ou la descente de gradient stochastique est-elle suffisante?

Est-il possible d'obtenir des résultats de pointe en utilisant uniquement la rétro-propagation (sans pré-formation )? Ou est-ce pour que toutes les approches battant des records utilisent une certaine forme de pré-formation? La rétropropagation est-elle suffisante à elle

8
Lors de l'approximation d'un postérieur à l'aide de MCMC, pourquoi ne sauvegardons-nous pas les probabilités postérieures mais utilisons-nous ensuite les fréquences des valeurs des paramètres?

J'évalue actuellement les paramètres d'un modèle défini par plusieurs équations différentielles ordinaires (ODE). J'essaie ceci avec une approche bayésienne en approximant la distribution postérieure des paramètres étant donné certaines données en utilisant la chaîne de Markov Monte Carlo (MCMC)....