Statistiques et Big Data

8

Existe-t-il des moyens de gérer le gradient de fuite pour les non-linéarités saturantes qui n'impliquent pas la normalisation par lots ou les unités ReLu?

Je voulais former un réseau avec des non-linéarités qui souffrent de la disparition (ou du problème de gradient explosif mais principalement de la disparition). Je sais que la méthode standard (actuelle) consiste à utiliser la normalisation par lots 1 [BN] 1 ou simplement à abandonner la...

8

Probabilité de personnes qui ne font pas face à leur partenaire lors d'une table ronde

Si les couples sont assis au hasard à une table ronde, quelle est la chance que personne ne soit assis en face de leur partenaire? S'il y a quatre personnes, la réponse est 2/3. S'il y en a six c'est 8/15, je pense. Après cela, ma méthode étape par étape, remplissant toutes les possibilités et se...

probability

8

Perte soudaine de précision lors de la formation LSTM ou GRU à Keras

Mon réseau neuronal récurrent (LSTM, resp. GRU) se comporte d'une manière que je ne peux pas expliquer. L'entraînement commence et il s'entraîne bien (les résultats semblent assez bons) lorsque la précision diminue soudainement (et que la perte augmente rapidement) - à la fois les mesures...

neural-networks lstm gru

8

Terminologie «matrice de masse» Hamiltonian / Hybrid MCMC

J'essaie d'implémenter HMC avec une matrice de masse non diagonale, mais je me fais trébucher par une partie de la terminologie. Selon BDA3 et la revue de Neal, le terme d'énergie cinétique (qui, je suppose, est toujours utilisé pour des raisons de commodité) est K( p ) =pTM- 1p2.K(p)=pTM−1p2. K(p)...

bayesian mcmc monte-carlo

8

Comment prédire les probabilités ou les états des nouvelles données avec le package DepmixS4, pour les modèles de Markov cachés

Il semble que je puisse très bien apprendre les paramètres et trouver les probabilités postérieures pour les données d'entraînement, mais je n'ai aucune idée de comment faire de nouvelles prédictions sur de nouvelles données. Le problème vient en particulier des probabilités de transition changeant...

r hidden-markov-model mixture

8

Variance de la moyenne pondérée supérieure à la moyenne non pondérée

Un de mes critiques demande pourquoi j'ai utilisé des données non pondérées, au lieu de données pondérées. J'ai discuté de la question avec un statisticien et sa réponse allait dans le sens de Si vous avez des observations indépendantes et que vous prenez la moyenne globale, sa variance est...

variance weighted-mean weighted-data

8

Réseaux de neurones: une époque en SGD est-elle la même qu'une époque en mini-batch?

Dans SGD, une époque serait la présentation complète des données d'entraînement, puis il y aurait N mises à jour de poids par époque (s'il y a N exemples de données dans l'ensemble d'entraînement). Si nous faisons maintenant des mini-lots à la place, disons par lots de 20. Une époque se...

machine-learning neural-networks

8

Quelle est la différence entre la régression bêta et la quasi glm avec variance = ?

Permettez-moi d'abord de donner quelques informations; Je résumerai mes questions à la fin. La distribution bêta, paramétrée par sa moyenne et , a , où est la fonction de variance.μμ\muϕϕ\phiVar(Y)=V(μ)/(ϕ+1)Var⁡(Y)=V⁡(μ)/(ϕ+1)\operatorname{Var}(Y) =

generalized-linear-model lme4-nlme binomial beta-regression quasi-likelihood

8

Calcul de l'attente conditionnelle sur les -algèbres

Je n'ai pas vraiment vu de livres de probabilité calculer l'espérance conditionnelle, à l'exception des algèbres générées par une variable aléatoire discrète. Ils déclarent simplement l'existence de l'attente conditionnelle, ainsi que ses propriétés, et en restent là. Je trouve cela un peu...

probability conditional-probability conditional-expectation conditioning sigma-algebra

8

Pourquoi le blocage est-il nécessaire dans la conception expérimentale si nous effectuons déjà une assignation aléatoire?

Je passe par la première partie du cours de statistiques Duke sur Coursera, et le concept de blocage dans la conception expérimentale apparaît. Si je comprends bien, le blocage fait référence à la séparation des sujets en groupes en fonction d'une variable qui pourrait affecter le résultat....

experiment-design blocking

8

Distribution asymptotique d'échantillons censurés de

Soit la statistique d'ordre d'un échantillon iid de taille de . Supposons que les données soient censurées afin que nous ne voyions que le haut des données, c'est-à-direMettez , quelle est la distribution asymptotique de X(1),…,X(n)X(1),…,X(n)X_{(1)}, \ldots,

self-study mathematical-statistics exponential asymptotics order-statistics

8

VAR en niveaux pour les données cointégrées

J'ai lu un article qui exprime que les "travaux récents" montrent que nous pouvons utiliser un modèle VAR avec des données brutes I (1) mais il doit y avoir cointégration. Cela signifie qu'il n'y a aucune raison de différencier les données pour la modélisation VAR. Une référence papier à ce...

references var cointegration

8

Une formation gourmande en couche profonde des réseaux profonds est-elle nécessaire pour un entraînement réussi ou la descente de gradient stochastique est-elle suffisante?

Est-il possible d'obtenir des résultats de pointe en utilisant uniquement la rétro-propagation (sans pré-formation )? Ou est-ce pour que toutes les approches battant des records utilisent une certaine forme de pré-formation? La rétropropagation est-elle suffisante à elle

deep-learning autoencoders deep-belief-networks pre-training

8

Des manuels sur la reproduction de l'approche spatiale du noyau Hilbert pour l'apprentissage automatique?

Question: Quelqu'un connaît-il des manuels introduisant l'apprentissage automatique (pour la première fois) via l' approche spatiale du noyau de reproduction Hilbert ? C'est-à-dire, qui supposent l'analyse fonctionnelle comme condition préalable, mais ne supposent pas une connaissance préalable de...

machine-learning references

8

Lors de l'approximation d'un postérieur à l'aide de MCMC, pourquoi ne sauvegardons-nous pas les probabilités postérieures mais utilisons-nous ensuite les fréquences des valeurs des paramètres?

J'évalue actuellement les paramètres d'un modèle défini par plusieurs équations différentielles ordinaires (ODE). J'essaie ceci avec une approche bayésienne en approximant la distribution postérieure des paramètres étant donné certaines données en utilisant la chaîne de Markov Monte Carlo (MCMC)....

bayesian mcmc posterior

8

Simuler le postérieur d'un processus gaussien

Pour la première fois (excuse imprécision / erreurs) j'ai regardé les processus gaussiens , et plus précisément, j'ai regardé cette vidéo de Nando de Freitas . Les notes sont disponibles en ligne ici . À un moment donné, il tire échantillons aléatoires d'une normale multivariée générée en...

machine-learning simulation stochastic-processes gaussian-process

8

Définition de la régression

De Wikipédia: En modélisation statistique, l' analyse de régression est un processus statistique permettant d'estimer les relations entre les variables. Il comprend de nombreuses techniques de modélisation et d'analyse de plusieurs variables, lorsque l'accent est mis sur la relation entre une...

regression machine-learning classification definition

8

Comment dois-je interpréter ce tracé résiduel?

Je n'arrive pas à interpréter ce graphique. Ma variable dépendante est le nombre total de billets de cinéma qui seront vendus pour un spectacle. Les variables indépendantes sont le nombre de jours restants avant le spectacle, les variables factices saisonnières (jour de la semaine, mois de l'année,...

r regression logistic residuals diagnostic

8

Est-il réaliste que toutes les variables soient hautement significatives dans un modèle de régression multiple?

Je veux régresser l'économie de carburant sur la cylindrée du moteur, le type de carburant, la transmission 2 vs 4 roues motrices, la puissance, la transmission manuelle vs automatique et le nombre de vitesses. Mon ensemble de données ( lien ) contient des véhicules de 2012 à 2014. fuelEconomy en...

r statistical-significance multiple-regression interpretation

8

Quelle est la signification physique de l'inverse d'une matrice? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 3 ans . On m'a posé cette question dans une...

matrix-inverse