Statistiques et Big Data

10

WaveNet n'est pas vraiment une convolution dilatée, n'est-ce pas?

Dans le récent article WaveNet , les auteurs se réfèrent à leur modèle comme ayant des couches empilées de convolutions dilatées. Ils produisent également les graphiques suivants, expliquant la différence entre les convolutions «régulières» et les convolutions dilatées. Les convolutions régulières...

10

Régularisation: pourquoi multiplier par 1 / 2m?

Dans les notes de cours de la semaine 3 du cours Coursera Machine Learning d' Andrew Ng , un terme est ajouté à la fonction de coût pour implémenter la régularisation: J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 Les notes de cours...

regularization

10

Modèle final issu de la validation croisée des séries chronologiques

J'ai une expérience antérieure avec la validation croisée `` normale '' pour le réglage de modèle et je suis légèrement confus par l'application dans les modèles de séries chronologiques. Je crois comprendre que pour les modèles de séries chronologiques, le corollaire de la validation croisée est...

time-series forecasting cross-validation

10

Le clustering comme réduction de dimensionnalité

Je lis un livre "Machine learning with Spark" de Nick Pentreath, et à la page 224-225 l'auteur discute de l'utilisation de K-means comme une forme de réduction de dimensionnalité. Je n'ai jamais vu ce type de réduction de dimensionnalité, a- t-il un nom ou / et est-il utile pour des formes...

clustering k-means dimensionality-reduction

10

Différence entre Outlier et Inlier

Je suis tombé sur le terme inlier dans la mesure LOF (Local Outlier Factor), je connais bien le terme de valeurs aberrantes (enfin essentiellement des menteurs - des instances qui ne se comportent pas comme les autres instances). Que signifie «Inliers» dans le contexte de la détection d'anomalies?...

residuals outliers anomaly-detection

10

Obtenir une distribution conjointe à partir d'une distribution marginale par paire

Supposons que nous ayons 3 variables aléatoires , et nous connaissons la distribution marginale par paire , mais nous ne savons rien d'autre (comme comme indépendance conditionnelle). Pouvons-nous obtenir la distribution conjointe ?X1, X2, X3X1,X2,X3X_1,X_2,X_3P(X1,X2) , P(X2,X3) ,...

probability distributions

10

Si

Pour une variable aléatoire continue XXX , si E(|X|)E(|X|)E(|X|) est fini, est-ce que limn→∞nP(|X|>n)=0limn→∞nP(|X|>n)=0\lim_{n\to\infty}n P(|X|>n)=0 ? C'est un problème que j'ai trouvé sur Internet, mais je ne sais pas s'il tient ou non. Je sais que

probability expected-value probability-inequalities

10

Quelle fonction de perte dois-je utiliser pour noter un modèle seq2seq RNN?

Je travaille sur le papier Cho 2014 qui a introduit l'architecture codeur-décodeur pour la modélisation seq2seq. Dans l'article, ils semblent utiliser la probabilité de l'entrée donnée en sortie (ou sa probabilité de log négatif) comme fonction de perte pour une entrée de longueur et une sortie de...

deep-learning loss-functions rnn

10

Comment appelle-t-on l'encodage «à chaud» dans la littérature scientifique?

Quel est le nom de l'opérateur qui prend un vecteur catégorique et le transforme en représentation binaire en utilisant un codage à chaud? Je me demande depuis que j'écris un article scientifique et j'ai besoin d'un nom propre pour

terminology categorical-encoding

10

Preuves de premier cycle du théorème de Pitman – Koopman – Darmois

Le théorème de Pitman – Koopman – Darmois dit que si un échantillon iid d'une famille paramétrée de distributions de probabilité admet une statistique suffisante dont le nombre de composantes scalaires ne croît pas avec la taille de l'échantillon, alors c'est une famille exponentielle. Existe-t-il...

mathematical-statistics references

10

Quand ne puis-je pas remplacer une variable aléatoire par sa moyenne?

Une simplification fréquente de la modélisation et de la simulation consiste à remplacer une variable aléatoire par sa valeur moyenne. Quand cette simplification mènerait-elle à une mauvaise

modeling mean random-variable

10

Comment le seuil de probabilité d'un classificateur peut-il être ajusté en cas de classes multiples? [dupliquer]

Cette question a déjà une réponse ici : Comment seuiller la prédiction de probabilité multiclasse pour obtenir une matrice de confusion? (1 réponse) Fermé il y a 3 mois . Ce qui précède est un exemple très simple d'avoir une sortie de classificateur de probabilité pour un cas de classe binaire...

probability classification precision-recall multi-class

10

Qu'est-ce que la programmation probabiliste?

Au cours de la dernière année, j'ai beaucoup entendu parler des cadres de programmation probabiliste (PP) comme PyMC3 et Stan , et de la qualité de PP. Et aujourd'hui, quelqu'un a partagé ce lien avec moi: Pyro: un langage de programmation probabiliste profond Cependant, je ne suit pas vraiment ce...

bayesian modeling inference software

10

Preuve facile de ?

Soit des variables aléatoires normales standard indépendantes. Il existe de nombreuses (longues) preuves, montrant queZ1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} De nombreuses...

mathematical-statistics sampling

10

Le théorème du contraste relatif de Beyer et al. papier: «Sur le comportement surprenant des métriques de distance dans l'espace de grande dimension» trompeur?

Ceci est cité très souvent en mentionnant la malédiction de la dimensionnalité et va (formule de droite appelée contraste relatif) limré→ ∞var ( | | Xré| |kE[ | | Xré| |k]) =0,alors: Dmaxkré- Dminkréréminkré→ 0limré→∞var(||Xré||kE[||Xré||k])=0,alors:rémaxrék-réminrékréminrék→0 \lim_{d\rightarrow...

machine-learning distance-functions high-dimensional

10

Pourquoi les caractéristiques aléatoires de Fourier sont-elles non négatives?

Les fonctionnalités de Fourier aléatoires fournissent des approximations des fonctions du noyau. Ils sont utilisés pour diverses méthodes du noyau, comme les SVM et les processus gaussiens. Aujourd'hui, j'ai essayé d'utiliser l' implémentation TensorFlow et j'ai obtenu des valeurs négatives pour la...

machine-learning kernel-smoothing feature-construction tensorflow fourier-transform

10

B-Splines VS polynômes d'ordre supérieur en régression

Je n'ai pas d'exemple ou de tâche spécifique en tête. Je suis juste nouveau sur l'utilisation des b-splines et je voulais mieux comprendre cette fonction dans le contexte de régression. Supposons que nous voulons évaluer la relation entre la variable de réponse et certains prédicteurs . Les...

regression multiple-regression splines polynomial penalized

10

Le Paradoxe de Simpson couvre-t-il toutes les instances de retournement d'une variable cachée?

Ce qui suit est une question sur les nombreuses visualisations offertes comme «preuve par l'image» de l'existence du paradoxe de Simpson, et peut-être une question sur la terminologie. Le Paradoxe de Simpson est un phénomène assez simple à décrire et à donner des exemples numériques (la raison pour...

mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

10

Filtre ARIMA vs Kalman - comment sont-ils liés

Quand j'ai commencé à lire sur le filtre de Kalman, je pensais que c'était un cas particulier du modèle ARIMA (à savoir ARIMA (0,1,1)). Mais en réalité, il semble que la situation soit plus compliquée. Tout d'abord, ARIMA peut être utilisé pour la prédiction et le filtre de Kalman est pour le...

time-series bayesian arima kalman-filter

10

L'ajout d'un prédicteur de régression linéaire diminue le R au carré

Mon ensemble de données ( ) a une variable dépendante (DV), cinq variables "de base" indépendantes (P1, P2, P3, P4, P5) et une variable indépendante d'intérêt (Q).N≈10,000N≈10,000N \approx 10,000 J'ai exécuté des régressions linéaires OLS pour les deux modèles suivants: DV ~ 1 + P1 + P2 + P3 + P4 +...

regression linear r-squared