Statistiques et Big Data

21
Pourquoi les données mixtes posent-elles un problème pour les algorithmes de clustering basés sur les euclidiens?

La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des...

21
R au carré dans la régression quantile

J'utilise la régression quantile pour trouver des prédicteurs du 90e centile de mes données. Je fais cela dans R en utilisant le quantregpackage. Comment puis-je déterminer pour la régression quantile qui indiquera le degré de variabilité expliqué par les variables prédictives?r2r2r^2 Ce que je...

21
Analyser les tracés ACF et PACF

Je veux voir si je suis sur la bonne voie en analysant mes parcelles ACF et PACF: Contexte: (Reff: Philip Hans Franses, 1998) Comme ACF et PACF affichent des valeurs significatives, je suppose qu'un modèle ARMA répondra à mes besoins L'ACF peut être utilisé pour estimer la partie MA, c'est-à-dire...

21
De la règle du Perceptron à la descente en gradient: en quoi les Perceptrons avec une fonction d'activation sigmoïde sont-ils différents de la régression logistique?

Essentiellement, ma question est que dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suity^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} =

21
Pourquoi le quasi-Poisson en GLM n'est-il pas traité comme un cas particulier de binôme négatif?

J'essaie d'adapter les modèles linéaires généralisés à certains ensembles de données de comptage qui pourraient ou non être sur-dispersés. Les deux distributions canoniques qui s'appliquent ici sont le binôme de Poisson et négatif (Negbin), avec EV et varianceμμ\mu Vun rP= μVunerP=μVar_P = \mu Vun...