Questions marquées «large-data»

10

Comment afficher les grandes séries chronologiques de manière interactive?

Je traite souvent une quantité raisonnable de données de séries chronologiques, 50 à 200 millions de doublons avec des horodatages associés et je voudrais les visualiser dynamiquement. Existe-t-il un logiciel pour le faire efficacement? Qu'en est-il des bibliothèques et des formats de données?...

10

Régression du processus gaussien pour les ensembles de données de grande dimension

Je voulais juste voir si quelqu'un avait une expérience de l'application de la régression de processus gaussienne (GPR) à des ensembles de données de grande dimension. J'examine certaines des diverses méthodes GPR clairsemées (par exemple, les pseudo-entrées GPR clairsemées) pour voir ce qui...

machine-learning predictive-models large-data gaussian-process

9

Quels algorithmes d'apprentissage automatique peuvent être mis à l'échelle à l'aide de hadoop / map-Reduce

Les algorithmes d'apprentissage automatique évolutifs semblent être à la mode ces jours-ci. Chaque entreprise ne gère rien de moins que les mégadonnées . Existe-t-il un manuel qui explique quels algorithmes d'apprentissage automatique peuvent être mis à l'échelle en utilisant des architectures...

machine-learning large-data

9

Comment calculer une mesure de précision basée sur RMSE? Mon grand ensemble de données est-il normalement distribué?

J'ai plusieurs jeux de données de l'ordre de milliers de points. Les valeurs de chaque jeu de données sont X, Y, Z faisant référence à une coordonnée dans l'espace. La valeur Z représente une différence d'élévation à la paire de coordonnées (x, y). Généralement, dans mon domaine SIG, l'erreur...

normal-distribution large-data

9

Cluster efficace dans l'espace

La plupart des algorithmes de clustering que j'ai vus commencent par créer des distances de chaque point entre tous les points, ce qui devient problématique sur des ensembles de données plus importants. Y en a-t-il un qui ne le fait pas? Ou le fait-il dans une sorte d'approche partielle /...

clustering algorithms large-data

9

Un échantillon peut-il être trop grand pour l'ANOVA ou un test t?

J'ai près d'un million d'ensembles de données et chaque fois que je lance un test de comparaison moyenne, soit ANOVA ou un test t, j'obtiens un niveau de signification inférieur à 0,0001 sur SPSS. Je crains que mon échantillon soit si grand que, bien sûr, lorsque je compare les moyens, il...

anova t-test effect-size large-data

9

Estimer la dimension d'un ensemble de données

Un collègue en statistique appliquée m'a envoyé ceci: "Je me demandais si vous connaissiez un moyen de découvrir la vraie dimension du domaine d'une fonction. Par exemple, un cercle est une fonction unidimensionnelle dans un espace bidimensionnel. Si je ne sais pas dessiner, y a-t-il un statistique...

large-data

9

Bootstrap paramétrique, semi-paramétrique et non paramétrique pour les modèles mixtes

Les greffes suivantes sont extraites de cet article . Je suis novice dans le bootstrap et j'essaie d'implémenter le bootstrap paramétrique, semi-paramétrique et non paramétrique pour le modèle mixte linéaire avec le R bootpackage. Code R Voici mon Rcode: library(SASmixed) library(lme4)...

r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

9

Comment sélectionner rapidement des variables importantes dans un très grand ensemble de données?

J'ai un ensemble de données avec environ 2 000 variables binaires / 200 000 lignes et j'essaie de prédire une seule variable dépendante binaire. Mon objectif principal à ce stade n'est pas d'obtenir l'exactitude des prévisions, mais plutôt d'identifier lesquelles de ces variables sont des...

machine-learning data-mining large-data

9

Réduction dimensionnelle évolutive

Compte tenu du nombre constant de caractéristiques, Barnes-Hut t-SNE a une complexité de , les projections aléatoires et l'ACP ont une complexité de O ( n ), ce qui les rend "abordables" pour de très grands ensembles de données.O ( n logn )O(nlog⁡n)O(n\log n)O ( n )O(n)O(n) En revanche, les...

pca dimensionality-reduction large-data multidimensional-scaling tsne

8

Effectuer des régressions sur des échantillons d'un fichier très volumineux: les moyennes et les ES des coefficients d'échantillonnage sont-ils des estimateurs cohérents?

J'ai un fichier assez volumineux de 100 millions de lignes et 30 colonnes environ, sur lequel j'aimerais exécuter plusieurs régressions. J'ai un code spécialisé pour exécuter les régressions sur l'ensemble du fichier, mais ce que je voudrais faire est de tirer des échantillons aléatoires du fichier...

r regression large-data bootstrap

8

Forêt aléatoire dans un cadre Big Data

J'ai un ensemble de données avec 5 818 446 lignes et 51 colonnes, dont 50 sont des prédicteurs. Ma réponse est quantitative, je suis donc intéressé par un modèle de régression. J'essaie d'adapter une forêt aléatoire à mes données en utilisant le package caret. Cependant, je n'ai pas assez de RAM...

r random-forest large-data

8

À quoi servent les matrices denses en statistiques?

OK, je ne suis pas statisticien (même pas proche). Je suis un chercheur en calcul haute performance et je voulais quelques cas de test pour les matrices denses de grande taille (supérieures à 5000x5000). J'avais demandé ici et quelques autres endroits mais je n'ai jamais reçu de réponse d'un...

large-data matrix

8

R comme alternative à SAS pour les données volumineuses

Je sais que R n'est pas particulièrement utile pour analyser de grands ensembles de données étant donné que R charge toutes les données en mémoire alors que quelque chose comme SAS fait une analyse séquentielle. Cela dit, il existe des packages tels que bigmemory qui permettent aux utilisateurs...

r sas large-data

8

Pourquoi les régresseurs non pertinents deviennent-ils statistiquement significatifs dans de grands échantillons?

J'essaie de mieux comprendre la signification statistique, la taille des effets, etc. J'ai l'impression (peut-être que c'est faux) que même les régresseurs non pertinents deviennent souvent statistiquement significatifs dans les grands échantillons . Par non pertinent, je veux dire qu'il n'y a...

regression statistical-significance effect-size large-data

8

Puis-je sous-échantillonner un grand ensemble de données à chaque itération MCMC?

Problème: je veux effectuer un échantillonnage de Gibbs pour en déduire une partie postérieure sur un grand ensemble de données. Malheureusement, mon modèle n'est pas très simple et donc l'échantillonnage est trop lent. J'envisagerais des approches variationnelles ou parallèles, mais avant d'aller...

sampling bootstrap mcmc large-data gibbs

8

Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle...

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

8

Coordonnées des étoiles vs analyse des composants principaux

Je prépare actuellement une présentation pour un cours universitaire en "Analyse des données visuelles". Et l'un de mes sujets est la visualisation "Star Coordinate". Coordonnées étoiles Comme les coordonnées stellaires effectuent une transformation de données de grande dimension, et la technique...

data-visualization pca large-data