Questions marquées «large-data»

9
Cluster efficace dans l'espace

La plupart des algorithmes de clustering que j'ai vus commencent par créer des distances de chaque point entre tous les points, ce qui devient problématique sur des ensembles de données plus importants. Y en a-t-il un qui ne le fait pas? Ou le fait-il dans une sorte d'approche partielle /...

9
Estimer la dimension d'un ensemble de données

Un collègue en statistique appliquée m'a envoyé ceci: "Je me demandais si vous connaissiez un moyen de découvrir la vraie dimension du domaine d'une fonction. Par exemple, un cercle est une fonction unidimensionnelle dans un espace bidimensionnel. Si je ne sais pas dessiner, y a-t-il un statistique...

9
Bootstrap paramétrique, semi-paramétrique et non paramétrique pour les modèles mixtes

Les greffes suivantes sont extraites de cet article . Je suis novice dans le bootstrap et j'essaie d'implémenter le bootstrap paramétrique, semi-paramétrique et non paramétrique pour le modèle mixte linéaire avec le R bootpackage. Code R Voici mon Rcode: library(SASmixed) library(lme4)...

8
Effectuer des régressions sur des échantillons d'un fichier très volumineux: les moyennes et les ES des coefficients d'échantillonnage sont-ils des estimateurs cohérents?

J'ai un fichier assez volumineux de 100 millions de lignes et 30 colonnes environ, sur lequel j'aimerais exécuter plusieurs régressions. J'ai un code spécialisé pour exécuter les régressions sur l'ensemble du fichier, mais ce que je voudrais faire est de tirer des échantillons aléatoires du fichier...

8
Forêt aléatoire dans un cadre Big Data

J'ai un ensemble de données avec 5 818 446 lignes et 51 colonnes, dont 50 sont des prédicteurs. Ma réponse est quantitative, je suis donc intéressé par un modèle de régression. J'essaie d'adapter une forêt aléatoire à mes données en utilisant le package caret. Cependant, je n'ai pas assez de RAM...

8
À quoi servent les matrices denses en statistiques?

OK, je ne suis pas statisticien (même pas proche). Je suis un chercheur en calcul haute performance et je voulais quelques cas de test pour les matrices denses de grande taille (supérieures à 5000x5000). J'avais demandé ici et quelques autres endroits mais je n'ai jamais reçu de réponse d'un...

8
R comme alternative à SAS pour les données volumineuses

Je sais que R n'est pas particulièrement utile pour analyser de grands ensembles de données étant donné que R charge toutes les données en mémoire alors que quelque chose comme SAS fait une analyse séquentielle. Cela dit, il existe des packages tels que bigmemory qui permettent aux utilisateurs...

8
Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle...