Statistiques et Big Data

12
Qu'est-ce qu'un statisticien fait?

Quand je dis à mes amis non statistiques que je suis un étudiant diplômé poursuivant un doctorat en statistique, ils disent naturellement "oh alors tu veux être professeur?". Je leur dis que non, je compte travailler dans l'industrie. Puis ils répondent par "et quoi faire?". Je n'ai pas trouvé de...

12
Akinator.com et Naive Bayes classifier

Contexte: Je suis un programmeur avec une expérience (à moitié oubliée) en statistiques de cours uni. Récemment, je suis tombé sur http://akinator.com et j'ai passé un certain temps à essayer de le faire échouer. Et qui ne l'était pas? :) J'ai décidé de découvrir comment cela pouvait fonctionner....

12
Filtrage d'une trame de données

Toujours en train d'apprendre les fonctions de base dans R, la fonction de sous-ensemble semble filtrer uniquement une condition basée sur une seule colonne avec ou sans plusieurs conditions? Comment filtrer facilement les données d'une trame de données? lorsque plusieurs conditions vous sont...

12
80% des données manquantes dans une seule variable

Il y a une variable dans mes données qui ont 80% de données manquantes. Les données sont manquantes en raison de leur inexistence (c'est-à-dire du montant du prêt bancaire que l'entreprise doit). Je suis tombé sur un article disant que la méthode d'ajustement variable factice est la solution à ce...

12
Configuration de Sweave, R, Latex, Eclipse StatET [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 3 ans . Il y a quelques jours, j'ai vu un article sur la façon de configurer un...

12
Méthodes statistiques en ligne et évolutives

Cela a été inspiré par la régression linéaire en ligne efficace , que j'ai trouvée très intéressante. Existe-t-il des textes ou des ressources consacrés au calcul statistique à grande échelle, par lesquels le calcul avec des ensembles de données trop volumineux pour tenir dans la mémoire...