Statistiques et Big Data

181
Qu'est-ce qu'un scientifique?

Ayant récemment obtenu mon doctorat en statistique, je cherchais depuis quelques mois un travail dans le domaine des statistiques. Presque toutes les entreprises que j'ai considérées affichaient une offre d'emploi portant le titre " Data Scientist ". En fait, on avait l'impression que les titres...

181
Comment résumer les données par groupe dans R? [fermé]

J'ai un cadre de données R comme ceci: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Je dois obtenir un bloc de données sous la forme suivante: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Le numéro de groupe peut...

173
Comment interpréter un graphique QQ

Je travaille avec un petit ensemble de données (21 observations) et ai le graphe QQ normal suivant dans R: Voyant que l'intrigue ne soutient pas la normalité, que pourrais-je déduire de la distribution sous-jacente? Il me semble qu'une distribution plus biaisée à droite conviendrait mieux, n'est-ce...

167
Quand devrais-je utiliser le lasso vs la crête?

Supposons que je veuille estimer un grand nombre de paramètres et que je veuille pénaliser certains d'entre eux car je pense qu'ils devraient avoir peu d'effet par rapport aux autres. Comment décider quel schéma de pénalisation utiliser? Quand la régression de crête est-elle plus appropriée? Quand...

159
ROC vs courbes de précision et de rappel

Je comprends les différences formelles qui les séparent. Ce que je veux savoir, c’est quand il est plus pertinent d’utiliser l’un par rapport à l’autre. Fournissent-ils toujours des informations complémentaires sur les performances d'un système de classification / détection donné? Quand est-il...

154
Génératif vs discriminatif

Je sais que générative signifie "basé sur P(x,y)P(x,y)P(x,y) " et discriminatif signifie "basé sur P(y|x)P(y|x)P(y|x) ", mais je suis confus sur plusieurs points: Wikipedia (+ de nombreux autres hits sur le Web) classifie des éléments tels que les SVM et les arbres de décision comme discriminants....

147
L’analyse en composantes principales peut-elle être appliquée à des ensembles de données contenant un mélange de variables continues et catégorielles?

J'ai un jeu de données qui contient à la fois des données continues et catégoriques. J'analyse en utilisant PCA et je me demande s'il est acceptable d'inclure les variables catégoriques dans le cadre de l'analyse. D'après ce que j'ai compris, l'ACP ne peut être appliquée qu'à des variables...