Statistiques et Big Data

Questions et réponses pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

355
Python en tant qu'atelier de statistiques

Beaucoup de gens utilisent un outil principal comme Excel ou une autre feuille de calcul, SPSS, Stata ou R pour leurs besoins en statistiques. Ils peuvent se tourner vers un logiciel spécifique pour des besoins très spécifiques, mais beaucoup de choses peuvent être réalisées avec un simple tableur,...

343
Quel est votre dessin préféré "d'analyse de données"?

C'est l'un de mes favoris: Une entrée par réponse. (Ceci est dans la veine de la question Stack Overflow. Quel est votre dessin préféré de «programmeur»?. ) Post-scriptum Ne pas hotlink le dessin animé sans la permission du site s'il vous

326
Expliquer aux laïcs pourquoi l'amorçage fonctionne

J'ai récemment utilisé l'amorçage pour estimer les intervalles de confiance d'un projet. Quelqu'un qui ne connaît pas grand chose aux statistiques m'a récemment demandé d'expliquer pourquoi l' amorçage fonctionne, c.-à-d. Pourquoi le rééchantillonnage répétitif du même échantillon donne-t-il de...

281
Lorsque vous effectuez une régression multiple, quand devriez-vous centrer vos variables prédictives et quand devriez-vous les normaliser?

Dans certaines publications, j'ai lu qu'une régression avec plusieurs variables explicatives, si différentes unités, devait être normalisée. (La normalisation consiste à soustraire la moyenne et à la diviser par l'écart type.) Dans quels autres cas dois-je normaliser mes données? Existe-t-il des...

267
Comment normaliser les données dans la plage 0-1?

Je suis perdu dans la normalisation, quelqu'un pourrait-il me guider s'il vous plaît. J'ai un minimum et des valeurs maximales, par exemple -23,89 et 7,54990767, respectivement. Si j’obtiens une valeur de 5,6878, comment puis-je redimensionner cette valeur sur une échelle de 0 à...