Statistiques et Big Data

54
Exagérons-nous l’importance des hypothèses et de l’évaluation des modèles à une époque où les analyses sont souvent effectuées par des non-spécialistes?

En bout de ligne , plus j'en apprends sur les statistiques, moins je me fie aux articles publiés dans mon domaine; Je crois simplement que les chercheurs ne font pas assez bien leurs statistiques. Je suis un profane, pour ainsi dire. J'ai une formation en biologie mais je n'ai aucune formation...

54
Quelle est l'explication intuitive de la façon dont l'ACP passe d'un problème géométrique (avec des distances) à un problème d'algèbre linéaire (avec des vecteurs propres)?

J'ai beaucoup lu sur la PCA, y compris divers tutoriels et questions (comme celle-ci , celle-ci , celle-ci et celle-ci ). Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce...

54
Comment R et Python se complètent-ils en data science?

Dans de nombreux tutoriels ou manuels, le récit semble impliquer que R et python coexistent en tant que composants complémentaires du processus d'analyse. À mes yeux, cependant, il semble que les deux langues fassent en quelque sorte la même chose. Ma question est donc de savoir s’il existe des...

53
Régression linéaire en ligne efficace

J'analyse des données pour lesquelles je souhaite effectuer une régression linéaire ordinaire. Toutefois, cela n’est pas possible car je traite d’un paramètre en ligne avec un flux continu de données d’entrée (qui deviendra rapidement trop volumineux pour la mémoire). pour mettre à jour les...

53
Apprentissage automatique en Python

J'envisage d'utiliser des bibliothèques Python pour mes expériences d'apprentissage automatique. Jusqu'ici, je m'appuyais sur WEKA, mais dans l'ensemble, j'étais plutôt mécontent. C’est principalement parce que j’ai trouvé que WEKA n’était pas très bien pris en charge (très peu d’exemples, la...

53
Comment générer des nombres aléatoires corrélés (étant donné les moyennes, les variances et le degré de corrélation)?

Je suis désolé si cela semble un peu trop fondamental, mais je suppose que je cherche simplement à confirmer que nous comprenons. J'ai l'impression que je devrais le faire en deux étapes et j'ai commencé à essayer de grogner des matrices de corrélation, mais cela commence à peine à sembler vraiment...