Statistiques et Big Data

9
Choisir des clusters pour k-means: le cas de 1 cluster

Quelqu'un connaît-il une bonne méthode pour déterminer si le regroupement à l'aide de kmeans est même approprié? Autrement dit, que se passe-t-il si votre échantillon est réellement homogène? Je sais que quelque chose comme un modèle de mélange (via mclust dans R) fournira des statistiques...

9
Régression par l'origine

Nous avons les points suivants: Comment trouver la meilleure droite d'ajustement travers les points? Ma calculatrice a la possibilité de trouver la meilleure ligne d'ajustement travers ces points, qui est:( 0 , 0 ) ( 1 , 51,8 ) ( 1,9 , 101,3 ) ( 2,8 , 148,4 ) ( 3,7 , 201,5 ) ( 4,7 , 251,1 )( 5,6 ,...

9
Formule de Doane pour le regroupement d'histogrammes

J'implémente divers algorithmes pour estimer le meilleur nombre de casiers à utiliser pour les histogrammes. La plupart de ceux que j'implémente sont décrits sur la page Wikipedia "Histogramme" dans la section " Nombre de bacs et largeur " *. Je suis coincé sur un problème avec la formule de Doane:...

9
Le rasoir d'Occam obsolète?

J'ai vu les livres de Vapnik sur l'apprentissage statistique ... J'ai lu les premiers chapitres. Quoi qu'il en soit, ce qui m'a le plus surpris, c'est qu'il pensait que le rasoir de l'Occam était obsolète. Je pensais que c'était lié à la situation dans laquelle le fait de supposer une dimension...